API 参考
预处理
用于在训练/分析前处理数据的实用工具
源
id_time_grid
生成所有预期的 id 和时间组合。
| 类型 | 默认值 | 详情 | |
|---|---|---|---|
| df | DFType | 输入数据 | |
| freq | Union | 序列频率 | |
| start | Union | per_serie | 序列的初始时间戳。 * ‘per_serie’ 使用每个序列的第一个时间戳 * ‘global’ 使用数据中遇到的第一个时间戳 * 也可以是特定的时间戳或整数,例如 ‘2000-01-01’、2000 或 datetime(2000, 1, 1) |
| end | Union | global | 序列的初始时间戳。 * ‘per_serie’ 使用每个序列的最后一个时间戳 * ‘global’ 使用数据中遇到的最后一个时间戳 * 也可以是特定的时间戳或整数,例如 ‘2000-01-01’、2000 或 datetime(2000, 1, 1) |
| id_col | str | unique_id | 标识每个序列的列。 |
| time_col | str | ds | 标识每个时间戳的列。 |
| 返回值 | DFType | 包含预期 id 和时间的 Dataframe。 |
源
fill_gaps
强制 Dataframe 的开始和结束日期时间。
| 类型 | 默认值 | 详情 | |
|---|---|---|---|
| df | DFType | 输入数据 | |
| freq | Union | 序列频率 | |
| start | Union | per_serie | 序列的初始时间戳。 * ‘per_serie’ 使用每个序列的第一个时间戳 * ‘global’ 使用数据中遇到的第一个时间戳 * 也可以是特定的时间戳或整数,例如 ‘2000-01-01’、2000 或 datetime(2000, 1, 1) |
| end | Union | global | 序列的初始时间戳。 * ‘per_serie’ 使用每个序列的最后一个时间戳 * ‘global’ 使用数据中遇到的最后一个时间戳 * 也可以是特定的时间戳或整数,例如 ‘2000-01-01’、2000 或 datetime(2000, 1, 1) |
| id_col | str | unique_id | 标识每个序列的列。 |
| time_col | str | ds | 标识每个时间戳的列。 |
| 返回值 | DFType | 已填充间隙的 Dataframe。 |
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0 |
| 1 | 0 | 2021-01-01 | 1 |
| 2 | 0 | 2023-01-01 | 2 |
| 3 | 1 | 2021-01-01 | 3 |
| 4 | 1 | 2022-01-01 | 4 |
默认功能是采用当前的起始时间,并仅将结束日期扩展为所有序列的相同时间。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0.0 |
| 1 | 0 | 2021-01-01 | 1.0 |
| 2 | 0 | 2022-01-01 | NaN |
| 3 | 0 | 2023-01-01 | 2.0 |
| 4 | 1 | 2021-01-01 | 3.0 |
| 5 | 1 | 2022-01-01 | 4.0 |
| 6 | 1 | 2023-01-01 | NaN |
我们还可以指定 end='per_serie' 以仅填充每个序列内可能的间隙。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0.0 |
| 1 | 0 | 2021-01-01 | 1.0 |
| 2 | 0 | 2022-01-01 | NaN |
| 3 | 0 | 2023-01-01 | 2.0 |
| 4 | 1 | 2021-01-01 | 3.0 |
| 5 | 1 | 2022-01-01 | 4.0 |
我们还可以指定未来的结束日期。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0.0 |
| 1 | 0 | 2021-01-01 | 1.0 |
| 2 | 0 | 2022-01-01 | NaN |
| 3 | 0 | 2023-01-01 | 2.0 |
| 4 | 0 | 2024-01-01 | NaN |
| 5 | 1 | 2021-01-01 | 3.0 |
| 6 | 1 | 2022-01-01 | 4.0 |
| 7 | 1 | 2023-01-01 | NaN |
| 8 | 1 | 2024-01-01 | NaN |
我们可以将所有序列设置为在同一时间开始。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0.0 |
| 1 | 0 | 2021-01-01 | 1.0 |
| 2 | 0 | 2022-01-01 | NaN |
| 3 | 0 | 2023-01-01 | 2.0 |
| 4 | 1 | 2020-01-01 | NaN |
| 5 | 1 | 2021-01-01 | 3.0 |
| 6 | 1 | 2022-01-01 | 4.0 |
| 7 | 1 | 2023-01-01 | NaN |
我们还可以为所有序列设置一个共同的开始日期(可以早于它们当前的开始时间)。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2019-01-01 | NaN |
| 1 | 0 | 2020-01-01 | 0.0 |
| 2 | 0 | 2021-01-01 | 1.0 |
| 3 | 0 | 2022-01-01 | NaN |
| 4 | 0 | 2023-01-01 | 2.0 |
| 5 | 1 | 2019-01-01 | NaN |
| 6 | 1 | 2020-01-01 | NaN |
| 7 | 1 | 2021-01-01 | 3.0 |
| 8 | 1 | 2022-01-01 | 4.0 |
| 9 | 1 | 2023-01-01 | NaN |
如果时间是整数,则频率、开始和结束也必须是整数。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020 | 0 |
| 1 | 0 | 2021 | 1 |
| 2 | 0 | 2023 | 2 |
| 3 | 1 | 2021 | 3 |
| 4 | 1 | 2022 | 4 |
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2019 | NaN |
| 1 | 0 | 2020 | 0.0 |
| 2 | 0 | 2021 | 1.0 |
| 3 | 0 | 2022 | NaN |
| 4 | 0 | 2023 | 2.0 |
| 5 | 0 | 2024 | NaN |
| 6 | 1 | 2019 | NaN |
| 7 | 1 | 2020 | NaN |
| 8 | 1 | 2021 | 3.0 |
| 9 | 1 | 2022 | 4.0 |
| 10 | 1 | 2023 | NaN |
| 11 | 1 | 2024 | NaN |
该函数也接受 polars dataframes
| unique_id | ds | y |
|---|---|---|
| i64 | datetime[μs] | i64 |
| 0 | 2020-01-01 00:00:00 | 0 |
| 0 | 2022-01-01 00:00:00 | 1 |
| 0 | 2023-01-01 00:00:00 | 2 |
| 1 | 2021-01-01 00:00:00 | 3 |
| 1 | 2022-01-01 00:00:00 | 4 |
| unique_id | ds | y |
|---|---|---|
| i64 | datetime[ms] | i64 |
| 0 | 2019-01-01 00:00:00 | null |
| 0 | 2020-01-01 00:00:00 | 0 |
| 0 | 2021-01-01 00:00:00 | null |
| 0 | 2022-01-01 00:00:00 | 1 |
| 0 | 2023-01-01 00:00:00 | 2 |
| … | … | … |
| 1 | 2020-01-01 00:00:00 | null |
| 1 | 2021-01-01 00:00:00 | 3 |
| 1 | 2022-01-01 00:00:00 | 4 |
| 1 | 2023-01-01 00:00:00 | null |
| 1 | 2024-01-01 00:00:00 | null |
| unique_id | ds | y |
|---|---|---|
| i64 | date | i64 |
| 0 | 2020-01-01 | 0 |
| 0 | 2022-01-01 | 1 |
| 0 | 2023-01-01 | 2 |
| 1 | 2021-01-01 | 3 |
| 1 | 2022-01-01 | 4 |
| unique_id | ds | y |
|---|---|---|
| i64 | date | i64 |
| 0 | 2020-01-01 | 0 |
| 0 | 2021-01-01 | null |
| 0 | 2022-01-01 | 1 |
| 0 | 2023-01-01 | 2 |
| 0 | 2024-01-01 | null |
| 1 | 2020-01-01 | null |
| 1 | 2021-01-01 | 3 |
| 1 | 2022-01-01 | 4 |
| 1 | 2023-01-01 | null |
| 1 | 2024-01-01 | null |
| unique_id | ds | y |
|---|---|---|
| i64 | i64 | i64 |
| 0 | 2020 | 0 |
| 0 | 2021 | 1 |
| 0 | 2023 | 2 |
| 1 | 2021 | 3 |
| 1 | 2022 | 4 |
| unique_id | ds | y |
|---|---|---|
| i64 | i64 | i64 |
| 0 | 2019 | null |
| 0 | 2020 | 0 |
| 0 | 2021 | 1 |
| 0 | 2022 | null |
| 0 | 2023 | 2 |
| … | … | … |
| 1 | 2020 | null |
| 1 | 2021 | 3 |
| 1 | 2022 | 4 |
| 1 | 2023 | null |
| 1 | 2024 | null |

