API 参考
预处理
用于在训练/分析前处理数据的实用工具
源
id_time_grid
生成所有预期的 id 和时间组合。
| 类型 | 默认值 | 详情 | |
|---|---|---|---|
| df | DFType | 输入数据 | |
| freq | Union | 序列频率 | |
| start | Union | per_serie | 序列的初始时间戳。 * ‘per_serie’ 使用每个序列的第一个时间戳 * ‘global’ 使用数据中遇到的第一个时间戳 * 也可以是特定的时间戳或整数,例如 ‘2000-01-01’、2000 或 datetime(2000, 1, 1) | 
| end | Union | global | 序列的初始时间戳。 * ‘per_serie’ 使用每个序列的最后一个时间戳 * ‘global’ 使用数据中遇到的最后一个时间戳 * 也可以是特定的时间戳或整数,例如 ‘2000-01-01’、2000 或 datetime(2000, 1, 1) | 
| id_col | str | unique_id | 标识每个序列的列。 | 
| time_col | str | ds | 标识每个时间戳的列。 | 
| 返回值 | DFType | 包含预期 id 和时间的 Dataframe。 | 
源
fill_gaps
强制 Dataframe 的开始和结束日期时间。
| 类型 | 默认值 | 详情 | |
|---|---|---|---|
| df | DFType | 输入数据 | |
| freq | Union | 序列频率 | |
| start | Union | per_serie | 序列的初始时间戳。 * ‘per_serie’ 使用每个序列的第一个时间戳 * ‘global’ 使用数据中遇到的第一个时间戳 * 也可以是特定的时间戳或整数,例如 ‘2000-01-01’、2000 或 datetime(2000, 1, 1) | 
| end | Union | global | 序列的初始时间戳。 * ‘per_serie’ 使用每个序列的最后一个时间戳 * ‘global’ 使用数据中遇到的最后一个时间戳 * 也可以是特定的时间戳或整数,例如 ‘2000-01-01’、2000 或 datetime(2000, 1, 1) | 
| id_col | str | unique_id | 标识每个序列的列。 | 
| time_col | str | ds | 标识每个时间戳的列。 | 
| 返回值 | DFType | 已填充间隙的 Dataframe。 | 
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0 | 
| 1 | 0 | 2021-01-01 | 1 | 
| 2 | 0 | 2023-01-01 | 2 | 
| 3 | 1 | 2021-01-01 | 3 | 
| 4 | 1 | 2022-01-01 | 4 | 
默认功能是采用当前的起始时间,并仅将结束日期扩展为所有序列的相同时间。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0.0 | 
| 1 | 0 | 2021-01-01 | 1.0 | 
| 2 | 0 | 2022-01-01 | NaN | 
| 3 | 0 | 2023-01-01 | 2.0 | 
| 4 | 1 | 2021-01-01 | 3.0 | 
| 5 | 1 | 2022-01-01 | 4.0 | 
| 6 | 1 | 2023-01-01 | NaN | 
我们还可以指定 end='per_serie' 以仅填充每个序列内可能的间隙。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0.0 | 
| 1 | 0 | 2021-01-01 | 1.0 | 
| 2 | 0 | 2022-01-01 | NaN | 
| 3 | 0 | 2023-01-01 | 2.0 | 
| 4 | 1 | 2021-01-01 | 3.0 | 
| 5 | 1 | 2022-01-01 | 4.0 | 
我们还可以指定未来的结束日期。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0.0 | 
| 1 | 0 | 2021-01-01 | 1.0 | 
| 2 | 0 | 2022-01-01 | NaN | 
| 3 | 0 | 2023-01-01 | 2.0 | 
| 4 | 0 | 2024-01-01 | NaN | 
| 5 | 1 | 2021-01-01 | 3.0 | 
| 6 | 1 | 2022-01-01 | 4.0 | 
| 7 | 1 | 2023-01-01 | NaN | 
| 8 | 1 | 2024-01-01 | NaN | 
我们可以将所有序列设置为在同一时间开始。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020-01-01 | 0.0 | 
| 1 | 0 | 2021-01-01 | 1.0 | 
| 2 | 0 | 2022-01-01 | NaN | 
| 3 | 0 | 2023-01-01 | 2.0 | 
| 4 | 1 | 2020-01-01 | NaN | 
| 5 | 1 | 2021-01-01 | 3.0 | 
| 6 | 1 | 2022-01-01 | 4.0 | 
| 7 | 1 | 2023-01-01 | NaN | 
我们还可以为所有序列设置一个共同的开始日期(可以早于它们当前的开始时间)。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2019-01-01 | NaN | 
| 1 | 0 | 2020-01-01 | 0.0 | 
| 2 | 0 | 2021-01-01 | 1.0 | 
| 3 | 0 | 2022-01-01 | NaN | 
| 4 | 0 | 2023-01-01 | 2.0 | 
| 5 | 1 | 2019-01-01 | NaN | 
| 6 | 1 | 2020-01-01 | NaN | 
| 7 | 1 | 2021-01-01 | 3.0 | 
| 8 | 1 | 2022-01-01 | 4.0 | 
| 9 | 1 | 2023-01-01 | NaN | 
如果时间是整数,则频率、开始和结束也必须是整数。
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2020 | 0 | 
| 1 | 0 | 2021 | 1 | 
| 2 | 0 | 2023 | 2 | 
| 3 | 1 | 2021 | 3 | 
| 4 | 1 | 2022 | 4 | 
| unique_id | ds | y | |
|---|---|---|---|
| 0 | 0 | 2019 | NaN | 
| 1 | 0 | 2020 | 0.0 | 
| 2 | 0 | 2021 | 1.0 | 
| 3 | 0 | 2022 | NaN | 
| 4 | 0 | 2023 | 2.0 | 
| 5 | 0 | 2024 | NaN | 
| 6 | 1 | 2019 | NaN | 
| 7 | 1 | 2020 | NaN | 
| 8 | 1 | 2021 | 3.0 | 
| 9 | 1 | 2022 | 4.0 | 
| 10 | 1 | 2023 | NaN | 
| 11 | 1 | 2024 | NaN | 
该函数也接受 polars dataframes
| unique_id | ds | y | 
|---|---|---|
| i64 | datetime[μs] | i64 | 
| 0 | 2020-01-01 00:00:00 | 0 | 
| 0 | 2022-01-01 00:00:00 | 1 | 
| 0 | 2023-01-01 00:00:00 | 2 | 
| 1 | 2021-01-01 00:00:00 | 3 | 
| 1 | 2022-01-01 00:00:00 | 4 | 
| unique_id | ds | y | 
|---|---|---|
| i64 | datetime[ms] | i64 | 
| 0 | 2019-01-01 00:00:00 | null | 
| 0 | 2020-01-01 00:00:00 | 0 | 
| 0 | 2021-01-01 00:00:00 | null | 
| 0 | 2022-01-01 00:00:00 | 1 | 
| 0 | 2023-01-01 00:00:00 | 2 | 
| … | … | … | 
| 1 | 2020-01-01 00:00:00 | null | 
| 1 | 2021-01-01 00:00:00 | 3 | 
| 1 | 2022-01-01 00:00:00 | 4 | 
| 1 | 2023-01-01 00:00:00 | null | 
| 1 | 2024-01-01 00:00:00 | null | 
| unique_id | ds | y | 
|---|---|---|
| i64 | date | i64 | 
| 0 | 2020-01-01 | 0 | 
| 0 | 2022-01-01 | 1 | 
| 0 | 2023-01-01 | 2 | 
| 1 | 2021-01-01 | 3 | 
| 1 | 2022-01-01 | 4 | 
| unique_id | ds | y | 
|---|---|---|
| i64 | date | i64 | 
| 0 | 2020-01-01 | 0 | 
| 0 | 2021-01-01 | null | 
| 0 | 2022-01-01 | 1 | 
| 0 | 2023-01-01 | 2 | 
| 0 | 2024-01-01 | null | 
| 1 | 2020-01-01 | null | 
| 1 | 2021-01-01 | 3 | 
| 1 | 2022-01-01 | 4 | 
| 1 | 2023-01-01 | null | 
| 1 | 2024-01-01 | null | 
| unique_id | ds | y | 
|---|---|---|
| i64 | i64 | i64 | 
| 0 | 2020 | 0 | 
| 0 | 2021 | 1 | 
| 0 | 2023 | 2 | 
| 1 | 2021 | 3 | 
| 1 | 2022 | 4 | 
| unique_id | ds | y | 
|---|---|---|
| i64 | i64 | i64 | 
| 0 | 2019 | null | 
| 0 | 2020 | 0 | 
| 0 | 2021 | 1 | 
| 0 | 2022 | null | 
| 0 | 2023 | 2 | 
| … | … | … | 
| 1 | 2020 | null | 
| 1 | 2021 | 3 | 
| 1 | 2022 | 4 | 
| 1 | 2023 | null | 
| 1 | 2024 | null | 

