分布式
Dask
在 Dask 之上分布式运行 StatsForecast。
StatsForecast 通过 Fugue 在 Spark、Dask 和 Ray 之上工作。StatsForecast 将读取输入的 DataFrame 并使用相应的引擎。例如,如果输入是 Spark DataFrame,StatsForecast 将使用现有的 Spark 会话来运行预测。
安装
只要 Dask 已安装并配置好,StatsForecast 就能够使用它。如果在分布式 Dask 集群上执行,请确保所有 worker 都安装了 statsforecast
库。
StatsForecast 在 Pandas 上
在 Dask 上运行之前,建议先在较小的 Pandas 数据集上进行测试,以确保一切正常。此示例还有助于展示使用 Dask 时的微小差异。
unique_id | ds | AutoETS | |
---|---|---|---|
0 | 0 | 2000-08-10 | 5.261609 |
1 | 0 | 2000-08-11 | 6.196357 |
2 | 0 | 2000-08-12 | 0.282309 |
3 | 0 | 2000-08-13 | 1.264195 |
4 | 0 | 2000-08-14 | 2.262453 |
在 Dask 上执行
要在 Dask 上分布式运行预测,只需传入一个 Dask DataFrame 即可。
unique_id | ds | AutoETS | |
---|---|---|---|
0 | 0 | 2000-08-10 00:00:00 | 5.261609 |
1 | 0 | 2000-08-11 00:00:00 | 6.196357 |
2 | 0 | 2000-08-12 00:00:00 | 0.282309 |
3 | 0 | 2000-08-13 00:00:00 | 1.264195 |
4 | 0 | 2000-08-14 00:00:00 | 2.262453 |