分布式
Dask
在 Dask 之上分布式运行 StatsForecast。
StatsForecast 通过 Fugue 在 Spark、Dask 和 Ray 之上工作。StatsForecast 将读取输入的 DataFrame 并使用相应的引擎。例如,如果输入是 Spark DataFrame,StatsForecast 将使用现有的 Spark 会话来运行预测。
安装
只要 Dask 已安装并配置好,StatsForecast 就能够使用它。如果在分布式 Dask 集群上执行,请确保所有 worker 都安装了 statsforecast 库。
StatsForecast 在 Pandas 上
在 Dask 上运行之前,建议先在较小的 Pandas 数据集上进行测试,以确保一切正常。此示例还有助于展示使用 Dask 时的微小差异。
| unique_id | ds | AutoETS | |
|---|---|---|---|
| 0 | 0 | 2000-08-10 | 5.261609 | 
| 1 | 0 | 2000-08-11 | 6.196357 | 
| 2 | 0 | 2000-08-12 | 0.282309 | 
| 3 | 0 | 2000-08-13 | 1.264195 | 
| 4 | 0 | 2000-08-14 | 2.262453 | 
在 Dask 上执行
要在 Dask 上分布式运行预测,只需传入一个 Dask DataFrame 即可。
| unique_id | ds | AutoETS | |
|---|---|---|---|
| 0 | 0 | 2000-08-10 00:00:00 | 5.261609 | 
| 1 | 0 | 2000-08-11 00:00:00 | 6.196357 | 
| 2 | 0 | 2000-08-12 00:00:00 | 0.282309 | 
| 3 | 0 | 2000-08-13 00:00:00 | 1.264195 | 
| 4 | 0 | 2000-08-14 00:00:00 | 2.262453 | 

