分布式
Spark
在 Spark 上分布式运行 StatsForecast。
StatsForecast 通过 Fugue 在 Spark、Dask 和 Ray 之上运行。StatsForecast 会读取输入 DataFrame 并使用相应的引擎。例如,如果输入是 Spark DataFrame,StatsForecast 将使用现有的 Spark session 运行预测。
可以在此处找到一个基准测试(使用旧语法),我们在不到 15 分钟内预测了一百万个时间序列。
安装
只要安装并配置了 Spark,StatsForecast 就可以使用它。如果在分布式 Spark 集群上执行,请确保 statsforecast
库已安装在所有 worker 上。
在 Pandas 上使用 StatsForecast
在 Spark 上运行之前,建议在一个较小的 Pandas 数据集上进行测试,以确保一切正常。此示例还有助于展示使用 Spark 时的微小差异。
unique_id | ds | AutoETS | |
---|---|---|---|
0 | 0 | 2000-08-10 | 5.261609 |
1 | 0 | 2000-08-11 | 6.196357 |
2 | 0 | 2000-08-12 | 0.282309 |
3 | 0 | 2000-08-13 | 1.264195 |
4 | 0 | 2000-08-14 | 2.262453 |
在 Spark 上执行
要在 Spark 上分布式运行预测,只需传入一个 Spark DataFrame 即可。