简单指数平滑模型
使用 Statsforecast
的 SimpleExponentialSmoothing 模型
的分步指南。
目录
- 引言
- 简单指数平滑
- 加载库和数据
- 使用 plot 方法探索数据
- 将数据拆分为训练集和测试集
- 在 StatsForecast 中实现 SimpleExponentialSmoothing
- 交叉验证
- 模型评估
- 参考
引言
指数平滑于 20 世纪 50 年代末被提出(Brown, 1959; Holt, 1957; Winters, 1960),并催生了一些最成功的预测方法。使用指数平滑方法产生的预测是过去观测值的加权平均,权重随观测值的时效性呈指数衰减。换句话说,越近期的观测值具有越高的关联权重。这个框架能够快速为广泛的时间序列生成可靠的预测,这在行业应用中具有巨大优势和重要意义。
简单指数平滑模型是一种用于时间序列分析的方法,用于基于历史观测值预测未来值。该模型基于这样一个理念:时间序列的未来值将受到过去值的影响,且过去值的影响力随时间回溯呈指数衰减。
简单指数平滑模型使用一个平滑因子,这是一个介于 0 和 1 之间的数字,表示在预测未来值时过去观测值的相对重要性。值为 1 表示所有过去的观测值都具有同等重要性,而值为 0 表示只考虑最新的观测值。
简单指数平滑模型可以用数学形式表示为
其中 是周期 的观测值, 是下一周期的预测值,y 是前一周期的观测值, 是平滑因子。
简单指数平滑模型因其简单性和易用性而被广泛使用。然而,它也有其局限性,因为它无法捕捉数据中复杂的模式,不适用于具有趋势或季节性模式的时间序列。
构建简单指数平滑模型
指数平滑方法中最简单的一种自然称为简单指数平滑(SES)。这种方法适用于预测没有明显趋势或季节性模式的数据。
使用朴素方法,未来的所有预测值都等于序列的最后一个观测值,
其中 。因此,朴素方法假设最新观测值是唯一重要的,所有之前的观测值都不提供未来信息。这可以被视为一种加权平均,其中所有权重都赋给了最后一个观测值。
使用平均方法,所有未来预测值都等于观测数据的简单平均值,
其中 。因此,平均方法假设所有观测值都具有同等重要性,并在生成预测时赋予它们相等的权重。
我们通常希望介于这两个极端之间。例如,对于较近期的观测值,赋予比遥远过去的观测值更大的权重可能是合理的。这正是简单指数平滑背后的概念。预测是使用加权平均计算的,其中权重随观测值时效性呈指数衰减——最小的权重与最旧的观测值相关。
其中 是平滑参数。时间 的一步超前预测是序列 中所有观测值的加权平均值。权重的衰减速度由参数 控制。
对于介于 0 和 1 之间的任何 ,附加在观测值上的权重随时间回溯呈指数衰减,因此得名“指数平滑”。如果 较小(即接近 0),则更多权重赋给了更遥远过去的观测值。如果 较大(即接近 1),则更多权重赋给了较近期的观测值。在极端情况下,当 时, 并且预测值等于朴素预测值。
我们给出简单指数平滑的两种等价形式,每种形式都可以得到预测方程 (1)。
加权平均形式
时间 的预测值等于最新观测值 与前一次预测值 的加权平均值
其中 是平滑参数。类似地,我们可以将拟合值写为
对于 。(请注意,拟合值只是训练数据的一步超前预测。)
该过程必须从某个地方开始,所以我们将时间 1 的第一个拟合值记为 (我们将对其进行估计)。然后
将每个方程代入后续方程,我们得到
对于大的 ,最后一项变得非常小。因此,加权平均形式得到了与预测方程 (1) 相同的结论。
分量形式
另一种表示形式是分量形式。对于简单指数平滑,包含的唯一分量是水平 。指数平滑方法的分量形式表示包含一个预测方程和每个包含分量的平滑方程。简单指数平滑的分量形式由下式给出
其中 是时间 的序列水平(或平滑值)。设置 得到拟合值,而设置 得到训练数据之外的真实预测值。
预测方程表明,时间 的预测值是时间 的估计水平。水平的平滑方程(通常称为水平方程)给出每个周期 的序列估计水平。
如果在平滑方程中用 替换 ,用 替换 ,我们将恢复简单指数平滑的加权平均形式。
简单指数平滑的分量形式本身并不是特别有用,但当我们开始添加其他分量时,它将成为最容易使用的形式。
平稳预测
简单指数平滑具有“平稳”预测函数
也就是说,所有预测值都取相同的值,等于最后一个水平分量。请记住,这些预测仅适用于时间序列没有趋势或季节性分量的情况。
加载库和数据
提示
需要 Statsforecast。要安装,请参阅说明。
接下来,我们导入绘图库并配置绘图样式。
时间 | 广告 | |
---|---|---|
0 | 2017-09-13T00:00:00 | 80115 |
1 | 2017-09-13T01:00:00 | 79885 |
2 | 2017-09-13T02:00:00 | 89325 |
3 | 2017-09-13T03:00:00 | 101930 |
4 | 2017-09-13T04:00:00 | 121630 |
StatsForecast 的输入始终是长格式的数据框,包含三列:unique_id、ds 和 y
-
unique_id
(字符串、整数或类别)表示时间序列的标识符。 -
ds
(日期戳)列的格式应符合 Pandas 的预期,日期格式最好为 YYYY-MM-DD,时间戳格式最好为 YYYY-MM-DD HH:MM:SS。 -
y
(数值)表示我们希望预测的测量值。
ds | y | unique_id | |
---|---|---|---|
0 | 2017-09-13T00:00:00 | 80115 | 1 |
1 | 2017-09-13T01:00:00 | 79885 | 1 |
2 | 2017-09-13T02:00:00 | 89325 | 1 |
… | … | … | … |
213 | 2017-09-21T21:00:00 | 103080 | 1 |
214 | 2017-09-21T22:00:00 | 95155 | 1 |
215 | 2017-09-21T23:00:00 | 80285 | 1 |
使用 plot 方法探索数据
使用 StatsForecast 类中的 plot 方法绘制一些时间序列。此方法会打印数据集中随机选择的时间序列,对于基础 EDA 很有用。
自相关图
将数据拆分为训练集和测试集
我们将数据拆分为数据集
- 用于训练我们的
简单指数平滑 (SES)
的数据。 - 用于测试我们的模型的数据
对于测试数据,我们将使用最近的 30 小时来测试和评估模型的性能。
在 StatsForecast 中实现 SimpleExponentialSmoothing
加载库
实例化模型
我们将为不同的 alpha 值构建不同的模型。
我们通过实例化一个新的 StatsForecast 对象并使用以下参数来拟合模型
models
:模型列表。从模型中选择您想要的模型并导入。
-
freq
:指示数据频率的字符串。(请参阅 pandas 可用的频率。) -
n_jobs
:整数,并行处理中使用的作业数,-1 表示所有核心。 -
fallback_model
:如果某个模型失败时使用的备用模型。
所有设置都传递给构造函数。然后调用其 fit 方法并传入历史数据框。
拟合模型
让我们看看我们的简单 简单指数平滑模型 (SES)
的结果。我们可以通过以下指令查看
如我们所见,上面获得的结果是一个字典输出,为了从字典中提取每个元素,我们将使用 .get()
函数提取元素,然后将其保存在 pd.DataFrame()
中。
fitted01 | fitted05 | fitted08 | ds | |
---|---|---|---|---|
0 | NaN | NaN | NaN | 2017-09-13 00:00:00 |
1 | 80115.000000 | 80115.00 | 80115.000000 | 2017-09-13 01:00:00 |
2 | 80092.000000 | 80000.00 | 79931.000000 | 2017-09-13 02:00:00 |
… | … | … | … | … |
183 | 120765.039062 | 139195.00 | 141302.828125 | 2017-09-20 15:00:00 |
184 | 122847.531250 | 140392.50 | 141532.562500 | 2017-09-20 16:00:00 |
185 | 124623.781250 | 140501.25 | 140794.515625 | 2017-09-20 17:00:00 |
预测方法
如果您希望在具有多个序列或模型的生产环境中提高速度,我们建议使用 StatsForecast.forecast
方法,而不是 .fit
和 .predict
。
主要区别在于 .forecast
不存储拟合值,并且在分布式环境中具有高度可伸缩性。
forecast 方法接受两个参数:预测未来 h
(范围)和 level
(置信水平)。
h
(整数):表示预测未来 h 个步长。在本例中,预测未来 30 小时。
这里的 forecast 对象是一个新的数据框,其中包含模型名称和 y hat 值的列,以及用于不确定性区间的列。根据您的计算机性能,此步骤大约需要 1 分钟。
unique_id | ds | SES01 | SES05 | SES08 | |
---|---|---|---|---|---|
0 | 1 | 2017-09-20 18:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
1 | 1 | 2017-09-20 19:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
2 | 1 | 2017-09-20 20:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
3 | 1 | 2017-09-20 21:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
4 | 1 | 2017-09-20 22:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
unique_id | ds | y | SES01 | SES05 | SES08 | |
---|---|---|---|---|---|---|
0 | 1 | 2017-09-13 00:00:00 | 80115.0 | NaN | NaN | NaN |
1 | 1 | 2017-09-13 01:00:00 | 79885.0 | 80115.000000 | 80115.00 | 80115.000000 |
2 | 1 | 2017-09-13 02:00:00 | 89325.0 | 80092.000000 | 80000.00 | 79931.000000 |
3 | 1 | 2017-09-13 03:00:00 | 101930.0 | 81015.296875 | 84662.50 | 87446.203125 |
4 | 1 | 2017-09-13 04:00:00 | 121630.0 | 83106.773438 | 93296.25 | 99033.242188 |
predict 方法
要生成预测,请使用 predict 方法。
predict 方法接受两个参数:预测未来 h
(范围)。* h
(整数):表示预测未来 个步长。在本例中,预测未来 30 小时。
这里的 forecast 对象是一个新的数据框,其中包含模型名称和 y hat
值的列,以及用于不确定性区间的列。
此步骤应不到 1 秒。
unique_id | ds | SES01 | SES05 | SES08 | |
---|---|---|---|---|---|
0 | 1 | 2017-09-20 18:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
1 | 1 | 2017-09-20 19:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
2 | 1 | 2017-09-20 20:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
… | … | … | … | … | … |
27 | 1 | 2017-09-21 21:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
28 | 1 | 2017-09-21 22:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
29 | 1 | 2017-09-21 23:00:00 | 126112.898438 | 140008.125 | 139770.90625 |
交叉验证
在前面的步骤中,我们使用历史数据来预测未来。然而,为了评估其准确性,我们还想了解模型在过去可能如何表现。为了评估模型在数据上的准确性和稳健性,请执行交叉验证。
对于时间序列数据,交叉验证是通过在历史数据上定义一个滑动窗口并预测其后续时期来完成的。这种形式的交叉验证使我们能够更好地估计模型在更广泛的时间实例中的预测能力,同时也能保持训练集数据的连续性,这是我们的模型所要求的。
下图描绘了这种交叉验证策略
执行时间序列交叉验证
时间序列模型的交叉验证被认为是最佳实践,但大多数实现都非常慢。statsforecast 库将交叉验证实现为分布式操作,从而减少了执行所需的时间。如果您拥有大型数据集,您还可以使用 Ray、Dask 或 Spark 在分布式集群中执行交叉验证。
在本例中,我们希望评估每个模型在最近 30 小时 (n_windows=)
的性能,每隔一个月预测一次 (step_size=30)
。根据您的计算机性能,此步骤大约需要 1 分钟。
StatsForecast 类中的 cross_validation 方法接受以下参数。
-
df
:训练数据框 -
h
(整数):表示预测未来 h 个步长。在本例中,预测未来 30 小时。 -
step_size
(整数):每个窗口之间的步长。换句话说:您希望多久运行一次预测过程。 -
n_windows
(整数):用于交叉验证的窗口数量。换句话说:您希望评估过去多少个预测过程。
crossvaldation_df 对象是一个新的数据框,包含以下列
unique_id
:时间序列标识符ds
:日期戳或时间索引cutoff
:n_windows
的最后一个日期戳或时间索引。y
:真实值model
:包含模型名称和拟合值的列。
unique_id | ds | cutoff | y | SES01 | SES05 | SES08 | |
---|---|---|---|---|---|---|---|
0 | 1 | 2017-09-18 06:00:00 | 2017-09-18 05:00:00 | 99440.0 | 118499.953125 | 109816.250 | 112747.695312 |
1 | 1 | 2017-09-18 07:00:00 | 2017-09-18 05:00:00 | 97655.0 | 118499.953125 | 109816.250 | 112747.695312 |
2 | 1 | 2017-09-18 08:00:00 | 2017-09-18 05:00:00 | 97655.0 | 118499.953125 | 109816.250 | 112747.695312 |
… | … | … | … | … | … | … | … |
87 | 1 | 2017-09-21 21:00:00 | 2017-09-20 17:00:00 | 103080.0 | 126112.898438 | 140008.125 | 139770.906250 |
88 | 1 | 2017-09-21 22:00:00 | 2017-09-20 17:00:00 | 95155.0 | 126112.898438 | 140008.125 | 139770.906250 |
89 | 1 | 2017-09-21 23:00:00 | 2017-09-20 17:00:00 | 80285.0 | 126112.898438 | 140008.125 | 139770.906250 |
模型评估
现在我们将使用预测结果来评估我们的模型,我们将使用不同类型的指标 MAE、MAPE、MASE、RMSE、SMAPE 来评估准确性。
unique_id | 指标 | SES01 | SES05 | SES08 | |
---|---|---|---|---|---|
0 | 1 | mae | 25173.939583 | 29390.875000 | 29311.802083 |
1 | 1 | mape | 0.255088 | 0.316440 | 0.315339 |
2 | 1 | mase | 3.110288 | 3.631298 | 3.621528 |
3 | 1 | rmse | 28923.395381 | 36184.340869 | 36027.710540 |
4 | 1 | smape | 0.109972 | 0.124803 | 0.124542 |
参考
- Changquan Huang • Alla Petukhina. Springer series (2022). Applied Time Series Analysis and Forecasting with Python.
- Ivan Svetunkov. 使用增强动态自适应模型 (ADAM) 进行预测和分析
- James D. Hamilton. Time Series Analysis Princeton University Press, Princeton, New Jersey, 1st Edition, 1994.
- Nixtla 参数.
- Pandas 可用频率.
- Rob J. Hyndman and George Athanasopoulos (2018). “Forecasting Principles and Practice (3rd ed)”.
- 季节周期 - Rob J Hyndman.