Bootstrap

在许多情况下，只有层次结构最低级别的时间序列（底部时间序列）可用。HierarchicalForecast 提供了创建所有层次结构时间序列的工具，还允许您计算所有层次结构的预测区间。在本笔记本中，我们将了解如何实现这一点。

!pip install hierarchicalforecast statsforecast

import pandas as pd

# compute base forecast no coherent
from statsforecast.models import AutoETS
from statsforecast.core import StatsForecast

#obtain hierarchical reconciliation methods and evaluation
from hierarchicalforecast.methods import BottomUp, MinTrace
from hierarchicalforecast.utils import aggregate, HierarchicalPlot
from hierarchicalforecast.core import HierarchicalReconciliation

聚合底部时间序列

在本示例中，我们将使用来自《预测：原理与实践》一书的旅游数据集。该数据集只包含最低级别的时间序列，因此我们需要为所有层次结构创建时间序列。

Y_df = pd.read_csv('https://raw.githubusercontent.com/Nixtla/transfer-learning-time-series/main/datasets/tourism.csv')
Y_df = Y_df.rename({'Trips': 'y', 'Quarter': 'ds'}, axis=1)
Y_df.insert(0, 'Country', 'Australia')
Y_df = Y_df[['Country', 'Region', 'State', 'Purpose', 'ds', 'y']]
Y_df['ds'] = Y_df['ds'].str.replace(r'(\d+) (Q\d)', r'\1\2', regex=True)
Y_df['ds'] = pd.PeriodIndex(Y_df["ds"], freq='Q').to_timestamp()
Y_df.head()

	国家	区域	州	目的	ds	y
0	澳大利亚	阿德莱德	南澳大利亚	商业	1998-01-01	135.077690
1	澳大利亚	阿德莱德	南澳大利亚	商业	1998-04-01	109.987316
2	澳大利亚	阿德莱德	南澳大利亚	商业	1998-07-01	166.034687
3	澳大利亚	阿德莱德	南澳大利亚	商业	1998-10-01	127.160464
4	澳大利亚	阿德莱德	南澳大利亚	商业	1999-01-01	137.448533

数据集可以按以下非严格层次结构进行分组。

spec = [
    ['Country'],
    ['Country', 'State'], 
    ['Country', 'Purpose'], 
    ['Country', 'State', 'Region'], 
    ['Country', 'State', 'Purpose'], 
    ['Country', 'State', 'Region', 'Purpose']
]

使用 HierarchicalForecast 中的 aggregate 函数，我们可以生成：1. Y_df：层次结构序列 $\mathbf{y}_{[a,b]\tau}$ 2. S_df：聚合约束数据框 $S_{[a,b]}$ 3. tags：一个列表，包含构成每个聚合级别的“unique_ids”。

Y_df, S_df, tags = aggregate(df=Y_df, spec=spec)

Y_df.head()

	unique_id	ds	y
0	澳大利亚	1998-01-01	23182.197269
1	澳大利亚	1998-04-01	20323.380067
2	澳大利亚	1998-07-01	19826.640511
3	澳大利亚	1998-10-01	20830.129891
4	澳大利亚	1999-01-01	22087.353380

S_df.iloc[:5, :5]

	unique_id	Australia/ACT/Canberra/Business	Australia/ACT/Canberra/Holiday	Australia/ACT/Canberra/Other	Australia/ACT/Canberra/Visiting
0	澳大利亚	1.0	1.0	1.0	1.0
1	Australia/ACT	1.0	1.0	1.0	1.0
2	Australia/New South Wales	0.0	0.0	0.0	0.0
3	Australia/Northern Territory	0.0	0.0	0.0	0.0
4	Australia/Queensland	0.0	0.0	0.0	0.0

tags['Country/Purpose']

array(['Australia/Business', 'Australia/Holiday', 'Australia/Other',
       'Australia/Visiting'], dtype=object)

我们可以使用 HierarchicalPlot 类可视化 S_df 数据框和 Y_df，如下所示。

hplot = HierarchicalPlot(S=S_df, tags=tags)

hplot.plot_summing_matrix()

hplot.plot_hierarchically_linked_series(
    bottom_series='Australia/ACT/Canberra/Holiday',
    Y_df=Y_df
)

拆分训练/测试集

我们使用最后两年（8个季度）作为测试集。

Y_test_df = Y_df.groupby('unique_id', as_index=False).tail(8)
Y_train_df = Y_df.drop(Y_test_df.index)

Y_train_df.groupby('unique_id').size()

unique_id
Australia                                                72
Australia/ACT                                            72
Australia/ACT/Business                                   72
Australia/ACT/Canberra                                   72
Australia/ACT/Canberra/Business                          72
                                                         ..
Australia/Western Australia/Experience Perth/Other       72
Australia/Western Australia/Experience Perth/Visiting    72
Australia/Western Australia/Holiday                      72
Australia/Western Australia/Other                        72
Australia/Western Australia/Visiting                     72
Length: 425, dtype: int64

计算基础预测

以下单元计算 Y_df 中每个时间序列使用 AutoETS 模型得到的基础预测。请注意，Y_hat_df 包含预测值，但它们不一致。由于我们使用 bootstrapping 计算预测区间，因此只需要模型的拟合值。

fcst = StatsForecast(models=[AutoETS(season_length=4, model='ZAA')],
                     freq='QS', n_jobs=-1)
Y_hat_df = fcst.forecast(df=Y_train_df, h=8, fitted=True)
Y_fitted_df = fcst.forecast_fitted_values()

协调基础预测

以下单元使用 HierarchicalReconciliation 类使之前的预测一致。由于层次结构不是严格的，我们不能使用 TopDown 或 MiddleOut 等方法。在本示例中，我们使用 BottomUp 和 MinTrace。如果要计算预测区间，必须按如下所示使用 level 参数并设置 intervals_method='bootstrap'。

reconcilers = [
    BottomUp(),
    MinTrace(method='mint_shrink'),
    MinTrace(method='ols')
]
hrec = HierarchicalReconciliation(reconcilers=reconcilers)
Y_rec_df = hrec.reconcile(Y_hat_df=Y_hat_df, Y_df=Y_fitted_df, S=S_df, 
                          tags=tags, level=[80, 90], 
                          intervals_method='bootstrap')

数据框 Y_rec_df 包含协调后的预测。

Y_rec_df.head()

	unique_id	ds	AutoETS	AutoETS/BottomUp	AutoETS/BottomUp-lo-90	AutoETS/BottomUp-lo-80	AutoETS/BottomUp-hi-80	AutoETS/BottomUp-hi-90	AutoETS/MinTrace_method-mint_shrink	AutoETS/MinTrace_method-mint_shrink-lo-90	AutoETS/MinTrace_method-mint_shrink-lo-80	AutoETS/MinTrace_method-mint_shrink-hi-80	AutoETS/MinTrace_method-mint_shrink-hi-90	AutoETS/MinTrace_method-ols	AutoETS/MinTrace_method-ols-lo-90	AutoETS/MinTrace_method-ols-lo-80	AutoETS/MinTrace_method-ols-hi-80	AutoETS/MinTrace_method-ols-hi-90
0	澳大利亚	2016-01-01	26080.878488	24487.152503	23242.757311	23332.592968	25379.829486	25424.139137	25521.551706	24407.442712	24698.931479	26357.024354	26466.740682	26034.132091	24914.199038	25100.470502	27102.746065	27176.467048
1	澳大利亚	2016-04-01	24587.012115	23068.314292	21823.919100	21910.615057	23945.982949	24278.683243	24106.522479	23185.403634	23283.902251	25098.332342	25473.239949	24567.457913	23483.983814	23640.627126	25709.792870	25809.220444
2	澳大利亚	2016-07-01	24147.307744	22686.983933	21293.529449	21526.525610	23697.859931	24150.879789	23717.610501	22603.501507	22802.771308	24802.973260	25228.795629	24150.111246	23030.178193	23154.972436	25359.917993	25404.792198
3	澳大利亚	2016-10-01	24794.040779	23428.037637	22034.583153	22273.826957	24241.840440	24438.913635	24472.939115	23361.285512	23584.825871	25338.713995	25469.426623	24831.540721	23725.927463	23836.401911	25900.154695	25977.249268
4	澳大利亚	2017-01-01	26283.998654	24939.637616	23695.217554	23903.395713	25815.638682	25973.164607	26029.322724	24948.339795	25144.179030	26900.068461	27119.073160	26348.229758	25254.682234	25487.518098	27410.894158	27477.330557

绘制预测图

然后我们可以使用以下函数绘制概率预测图。

plot_df = Y_df.merge(Y_rec_df, on=['unique_id', 'ds'], how="outer")

绘制单个时间序列图

hplot.plot_series(
    series='Australia',
    Y_df=plot_df, 
    models=['y', 'AutoETS', 'AutoETS/MinTrace_method-ols', 'AutoETS/MinTrace_method-mint_shrink'],
    level=[80]
)

# Since we are plotting a bottom time series
# the probabilistic and mean forecasts
# differ due to bootstrapping
hplot.plot_series(
    series='Australia/Western Australia/Experience Perth/Visiting',
    Y_df=plot_df, 
    models=['y', 'AutoETS', 'AutoETS/BottomUp'],
    level=[80]
)

绘制层次关联的时间序列图

hplot.plot_hierarchically_linked_series(
    bottom_series='Australia/Western Australia/Experience Perth/Visiting',
    Y_df=plot_df, 
    models=['y', 'AutoETS', 'AutoETS/MinTrace_method-ols', 'AutoETS/BottomUp'],
    level=[80]
)

# ACT only has Canberra
hplot.plot_hierarchically_linked_series(
    bottom_series='Australia/ACT/Canberra/Other',
    Y_df=plot_df, 
    models=['y', 'AutoETS/MinTrace_method-mint_shrink'],
    level=[80, 90]
)

入门

教程

API 参考

聚合底部时间序列

拆分训练/测试集

计算基础预测

协调基础预测

绘制预测图

绘制单个时间序列图

绘制层次关联的时间序列图

参考文献

入门

教程

API 参考

​聚合底部时间序列

​拆分训练/测试集

​计算基础预测

​协调基础预测

​绘制预测图

​绘制单个时间序列图

​绘制层次关联的时间序列图

​参考文献

聚合底部时间序列

拆分训练/测试集

计算基础预测

协调基础预测

绘制预测图

绘制单个时间序列图

绘制层次关联的时间序列图

参考文献