术语表
这些是与时间序列预测相关的一些关键概念,旨在帮助您更好地理解和利用 TimeGPT 的功能。
时间序列
时间序列是按时间索引的数据点序列,用于模拟随时间变化的现象,例如股票价格、温度或产品销售。时间序列通常可以被认为包含以下组成部分
-
趋势:数据长期一致的方向,无论是向上还是向下。它反映了系列数据随时间的持续整体变动。
-
季节性:围绕已知固定周期的重复循环。
-
残差:在考虑趋势和季节效应后数据中留下的残余或随机噪声。
预测
预测是根据历史数据预测时间序列未来值的过程。它在金融、医疗保健、零售和经济等各个领域的决策过程中起着至关重要的作用。
预测可以使用多种方法,从统计方法到机器学习、深度学习和基础模型等新技术。这些模型可以根据用于预测的变量数量进一步分为单变量模型和多变量模型,或者分为局部模型和全局模型,其中局部模型独立估计每个序列的参数,而全局模型联合估计多个序列的参数。
预测本身可以表示为点预测,即预测单个未来值,也可以表示为概率预测,即提供未来值的完整概率分布,从而提供不确定性度量。
基础模型
基础模型是指一种大型预训练模型,可以适应广泛的任务,包括时间序列预测。基础模型最初是为自然语言处理和计算机视觉等领域开发的,现在越来越多地应用于时间序列等序列数据。这些模型通常在大型数据集上进行训练,捕捉复杂的模式和依赖关系,并可以针对特定任务进行微调。
TimeGPT
由 Nixtla 开发的 TimeGPT
是第一个用于时间序列预测的基础模型。TimeGPT
在来自多个领域的数十亿公共可用数据集观测值上进行训练,无需额外训练即可为新的时间序列生成准确的预测,仅使用历史值作为输入。该模型“读取”时间序列数据的方式与人类阅读句子类似——从左到右依次进行。它查看过去数据的窗口(我们可以将其视为“标记”),并预测接下来会发生什么。这种预测基于模型在过去数据中识别出的模式并将其外推到未来。
标记 (Tokens)
TimeGPT
分块处理时间序列数据。序列中的每个数据点都可以被视为一个“标记”,类似于自然语言处理 (NLP) 中处理单个单词或字符的方式。
微调
微调是机器学习中用于使 TimeGPT
等预训练模型适应特定数据集的附加训练过程。最初,TimeGPT
可以以零样本方式运行,这意味着它可以按原样生成预测。虽然这种零样本方法提供了一个可靠的基线,但 TimeGPT
的性能通常可以通过微调来提高。在此过程中,TimeGPT
模型使用特定数据集进行额外训练,从预训练参数开始。更新后的模型随后生成预测。
历史预测
历史预测,也称为样本内预测,是对历史数据进行的预测。这些预测通常用于通过将预测值与实际值进行比较来评估预测模型的性能。
异常检测
异常检测是指识别与数据预期行为显著偏离的异常观测值的过程。异常,也称为离群值,可能由多种因素引起,例如数据收集过程中的错误、数据底层模式的突然变化或意外事件。这些异常可能对许多预测模型构成挑战,因为它们可能会扭曲趋势、季节性模式或自相关估计。因此,异常会显著影响预测的准确性。因此,准确识别它们至关重要。
异常检测在不同行业有许多应用,包括检测金融交易中的欺诈、监控在线服务的性能或识别能源使用中的异常模式。
时间序列交叉验证
时间序列交叉验证是一种评估模型在历史数据上表现的方法。它的工作原理是在过去的观测值上定义一个滑动窗口,并预测其后的周期。它与标准交叉验证不同之处在于保持数据的按时间顺序排列,而不是随机分割。
这种方法通过考虑多个顺序周期,可以更准确地估计预测模型的预测能力。当只使用一个窗口时,此方法类似于标准训练-测试分割,最后一组观测值用作测试数据,所有之前的数据用作训练集。
外生变量
外生变量是可能影响时间序列行为但不受其直接影响的外部因素。例如,在零售销售预测中,外生变量可能包括节假日、促销、价格等因素,或者用于电力负荷预测的天气数据。通过将这些变量纳入预测模型,可以捕捉目标序列与外部因素之间的关系,从而获得更准确的预测。