处理大型数据集是时间序列预测中常见的挑战。例如,处理零售数据时,您可能需要预测数百家商店中数千种产品的销售额。类似地,处理电力消耗数据时,您可能需要预测各个地区数千个家庭的消耗量。

Nixtla 的 TimeGPT 使您能够使用多种分布式计算框架来高效管理大型数据集。TimeGPT 目前通过 Fugue 支持 SparkDaskRay

在本笔记本中,我们将解释如何使用 TimeGPT 利用这些框架。

大纲

  1. 开始使用

  2. 大规模预测

  3. 重要注意事项

开始使用

要将 TimeGPT 与任何受支持的分布式计算框架一起使用,您首先需要一个 API 密钥,就像您不使用任何分布式计算时一样。

完成注册后,您将收到一封电子邮件,要求您确认注册。确认后,您将获得对仪表盘的访问权限。在那里,在API Keys下,您将找到您的 API 密钥。接下来,您需要使用 Nixtla SDK 将您的 API 密钥集成到您的开发工作流程中。有关如何执行此操作的指导,请参阅设置您的认证密钥教程

大规模预测

TimeGPT 与任何受支持的分布式计算框架一起使用非常简单,其用法与非分布式情况几乎相同。

  1. 实例化一个NixtlaClient 类。
  2. 将您的数据加载为 pandas DataFrame。
  3. 初始化分布式计算框架。
  4. 使用任何NixtlaClient 类方法。
  5. 如果需要,停止分布式计算框架。

这些是您将需要遵循的通用步骤,以便将 TimeGPT 与任何受支持的分布式计算框架一起使用。有关详细解释和完整示例,请参阅上面链接的特定框架指南。

重要提示

这些框架中的并行化是沿着数据集中各种时间序列进行的。因此,您的数据集必须包含多个时间序列,每个时间序列都有唯一的 ID。

重要注意事项

何时使用分布式计算框架

如果您的数据集满足以下条件,请考虑使用分布式计算框架

  • 包含跨多个时间序列的数百万个观测值。
  • 太大,无法放入单台机器的内存中。
  • 在单台机器上处理会太慢。

选择正确的框架

选择分布式计算框架时,请考虑您现有的基础设施和团队的技能。尽管 TimeGPT 可以与任何受支持的框架一起使用,并且代码更改最小,但选择正确的框架应与您的特定需求和资源保持一致。这将确保您在高效处理大型数据集的同时充分发挥 TimeGPT 的全部潜力。