大规模计算
大规模计算
处理大型数据集是时间序列预测中常见的挑战。例如,处理零售数据时,您可能需要预测数百家商店中数千种产品的销售额。类似地,处理电力消耗数据时,您可能需要预测各个地区数千个家庭的消耗量。
Nixtla 的 TimeGPT
使您能够使用多种分布式计算框架来高效管理大型数据集。TimeGPT
目前通过 Fugue
支持 Spark
、Dask
和 Ray
。
在本笔记本中,我们将解释如何使用 TimeGPT
利用这些框架。
大纲
开始使用
要将 TimeGPT
与任何受支持的分布式计算框架一起使用,您首先需要一个 API 密钥,就像您不使用任何分布式计算时一样。
完成注册后,您将收到一封电子邮件,要求您确认注册。确认后,您将获得对仪表盘的访问权限。在那里,在API Keys
下,您将找到您的 API 密钥。接下来,您需要使用 Nixtla SDK 将您的 API 密钥集成到您的开发工作流程中。有关如何执行此操作的指导,请参阅设置您的认证密钥教程。
大规模预测
将 TimeGPT
与任何受支持的分布式计算框架一起使用非常简单,其用法与非分布式情况几乎相同。
- 实例化一个
NixtlaClient
类。 - 将您的数据加载为
pandas
DataFrame。 - 初始化分布式计算框架。
- 使用任何
NixtlaClient
类方法。 - 如果需要,停止分布式计算框架。
这些是您将需要遵循的通用步骤,以便将 TimeGPT
与任何受支持的分布式计算框架一起使用。有关详细解释和完整示例,请参阅上面链接的特定框架指南。
重要提示
这些框架中的并行化是沿着数据集中各种时间序列进行的。因此,您的数据集必须包含多个时间序列,每个时间序列都有唯一的 ID。
重要注意事项
何时使用分布式计算框架
如果您的数据集满足以下条件,请考虑使用分布式计算框架
- 包含跨多个时间序列的数百万个观测值。
- 太大,无法放入单台机器的内存中。
- 在单台机器上处理会太慢。
选择正确的框架
选择分布式计算框架时,请考虑您现有的基础设施和团队的技能。尽管 TimeGPT
可以与任何受支持的框架一起使用,并且代码更改最小,但选择正确的框架应与您的特定需求和资源保持一致。这将确保您在高效处理大型数据集的同时充分发挥 TimeGPT
的全部潜力。