`xgboost.spark.SparkXGBRegressor` 的包装器,添加了 `extract_local_model` 方法以获取训练好的模型的本地版本并将其广播到 worker。

/opt/hostedtoolcache/Python/3.10.16/x64/lib/python3.10/site-packages/fastcore/docscrape.py:230: UserWarning: Unknown section Note
  else: warn(msg)

SparkXGBForecast

 SparkXGBForecast (features_col:Union[str,List[str]]='features',
                   label_col:str='label', prediction_col:str='prediction',
                   pred_contrib_col:Optional[str]=None,
                   validation_indicator_col:Optional[str]=None,
                   weight_col:Optional[str]=None,
                   base_margin_col:Optional[str]=None, num_workers:int=1,
                   use_gpu:Optional[bool]=None, device:Optional[str]=None,
                   force_repartition:bool=False,
                   repartition_random_shuffle:bool=False,
                   enable_sparse_data_optim:bool=False, **kwargs:Any)

*SparkXGBRegressor 是一个 PySpark ML 估计器。它实现了基于 XGBoost Python 库的 XGBoost 回归算法,可用于 PySpark Pipeline 和 PySpark ML 元算法,例如 - :py:class:`~pyspark.ml.tuning.CrossValidator`/ - :py:class:`~pyspark.ml.tuning.TrainValidationSplit`/ - :py:class:`~pyspark.ml.classification.OneVsRest`

SparkXGBRegressor 自动支持 :py:class:`xgboost.XGBRegressor` 构造函数中的大多数参数,以及 :py:meth:`xgboost.XGBRegressor.fit` 和 :py:meth:`xgboost.XGBRegressor.predict` 方法中使用的大多数参数。

要启用 GPU 支持,请将 `device` 设置为 `cuda` 或 `gpu`。

SparkXGBRegressor 也不直接支持设置 `base_margin`,但支持另一个名为 `base_margin_col` 的参数。更多详情请参阅下方文档。

SparkXGBRegressor 不支持 `validate_features` 和 `output_margin` 参数。

SparkXGBRegressor 不支持设置 `nthread` xgboost 参数,相反,每个 xgboost worker 的 `nthread` 参数将设置为等于 `spark.task.cpus` 配置值。*