Kaggle知识点：类别变量处理与精度对比

数据派THU · 公众号 · 大数据 · 2024-05-16 17:30

来源：Coggle数据科学本文约1200字，建议阅读4分钟本文将使用埃姆斯爱荷华州房屋数据集进行房价分析。在这个例子中，我们将比较使用不同的编码策略来处理分类特征时，HistGradientBoostingRegressor 的训练时间和预测性能。具体来说，我们将评估以下几种方法：删除分类特征；使用 OneHotEncoder；使用 OrdinalEncoder，将分类特征视为有序、等距的量；使用 OrdinalEncoder，并依赖于 HistGradientBoostingRegressor 估计器的原生类别支持。我们将使用埃姆斯爱荷华州房屋数据集进行工作，该数据集包含数值和分类特征，其中房屋销售价格是目标变量。步骤1：加载数据集from sklearn.datasets import fetch_openmlX, y = fetch_openml(data_id=42165, as_frame=True, return_X_y=True)# Select only a subset of features of X to make the example faster to runcategorical_columns_subset = [ "BldgType", "GarageFinish", "LotConfig", "Functi ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博