看啥推荐读物
专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

Kaggle知识点:类别变量处理与精度对比

数据派THU  · 公众号  · 大数据  · 2024-05-16 17:30
来源:Coggle数据科学本文约1200字,建议阅读4分钟本文将使用埃姆斯爱荷华州房屋数据集进行房价分析。在这个例子中,我们将比较使用不同的编码策略来处理分类特征时,HistGradientBoostingRegressor 的训练时间和预测性能。具体来说,我们将评估以下几种方法:删除分类特征;使用 OneHotEncoder;使用 OrdinalEncoder,将分类特征视为有序、等距的量;使用 OrdinalEncoder,并依赖于 HistGradientBoostingRegressor 估计器的原生类别支持。我们将使用埃姆斯爱荷华州房屋数据集进行工作,该数据集包含数值和分类特征,其中房屋销售价格是目标变量。步骤1:加载数据集from sklearn.datasets import fetch_openmlX, y = fetch_openml(data_id=42165, as_frame=True, return_X_y=True)# Select only a subset of features of X to make the example faster to runcategorical_columns_subset = [ "BldgType", "GarageFinish", "LotConfig", "Functi ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照