来源:Coggle数据科学本文约1200字,建议阅读4分钟本文将使用埃姆斯爱荷华州房屋数据集进行房价分析。在这个例子中,我们将比较使用不同的编码策略来处理分类特征时,HistGradientBoostingRegressor 的训练时间和预测性能。具体来说,我们将评估以下几种方法:删除分类特征;使用 OneHotEncoder;使用 OrdinalEncoder,将分类特征视为有序、等距的量;使用 OrdinalEncoder,并依赖于 HistGradientBoostingRegressor 估计器的原生类别支持。我们将使用埃姆斯爱荷华州房屋数据集进行工作,该数据集包含数值和分类特征,其中房屋销售价格是目标变量。步骤1:加载数据集from sklearn.datasets import fetch_openmlX, y = fetch_openml(data_id=42165, as_frame=True, return_X_y=True)# Select only a subset of features of X to make the example faster to runcategorical_columns_subset = [ "BldgType", "GarageFinish", "LotConfig", "Functi
………………………………