今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

以前你可能一直用错「K均值聚类」?

机器学习算法与自然语言处理  · 公众号  ·  · 2018-09-13 08:30
作者:微调地址:https://zhuanlan.zhihu.com/p/34330242聚类算法中的第一门课往往是K均值聚类(K-means),因为其简单高效。本文主要谈几点初学者在使用K均值聚类时需要注意的地方。1. 输入数据一般需要做缩放,如标准化。原因很简单,K均值是建立在距离度量上的,因此不同变量间如果维度差别过大,可能会造成少数变量“施加了过高的影响而造成垄断”。2. 如果输入数据的变量类型不同,部分是数值型(numerical),部分是分类变量(categorical),需要做特别处理。方法1是将分类变量转化为数值型,但缺点在于如果使用独热编码(one hot encoding)可能会导致数据维度大幅度上升,如果使用标签编码(label encoding)无法很好的处理数据中的顺序(order)。方法2是对于数值型变量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照