注册登录

看啥推荐读物

专栏名称: 机器学习算法与自然语言处理

一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

sunwear · 独立女性不工作赚8亿-20240425141012· 昨天

科学家庭育儿 · 全国都在鼻炎、喉咙痛？这种食物是“咳嗽克星” ...· 昨天

sunwear · 前几天在飞机上途径中国南海西沙群岛那一块，下 ...· 2 天前

安天集团 · 安天政企安全产品系列海报丨开发安全检测端产品 ...· 3 天前

sunwear · 他比来的时候体重增加了二斤，因为体内含有子弹 ...· 5 天前

今天看啥 › 专栏 › 机器学习算法与自然语言处理

以前你可能一直用错「K均值聚类」？

机器学习算法与自然语言处理 · 公众号 · · 2018-09-13 08:30

作者：微调地址：https://zhuanlan.zhihu.com/p/34330242聚类算法中的第一门课往往是K均值聚类（K-means），因为其简单高效。本文主要谈几点初学者在使用K均值聚类时需要注意的地方。1. 输入数据一般需要做缩放，如标准化。原因很简单，K均值是建立在距离度量上的，因此不同变量间如果维度差别过大，可能会造成少数变量“施加了过高的影响而造成垄断”。2. 如果输入数据的变量类型不同，部分是数值型（numerical），部分是分类变量（categorical），需要做特别处理。方法1是将分类变量转化为数值型，但缺点在于如果使用独热编码（one hot encoding）可能会导致数据维度大幅度上升，如果使用标签编码（label encoding）无法很好的处理数据中的顺序（order）。方法2是对于数值型变量 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

sunwear · 独立女性不工作赚8亿-20240425141012

昨天

科学家庭育儿 · 全国都在鼻炎、喉咙痛？这种食物是“咳嗽克星”，五一期间备上更安心

昨天

sunwear · 前几天在飞机上途径中国南海西沙群岛那一块，下面肯定是海。但是我往-20240423212529

2 天前

安天集团 · 安天政企安全产品系列海报丨开发安全检测端产品——融川

3 天前

sunwear · 他比来的时候体重增加了二斤，因为体内含有子弹头。-20240421153107

5 天前

江南晚报 · 本科以下请注意！低学历自考专科本科！可免试入学！名额有限！

2 年前

经济日报 · 安之心养老年金保费规模突破100亿元助力“第三支柱”迅猛发展

3 年前

大宗内参 · 我身边的金融圈失业潮 | 半日闲话

4 年前

吴广大大 · 乔布斯的魔力演讲拆书笔记——纸笔策划

4 年前

智联招聘 · 职场中被人怼的时候如何积极回应？

6 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号