看啥推荐读物
专栏名称: 爱数据LoveData
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
今天看啥  ›  专栏  ›  爱数据LoveData

数据分析案例分享:1个完整的聚类分析怎么做?

爱数据LoveData  · 公众号  · BI  · 2024-03-22 09:38
来  源:知乎/作  者:求知鸟这篇文章从对聚类的感性认识到聚类算法的实现:k个初始中心点的选择,中心点的迭代,直到算法收敛得到聚类结果。但有几个问题需要回答:如何判断数据是否适合聚类?k类是如何确定的?遇到数据集小的时候,如何得到直观的聚类图?遇到非凸集数据,聚类要如何实现?先看一幅以R语言绘制的图,适合聚类吗?> library(fMultivar)> set.seed(1234)> df> df> plot(df,main="bivariable normal distribution with rho=0.5")显然,这幅图中的数据不适合聚类!因为数据是从相关系数为0.5的正态分布中抽取了1000个观测值!如果采用中心点的聚类方法PAM,那么情况是否一致???> library(cluster)> library(ggplot2)> fit> df$clustering>ggplot(data=df,aes(x=V1,y=V2,color=clustering,shape=clustering))+geom_point()+ggtitle("clustering of Bivariate normal data")> plot(nc$All.index[,4],type="o",ylab="CCC",xlab= ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照