《数据聚类小达人——K-Means 算法》任务单
学校:____________
班级:____________
姓名:____________
任务一:小组协作,借助提供的材料和网络,了解如何基于距离度量两个对
象的相似度,完成以下表格。
相似度 原理 代表 应用
基于距离的度
量
基于夹角的度
量
夹角小,相似度
大
余弦相似
度
文档相似度、姿势匹
配
任务二:程序的 38~87行是 50个用户样本数据,90行是初始聚类中心样本
的 id(注意 id 从 0 开始编号),同时代表聚类的数目,即 K 值。请你按照以下
提示修改程序,观察结果,将你的发现记录下来。
1. 将第 90行的[7,17]修改为[7,27,47],即将 K 值从 2改为 3.
2. 在 1 的基础上将第 90 行的[7,27,47]修改为[7,17,27],即将初始的聚类
中心由编号 8、28、48改为编号 8、18、28的用户样本。
3. 在 2的基础上,在第 87行添加异常数据[50,2].
我发现:
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
任务三:查一查,针对初始值选择、K值不确定、异常点等问题,有哪些解决办
法,尝试填写下表。
问题 解决方案
K-means 如何确
定 K 值?
K-means 如何选
取初始中心点?
K-means 如何处
理异常值?