← 返回首页
第13章 · 聚类分析与主题词分析
13.1 KMeans与评估
核心内容:
- KMeans算法:基于距离的经典聚类算法
- 聚类中心:每个簇的中心点,通过迭代更新
- 距离度量:欧氏距离、余弦相似度等
- 聚类评估指标:轮廓系数、Calinski-Harabasz指数、Davies-Bouldin指数
- K值选择:肘部法则、轮廓分析
KMeans是最常用的无监督学习算法之一,适用于大规模数据集。
13.2 层次聚类
核心内容:
- 层次聚类:构建树状结构的聚类方法
- 凝聚式聚类:自底向上合并相似簇
- 分裂式聚类:自顶向下分割数据集
- 链接准则:单链接、全链接、平均链接、Ward方法
- 树状图:可视化聚类过程和结果
层次聚类不需要预先指定聚类数量,能够展示数据的层次结构。
13.3 LDA主题模型
核心内容:
- LDA:潜在狄利克雷分配,无监督主题模型
- 主题分布:每个文档包含多个主题的概率分布
- 词分布:每个主题包含词汇的概率分布
- 参数估计:吉布斯采样、变分推断
- 主题数选择:困惑度、一致性分数
LDA能够从文本集合中自动发现潜在的主题结构。
13.4 案例:学术文献主题分析
核心内容:
- 数据收集:学术论文摘要或全文
- 预处理:分词、去停用词、词形还原
- 特征工程:TF-IDF、词向量表示
- 主题建模:应用LDA发现研究主题
- 结果分析:主题可视化、趋势分析、领域洞察
通过完整案例展示聚类和主题模型在实际研究中的应用价值。