← 返回首页

第13章 · 聚类分析与主题词分析

导航

13.1 KMeans与评估

核心内容：

KMeans算法：基于距离的经典聚类算法
聚类中心：每个簇的中心点，通过迭代更新
距离度量：欧氏距离、余弦相似度等
聚类评估指标：轮廓系数、Calinski-Harabasz指数、Davies-Bouldin指数
K值选择：肘部法则、轮廓分析

KMeans是最常用的无监督学习算法之一，适用于大规模数据集。

13.2 层次聚类

核心内容：

层次聚类：构建树状结构的聚类方法
凝聚式聚类：自底向上合并相似簇
分裂式聚类：自顶向下分割数据集
链接准则：单链接、全链接、平均链接、Ward方法
树状图：可视化聚类过程和结果

层次聚类不需要预先指定聚类数量，能够展示数据的层次结构。

13.3 LDA主题模型

核心内容：

LDA：潜在狄利克雷分配，无监督主题模型
主题分布：每个文档包含多个主题的概率分布
词分布：每个主题包含词汇的概率分布
参数估计：吉布斯采样、变分推断
主题数选择：困惑度、一致性分数

LDA能够从文本集合中自动发现潜在的主题结构。

13.4 案例：学术文献主题分析

核心内容：

数据收集：学术论文摘要或全文
预处理：分词、去停用词、词形还原
特征工程：TF-IDF、词向量表示
主题建模：应用LDA发现研究主题
结果分析：主题可视化、趋势分析、领域洞察

通过完整案例展示聚类和主题模型在实际研究中的应用价值。