← 返回首页

第12章 · NLP常用工具与文本挖掘

导航

12.1 分词与词性标注

核心内容：

中文分词：将连续的中文文本切分成有意义的词语序列
常用分词工具：Jieba、HanLP、SnowNLP等
词性标注：为每个词语标注其词性（名词、动词、形容词等）
分词算法：基于规则、基于统计、深度学习等方法

分词是中文NLP处理的第一步，直接影响后续任务效果。

12.2 词频统计与TF-IDF

核心内容：

词频统计：计算词语在文档中出现的频率
TF-IDF：衡量词语在文档集合中的重要程度
TF（词频）：词语在文档中出现的次数
IDF（逆文档频率）：衡量词语普遍重要性的指标
应用场景：关键词提取、文本相似度计算、搜索引擎

TF-IDF是文本挖掘中最常用的特征提取方法之一。

12.3 文本预处理与停用词

核心内容：

文本清洗：去除HTML标签、特殊字符、标点符号等
大小写转换：统一文本大小写格式
停用词过滤：去除无实际意义的常用词（的、是、在等）
文本规范化：数字替换、英文词形还原等
预处理流程：直接影响后续NLP任务的质量

文本预处理是NLP任务的基础，能显著提升模型性能。