← 返回首页
第12章 · NLP常用工具与文本挖掘
12.1 分词与词性标注
核心内容:
- 中文分词:将连续的中文文本切分成有意义的词语序列
- 常用分词工具:Jieba、HanLP、SnowNLP等
- 词性标注:为每个词语标注其词性(名词、动词、形容词等)
- 分词算法:基于规则、基于统计、深度学习等方法
分词是中文NLP处理的第一步,直接影响后续任务效果。
12.2 词频统计与TF-IDF
核心内容:
- 词频统计:计算词语在文档中出现的频率
- TF-IDF:衡量词语在文档集合中的重要程度
- TF(词频):词语在文档中出现的次数
- IDF(逆文档频率):衡量词语普遍重要性的指标
- 应用场景:关键词提取、文本相似度计算、搜索引擎
TF-IDF是文本挖掘中最常用的特征提取方法之一。
12.3 文本预处理与停用词
核心内容:
- 文本清洗:去除HTML标签、特殊字符、标点符号等
- 大小写转换:统一文本大小写格式
- 停用词过滤:去除无实际意义的常用词(的、是、在等)
- 文本规范化:数字替换、英文词形还原等
- 预处理流程:直接影响后续NLP任务的质量
文本预处理是NLP任务的基础,能显著提升模型性能。