2025 / 6 / 6
TF-IDF(Term Frequency-Inverse Document Frequency),词频-逆文档频率,是一种用于文本挖掘和信息检索的统计方法,用于评估一个词语对于一个文档集合中的某篇文档的重要程度。
衡量一个词在文档中出现的频率
计算公式:TF(t,d) = f(t,d) / ∑k f(k,d)
f(t,d) 是词t在文档d中出现的次数
分母是文档d中所有词的出现次数之和
衡量一个词的普遍重要性
计算公式:IDF(t) = log(N/DF(t))
N 是文档集合中的文档总数
DF(t) 是包含词t的文档数量
最终权重 = TF × IDF
这个值越大,表示该词对文档越重要
TF-IDF的主要特点:
能够过滤掉常见的词语(如"的"、"是"等)
突出显示对文档有特殊意义的词语
在搜索引擎、文本分类、关键词提取等领域广泛应用