TF-IDF算法

2025 / 6 / 6

TF-IDF(Term Frequency-Inverse Document Frequency),词频-逆文档频率,是一种用于文本挖掘和信息检索的统计方法,用于评估一个词语对于一个文档集合中的某篇文档的重要程度。

TF (Term Frequency,词频):

衡量一个词在文档中出现的频率

计算公式:TF(t,d) = f(t,d) / ∑k f(k,d)

  • f(t,d) 是词t在文档d中出现的次数

  • 分母是文档d中所有词的出现次数之和

IDF (Inverse Document Frequency,逆文档频率):

衡量一个词的普遍重要性

计算公式:IDF(t) = log(N/DF(t))

  • N 是文档集合中的文档总数

  • DF(t) 是包含词t的文档数量

TF-IDF权重:

最终权重 = TF × IDF

这个值越大,表示该词对文档越重要

TF-IDF的主要特点:

  • 能够过滤掉常见的词语(如"的"、"是"等)

  • 突出显示对文档有特殊意义的词语

  • 在搜索引擎、文本分类、关键词提取等领域广泛应用