TF-IDF算法

2025 / 6 / 6

TF-IDF（Term Frequency-Inverse Document Frequency），词频-逆文档频率，是一种用于文本挖掘和信息检索的统计方法，用于评估一个词语对于一个文档集合中的某篇文档的重要程度。

衡量一个词在文档中出现的频率

计算公式：TF(t,d) = f(t,d) / ∑k f(k,d)

衡量一个词的普遍重要性

计算公式：IDF(t) = log(N/DF(t))

最终权重 = TF × IDF

这个值越大，表示该词对文档越重要

TF-IDF的主要特点：