余弦相似度

2025 / 6 / 6

余弦相似度(Cosine Similarity)是一种衡量两个向量方向相似度的度量方法,它通过计算两个向量之间的夹角余弦值来评估它们的相似程度。

数学定义:

- 对于两个向量 A 和 B,余弦相似度的计算公式为:

cos(θ) = (A·B) / (||A|| × ||B||)

其中:

  • A·B 是向量的点积

  • ||A|| 和 ||B|| 分别是向量 A 和 B 的模长(欧几里得范数)

特点:

  • 取值范围在 [-1, 1] 之间

  • 1 表示两个向量方向完全相同

  • 0表示两个向量正交(垂直)

  • -1 表示两个向量方向完全相反

应用场景:

  • 文本相似度计算

  • 推荐系统

  • 图像识别

  • 自然语言处理

  • 信息检索

优势:

  • 不受向量长度影响,只关注方向

  • 计算简单高效

  • 对高维数据表现良好

  • 结果直观,易于理解

局限性:

  • 不考虑向量的长度差异

  • 对噪声数据敏感

  • 在某些情况下可能不如其他相似度度量方法(如欧氏距离)准确

余弦相似度在机器学习和数据挖掘领域是一个非常重要的工具,特别是在处理文本数据时,它能够有效地衡量文档之间的相似程度。