2025 / 6 / 6
余弦相似度(Cosine Similarity)是一种衡量两个向量方向相似度的度量方法,它通过计算两个向量之间的夹角余弦值来评估它们的相似程度。
- 对于两个向量 A 和 B,余弦相似度的计算公式为:
cos(θ) = (A·B) / (||A|| × ||B||)
其中:
A·B 是向量的点积
||A|| 和 ||B|| 分别是向量 A 和 B 的模长(欧几里得范数)
取值范围在 [-1, 1] 之间
1
表示两个向量方向完全相同
0
表示两个向量正交(垂直)
-1
表示两个向量方向完全相反
文本相似度计算
推荐系统
图像识别
自然语言处理
信息检索
不受向量长度影响,只关注方向
计算简单高效
对高维数据表现良好
结果直观,易于理解
不考虑向量的长度差异
对噪声数据敏感
在某些情况下可能不如其他相似度度量方法(如欧氏距离)准确
余弦相似度在机器学习和数据挖掘领域是一个非常重要的工具,特别是在处理文本数据时,它能够有效地衡量文档之间的相似程度。