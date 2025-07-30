无论是预测句子中的下一个单词，还是建议附近的吃饭地点，塑造我们数字生活的许多系统都依赖于衡量相似性。推荐引擎和大型语言模型 (LLM) 等技术使用余弦相似度来识别哪些内容最相关，哪些响应最“有意义”。

这些结论通过分析高维稀疏数据集中数据点间的关系得出。在经典文本分析中，文档常通过词频-逆文档频率 (tf-idf) 等技术转化为数值表示——这是词袋 (BoW) 模型的高级形式。BoW 统计词条在文档中出现的频率，而 tf-idf 则根据该词条在更大数据集中的常见或罕见程度对该频率进行加权调整。

更先进的系统使用神经网络生成向量嵌入，即数据点以数字表示，将不同类型的数据表示为数字数组。例如，“医生”和“护士”等词可能在向量空间中出现得非常靠近，这意味着该模型会将它们视为相关的。这些嵌入通常会经过额外的步骤，例如主成分分析 (PCA)，以使大规模比较更快、更高效。

两种方法中，余弦相似度都用于度量向量间的方向契合度，帮助系统识别复杂数据集中的模式和关联。 在自然语言处理、人工智能和数据科学领域，余弦相似度核心应用于：