如果您的应用程序需要非常快速的响应

pappu6327 · Post by **pappu6327** » Sun Feb 16, 2025 4:36 am

那么延迟也可能是长上下文方法的一个限制。例如，您可以看到 Google Gemini 1.5 Flash 的上下文窗口为一百万个令牌，平均第一个块响应时间为 0.39 秒；相比之下，Google Gemini 1.5 Pro 最多可以接受两百万个令牌，但平均响应时间是 Flash 模型的两倍多。

此外，将整个文档包含在上下文窗口中还存在其他缺点，例如，模型更容易被您寻求的关键见解周围的所有不相关信息“分散注意力”。这与位置偏差问题有关，模型的准确性可能因相关信息在文档中的位置而异。例如，当关键见解出现在文档的开头或结尾附近时，模型可能会表现更好，但很难检索埋在中间的关键细节，这可能会导致对长而密集的文本的分析不完整或歪曲。即使是新发布的 OpenAI o1 系列等尖端推理模型也会受到干扰问题的影响，这就是为什么OpenAI 建议在您的提示中包含“仅最相关的信息，以防止模型过度复杂化其响应”。

RAG：一种成熟的方法
RAG 提供了一种替代方法，即专注于有针对性的打击，而不是“煮沸海洋”。RAG技术不会将所有内容都放入模型的上下文窗口中，而是涉及一个信息检索步骤，该步骤可识别文档中最相关的部分，并将其包含在提示中作为模型的附加上下文。这种高效而精确的方法可确保 LLM只关注最有可能准确回答查询的信息。

RAG 方法在文档很长但只有一小部分与当前任务直接相关的场景中尤其有效。RAG 不仅可以减少计算负载（从而减少成本和延迟），还可以提供准确的来源引用并提高模型输出的准确性。在企业应用中，对可信知识库的结果进行事实核查的能力是降低幻觉风险的关键因素，因为在企业应用中，准确性是关键，用户信任至关重要。

评估长上下文模型与 RAG：来自近期研究的见解
为了了解这些方法的实际意义，让我们来看看Salesforce AI Research 最近的一项研究，该研究比罗马尼亚电话号码数据较了长上下文模型与 RAG 的有效性。该研究设计了一个框架来评估每种方法从大量文档中检索精确见解的能力，这项任务类似于大海捞针。

研究人员创建了五个不同的组，他们称之为“干草堆”，每个组由大约 100 份文档组成，其中包含有关各种主题的多个见解。例如，一个主题可能是“如何管理压力”，与该主题相关的见解可能是“深呼吸”、“日常散步”和“冥想”。然后，他们评估了 10 个不同的模型，比较了它们在长上下文和 RAG 设置中的表现。对于长上下文设置，他们在提示中提供了完整的干草堆（约 100,000 个标记），而对于 RAG 设置，他们使用六种不同的检索技术选择了总计约 15,000 个标记的相关块（见下图）。

主要发现
该研究使用两个主要指标来评估这两种方法：覆盖率和引用准确性。

覆盖率是指模型从文档或数据集中检索和包含相关信息的程度。高覆盖率分数表明该模型可以有效捕获广泛的见解或数据点。
另一方面，引用准确性衡量模型引用或将特定信息归因于其来源的准确程度。