在生成答案时,多模 LLM(步骤 4)可以被替换为:
Posted: Sun Mar 02, 2025 10:44 am
如果所有非文本元素以及用户问题都已由问答模型处理(例如,如果这些元素是图像,则为视觉问答模型),则进行常规 LLM(步骤4a );
如果所有元素之前已在嵌入步骤(步骤 2b )中转换为文本,则为常规 LLM(步骤4b ) 。
如果多模式法学硕士 (LLM) 没有涵盖所有目标模式,则这一点尤其必要。
请注意,变体的选择可能因模 克罗地亚 WhatsApp 数据 态而异。例如,在嵌入步骤中,我们可以使用 SIGLIP 作为文本和图像模态的文本图像嵌入模型,同时使用字幕模型作为音频模态。
实际文件面临的实际挑战
即使底层原理非常简单,实施有效的多模式 RAG 流程也可能很困难。让我们回顾一下当源文档是包含文本和图像的 PDF 文档时面临的三个实际挑战及其潜在补救措施。
首先,并非所有图像都有助于回答合理的问题。为了防止检索过程中出现误报,第一步可能涉及根据图像的尺寸丢弃某些图像,因为非常小的图像(如徽标)可能缺乏信息内容。此外,我们可以根据图像的类型(可以通过零样本分类识别)或因为它们不包含任何文本而删除图像。事实上,没有文本的照片和图片可能仅出于美观目的而包含在文档中。
如果所有元素之前已在嵌入步骤(步骤 2b )中转换为文本,则为常规 LLM(步骤4b ) 。
如果多模式法学硕士 (LLM) 没有涵盖所有目标模式,则这一点尤其必要。
请注意,变体的选择可能因模 克罗地亚 WhatsApp 数据 态而异。例如,在嵌入步骤中,我们可以使用 SIGLIP 作为文本和图像模态的文本图像嵌入模型,同时使用字幕模型作为音频模态。
实际文件面临的实际挑战
即使底层原理非常简单,实施有效的多模式 RAG 流程也可能很困难。让我们回顾一下当源文档是包含文本和图像的 PDF 文档时面临的三个实际挑战及其潜在补救措施。
首先,并非所有图像都有助于回答合理的问题。为了防止检索过程中出现误报,第一步可能涉及根据图像的尺寸丢弃某些图像,因为非常小的图像(如徽标)可能缺乏信息内容。此外,我们可以根据图像的类型(可以通过零样本分类识别)或因为它们不包含任何文本而删除图像。事实上,没有文本的照片和图片可能仅出于美观目的而包含在文档中。