实验结果表明,r可以有效解决各种推理问题,并在多个SLM上实现显着的性能提升。例如,在 GSM8K 数据集上,r 将 LLaMA-7B 的精度从 0.5% 提高到 6.9%,将 Mistral-7B 的精度从 6.6% 提高到 8.88%。
一个。生成阶段(MCTS推出):动作空间:r引入了五种类人推理动作来模拟人类在推理过程中的行为: A:建议一步推理。答:建议考虑剩余的步骤。答:提出以下子问题并回答。答:再回答一下子问题。 A5:再次提出问题/子问题。
MCTS搜索:使用MCTS算法根据当前状态和行动空间增量生 马耳他 whatspp 数据 成候选思维路径。奖励函数:设计一个SLM自定义奖励函数,根据推理步骤评估对最终答案的贡献,并指导MCTS树的扩展。为什么这些动作可以帮助模型更好地探索解决方案空间: 多样性:丰富的动作类型可以让模型尝试不同的推理策略,避免陷入固定思维模式。
灵活性:模型可以问题。分解:通过将复杂问题分解为子问题,模型可以逐步求解,降低推理难度。验证:通过再次回答子问题,该模型可以检查子问题的答案是否正确,提高结论的准确性。
B.识别阶段(相互一致性):判别器SLM:使用另一个与目标SLM具有相似能力的SLM作为判别器来评估生成的候选推理轨迹。部分提示:使用候选者推理路径的一部分作为提示,让判别器完成剩余的推理步骤。
一致性检查:将判别器执行的推理步骤与原始路径的一致性进行比较,选择彼此一致的路径作为最终答案。相互一致性有助于模型选择正确的推理路径的原因: 外部验证:判别器充当外部评估器,为模型提供客观反馈,避免模型自身评估出现偏差。
降低难度:通过部分提示,降低判别器判断的难度,增加给出正确答案的概率。群体的智慧:两个SLM之间的相互验证,类似于人类群体中的同行评估,可以更有效地识别正确答案。 C.最终路径选择:计算最终得分:将候选路径的奖励值与终端节点的信任得分相乘,计算最终得分。