自洽性改进语言模型中的链式思维推理

结合链式思维提示与预训练大型语言模型在复杂推理任务上取得了令人鼓舞的结果。本文提出了一种新的解码策略——自洽性，以替代链式思维提示中使用的简单贪婪解码。该方法首先采样一组多样化的推理路径，而不是仅选择最优路径，然后通过边际化这些采样的推理路径来选择最一致的答案。自洽性利用了这样一个直觉：复杂的推理问题通常有多种不同的思考方式可以得出其唯一的正确答案。

Paper易论

1285人浏览 · 2025-03-05 07:00:21

Paper易论 · 2025-03-05 07:00:21 发布

结合链式思维提示与预训练大型语言模型在复杂推理任务上取得了令人鼓舞的结果。本文提出了一种新的解码策略—— 自洽性 ，以替代链式思维提示中使用的简单贪婪解码。该方法首先采样一组多样化的推理路径，而不是仅选择最优路径，然后通过边际化这些采样的推理路径来选择最一致的答案。自洽性利用了这样一个直觉：复杂的推理问题通常有多种不同的思考方式可以得出其唯一的正确答案。我们广泛的实证评估表明，在一系列流行的算术和常识推理基准测试中，自洽性显著提高了链式思维提示的性能，例如在GSM8K（+17.9%）、SVAMP（+11.0%）、AQuA（+12.2%）、StrategyQA（+6.4%）和ARC-challenge（+3.9%）。

尽管语言模型在一系列自然语言处理任务中表现出色，但它们在推理能力方面常被视为一个局限，这一局限无法仅通过增加模型规模来克服。 (Rae等，2021；BIG-bench协作，2021等) 。为了应对这一不足， Wei等（2022）提出了 链式思维提示 ，即通过提示语言模型生成一系列短句，模拟人们解决任务时可能采用的推理过程。例如，对于问题 “如果停车场里已经有3辆车，再来了2辆车，停车场里有多少辆车？” ，不直接回答 “5” ，而是提示模型给出整个链式思维： “停车场里已经有3辆车。又来了2辆。现在有3 + 2 = 5辆车。答案是5。” 。已经观察到，链式思维提示显著改善了多步推理任务上的模型性能 (Wei等，2022) 。

本文引入了一种新的解码策略，称为 自洽性 ，以替代链式思维提示中使用的贪婪解码策略，从而大幅提升了语言模型的推理性能。自洽性利用了这样的直觉：复杂的推理任务通常有多种推理路径可以得出正确的答案 (Stanovich和West，2000) 。一个问题需要更深入的思考和分析时，可以恢复答案的推理路径多样性更大 (Evans，2010) 。

图1 用一个例子说明了自洽性方法。我们首先使用链式思维提示提示语言模型，然后不是贪婪地解码最佳推理路径，而是提出了一种“采样-边缘化”的解码程序：我们首先从语言模型的解码器中采样，以生成一组 多样化的 推理路径；每条推理路径可能会导致不同的最终答案，因此我们通过 边缘化 采样的推理路径来确定最终答案集中最一致的答案。这种方法类似于人类的经验，即如果多种不同的思考方式得出相同的答案，则更有信心最终答案是正确的。与其他解码方法相比，自洽性避免了贪婪解码的重复性和局部最优性，同时缓解了单一采样生成的随机性。

自洽性方法包含三个步骤：（1）使用链式思维（CoT）提示提示语言模型；（2）用采样替换CoT提示中的“贪婪解码”，以生成一组多样化的推理路径；（3）通过选择最终答案集中最一致的答案来边缘化推理路径并汇总。

自洽性比以前的方法简单得多，后者要么训练额外的验证器 (Cobbe等，2021) ，要么使用额外的人类注释训练重排序器以提高生成质量 (Thoppilan等，2022) 。相反，自洽性完全 无监督 ，无需额外的人类注释，也无需任何额外的训练、辅助模型或微调，即可与预训练的语言模型配合使用。自洽性不同于典型的集成方法，其中多个模型经过训练，每个模型的输出被聚合，它更像是基于单个语言模型的“自我集成”。我们在四个不同规模的语言模型上对自洽性进行了评估，结果表明，自洽性在所有任务上都显著优于链式思维提示。特别是，当与PaLM-540B或GPT-3一起使用时，自洽性在算术推理任务上实现了新的最先进水平，包括GSM8K (Cobbe等，2021) （+17.9%绝对准确率提升），SVAMP (Patel，Bhattamishra和Goyal，2021) (+11.0%)，AQuA (Ling等，2017) (+12.2%)，以及常识推理任务如StrategyQA (Geva等，2021) (+6.4%)和ARC-challenge (P.Clark等，2018) (+3.9%)。在其他实验中，我们还展示了自洽性可以在某些NLP任务中稳健地提升性能，即使在这种情况下添加链式思维可能比标准提示更差 (Ye和Durrett，2022) 。我们还展示了自洽性明显优于采样和排名、波束搜索和基于集成的方法，并且对采样策略和不完美的提示具有鲁棒性。

2 多样化推理路径上的自洽性

人性的一个显著特点是人们思考方式不同。可以假设，在需要深思熟虑的任务中，很可能有几种解决问题的方式。我们建议可以通过从语言模型的解码器中采样来在语言模型中模拟此过程。例如，如图1 所示，模型可以为数学问题生成几个合理的回答，这些回答都得出了相同的正确答案（输出1和3）。由于语言模型并非完美推理者，模型可能会产生错误的推理路径或在某一步推理中出错（例如在输出2中），但此类解决方案不太可能得到相同的答案。也就是说，我们假设即使多样化的正确推理过程在最终答案上往往比错误的过程更一致。

自洽性探索了开放文本生成和具有固定答案的最佳文本生成之间有趣的空间。推理任务通常有固定答案，这就是为什么研究人员普遍考虑贪婪解码方法的原因 (Radford等，2019；Wei等，2022；Chowdhery等，2022) 。然而，我们发现，即使期望的答案是固定的，引入推理过程的多样性也可以带来巨大益处；因此我们利用采样，正如在开放文本生成中常用的那样 (Radford等，2019；Brown等，2020；Thoppilan等，2022) , 以实现这一目标。应注意，自洽性只能应用于最终答案来自固定答案集的问题，但在原则上，如果可以定义多个生成之间的良好一致性度量（例如，两个答案是否一致或矛盾），则可以将其扩展到开放文本生成问题。

3 实验

我们进行了一系列实验，比较所提出的自洽性方法与现有方法在各种推理基准上的表现。我们发现在每种语言模型上，自洽性都能稳健地提高推理准确性，涵盖广泛的不同规模的模型。

3.1 实验设置

3.1.0.1 任务和数据集。

我们在以下推理基准上评估自洽性。 3

算术推理 。对于这些任务，我们使用Math Word Problem Repository (Koncel-Kedziorski等，2016) , 包括AddSub (Hosseini等，2014) 、MultiArith (Roy和Roth，2015) 和ASDiv (Miao，Liang和Su，2020) 。还包括AQUA-RAT (Ling等，2017) , 最近发布的年级学校数学问题基准测试 (GSM8K；Cobbe等，2021) , 以及数学文字问题挑战数据集 (SVAMP；Patel，Bhattamishra和Goyal，2021) 。
常识推理 。对于这些任务，我们使用CommonsenseQA (Talmor等，2019) 、StrategyQA (Geva等，2021) 和AI2 Reasoning Challenge (ARC) (P.Clark等，2018) 。
符号推理 。我们评估了两个符号推理任务：最后一个字母连接（例如输入是“Elon Musk”，输出应该是“nk”），以及硬币翻转（例如硬币朝上，几次翻转后硬币是否仍然朝上？）来自 (Wei等，2022) 。
3.1.0.2语言模型和提示。
我们在四个不同规模的基于Transformer的语言模型上评估了自洽性：
UL2 (Tay等，2022) 是一个带有去噪混合训练的编码器-解码器模型，具有200亿参数。UL2完全开源 4 ，并且在零样本SuperGLUE上的性能与GPT-3相当，只有200亿参数，因此更节省计算资源；
GPT-3 (Brown等，2020) 具有1750亿参数。我们使用Codex系列中的两个公共引擎 code-davinci-001 和 code-davinci-002 以帮助重现结果。 5
LaMDA-137B (Thoppilan等，2022) 是一 ------个具有1370亿参数的密集左到右、仅解码器的语言模型，预训练于混合的网页文档、对话数据和维基百科；
PaLM-540B (Chowdhery等，2022) 是一个具有5400亿参数的密集左到右、仅解码器的语言模型，预训练于包含7800亿标记的高质量语料库，包括过滤后的网页、书籍、维基百科、新闻文章、源代码和社会媒体对话。

我们在少样本设置中执行所有实验，不对语言模型进行训练或微调。为了公平比较，我们使用了与 Wei等（2022）相同的提示：对于所有算术推理任务，我们使用同一组8个手动编写的示例；对于每个常识推理任务，从训练集中随机选择4-7个带有手动编写的链式思维提示的示例。 6 有关所用提示的完整详细信息，请参见附录 6.3 。

3.1.0.3 采样方案。

3.2 主要结果

我们报告了自洽性的平均结果，基于10次运行，每次运行从解码器中独立采样40个输出。我们比较的基线是结合贪婪解码的链式思维提示 (Wei等，2022) , 称为 CoT-prompting , 该方法之前已用于大型语言模型的解码 (Chowdhery等，2022) 。

3.2.0.1 算术推理

结果如表 [tab:sota] 所示。 7 自洽性在 所有四个语言模型 上的算术推理性能显著优于链式思维提示。更令人惊讶的是，当语言模型规模增加时，收益变得更加显著，例如，在UL2-20B上绝对准确率提高了+3%-6%，而在LaMDA-137B和GPT-3上则提高了+9%-23%。对于已经在一个大多数任务上达到高准确率的较大模型（例如GPT-3和PaLM-540B），自洽性仍然贡献了显著的额外增益，在AQuA和GSM8K等任务上实现了+12%-18%的绝对准确率提升，在SVAMP和ASDiv上实现了+7%-11%的提升。借助自洽性，我们在几乎所有任务上都达到了新的最先进水平：尽管自洽性是无监督且任务无关的，但这些结果与需要任务特定训练或使用数千个示例微调的方法相当。

3.2.0.2 常识和符号推理

表 [tab:commonsense] 显示了常识和符号推理任务的结果。同样，自洽性在所有四个语言模型上都获得了显著的增益，并在6个任务中的5个上取得了最先进水平。对于符号推理，我们在输入提示中包含2个字母或2次翻转的例子，但在测试中使用4个字母和4次翻转的例子（这种设置更具挑战性，因为PaLM-540B或GPT-3已经可以在分布内获得完美的准确性）。在这种具有挑战性的OOD设置下，自洽性的增益相比CoT-prompting仍然非常显著，尤其是在模型规模足够大的情况下。

为了展示采样推理路径数量的影响，我们在图 2 中绘制了随着不同数量的采样路径变化的准确性（均值和标准差，基于10次运行）。结果显示，采样更高数量（例如40）的推理路径可以持续提高性能，进一步强调了引入多样化推理路径的重要性。在表 [tab:example_path] 中，我们展示了自洽性比贪婪解码产生更丰富的推理路径，并通过两个任务中的几个例子进行了说明。

自洽性（蓝色）在算术和常识推理任务上显著提高了准确性，超过了使用贪婪解码的CoT-prompting（橙色）。在LaMDA-137B上，采样更多样化的推理路径能持续提高推理准确性。

to 1 &GSM8K & StrategyQA
问题 & 亨利在他的60英里自行车旅行中做了两次停留。他第一次停在20英里处。他的第二次停在离终点15英里的地方。他在第一次和第二次停留之间行驶了多少英里？ & 是或否：亚特兰大，乔治亚州是美国人口最多的亚特兰大吗？
贪婪解码 & 他总共行驶了60英里。他在20英里处停下来，所以他在这两次停留之间行驶了 60 - 20 = 40英里。答案是 40 . & 亚特兰大，乔治亚州是美国人口最多的亚特兰大 . 因此，答案是是 .
采样路径1 & 亨利总共行驶了60英里。他第一次停在20英里处，第二次停在离终点15英里的地方。因此在他第一次和第二次停留之间，他行驶了60 - 20 - 15 = 25英里 . 答案是 25 . & 美国人口最多的亚特兰大是纽约的亚特兰大 . 因此，亚特兰大，乔治亚州不是美国人口最多的亚特兰大。所以答案是否 .
采样路径2 & 他在60英里的旅程中做了两次停留。第一次是在行程的20英里处。第二次是在距离行程结束15英里的地方。这意味着第二次停留是在行程的60 - 15 = 45英里处 . 由于他是按顺序停留的，第二次停留必须是在第一次停留之后的45 - 20 = 25英里 . 答案是 25 . & 亚特兰大，乔治亚州的人口约为88,000人。纽约的亚特兰大人口约为95,000人 . 因此，亚特兰大，乔治亚州不是美国人口最多的亚特兰大。所以答案是否 .

3.3 当链式思维损害性能时，自洽性有所帮助

Ye和Durrett（2022）显示，有时链式思维提示可能会在少样本上下文学习中损害性能，与标准提示相比。在这里，我们使用自洽性进行研究，以查看它是否可以帮助弥补差距，涵盖一组常见的NLP任务，包括（1）闭卷问答：BoolQ (C.Clark等，2019) 、HotpotQA (Yang等，2018) , 和（2）自然语言推理：e-SNLI (Camburu等，2018) 、ANLI (Nie等，2020) 和RTE (Dagan，Glickman和Magnini，2005；Bar-Haim等，2006；Giampiccolo等，2007；Bentivogli等，2009) 。

表 2 显示了PaLM-540B上的结果。对于某些任务（例如ANLI-R1、e-SNLI、RTE），添加链式思维确实会损害与标准提示相比的性能 (Brown等，2020) , 但自洽性能够稳健地提升性能并超过标准提示，使其成为在少样本上下文学习中为常见NLP任务添加推理依据的一种可靠方法。

3.4 与其他现有方法的比较

我们进行了一系列附加研究，表明自洽性显著优于现有的方法，包括采样和排名、波束搜索和基于集成的方法。

3.4.0.1 与采样和排名的比较

一种常用的改进生成质量的方法是采样和排名，即从解码器中采样多个序列，然后根据每个序列的日志概率对其进行排名 (Adiwardana等，2020) 。我们在GPT-3 code-davinci-001 上将自洽性与采样和排名进行了比较，采样的序列数量与自洽性相同，并从最高排名的序列中取最终答案。结果如图 3 所示。虽然采样和排名确实通过额外的采样序列和排名提高了准确性，但其增益远小于自洽性。

自洽性在相同数量的样本上显著优于采样和排名。

3.4.0.2 与波束搜索的比较

在表 3 中，我们将自洽性与UL2-20B模型上的波束搜索解码进行了比较。为了公平比较，我们在相同数量的波束和推理路径下报告准确性。在两项任务中，自洽性都显著优于波束搜索。请注意，自洽性也可以采用波束搜索来解码每个推理路径（结果显示为“使用波束搜索的自洽性”），但其性能不如使用采样的自洽性好。原因是波束搜索会导致输出多样性较低 (Li和Jurafsky，2016) , 而在自洽性中，推理路径的多样性是更好性能的关键。

3.4.0.3 与集成方法的比较

3.5 其他研究

我们进行了多项附加实验，以分析自洽性方法的不同方面，包括其对采样策略和参数的鲁棒性，以及在不完美提示和非自然语言推理路径下的表现。

3.5.0.1 自洽性对采样策略和规模具有鲁棒性

GSM8K准确性。（左）自洽性对各种采样策略和参数具有鲁棒性。（右）自洽性在不同规模的语言模型上提高了性能。

3.5.0.2 自洽性提高了对不完美提示的鲁棒性

此外，我们发现一致性（即解码结果与最终聚合答案一致的比例）与准确性高度相关（图 5 , 针对GSM8K）。这表明可以使用自洽性为模型生成的解决方案提供一个 不确定性估计 。换句话说，可以用低一致性作为模型低置信度的指标；即自洽性使模型能够在某种程度上“知道自己不知道”。

3.5.0.3 自洽性适用于非自然语言推理路径和零样本CoT

我们还测试了自洽性概念在替代形式的中间推理（如公式）中的通用性，例如从“ 停车场里已经有3辆车。又来了2辆。现在有3 + 2 = 5辆车。 ”变为“ 3 + 2 = 5 ”。结果显示在表 [tab:robustness] （“带有公式的提示”）中：自洽性仍然通过生成中间公式来提高准确性；然而，与生成自然语言推理路径相比，增益较小，因为公式较短，解码过程中生成多样性的机会较少。此外，我们在零样本链式思维 (Kojima等 2022) 中测试了自洽性，并在表 [tab:robustness] 中展示了自洽性对零样本CoT同样有效，并显著提高了结果（+26.2%）。

4 相关工作

4.0.0.1 语言模型中的推理

语言模型在Type 2任务（如算术、逻辑和常识推理）中表现不佳 (Evans 2010) 。以前的工作主要集中在 专门化 的改进推理方法上 (Andor等 2019; Ran等 2019; Geva, Gupta和Berant 2020; Piękos, Malinowski和Michalewski 2021) 。与之前的工作相比，自洽性适用于广泛的推理任务，无需任何额外的监督或微调，同时显著改进了 Wei等（2022）提出的链式思维提示方法。

4.0.0.2 语言模型中的采样和重排序

重排序是另一种常见的提高语言模型生成质量的方法 (Adiwardana等 2020; Shen等 2021) 。 Thoppilan等（2022）收集了额外的人类注释以训练重排序器进行响应过滤。 Cobbe等（2021）训练了一个“验证器”以重新排序生成的解决方案，与仅微调语言模型相比，这大大提高了数学任务的解决率。 Elazar等（2021）通过在预训练中引入额外的一致性损失，改进了事实知识提取的一致性。所有这些方法都需要训练额外的重排序器或收集额外的人类注释，而自洽性则不需要额外的训练、微调或数据收集。

4.0.0.3 提取推理路径

一些先前的工作考虑了特定任务的方法来识别推理路径，例如构造语义图 (Xu等 2021) , 在维基百科图上学习RNN以检索推理路径 (Asai等 2020) , 使用人工标注的推理路径对数学问题进行微调 (Cobbe等 2021) , 或通过基于启发式的伪推理路径训练提取器 (J. Chen, Lin和Durrett 2019) 。最近的研究注意到推理过程中的多样性的重要性，但只通过特定任务的训练加以利用，例如通过在提取的推理路径上添加QA模型 (J. Chen, Lin和Durrett 2019) , 或通过在常识知识图中引入潜在变量 (Yu等 2022) 。与这些方法相比，自洽性要简单得多且不需要额外的训练。我们提出的方法只是通过从解码器采样将推理路径和最终答案的生成结合起来，使用聚合方法在没有额外模块的情况下恢复最一致的答案。

4.0.0.4 语言模型中的一致性

一些先前的工作表明，语言模型在对话 (Adiwardana等 2020) 、解释生成 (Camburu等 2020) 和事实知识提取 (Elazar等 2021) 中可能存在不一致性。 (Welleck等 2020) 使用“一致性”指代循环语言模型中生成无限长度序列的情况。 (Nye等 2021) 通过添加基于系统2的逻辑推理模块来提高系统1模型样本的逻辑一致性。本文聚焦于一种略有不同的“一致性”概念，即利用不同推理路径之间的答案一致性来提高准确性。

5 结论与讨论

我们介绍了一种简单而有效的方法，称为自洽性，并观察到它在四个不同规模的大规模语言模型上显著提高了算术和常识推理任务的准确性。除了准确性提升外，自洽性还有助于在执行推理任务时收集语言模型的推理依据，并为语言模型输出提供不确定性估计和改进校准。

自洽性的一个局限是它会增加计算成本。实际上，人们可以从少量路径（例如5或10条）开始，以实现大部分增益，同时不会增加过多成本，因为在大多数情况下性能很快就会饱和（图 2 )。作为未来的工作，可以使用自洽性生成更好的监督数据以微调模型，使得模型在微调后可以在单次推理运行中给出更准确的预测。此外，我们注意到语言模型有时会生成不正确或无意义的推理路径（例如表 [tab:example_path] 中的StrategyQA示例，两个人口数字并不完全正确），需要进一步的工作来更好地锚定模型的推理依据。

可重现性声明

在实验中，我们包含了四个不同规模的语言模型。其中两个是公开模型：UL2是一个完全开源的模型，模型检查点可在 https://github.com/google-research/google-research/tree/master/ul2 ; GPT-3也是一个公开模型，公共API可在 https://openai.com/api/ . 对于GPT-3，我们包含了两个公共引擎（“code-davinci-001”和“code-davinci-002”）以进一步帮助重现结果，因为Codex目前是免费的，任何人都可以重现结果。此外，由于我们的结果使用了LaMDA-137B和PaLM-540B这两个未公开的模型，我们在附录 6.3 中提供了所有任务的确切输入提示（请注意，我们没有进行任何微调，只对现成的语言模型进行提示）。

伦理声明

正如我们在讨论中所述，语言模型有时会生成无意义或不符合事实的推理路径，因此应谨慎使用语言模型的输出。我们主要处理推理任务，生成的推理依据仅用于检查模型如何得出答案。可以使用生成的推理依据进一步检查模型为何犯错或模型在执行特定任务时是否包含任何偏见。对于实际应用中的语言模型，需要进一步的工作来更好地锚定模型的预测并提高其真实性和安全性，以确保模型不会对用户造成伤害。

6 附录

6.1 附加实验结果

6.1.1 对采样策略和参数的鲁棒性

GSM8K准确性在LaMDA-137B上的变化。自洽性在各种采样策略和参数下均有效。

在图 6 和图 7 中，我们分别展示了自洽性与LaMDA-137B和PaLM-540B上贪婪解码单路径的结果。自洽性在这两个模型上都显著优于贪婪解码，即使在扩大模型规模已经取得高准确率的基础上。

自洽性（蓝色）显著提高了LaMDA-137B上各种算术和常识推理任务的准确性。采样更多样化的推理路径持续改善推理准确性。

自洽性（蓝色）显著提高了PaLM-540B上各种算术和常识推理任务的准确性。采样更多样化的推理路径持续帮助推理准确性。

我们在表 9 中进一步展示了来自LaMDA-137B模型的其他采样推理路径，在表 10 中展示了来自PaLM-540B模型的采样推理路径。我们看到，额外采样的推理路径中的多样性确实有助于模型在聚合后得到更正确的最终答案。

6.1.2 不同提示集的鲁棒性

在表 6 中，我们进一步展示了自洽性对不同输入提示集的鲁棒性。我们手动编写了三组不同的链式思维作为模型的提示。在所有提示集中，自洽性始终比原始CoT方法获得更大的增益。

6.1.3 与模型集成的比较

此外，我们提供了直接集成多个语言模型输出的结果。结果如表 7 所示，通过对3个语言模型进行贪婪解码并取多数投票（平均10次运行）。请注意，这是一个典型的集成方法（对多个模型的预测进行平均），其性能明显低于自洽性（自洽性在PaLM-540B上的准确率为74.4%），因为较低容量的模型拖累了较高容量模型的性能。此外，这种方法有两个局限：1) 它需要多个模型进行集成，而这可能并不总是可用的，而自洽性只需要一个单一模型进行“自我集成”；2) 如果其中一个模型较弱，可能会损害最终性能。

6.1.4 与其他集成策略结合

自洽性完全兼容其他集成策略，尽管自洽性获得的增益显著高于其他集成策略（并且可以“覆盖”其他集成策略获得的性能增益）。我们在表 8 中进行了实验并包含结果（为了公平比较，我们使用40组提示或40种提示排列来与自洽性使用40条路径进行比较，所有实验均基于PaLM-540B）。

6.2 资源和推理的详细信息

对于所有四个语言模型，我们仅执行基于提示的推理。对于UL2，我们使用TPU v3（2x2配置，4芯片，8核心）。对于GPT-3模型，实验是通过公共API完成的。 10 对于LaMDA-137B，我们使用TPU v3（8x8配置，64芯片，128核心）。对于PaLM-540B，我们使用TPU v4（4x4x12配置，192芯片，384核心）。大多数推理作业在每个任务上大约需要1到4小时（约1,000个例子），对于UL2和LaMDA-137B，而在PaLM-540B上大约需要2到12小时。有些任务（例如常识推理）耗时更长，但不超过两天。

对于GPT-3模型，我们为所有方法设置最大标记数为128，不使用频率惩罚或存在惩罚。对于所有模型，我们解析生成的输出直到下一个“Q:”开始以获取最终答案，保持与提示格式一致。

6.3 完整提示集

我们在表 11 和表 12 中列出了新引入的数据集AQUA-RAT (Ling等，2017) 和AI2 Reasoning Challenge (ARC) (P.Clark等，2018) 的少样本示例，这些示例链式思维是我们在这篇论文中手动编写的。

作为附加信息，我们还列出了所有算术推理任务的确切提示集，因为 (Wei等，2022) 中引入了多组提示。CommonsenseQA和StrategyQA的提示与 (Wei等，2022) 中使用的相同。

我们在以下表格中提供了常见NLP任务的确切提示，包括自然语言推理（表 14 、表 15 、表 16 ) 和闭卷问答任务（表 13 、表 17 )。

解析器取决于任务。对于算术推理，我们在模型生成“答案是”之后解析第一个数值部分作为最终答案。对于常识推理，我们在模型生成“答案是”之后解析完整的字符串答案。如果以这种方式提示语言模型，大多数生成的输出具有“{推理路径}。答案是X。”的一致格式。 ↩︎
这也意味着语言模型未经过良好校准，因此无法很好地区分正确解决方案和错误解决方案，这也可以解释为什么以前的工作训练了额外的重排序器来更好地判断解决方案的质量 (Cobbe等 2021；Thoppilan等 2022) 。 ↩︎
默认情况下，我们使用所有数据集的测试拆分进行评估（如果有标签可用于评估）。对于CommonsenseQA，我们使用开发拆分；对于StrategyQA，我们使用仅包含问题的集合来自 (BIG-bench协作 2021) : https://github.com/google/BIG-bench/tree/main/bigbench/benchmark_tasks/strategyqa 。 ↩︎
模型检查点位于 https://github.com/google-research/google-research/tree/master/ul2 。 ↩︎
公共API可在 https://openai.com/api/ . ↩︎
自洽性对不同提示集具有鲁棒性，我们在附录 6.1.2 中提供了研究。 ↩︎
自洽性的标准差在所有任务中均小于等于0.5，因此在表格中省略。请参阅图 2 、图 6 和图 7 , 以了解不同采样路径数量下的标准差。 ↩︎
自洽性兼容集成方法，我们在附录 6.1.4 中展示了结果。 ↩︎
我们使用相同的提示，但在推理路径中的所有数字用随机数字替换，除了最终答案，例如从“ 停车场里已经有3辆车。又来了2辆车。现在有3 + 2 = 5辆车。 ”变为“ 停车场里已经有7辆车。6辆车又来了。现在有7 + 6= 5辆车。 ”。 ↩︎
https://beta.openai.com/docs/api-reference/making-requests ↩︎