【AI】提示词技巧:让大模型“评估”自身输出质量的方法
摘要: 本文探讨如何通过提示词技巧让大模型自我评估输出质量,提升内容可靠性并减少人工检查成本。基础技巧包括明确评估目标、制定评估标准及限定评估范围;进阶方法引入对比评估、改进建议和用户视角模拟;专业领域需结合术语与多维度标准。文章提供通用模板(如学术、代码、法律场景)并强调提示词设计的注意事项(避免模糊表述、分步评估等)。同时指出大模型评估的局限性(知识盲区、锚定效应等),建议结合人工判断与外部工
提示词技巧:让大模型 “评估” 自身输出质量的方法
**
1. 前言
在当下的 AI 应用中,大模型已经成为很多人工作和学习的好帮手。我们用大模型写文章、做数据分析、生成代码等,但有一个问题一直困扰着大家:大模型输出的内容质量到底怎么样?有时候看起来没问题,实际用起来却发现有错误或者不符合需求。
要是能让大模型自己评估自己的输出质量,就能帮我们节省很多检查的时间,还能提高工作效率。这篇文章就专门讲怎么通过提示词技巧,让大模型具备评估自身输出质量的能力。内容会从基础到进阶,一步步教大家操作,就算是刚接触大模型的人也能看懂、能用起来。
2. 为什么需要让大模型评估自身输出质量
在讲具体技巧之前,我们先搞清楚为什么要做这件事。知道了重要性,后面学技巧的时候才会更有方向。
2.1 减少人工检查成本
现在很多人用大模型输出内容后,都要自己逐字逐句检查。比如写一篇几千字的报告,人工检查可能要花 1 - 2 小时。要是大模型能先自己评估,找出明显的错误和问题,人工就只需要针对这些问题再检查,能节省很多时间。
2.2 提高输出内容可靠性
大模型有时候会 “一本正经地胡说八道”,也就是生成虚假信息却看起来很真实。让大模型自己评估,能提前发现这些虚假内容,还有逻辑混乱、数据错误等问题,让输出的内容更可靠。
2.3 适配不同场景需求
不同场景对大模型输出内容的要求不一样。比如写学术论文,要求内容严谨、引用准确;写营销文案,要求语言有感染力、能吸引客户。让大模型自己评估,可以根据不同场景的要求调整评估标准,让输出内容更符合场景需求。
3. 大模型评估自身输出的基础提示词技巧
这部分讲的是最基础的技巧,只要掌握这些,就能让大模型初步具备评估自身输出的能力。
3.1 明确评估目标
在提示词里,要清楚告诉大模型,评估的目标是什么。不能只说 “评估一下你的输出”,要具体说明是评估内容的准确性、逻辑连贯性,还是语言流畅度等。
示例 1:“你之前帮我生成了一篇关于‘人工智能发展历史’的文章,请你评估这篇文章内容的准确性,重点看里面提到的重要事件的时间、人物和结果是否正确。”
示例 2:“我让你写了一段产品介绍文案,现在请你评估这段文案的语言流畅度,看句子之间是否衔接自然,有没有不通顺的地方。”
这样明确目标后,大模型就知道该从哪个角度去评估,不会出现评估方向混乱的情况。
3.2 给出评估标准
除了明确目标,还要给大模型具体的评估标准。标准越详细,大模型评估的结果就越准确。
示例 1:“评估你生成的‘Python 基础语法教程’的准确性,标准如下:1. 语法规则讲解是否正确,没有错误的语法描述;2. 代码示例是否能正常运行,没有语法错误;3. 知识点讲解是否全面,没有遗漏重要的基础语法点。”
示例 2:“评估你写的‘活动策划方案’的完整性,标准如下:1. 方案里是否包含活动主题、时间、地点、参与人员这几个基本要素;2. 是否有活动流程的详细说明,每个环节的时间安排是否清晰;3. 是否提到了活动所需的物资和预算。”
有了这样的标准,大模型在评估时会逐一对照,不会凭感觉评估,评估结果也更有参考价值。
3.3 限定评估范围
有时候大模型输出的内容很长,比如一篇万字长文或者一个复杂的项目方案。如果让大模型全量评估,可能会出现遗漏或者评估不细致的情况。这时候就要限定评估范围。
示例 1:“你之前生成的‘市场调研报告’有 5 个部分,现在请你只评估第 3 部分‘竞争对手分析’的内容,重点看里面对竞争对手产品优势和劣势的分析是否合理,数据是否准确。”
示例 2:“我让你写的‘员工培训计划’包含培训内容、培训讲师、培训考核三个模块,现在请你评估‘培训考核’模块,看考核方式是否合理,考核标准是否明确,能否有效检验培训效果。”
限定范围后,大模型能把精力集中在指定的部分,评估得更细致、更深入。
4. 大模型评估自身输出的进阶提示词技巧
掌握了基础技巧后,我们可以用进阶技巧让大模型的评估能力更强大,能应对更复杂的情况。
4.1 加入对比评估
对比评估就是让大模型把自己的输出和其他参考内容对比,然后评估自身输出的优劣。这种方法适合有参考标准的场景,比如有官方资料、权威文献等。
示例 1:“你生成了一篇关于‘环境保护法最新修订内容’的解读文章,我这里有一份官方发布的《环境保护法修订草案》。请你把你的解读文章和这份官方草案对比,评估解读文章是否准确传达了草案的内容,有没有曲解或者遗漏的地方,同时指出解读文章比草案更易懂的地方和不足的地方。”
示例 2:“你写了一段关于‘数学公式推导’的过程,我提供了教材里的标准推导过程。请你对比你的推导过程和教材里的标准过程,评估你的推导步骤是否正确,逻辑是否严密,和标准过程相比,你的推导有没有更简洁或者更复杂的地方,复杂的地方是否有必要。”
对比评估能让大模型更清楚自己输出的内容和标准之间的差距,评估结果也更客观。
4.2 要求给出改进建议
让大模型评估出问题还不够,还要让它给出具体的改进建议。这样不仅能知道哪里不好,还能知道怎么改,让输出内容的质量进一步提升。
示例 1:“你生成的‘旅游攻略’里,关于景点路线的安排存在不合理的地方。请你先评估出具体哪些地方不合理,然后给出详细的改进建议,包括调整后的路线顺序、每个景点的游玩时间分配,以及选择这条新路线的原因。”
示例 2:“你写的‘工作总结’在数据呈现方面不够清晰,领导看的时候不容易快速获取关键信息。请你评估数据呈现的问题,比如图表选择是否合适、数据标注是否完整等,然后给出改进建议,比如换成哪种类型的图表,在哪里增加数据说明等。”
有了改进建议,我们不用再自己琢磨怎么修改,直接按照建议调整就行,效率更高。
4.3 模拟用户视角评估
不同用户对内容的需求和感受不一样。让大模型模拟特定用户的视角去评估,能让输出内容更贴合目标用户的需求。
示例 1:“你生成了一款‘儿童编程教育软件’的介绍文案,目标用户是 6 - 8 岁孩子的家长。请你模拟这类家长的视角评估文案:1. 文案里是否清楚说明了软件对孩子编程能力培养的帮助;2. 是否提到了软件的安全性,比如有没有家长监控功能;3. 语言是否通俗易懂,有没有家长看不懂的专业术语;4. 能不能吸引家长愿意进一步了解软件。”
示例 2:“你写了一篇‘老年人使用智能手机教程’,目标用户是 60 岁以上的老年人。请你模拟老年人的视角评估教程:1. 步骤说明是否详细,有没有跳过老年人可能不懂的操作;2. 字体和语言是否适合老年人,有没有生僻词或者复杂的句子;3. 有没有针对老年人常见的问题,比如忘记密码、连接不上 WiFi 等给出解决方法。”
模拟用户视角评估后,输出内容能更好地满足目标用户的需求,提高用户的满意度。
5. 大模型评估自身输出的专业提示词技巧
对于一些专业领域,比如医学、法律、编程等,需要用专业的提示词技巧,让大模型的评估更符合专业要求。
5.1 引入专业领域术语和标准
在专业领域,有特定的术语和标准。在提示词里引入这些内容,能让大模型按照专业的要求去评估。
示例 1(医学领域):“你生成了一份‘感冒用药建议’,请你按照医学专业标准评估:1. 推荐的药物是否符合《国家基本药物目录》中关于感冒治疗的用药要求;2. 药物的用法用量是否准确,有没有超过推荐剂量或者错误的用药频率;3. 是否提到了药物的禁忌症和不良反应,比如孕妇、哺乳期妇女是否适用,可能出现的过敏反应等;4. 对于不同人群,比如儿童、老年人、有基础疾病的患者,用药建议是否有针对性的调整。”
示例 2(法律领域):“你写了一份‘劳动合同条款草案’,请你依据《中华人民共和国劳动合同法》评估:1. 草案中是否包含劳动合同的必备条款,比如工作内容、工作地点、劳动报酬、社会保险等;2. 条款内容是否符合法律规定,有没有违反法律的无效条款,比如约定‘不缴纳社会保险’‘加班不给加班费’等;3. 对于试用期的约定是否合法,试用期期限、工资标准是否符合法律要求。”
引入专业术语和标准后,大模型的评估会更专业、更严谨,避免出现不符合专业要求的错误。
5.2 要求进行多维度专业评估
专业领域的内容评估,往往需要从多个专业维度去考量。在提示词里要求大模型进行多维度评估,能全面检查输出内容的专业质量。
示例 1(编程领域):“你生成了一段‘Java 后端接口代码’,请从以下专业维度评估:1. 代码规范性:是否符合阿里巴巴 Java 开发手册的编码规范,比如变量命名、代码缩进、注释格式等;2. 安全性:是否存在 SQL 注入、XSS 攻击等安全漏洞,比如有没有对用户输入进行校验和过滤;3. 性能:代码中是否存在性能瓶颈,比如有没有不必要的循环、数据库查询是否优化;4. 可维护性:代码结构是否清晰,有没有冗余代码,是否便于后续修改和扩展。”
示例 2(建筑领域):“你写了一份‘住宅建筑设计方案’,请从多个专业维度评估:1. 结构安全性:设计是否符合《建筑结构荷载规范》,承重结构的设计是否能承受正常使用和偶然荷载;2. 消防安全:是否符合《建筑设计防火规范》,比如疏散通道的宽度、消防设施的布置是否合理;3. 舒适性:采光、通风、隔音设计是否符合住宅设计标准,能否满足居民的居住舒适需求;4. 经济性:设计方案在材料选择、施工工艺方面是否经济合理,有没有不必要的成本浪费。”
多维度专业评估能全面发现输出内容在专业上的问题,确保内容符合专业领域的各项要求。
5.3 结合实际应用场景专业评估
专业领域的内容最终要用到实际场景中,所以评估时还要结合实际应用场景。在提示词里说明实际应用场景,让大模型从场景应用的角度去评估。
示例 1(金融领域):“你生成了一份‘个人理财产品推荐报告’,这份报告将用于银行理财经理向客户推荐产品。请结合这个实际应用场景评估:1. 报告中是否根据不同客户的风险承受能力(比如保守型、稳健型、进取型)推荐了合适的产品;2. 产品的收益情况、风险提示是否清晰,有没有夸大收益或者隐瞒风险的情况;3. 报告内容是否便于理财经理向客户讲解,有没有过于复杂的金融术语,是否有简单易懂的案例说明;4. 推荐逻辑是否合理,是否能让客户理解为什么推荐这款产品,符合客户的理财目标。”
示例 2(教育领域):“你写了一份‘高中数学教学教案’,这份教案将用于教师日常课堂教学。请结合课堂教学实际场景评估:1. 教案的教学目标是否明确,是否符合高中数学课程标准,能否在一节课的时间内完成教学目标;2. 教学过程设计是否合理,比如知识点讲解、例题练习、课堂互动的时间分配是否恰当,能否调动学生的学习积极性;3. 教学方法是否适合高中学生的学习特点,比如有没有采用启发式教学、小组合作学习等方法;4. 有没有针对学生可能出现的问题(比如某个知识点理解困难)设计应对措施,有没有课后作业和学习效果检测的安排。”
结合实际应用场景评估,能让输出的专业内容更实用,真正满足实际工作中的需求。
6. 提示词技巧的实际应用案例
前面讲了很多技巧,这部分用实际案例来展示这些技巧怎么用,让大家更清楚具体的操作过程。
6.1 案例一:评估大模型生成的学术论文摘要
6.1.1 大模型初始输出内容
“人工智能技术近年来发展很快,在很多领域都有应用。本文主要研究人工智能在医疗领域的应用,讨论了人工智能在疾病诊断、药物研发等方面的作用。通过研究发现,人工智能能提高疾病诊断的准确率,还能加快药物研发的速度。本文的研究对人工智能在医疗领域的进一步应用有一定的意义。”
6.1.2 提示词设计(结合基础和进阶技巧)
“你之前生成了上面这段学术论文摘要,请你按照以下要求评估:1. 明确评估目标:评估摘要的完整性和学术严谨性。2. 评估标准:完整性方面,看是否包含论文的研究背景、研究方法、核心研究结果、研究结论这几个要素;学术严谨性方面,看是否有模糊的表述,比如‘发展很快’‘有一定的意义’等,有没有具体的数据或案例支撑。3. 要求:先指出摘要在完整性和学术严谨性方面存在的问题,然后给出具体的改进建议,让摘要更符合学术论文摘要的要求。”
6.1.3 大模型评估结果
“一、评估发现的问题
- 完整性问题:摘要中缺少‘研究方法’这一关键要素,没有说明本文是通过文献研究、实验研究还是案例分析来开展研究的;‘核心研究结果’部分表述模糊,只说‘提高疾病诊断的准确率’‘加快药物研发的速度’,没有具体说明准确率提高了多少,药物研发速度加快了多久。
- 学术严谨性问题:存在多处模糊表述,比如‘发展很快’没有具体说明发展的速度,比如每年的技术突破数量、市场规模增长情况等;‘有一定的意义’没有说明具体是在理论层面还是实践层面有意义,对后续研究或实际应用有哪些具体的帮助;没有任何数据或案例支撑研究结果,比如没有提到某个医院使用人工智能诊断疾病后准确率提升的具体数据,也没有提到某个药企用人工智能研发药物缩短时间的案例。
二、改进建议
- 补充研究方法:在‘本文主要研究人工智能在医疗领域的应用’后面加上‘通过对近 5 年国内外相关文献的梳理和 10 家三甲医院的案例分析’。
- 细化核心研究结果:将‘人工智能能提高疾病诊断的准确率,还能加快药物研发的速度’修改为‘人工智能可将常见疾病诊断准确率提升 15%-20%(以肺炎诊断为例),同时能将药物研发周期缩短 30%-40%(以抗癌药物研发为例)’。
- 优化学术严谨性表述:将‘人工智能技术近年来发展很快’修改为‘2019-2024 年,人工智能技术在全球的市场规模年均增长率达到 25% 以上,在医疗、金融、教育等领域的应用场景不断拓展’;将‘本文的研究对人工智能在医疗领域的进一步应用有一定的意义’修改为‘本文的研究成果可为医疗机构引入人工智能诊断系统提供理论参考,也能为药企优化药物研发流程提供实践借鉴’。”
6.1.4 案例总结
这个案例用了基础技巧里的明确评估目标、给出评估标准,还有进阶技巧里的要求给出改进建议。通过这样的提示词,大模型能准确找出学术论文摘要的问题,还能给出可行的改进建议,让摘要更符合学术要求。
6.2 案例二:评估大模型生成的 Python 代码
6.2.1 大模型初始输出内容
“# 计算 1 到 100 的和
sum = 0
for i in range (100):
sum = sum + i
print (sum)”
6.2.2 提示词设计(结合基础和专业技巧)
“你生成了上面这段计算 1 到 100 的和的 Python 代码,请你从以下方面评估:1. 明确评估目标:评估代码的正确性、规范性和效率。2. 专业评估标准:正确性方面,看代码运行结果是否等于 1 到 100 的和(正确结果应为 5050);规范性方面,是否符合 Python PEP 8 编码规范,比如变量命名是否合理、代码缩进是否正确;效率方面,看代码是否有可以优化的地方,比如是否能用更简洁的方法实现同样的功能。3. 要求:先判断代码是否正确,然后指出规范性和效率方面的问题,最后给出改进后的代码。”
6.2.3 大模型评估结果
“一、代码正确性判断
代码运行结果为 4950,而 1 到 100 的和应为 5050,所以代码存在正确性问题。问题原因是 range (100) 生成的是 0 到 99 的整数,没有包含 100,导致计算的是 0 到 99 的和,不是 1 到 100 的和。
二、规范性问题
变量名使用‘sum’ 存在问题,因为 ‘sum’ 是 Python 内置函数(用于计算可迭代对象的和),用内置函数名作为变量名会覆盖原函数,可能导致后续使用 ‘sum’ 函数时出现错误;代码缩进不规范,‘for’ 循环体内的 ‘sum = sum + i’ 语句和 ‘print (sum)’ 语句没有统一缩进,按照 Python PEP 8 规范,循环体内语句应缩进 4 个空格。
三、效率问题
当前代码使用 ‘for’ 循环逐个累加计算和,虽然能实现功能,但存在更简洁高效的方法。Python 内置的 ‘sum’ 函数结合 ‘range’ 函数可以直接计算指定范围内整数的和,不需要手动写循环,代码更简洁,运行效率也更高。
四、改进后的代码
# 计算 1 到 100 的和
total_sum = sum(range(1, 101)) # 使用内置sum函数,range(1,101)生成1到100的整数
print(total_sum) # 规范缩进,输出结果为5050
6.2.4 案例总结
这个案例结合了基础技巧中的明确评估目标、给出评估标准,以及专业技巧中的引入专业领域标准(Python PEP 8 编码规范)。通过这样的提示词,大模型不仅能找出代码在正确性、规范性和效率上的问题,还能给出符合专业规范的改进代码,帮助使用者快速优化代码质量。
6.3 案例三:评估大模型生成的法律文书(劳动合同补充条款)
6.3.1 大模型初始输出内容
“劳动合同补充条款:1. 员工加班后,公司会根据情况安排调休;2. 员工离职时,需在 3 天内交接完工作;3. 公司会给员工购买商业保险,代替社会保险;4. 员工在工作期间发生工伤,公司会酌情给予赔偿。”
6.3.2 提示词设计(结合进阶和专业技巧)
“你生成了上面这段劳动合同补充条款,请你依据《中华人民共和国劳动合同法》《中华人民共和国社会保险法》《工伤保险条例》进行评估:1. 明确评估目标:评估条款的合法性和完整性。2. 评估标准:合法性方面,看每条条款是否符合上述法律法规的要求,有无违法条款;完整性方面,看是否缺少对员工权益保障的关键内容,比如加班调休的具体规则、离职交接的责任划分等。3. 要求:先指出每条条款的合法性问题,说明违反的具体法律条款,然后给出合法的修改建议,最后补充条款中缺失的关键内容。”
6.3.3 大模型评估结果
“一、各条款合法性问题及法律依据
- 第一条‘员工加班后,公司会根据情况安排调休’:存在合法性问题。根据《中华人民共和国劳动合同法》第三十一条,用人单位安排加班的,应当按照国家有关规定向劳动者支付加班费或者安排调休;其中,休息日安排劳动者工作又不能安排补休的,支付不低于工资的百分之二百的工资报酬;法定休假日安排劳动者工作的,支付不低于工资的百分之三百的工资报酬。该条款只说‘根据情况安排调休’,未明确区分休息日和法定休假日,也未提及无法安排调休时需支付加班费,可能侵犯员工获得加班费的权益。
- 第二条‘员工离职时,需在 3 天内交接完工作’:存在合法性问题。根据《中华人民共和国劳动合同法》第五十条,劳动者应当按照双方约定,办理工作交接;用人单位应当在解除或者终止劳动合同时出具解除或者终止劳动合同的证明,并在十五日内为劳动者办理档案和社会保险关系转移手续。该条款强制要求 3 天内交接完工作,未考虑双方约定的情况,也不符合法律规定的用人单位办理后续手续的时间要求,可能导致员工因无法及时交接而被不合理追责。
- 第三条‘公司会给员工购买商业保险,代替社会保险’:属于严重违法条款。根据《中华人民共和国社会保险法》第五十八条,用人单位应当自用工之日起三十日内为其职工向社会保险经办机构申请办理社会保险登记,依法缴纳社会保险费(包括养老保险、医疗保险、失业保险、工伤保险和生育保险)。社会保险是国家强制要求缴纳的,商业保险不能代替社会保险,该条款违反了社会保险的强制性规定,严重侵犯员工的基本社会保障权益。
- 第四条‘员工在工作期间发生工伤,公司会酌情给予赔偿’:存在合法性问题。根据《工伤保险条例》第十四条、第三十条,职工因工作原因受到事故伤害或者患职业病的,应当认定为工伤,享受工伤保险待遇;用人单位应当依法为职工缴纳工伤保险费,职工发生工伤后,由工伤保险基金和用人单位按照规定支付工伤保险待遇,并非由公司‘酌情给予赔偿’。该条款将法定的工伤保险待遇变为‘酌情赔偿’,可能导致员工工伤后无法获得足额赔偿。
二、合法修改建议
- 第一条修改为:‘员工加班后,公司优先安排调休(休息日加班可安排调休,法定休假日加班不安排调休);若无法安排调休,休息日加班按不低于员工本人日工资标准的 200% 支付加班费,法定休假日加班按不低于员工本人日工资标准的 300% 支付加班费(日工资标准 = 月工资收入 ÷ 月计薪天数 21.75 天)。’
- 第二条修改为:‘员工离职时,应当按照双方约定的期限和内容办理工作交接;公司应当在解除或者终止劳动合同时出具解除或者终止劳动合同的证明,并在十五日内为员工办理档案和社会保险关系转移手续;工作交接完成后,公司应当结清员工工资及其他应付款项。’
- 第三条删除原内容,重新编写为:‘公司自用工之日起三十日内,为员工向社会保险经办机构申请办理社会保险登记,依法缴纳养老保险、医疗保险、失业保险、工伤保险和生育保险费,其中员工个人应缴纳的社会保险费由公司从员工工资中代扣代缴。’
- 第四条修改为:‘员工在工作期间因工作原因受到事故伤害或者患职业病的,公司应当自事故伤害发生之日或者被诊断、鉴定为职业病之日起 30 日内,向统筹地区社会保险行政部门提出工伤认定申请;员工被认定为工伤后,按照《工伤保险条例》的规定享受工伤保险待遇,所需费用由工伤保险基金和公司按规定承担。’
三、补充缺失的关键内容
增加第五条:‘本补充条款与原劳动合同具有同等法律效力,若本补充条款与原劳动合同内容不一致,以本补充条款为准;本补充条款未尽事宜,按照国家法律法规及公司依法制定的规章制度执行。’
6.3.4 案例总结
这个案例结合了进阶技巧中的要求给出改进建议,以及专业技巧中的引入专业领域标准(相关法律法规)。通过这样的提示词,大模型能准确识别法律文书中的违法条款,结合具体法律依据给出修改建议,还能补充缺失的关键内容,确保法律文书的合法性和完整性,避免因条款违法给企业和员工带来法律风险。
7. 提示词设计的注意事项
在使用前面讲的技巧设计提示词时,还有一些注意事项需要掌握,这样能让提示词的效果更好,避免出现不必要的问题。
7.1 避免模糊表述
提示词里不能有模糊的表述,比如 “评估一下内容好不好”“看看有没有问题” 等。这种表述让大模型不知道该从哪个角度评估,评估结果也会很笼统,没有参考价值。
正确的做法是用具体的表述,比如 “评估内容的准确性,看里面的数据是否和官方发布的一致”“检查有没有逻辑错误,比如前后观点是否矛盾、因果关系是否合理”。
7.2 控制提示词长度
提示词不是越长越好。如果提示词太长,包含太多无关的内容,大模型可能会抓不住重点,影响评估效果。
正确的做法是:只保留和评估相关的内容,把关键的评估目标、标准、要求说清楚就行,去掉多余的描述。比如评估代码时,不用详细介绍代码的应用场景,直接说评估目标和标准即可。
7.3 分步骤提出要求
如果评估任务比较复杂,比如既要评估内容的准确性,又要评估完整性,还要给出改进建议,可以分步骤在提示词里提出要求。
示例:“你生成了一份‘产品说明书’,请按以下步骤评估:第一步,评估说明书内容的准确性,看产品参数、使用方法的描述是否和产品实际情况一致;第二步,评估说明书的完整性,看是否缺少产品维护方法、常见故障解决办法等内容;第三步,针对第一步和第二步发现的问题,给出具体的改进建议。”
分步骤提出要求,能让大模型更有条理地完成评估任务,不会出现遗漏或混乱的情况。
7.4 根据大模型能力调整提示词
不同的大模型,能力不一样。有的大模型对专业领域的知识掌握得更深入,有的大模型更擅长处理日常内容。所以在设计提示词时,要根据使用的大模型能力进行调整。
比如用擅长日常内容处理的大模型评估简单的文案,提示词可以不用太复杂,只要明确评估目标和标准就行;用擅长专业领域的大模型评估法律文书,提示词里可以多引入一些专业的法律术语和复杂的评估标准,让评估结果更专业。
8. 常见问题及解决方法
在让大模型评估自身输出的过程中,可能会遇到一些常见问题,这里给出对应的解决方法,帮助大家应对这些情况。
8.1 大模型评估结果不准确
8.1.1 问题表现
大模型评估时没有找出明显的错误,或者把正确的内容当成错误,比如把准确的数据说成错误,把通顺的句子说成不通顺。
8.1.2 解决方法
- 细化评估标准:如果之前的评估标准比较笼统,比如只说 “评估数据准确性”,可以细化为 “评估数据准确性,重点看数据来源是否为官方渠道(如政府官网、权威机构报告),数据数值是否和来源文件中的一致,数据单位是否正确”。
- 提供参考案例:在提示词里提供正确和错误的参考案例,让大模型更清楚什么是正确的,什么是错误的。示例:“评估你生成的‘产品价格表’中价格的准确性,正确案例:‘产品 A 单价 199 元(来源:公司官网 2024 年 5 月价格公告)’,错误案例:‘产品 A 单价 299 元(与官网价格不一致)’,请对照参考案例评估价格是否准确。”
8.2 大模型给出的改进建议不具体
8.2.1 问题表现
大模型只说 “需要改进内容的逻辑性”“要优化语言表达”,但没有说具体怎么改进,比如哪里的逻辑性有问题,怎么调整语言才能更流畅。
8.2.2 解决方法
在提示词里明确要求改进建议要具体,包含 “问题位置” 和 “调整方法”。示例:“你生成的‘活动通知’语言表达不够流畅,请评估出具体哪个句子不通顺(比如‘活动时间是在周六上午,大家要准时参加’),然后给出具体的调整方法(比如修改为‘活动时间为周六上午 9:00-11:00,请大家准时参加’)。”
8.3 大模型无法理解专业领域的评估要求
8.3.1 问题表现
在评估专业内容时,大模型没有按照专业标准评估,比如评估医学论文时,没有考虑医学研究的伦理要求;评估建筑设计方案时,没有参考相关的建筑规范。
8.3.2 解决方法
- 在提示词里详细解释专业标准:不用只说 “符合医学伦理要求”,而是详细说明具体的要求,比如 “符合医学伦理要求,包括:研究对象已签署知情同意书、研究方案经过伦理委员会审批、不会对研究对象造成身体或心理伤害”。
- 提供专业资料片段:如果有相关的专业资料,可以在提示词里加入资料片段,让大模型参考。示例:“评估你生成的‘建筑消防设计说明’,请参考以下《建筑设计防火规范》片段:‘建筑内的疏散楼梯间在各层的平面位置不应改变,首层应有直通室外的出口;疏散楼梯间的净宽度不应小于 1.1m’,看设计说明是否符合这些要求。”
9. 不同场景下的提示词模板
为了让大家更方便地使用这些技巧,这里提供不同场景下的提示词模板,大家可以根据实际需求修改模板中的内容,直接使用。
9.1 日常文案评估模板(如朋友圈文案、通知、简单报告)
“你之前生成了【文案名称,如:公司团建通知】,请你按以下要求评估:1. 评估目标:评估文案的【评估维度,如:信息完整性、语言简洁性】;2. 评估标准:【具体标准,如:信息完整性方面,看是否包含时间(年 / 月 / 日 / 时)、地点、参与人员、活动内容;语言简洁性方面,看是否有冗余的句子,有没有用 3 句话就能说清楚的内容用了 5 句话】;3. 评估结果要求:先指出【评估维度】方面存在的问题,然后给出具体的改进建议。”
9.2 学术内容评估模板(如论文摘要、课程论文、研究报告)
“你生成了【学术内容名称,如:‘人工智能在教育领域应用’论文摘要】,请你按以下要求评估:1. 评估目标:评估内容的【评估维度,如:学术严谨性、内容完整性】;2. 评估标准:学术严谨性方面,看是否有模糊表述(如‘可能’‘大概’等没有依据的词)、是否有数据或文献支撑观点(文献需注明来源,如‘作者,年份,文章标题,期刊名称’);内容完整性方面,看是否包含【关键要素,如:研究背景、研究方法、研究结果、研究结论】;3. 评估结果要求:先列出存在的问题及具体位置(如‘研究方法缺失,在摘要第 2 句后应补充’),然后给出修改后的内容,最后说明修改依据(如‘符合学术论文摘要的常规结构要求’)。”
9.3 代码评估模板(如 Python、Java、C++ 代码)
“你生成了【代码功能描述,如:‘计算两个数的最大公约数’的 Python 代码】,请你按以下要求评估:1. 评估目标:评估代码的【评估维度,如:正确性、规范性、效率】;2. 评估标准:正确性方面,看代码运行结果是否符合【预期结果,如:输入 12 和 18,输出应为 6】;规范性方面,看是否符合【编码规范,如:Python PEP 8 规范、Java 阿里巴巴编码规范】,包括变量命名、缩进、注释;效率方面,看是否有【优化空间,如:是否有不必要的循环、是否使用了更高效的算法】;3. 评估结果要求:先判断代码是否正确(若错误,说明错误原因),再指出规范性和效率问题,最后给出改进后的完整代码,并说明改进点(如:‘变量名‘a’改为‘num1’,符合变量命名规范;使用欧几里得算法代替枚举法,提高效率’)。”
9.4 法律文书评估模板(如劳动合同条款、借条、协议)
“你生成了【法律文书名称,如:‘个人借款借条’】,请你依据【相关法律法规,如:《中华人民共和国民法典》】评估:1. 评估目标:评估文书的【评估维度,如:合法性、要素完整性】;2. 评估标准:合法性方面,看条款是否违反【具体法律条款,如:《民法典》第六百六十八条‘借款合同应当采用书面形式,但是自然人之间借款另有约定的除外。借款合同的内容一般包括借款种类、币种、用途、数额、利率、期限和还款方式等条款’】;要素完整性方面,看是否包含【关键要素,如:借款人姓名及身份证号、出借人姓名及身份证号、借款金额(大小写)、借款利率、借款期限、还款方式、借款日期】;3. 评估结果要求:先指出违法条款及法律依据,再指出缺失的要素,然后给出修改后的完整文书,最后说明修改后的文书符合哪些法律要求。”
9.5 营销文案评估模板(如产品介绍、广告文案、推广软文)
“你生成了【营销文案名称,如:‘新款保温杯产品介绍’】,目标用户是【目标用户群体,如:‘注重生活品质的上班族’】,请你按以下要求评估:1. 评估目标:评估文案的【评估维度,如:吸引力、信息准确性、用户需求匹配度】;2. 评估标准:吸引力方面,看开头是否能引起用户兴趣(如是否提到用户痛点,如‘冬天喝水总凉得快’)、是否有突出产品优势(如‘保温 12 小时’);信息准确性方面,看产品参数(如容量、材质、颜色)是否准确,有没有夸大宣传(如‘永远保温’);用户需求匹配度方面,看是否提到用户关心的点(如‘轻便易携带,适合通勤’);3. 评估结果要求:先指出各维度存在的问题,然后给出改进建议(包括修改后的句子),最后说明改进后的文案如何更好地吸引目标用户。”
10. 实际应用中的拓展思路
除了前面讲的技巧和方法,在实际应用中,还可以拓展思路,让大模型的评估能力更好地服务于实际需求,解决更复杂的评估问题。
10.1 结合多轮对话优化评估过程
在实际使用中,单次评估可能无法完全解决问题,这时候可以通过多轮对话的方式,让大模型逐步优化评估结果。
比如,第一次让大模型评估一篇 “产品推广软文” 时,大模型只指出了 “产品优势描述不具体” 这一个问题。这时候可以继续追问:“除了产品优势描述不具体,这篇软文在吸引目标用户(年轻宝妈群体)方面还有哪些不足?比如是否提到了宝妈关心的安全、便捷等需求?”
通过这样的多轮追问,大模型会进一步从目标用户需求匹配的角度补充评估结果,比如指出 “没有提到产品的安全材质,无法打消宝妈对产品安全性的顾虑”“没有说明使用过程是否便捷,比如是否容易清洗,不符合宝妈追求高效带娃的需求” 等问题。
多轮对话的关键是,在每一轮中针对上一轮评估结果的不足,提出更具体的追问方向,引导大模型深入评估,直到获得全面、准确的评估结果。
10.2 联动外部工具提升评估专业性
对于一些需要精准数据支撑或专业检测的评估场景,仅靠大模型自身的能力可能不够,这时候可以联动外部工具,让评估结果更专业、更可靠。
以评估 “网站 SEO 优化方案” 为例,大模型可以从方案的结构、关键词布局逻辑等方面进行初步评估,但无法获取网站的实际流量、关键词排名等实时数据。这时候可以在提示词中要求大模型结合外部 SEO 工具(如百度统计、爱站网)的数据维度设计评估框架,示例如下:
“你生成了一份‘某电商网站 SEO 优化方案’,请结合百度统计、爱站网的核心数据维度设计评估框架:1. 评估方案中关键词选择的合理性,需参考爱站网中目标关键词的搜索量、竞争度数据;2. 评估方案中页面优化建议的可行性,需结合百度统计中网站当前的页面加载速度、跳出率数据;3. 评估方案的预期效果,需说明如何通过百度统计跟踪优化后的流量增长、转化率提升情况。”
之后,我们可以将外部工具获取的实际数据输入给大模型,让大模型结合数据完成最终评估,比如:“根据百度统计数据,该网站当前首页加载速度为 5 秒(行业平均为 2 秒),跳出率为 70%(行业平均为 50%),请结合这些数据评估你之前设计的 SEO 优化方案中页面优化建议的有效性,并调整预期效果。”
通过联动外部工具,大模型的评估不再局限于理论层面,而是能结合真实数据,评估结果更具实操价值。
10.3 适配行业特殊需求定制评估维度
不同行业有其特殊的业务需求和评估标准,在实际应用中,需要根据行业特性定制专属的评估维度,让大模型的评估更贴合行业实际场景。
以教育行业的 “在线课程设计方案” 评估为例,除了常规的内容完整性、逻辑连贯性评估,还需要加入教育行业特有的评估维度,比如 “教学目标与课程标准的匹配度”“互动环节的有效性”“学情分析的准确性” 等。对应的提示词设计示例如下:
“你生成了一份‘初中数学在线课程设计方案’(针对初二年级一元二次方程章节),请结合教育部发布的《义务教育数学课程标准》及在线教育行业的教学特点评估:1. 评估课程的教学目标是否符合课程标准中对一元二次方程章节的要求(如‘能解数字系数的一元二次方程’‘能根据具体问题中的数量关系列出一元二次方程’);2. 评估课程中互动环节(如在线答题、小组讨论)的设计是否能有效提升学生的参与度,是否考虑到初二年级学生的学习特点;3. 评估方案中学情分析部分是否准确,是否结合了初二年级学生在一元一次方程学习中的常见问题;4. 评估课程的作业设计是否分层,能否满足不同学习基础学生的需求(如基础题、提升题、拓展题的比例)。”
再比如医疗行业的 “患者康复指导方案” 评估,需要加入 “医学循证依据”“个体差异适配性” 等特殊维度,提示词中可以明确要求:“评估方案中每个康复建议都需说明对应的医学循证依据(如引用《中华物理医学与康复杂志》中的相关研究),同时评估方案是否考虑到患者的年龄、基础疾病(如高血压、糖尿病)等个体差异,是否有针对性的调整建议。”
通过定制行业特殊评估维度,大模型的评估能更精准地满足行业需求,避免出现 “通用评估合格但不符合行业实际要求” 的情况。
10.4 针对多模态输出内容设计评估逻辑
随着大模型能力的发展,输出内容不再局限于文字,还包括图片描述、视频脚本、PPT 大纲等多模态内容。针对这类内容,需要设计适配多模态特性的评估逻辑,确保评估全面覆盖内容的各个维度。
以评估 “产品宣传视频脚本” 为例,除了评估文字脚本的剧情逻辑、台词吸引力,还需要评估视频画面描述的合理性、镜头语言的适配性等多模态相关维度。提示词设计示例如下:
“你生成了一份‘新款智能手表宣传视频脚本’(时长 60 秒),请从文字和画面两个维度评估:1. 文字维度:评估台词是否能突出产品核心功能(如超长续航、健康监测),剧情是否能在 60 秒内清晰传递产品价值,目标用户(年轻职场人)是否能产生共鸣;2. 画面维度:评估每个镜头的描述是否合理(如‘第 10 秒镜头:主角在地铁上查看手表健康数据’,需判断该场景是否符合年轻职场人的日常场景),镜头切换节奏是否符合 60 秒短视频的特点(如前 10 秒是否能吸引注意力),画面色彩、背景音乐的建议是否与产品定位(科技、时尚)匹配。”
对于 “PPT 大纲” 这类图文结合的输出内容,评估时需要兼顾大纲的结构逻辑和视觉呈现建议,提示词可以设计为:“评估你生成的‘公司年度总结 PPT 大纲’:1. 结构维度:评估大纲是否包含年度工作成果、问题分析、下年度计划三个核心模块,各模块的内容占比是否合理;2. 视觉维度:评估大纲中每个页面的图文搭配建议是否可行(如‘成果展示页建议用柱状图呈现数据’,需判断该图表类型是否适合展示年度业绩增长数据),字体、颜色的建议是否符合公司 VI 规范。”
针对多模态内容设计评估逻辑,能确保大模型对不同形式输出内容的评估都全面、准确,满足多样化的应用需求。
11. 大模型自我评估能力的局限性及应对思路
虽然通过提示词技巧能让大模型具备一定的自我评估能力,但大模型并非万能,存在一些局限性。了解这些局限性,并提前做好应对,能让我们更合理地使用大模型的评估功能。
11.1 局限性一:对超出知识范围的内容评估不准确
大模型的知识范围受训练数据的限制,对于训练数据截止时间之后的新信息、小众领域的专业知识,评估时容易出现错误。
比如,让大模型评估 2025 年发布的某款新科技产品的技术参数是否准确,由于大模型的训练数据可能截止到 2024 年,无法获取 2025 年的新产品信息,评估结果会不准确;再比如,评估 “传统榫卯结构修复技术方案”,这类小众领域的专业知识在训练数据中占比较少,大模型可能无法准确判断修复方案的合理性。
11.1.1 应对思路
- 明确大模型的知识边界:在使用大模型评估前,先通过简单提问确认大模型对该领域、该时间段内容的了解程度,比如 “你是否了解 2025 年发布的 XX 新科技产品的技术参数?”“你对传统榫卯结构修复技术的专业知识掌握程度如何?”。
- 补充最新 / 小众知识:如果大模型知识不足,先将相关的最新信息、小众领域的专业资料(如产品官方参数文档、榫卯修复技术手册)输入给大模型,再让大模型结合这些资料进行评估。
11.2 局限性二:容易受到初始输出的 “锚定效应”
“锚定效应” 指大模型一旦生成了初始输出,在评估时容易受到初始输出的影响,难以发现一些隐蔽的错误,或者对错误的判断不够客观。
比如,大模型初始输出的一篇文章中,将 “2023 年中国 GDP 总量” 错误写为 “130 万亿元”(实际为 121 万亿元),在评估时,大模型可能会因为初始输出的 “锚定”,忽略这个数据错误,或者即使发现了,也可能低估错误的影响程度。
11.2.1 应对思路
- 采用 “盲评” 模式:在提示词中隐藏大模型的初始输出,只提供评估目标、标准和相关参考资料,让大模型先根据参考资料生成一份 “理想输出”,再将初始输出与 “理想输出” 对比,找出差异和错误。示例如下:“请先根据国家统计局发布的 2023 年国民经济和社会发展统计公报,生成一份‘2023 年中国 GDP 核心数据说明’(理想输出);然后我会提供一份关于‘2023 年中国 GDP’的文章(你的初始输出),请对比理想输出和文章,评估文章中的数据是否准确。”
- 引入第三方视角提示:在提示词中要求大模型以 “第三方审核者” 的身份进行评估,刻意与初始输出保持距离,示例如下:“请你以独立第三方审核者的身份,不考虑这篇‘2023 年中国 GDP’文章是你生成的,完全依据国家统计局的官方数据,客观评估文章中的数据准确性,找出所有与官方数据不符的内容。”
11.3 局限性三:无法完全替代人工评估的主观判断
大模型的评估主要基于客观标准和数据,但在一些需要主观判断的场景(如文学作品的情感表达、品牌文案的调性契合度),大模型的评估无法完全替代人工。
比如,评估一篇 “品牌故事文案” 的情感感染力,大模型可以从文案的情节完整性、语言流畅度等客观维度评估,但无法像人工那样精准感知文案传递的情感是否与品牌的核心价值观契合,是否能引发目标用户的情感共鸣。
11.3.1 应对思路
- 大模型负责客观维度评估,人工负责主观维度判断:将评估任务拆分为客观和主观两部分,让大模型评估客观维度(如情节完整性、语言流畅度),人工评估主观维度(如情感感染力、品牌调性契合度),两者结合形成最终评估结果。
- 让大模型提供主观评估参考,人工做最终决策:在提示词中要求大模型从目标用户的角度提供主观评估参考,但明确说明人工拥有最终决策权。示例如下:“请你模拟品牌目标用户(30-40 岁女性)的视角,评估这篇品牌故事文案的情感感染力,给出‘很有感染力’‘一般’‘没有感染力’的初步判断,并说明理由;最终是否采用该文案,由人工结合品牌战略做出决策。”
12. 实际应用案例拓展:多场景组合评估
为了让大家更直观地理解如何将前面的技巧、思路结合起来使用,这里提供一个多场景组合评估的案例,展示从单一评估到组合评估的完整过程。
12.1 案例背景
某互联网公司需要评估大模型生成的 “APP 用户增长方案”,该方案包含方案正文(文字)、数据预测表(表格)、推广渠道分布示意图(图文描述)三个部分,目标是通过评估优化方案,提升方案的可行性和预期效果。
12.2 组合评估步骤
12.2.1 第一步:拆分评估模块,明确各模块评估目标
将 “APP 用户增长方案” 拆分为三个评估模块:1. 方案正文评估(文字部分);2. 数据预测表评估(表格部分);3. 推广渠道分布示意图评估(图文部分)。每个模块的评估目标如下:
- 方案正文:评估逻辑连贯性、策略可行性、与公司业务目标的匹配度;
- 数据预测表:评估数据来源的可靠性、计算公式的正确性、预测结果的合理性;
- 推广渠道分布示意图:评估渠道分类的合理性、渠道占比描述的准确性、图文搭配的清晰度。
12.2.2 第二步:针对各模块设计提示词,结合基础、进阶、专业技巧
- 方案正文评估提示词(结合明确评估目标、给出评估标准、要求改进建议技巧):
“你生成的‘APP 用户增长方案’正文部分,目标是帮助公司实现未来 3 个月 APP 月活用户增长 50%(公司业务目标)。请按以下要求评估:1. 评估目标:逻辑连贯性、策略可行性、与业务目标的匹配度;2. 评估标准:逻辑连贯性方面,看各策略之间是否存在冲突(如同时采用‘低价拉新’和‘高端品牌宣传’,需判断是否矛盾);策略可行性方面,看每个策略是否明确执行步骤、负责人、时间节点;与业务目标匹配度方面,看每个策略的预期用户增长贡献是否能支撑‘月活增长 50%’的目标;3. 要求:指出各维度存在的问题,给出具体改进建议(如补充某策略的执行步骤)。”
- 数据预测表评估提示词(结合联动外部工具、引入专业标准技巧):
“你生成的‘APP 用户增长方案’数据预测表中,包含‘各渠道拉新成本’‘用户转化率’‘月活增长预测’等数据。请结合外部工具(艾瑞咨询《2024 年移动 APP 增长数据报告》、公司内部 2023 年用户增长数据)评估:1. 数据来源可靠性:评估表中‘各渠道拉新成本’是否与艾瑞咨询报告中的行业平均数据一致,‘用户转化率’是否基于公司内部 2023 年的历史数据;2. 计算公式正确性:评估‘月活增长 = 各渠道拉新量 × 转化率 - 用户流失量’的公式是否合理,是否考虑‘复购用户激活’等额外增长因素;3. 预测结果合理性:结合行业平均增长速度(艾瑞咨询报告显示同类 APP 月活平均增长 20%),评估‘月活增长 50%’的预测是否合理。”
- 推广渠道分布示意图评估提示词(结合多模态评估逻辑、适配行业需求技巧):
“你生成的‘APP 用户增长方案’推广渠道分布示意图,包含渠道分类(如社交媒体、应用商店、线下活动)、各渠道占比(如社交媒体占比 40%)、图文描述(如‘社交媒体渠道用红色饼图块表示’)。请结合互联网行业 APP 推广的渠道特性评估:1. 渠道分类合理性:评估是否遗漏‘短视频广告’‘KOL 合作’等主流推广渠道;2. 渠道占比准确性:评估各渠道占比是否与行业内同类 APP 的渠道投入比例一致(如应用商店渠道行业平均占比 30%,示意图中为 20%,需说明差异原因);3. 图文搭配清晰度:评估图文描述是否能让设计人员准确制作出示意图(如‘红色’是否明确为‘RGB#FF0000’,‘饼图块’是否说明大小)。”
12.2.3 第三步:多轮对话优化评估结果,结合人工主观判断
- 多轮对话补充评估:针对数据预测表评估结果,大模型指出 “‘月活增长 50%’的预测高于行业平均水平,但未说明如何实现超额增长”,此时追问:“请结合公司 APP 的核心优势(如独家内容、高用户粘性),补充评估‘月活增长 50%’的可行性,并调整数据预测表中的‘用户转化率’预测数据,说明调整依据。”
- 人工主观判断:大模型完成三个模块的评估后,人工结合公司的品牌定位(如主打年轻用户群体),判断方案正文中 “线下活动” 策略(如在中老年社区举办推广活动)是否与品牌定位不符,最终决定调整线下活动的目标场景(改为高校校园活动)。
12.2.4 第四步:整合评估结果,输出最终优化方案
将大模型的评估建议和人工调整意见整合,形成最终的 “APP 用户增长方案(优化版)”,并在方案中注明各优化点对应的评估依据(如 “调整社交媒体渠道占比至 45%,依据艾瑞咨询行业数据及大模型评估建议”“修改线下活动场景为高校校园,依据人工品牌定位判断”)。
12.2.5 案例总结
这个多场景组合评估案例,综合运用了模块拆分、多技巧结合、多轮对话、联动外部工具、人工主观判断等方法,既发挥了大模型在客观评估、数据梳理方面的优势,又弥补了大模型在主观判断、行业特殊需求适配方面的不足,最终得到了符合公司实际需求的优化方案。这种组合评估的思路,适用于大多数复杂输出内容的评估场景,大家可以根据自身需求灵活调整。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)