大模型/LLM的涌现能力

涌现：许多小实体相互作用产生了大实体，大实体展现了组成它的小实体所不具有的特性大语言模型的规模效应：下游任务表现-伸缩法则&&涌现能力左侧任务：随着参数规模增大，知识的增长，效果越来越好右侧任务：涌现能力的一种体现，在参数规模小的时候体现一种随机性，看不出来有没有效果。大部分是由多步构成的一个复杂任务随着模型推大，效果一开始下降，当规模再增大时会上升，原因未知，但是这类任务加入COT就会转化为伸

汪VV

1118人浏览 · 2023-10-11 13:28:22

汪VV · 2023-10-11 13:28:22 发布

新浪张俊林–中国人工智能学会演讲

文章目录

什么是大模型的涌现能力
LLM表现的涌现能力
LLM模型规模和涌现能力的关系
模型训练中的顿悟现象：Grokking
LLM涌现能力的可能原因

什么是大模型的涌现能力

涌现：许多小实体相互作用产生了大实体，大实体展现了组成它的小实体所不具有的特性
大语言模型的规模效应：下游任务表现-伸缩法则&&涌现能力
在这里插入图片描述
左侧任务：随着参数规模增大，知识的增长，效果越来越好
例如：多数据清洗和转换、基于维基数据的知识问答、语言映射、日期理解、虚构语言翻译、单位转换任务
右侧任务：涌现能力的一种体现，在参数规模小的时候体现一种随机性，看不出来有没有效果。大部分是由多步构成的一个复杂任务
例如：词性消歧、国际音标转写、周期表元素识别、修改后的算术、重复复制逻辑、单词反混淆

在这里插入图片描述
随着模型推大，效果一开始下降，当规模再增大时会上升，原因未知，但是这类任务加入COT就会转化为伸缩法则，效果持续上升。

大模型的涌现，很多任务在小规模上不能实现，但是大规模上能做。因此在当前不能做的任务，为了验证，只需要推大模型。

LLM表现的涌现能力

1. In Context Learning – 情景学习

给LLM几个示例，不需要调整模型参数，LLM就可以解决某个领域的问题。
在这里插入图片描述
在不同任务上的应用。

2. CoT

在这里插入图片描述

3. 其他涌现能力

在这里插入图片描述

LLM模型规模和涌现能力的关系

模型规模和涌现能力的关系： In Context Learning
与具体任务/具体模型有关：某些任务13B规模即可，有些任务需要540B，大部分需要达到70B
在这里插入图片描述
模型规模和涌现能力的关系： CoT等其他涌现能力

尝试做小模型？

在这里插入图片描述

模型训练中的顿悟现象：Grokking

Grokking：训练数据较少的某些数学任务（取余问题），训练过程三阶段（记忆期、平台期、泛化期）
在这里插入图片描述

LLM涌现能力的可能原因

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r