微软发布第四代Phi系列大模型，140亿参数的Phi-4 14B模型数学推理方面评测结果超过GPT 4o，复杂推理能力大幅增强

微软将大语言模型分为两类，参数较小的规模被称为小语言模型（Small Language Models， SLMs）。微软认为，使用高质量的数据集训练小规模参数语言模型，以达成更高的推理能力是很重要的一个方向。为此，微软发布了Phi系列的大语言模型。在2023年6月份，微软开源了第一代Phi模型，这个模型参数规模仅有13亿，这是一个纯粹的编程大模型，但是效果不错，三个月后，微软发布Phi-1.5模型

江湖人称麻花滕

1520人浏览 · 2024-12-14 22:26:05

江湖人称麻花滕 · 2024-12-14 22:26:05 发布

Phi大语言模型是微软发布的一系列小规模大语言模型，其主要的目标是用较小规模参数的大语言模型达成较大参数规模的大语言模型的能力。就在今天，微软发布了Phi4-14B模型，参数规模仅140亿，但是数学推理能力大幅增强，在多个评测基准上甚至接近GPT-4o的能力。

Phi-4-14B模型简介
Phi-4-14B模型的评测效果
Phi-4-14B的实际样例
Phi-4-14B模型的开源情况

Phi-4-14B模型简介

微软将大语言模型分为两类，参数较小的规模被称为小语言模型（Small Language Models， SLMs）。微软认为，使用高质量的数据集训练小规模参数语言模型，以达成更高的推理能力是很重要的一个方向。为此，微软发布了Phi系列的大语言模型。

在2023年6月份，微软开源了第一代Phi模型，这个模型参数规模仅有13亿，这是一个纯粹的编程大模型，但是效果不错，三个月后，微软发布Phi-1.5模型，在Phi-1代码补全的基础上增加了模型推理能力和语言理解的能力，参数量不变。随后，2023年年底微软开源了Phi-2模型，这个模型的参数增长到27亿，但是MMLU评测结果超过了LLaMA2 13B，让大家十分惊叹。2024年4月份，微软发布了Phi-3系列SLM，最高参数达到140亿，性能接近Mixtral-8×22B-MoE这样更大规模参数的模型。2024年8月份，微软发布了Phi-3.5系列模型，增加了多模态和混合专家架构，模型能力更强。而4个月后的今天，微软发布了全新的Phi 4 - 14B模型，大幅增强了数学推理能力。

Phi-4-14B模型的参数规模140亿，上下文长度（context length）在预训练阶段是4096。在预训练之后的中期训练（midtraining）阶段，上下文长度被扩展到了16384（即16K）。

Phi-4 是一款在数学推理方面表现出色的先进模型，超越了同类和更大规模的模型。其成功归功于几个关键创新：

合成数据用于预训练和中期训练（Synthetic Data for Pretraining and Midtraining）：

phi-4的训练过程中大量使用了合成数据，这些数据通过多种技术生成，包括多代理提示（multi-agent prompting）、自我修订工作流程（self-revision workflows）和指令反转（instruction reversal）。这些方法能够构建出能够激发模型更强推理和问题解决能力的数据库，解决了传统无监督数据集中的一些弱点。
合成数据在phi-4的预训练和中期训练中占据了主导地位，并且经过精心设计以确保多样性和相关性，以提高模型在推理和问题解决方面的性能。

精选和过滤高质量有机数据（Curation and Filtering of High-Quality Organic Data）：

研究团队精心挑选和过滤有机数据源（就是实际自然存在的数据），包括网络内容、授权书籍和代码库，以提取用于合成数据管道的种子，这些种子鼓励深度推理并优先考虑教育价值。
除了直接用于预训练的高质量数据外，还过滤网络以寻找高质量数据（以知识和推理为依据），直接用于预训练。

后训练（Post-Training）：

phi-4的后训练阶段通过创建新的SFT（Supervised Fine-Tuning）数据集和开发基于关键令牌搜索的DPO（Direct Preference Optimization）对技术，进一步提升了模型性能。
后训练的目标是将预训练的语言模型转变为用户可以安全交互的AI助手，通过对齐一轮SFT和DPO来实现，其中包括基于关键令牌搜索方法生成的DPO对。

这三个关键技术共同支撑了phi-4在保持参数数量相对较少的同时，实现了与更大模型相媲美的性能，尤其是在STEM（科学、技术、工程和数学）领域的问答能力上。通过这些方法，phi-4在数据质量、模型架构和后训练技术方面取得了显著进步，从而在各种基准测试中表现出色。

Phi-4-14B模型的评测效果

在多个评测基准中展现了显著优势，特别是在数学推理、生成问答、以及代码生成任务中，超越了许多同类和更大规模的模型。它的优势在于其在数学和推理任务上的高效性，同时通过对高质量数据的精心策划，推动了模型在各类任务上的综合表现。尽管在某些任务（如SimpleQA）上的表现较弱，但总体来说，Phi-4是一款高性能、均衡的模型，适用于多种应用场景，尤其是在需要精确推理和生成能力的领域。

下图展示了Phi-4-14B模型的能力提升情况：

可以看到，在150亿左右参数规模的模型上，Phi-4-14B的性能一骑绝尘。Phi-4-14B的详细评测结果如下表所示：

根据DataLearnerAI收集的全球大模型评测结果排行榜，在MATH数学评测上，Phi-4-14B模型全球排名第四，而前面三个模型，分别是推理大模型DeepSeek-R1-Lite-Preview、Google最新发布的Gemini 2.0 Flash Experimental模型以及阿里发布的数学专有模型Qwen2.5-Math-72B。可以看到，Phi-4-14B在数学推理上非常强悍！

数据来源：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard

然而，Phi-4-14B在简单问答和某些极端推理任务中表现不如预期，可能过度依赖高质量的数据。此外，后训练优化的策略也可能限制其在一些快速变化的应用场景中的适用性。例如，SimpleQA得分仅为3.0，远低于其他模型（例如Qwen 2.5的9.9），这表明Phi-4在面对较为简单和直接的问答任务时可能存在不足。虽然模型在复杂任务中表现突出，但在处理简单问题时可能没有达到预期的效率或准确性。

Phi-4-14B模型的开源情况

目前Phi-4-14B的模型已经可以在微软官网使用。下周微软将会开源Phi-4-14B这个模型，但是开源协议是微软的开源研究协议，这个协议是不允许商用的，十分可惜。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

解决Rust版本管理难题：gh_mirrors/ru/rust-toolchain高级用法与实战案例

gh_mirrors/ru/rust-toolchain是一款简洁高效的GitHub Action工具，专为Rust开发者设计，能够快速安装和管理Rust工具链，解决多版本共存、环境配置复杂等常见问题，让Rust项目构建过程更加流畅。## 🚀 为什么选择gh_mirrors/ru/rust-toolchain？在Rust开发中，不同项目可能需要不同版本的Rust编译器，手动管理多个工具链

魔乐社区

如何使用IconGenerator快速创建符合Apple人机界面指南的应用图标

IconGenerator是一款专为macOS用户设计的免费应用图标生成工具，能够帮助开发者和设计师轻松创建符合Apple人机界面指南的各种尺寸应用图标。无论是iOS、macOS还是watchOS应用，只需简单几步，即可生成完整的图标套件，省去手动调整尺寸的繁琐过程。## 为什么选择IconGenerator？对于苹果生态开发者来说，制作应用图标往往是一项耗时的工作。Apple的人机界面指

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came