OpenBMB 发布 MiniCPM3-4B：小型语言模型的创新突破！

OpenBMB 推出的 MiniCPM3-4B 是开发高效、高性能语言模型的重要里程碑。凭借其先进的功能集，包括对功能调用、代码解释和扩展上下文处理的支持，MiniCPM3-4B 为研究和实际应用提供了一个多功能的工具。其在多个基准测试中的优异表现，加上开放的许可模式，确保了它将在从学术界到工业界的各个领域得到广泛采用。

大靠山

956人浏览 · 2024-10-13 10:45:00

大靠山 · 2024-10-13 10:45:00 发布

在这里插入图片描述

在语言模型领域，OpenBMB 最新发布的 MiniCPM3-4B 引起了广泛关注。这款第三代 MiniCPM 系列的模型标志着小型语言模型技术的一次重要飞跃，以其卓越的性能和创新功能，成为多种应用场景中的强大工具。本文将详细探讨 MiniCPM3-4B 的核心特性、技术创新、性能评估以及实际应用，帮助读者全面了解这一新模型的优势和潜力。

01.模型概览

MiniCPM3-4B 是一款专注于文本生成的语言模型，凭借其高效的语言建模能力脱颖而出。相比于前代模型，MiniCPM3-4B 在功能性和多样性上都有显著提升。其性能已经达到或超越了像 Phi-3.5-mini-Instruct 等模型，并与 7B 至 9B 参数范围的先进模型相当。这使得 MiniCPM3-4B 成为一个高度适应各种应用的工具，包括对话代理、文本补全和代码生成等领域。

一个显著的进步是 MiniCPM3-4B 对功能调用和内置代码解释器的支持。这一特性不仅提高了模型的通用性，还使其能够处理需要文本生成与计算处理混合的任务。开发者现在可以直接通过模型执行代码，这反映了语言模型对集成多种推理形式的需求日益增长。

02.技术创新

MiniCPM3-4B 引入了几项关键技术创新，使其在小型语言模型领域中脱颖而出。最重要的改进之一是扩展的上下文处理能力。MiniCPM3-4B 配备了 32k 的上下文窗口，能够处理比前代模型更大的文本块。这一特点对于需要长文档处理或复杂多轮对话的应用至关重要。

此外，MiniCPM3-4B 利用了 LLMxMapReduce 机制，这使得它在理论上可以管理无限的上下文，而无需过多的内存资源。这种技术创新为处理长文档或复杂的对话交互提供了支持。

MiniCPM3-4B 还经过了针对 Hugging Face 的 Transformers 等主流框架的推理优化。它支持使用 PyTorch 和基于 vLLM 的框架进行实现，为不同平台上的部署提供了灵活性。这种易于集成的特性，使得 MiniCPM3-4B 能够与流行的机器学习库兼容，方便用户将其融入现有工作流程中。

03.性能与评估

在性能评估方面，MiniCPM3-4B 表现出色。它在多个基准测试中与其他领先模型相比具有竞争力。例如，在 MMLU（Massive Multitask Language Understanding）基准测试中，MiniCPM3-4B 得分为 70.5，这一测试评估了模型在理解和生成跨各种复杂任务的能力。同时，它在 GSM8K 数学问题基准测试中的得分为 82.3，突显了其在中文任务中的卓越表现。

与类似参数范围的其他模型（如 GPT-3.5-Turbo-0125）相比，MiniCPM3-4B 更小且高效。在许多基准测试中，它超越或达到了更大模型的结果，特别是在英文和中文任务中。这种性能和效率的结合，使得 MiniCPM3-4B 成为研究人员和开发者的一个有吸引力的选择。

04.实际应用

MiniCPM3-4B 的多功能性使其适用于广泛的应用场景。其对代码生成和功能调用的支持，为将模型集成到需要文本生成与计算任务相结合的技术环境中提供了新可能。长上下文窗口则使其特别适合需要深度上下文理解的应用，如长文档总结或复杂对话交互。

由于其轻量级特性，MiniCPM3-4B 可以在计算资源有限的环境中部署，从而扩展了其潜在用户群体，包括那些无法访问大规模基础设施的小型组织或研究小组。

_# 快速开始 _

Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer   import torch      path = "openbmb/MiniCPM3-4B"   device = "cuda"      tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True)   model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map=device, trust_remote_code=True)      messages = [       {"role": "user", "content": "推荐5个北京的景点。"},   ]   model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to(device)      model_outputs = model.generate(       model_inputs,       max_new_tokens=1024,       top_p=0.7,       temperature=0.7   )      output_token_ids = [       model_outputs[i][len(model_inputs[i]):] for i in range(len(model_inputs))   ]      responses = tokenizer.batch_decode(output_token_ids, skip_special_tokens=True)[0]   print(responses)

vLLM

pip install git+https://github.com/OpenBMB/vllm.git@minicpm3

from transformers import AutoTokenizer   from vllm import LLM, SamplingParams      model_name = "openbmb/MiniCPM3-4B"   prompt = [{"role": "user", "content": "推荐5个北京的景点。"}]      tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)   input_text = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)      llm = LLM(       model=model_name,       trust_remote_code=True,       tensor_parallel_size=1   )   sampling_params = SamplingParams(top_p=0.7, temperature=0.7, max_tokens=1024, repetition_penalty=1.02)      outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)      print(outputs[0].outputs[0].text)

05.许可和可用性

MiniCPM3-4B 根据 Apache-2.0 许可证发布，这意味着它可以免费用于学术研究和商业用途，只需完成注册过程。开放的许可模式鼓励了模型在各个领域的广泛实验和应用，为研究人员和开发者提供了灵活的使用选项。

推荐的引用详细记录在发布文档中，供希望引用 MiniCPM3-4B 模型的开发者和研究人员使用。这种方式确保了模型在学术和研究背景下的贡献得到适当的认可。

结语

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。