Deepseek v4 前瞻,最浅显的大白话讲deepseek v4
用最通俗的话,大白话讲明白deepseek v4的一些前瞻性预测。通俗易懂。基本没有任何术语。
本文写于2026年1月14日,deepseek v4估计中国农历新年发布。本文是一些前瞻性预测,如果与事实不符,敬请原谅。
刚刚,deepseek 发表了 Engram的文章,就是大模型记忆的文章,结合先前的一篇论文讲稀疏哈希的,笔者预示着即将发布的deep seek4 的一些特点:本文全部用大白话讲deep seek v4的特征,谁都可以读懂。 如果技术人员需要跟技术性参数,可以具体可以通过下面的提示词询问deepseek。
- Engram的优势特点可以介绍吗?
- 结合梁文锋先前的稀疏原理的文章,可以推理出即将发布的v4会有哪些新特点?
1. 记忆
先前的大模型都是用户提问,大模型推理用来推理的,推理就是用户一提问,大模型一步接一步思考,就是动脑,费时费力。 但有时用户场景,大模型只是像专家系统,用户提问一个问题,只要在记忆里,就可以取出内容。 这种场合,不需要推理。 其实记忆就是一张表。可以比作,健值和取值。用户的提问和健值差不多,就取值。 如果这张表足够大,所存的内容就多,大模型部分功能就像专家系统。询问,查询健值,表里取值,就是一个查询,不费脑,也就不费算力。
2. 比例
deepseek的论文又说 推理的稀疏参数占75-80%,记忆的参数占20-25%。因为记忆,参数不需要存在昂贵的GPU里,放在便宜的CPU里就行。
3. 成本
因为很多回答都是类似专家系统的取答案,就是查表就是了,所以,算力开销肯定低,大模型的延迟低,并发量就提高,这样成本势必降下来。
4. 训练:
目前阶段,笔者推测,英伟达的GB200 NVL72卡 用来训练deepseek v4. 因为双向通道速率可以达到 1.6TB/s,国内GPU集群有的还只能36卡,通道还只能400GB/s,所以,英伟达GB200 NVL 72卡集群是最好的用来训练deepseek v4。国产GPU 卡追赶还有一段时间。
5. 意义
目前阶段,算力成本还是高昂,成本不下降,AI应用普及会很难。中小企业用不起。deep seek v4给未来大模型的工程技术提供了指引,就是降成本,更快速。 比如
- CPU用来存储一部分稀疏参数,
- 记忆表免去算力推算,做到低延迟,同时又可以降低开销。
而且,性能,准确率还能有提升。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)