辣妈之野望 17 — Ollama各大模型全方位对比评测总结

微软的Phi4 , 14.7b的模型给我最好的感受和代码质量。最棒Yi 6b的模型也非常不错，排第二Deepseek r1 7b的模型给我还不错的印象。虽然不够精确，精准。但是内容丰富度来说还是可以的。排第三第四应该是llama3.3 ,70b, 质量还行，主要是显卡显存要求高了些。

ms44

2240人浏览 · 2025-02-18 03:30:00

ms44 · 2025-02-18 03:30:00 发布

1 概要

我们知道在评测大模型的时候，有很多专业的方法，在一文中我们有深度的阐述。LLM评测野望4- LLM常见评测基准和资料大全

另外我们也同时用比较感性的个人测试，评价了Ollama框架下的那些主流大模型的表现。

先上总结

2 总结：

微软的Phi4 , 14.7b的模型给我最好的感受和代码质量。最棒
Yi 6b的模型也非常不错，排第二
Deepseek r1 7b的模型给我还不错的印象。虽然不够精确，精准。但是内容丰富度来说还是可以的。排第三
第四应该是llama3.3 ,70b, 质量还行，主要是显卡显存要求高了些。

3 我们主要问几个维度的问题

1 你的大模型数据是截止到何时的

2 中国有个微信小程序【字形绘梦】，请问你知道是什么产品吗？

3 请作为一个风水算命大师，给我算算今日财运如何。我的生日是1988年8月8日，职业是工程师

4 请作为一名C#编程专家，回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容，直接给我代码接口

相关配图由微信小程序【字形绘梦】免费生成，直接扫码进入免费使用

4 各大模型综合比较和评分汇总

综合评分=4项问题综合除以4。

目前来看，比较中庸的分数是65分，

70分，或者靠近的模型已经是表现相当不错了。

模型名称	总结评分	模型参数	授权协议	心得
phi4	75	14.7b	MIT License	非常有趣的模型。个人非常喜欢。代码的优秀程度应该是最好的。算命的能力应该不是第一也是第二了。速度也非常快，几乎和7b的模型差不多了。
yi	72.5	6b	MIT License	非常有趣的模型。个人挺喜欢。代码质量挺高的。给我印象深刻的是它竟然拒绝回答我的一些其余LLM回答的问题。很有个性。另外上下文有些串，需要关注。
Deepseek-r1	70	7b	MIT License	精准度，聪明度不高。但是内容丰富度不错。还挺适合天朝同学
deepseek-coder-v2	70	15.7b	MIT License	非常不错，4个问题，回复都听满意的。
llama3.3	68.75	70b	Llama自己的授权协议https://www.llama.com/llama3/license/	感觉质量蛮高的。就是对GPU性能加载有要求。这个算命的能力应该是我见过的最厉害的模型了
openchat	68.75	7b	Apache-2.0 License	通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。
llama3.2-vision	67.5	9.8b	自己的license	算命很不错，其余的都也可以。还是很赞。尤其是算命能力。
codellama	67.5	7b	自己的license	代码方面有一定能力的解释和增强。算命方面理解也挺有意思。不过英文的暴露能力，和回答问题的不是特别准确性是个比较大的问题。
reflection	67.5	70b	自己的license	跑不动，非常慢。模型参数太大了
orca2	67.5	7b/13b	自己的license	总体来说这个模型还是比较差的。各方面都没有特色。
sailor2	67.5	8.5b	自己的license
command-r	66.25	103b	不详	通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。
codegeex4	65	9.4b	Apache-2.0 License	这个模型好像速度很快，表现能力居中。四个问题指标都很中庸。还不错。
llama2-chinese	65	7b	不详	这个模型影响有一些深刻。主要是简介，精准。不会冗余猜想。不过代码回复能力有点弱。拉低了平均分
mistral-nemo	65	12.2b	MIT License	算命的能力让人印象深刻，非常不错。一本正经的胡说八道也是很第一。代码不错。
wizardlm2	65	7b	MIT License	这个大模型我很喜欢，算命和代码效率都很高。
starcoder2	63.75	3b/7b	Apache-2.0 License	回答质量一般。但是反应速度真实超快。可能是最快的一个了，对于硬件性能貌似也轻度。
codestral	62.5	22.2b	商业许可需要联系对方销售的	代码效果没有预期的好。可能还没有掌握吧。另外商业应用要额外付费，就退了。
hermes3	62.5	8b	不详	质量一般，无感
aya	62.5	8b	不详	非常一般的模型。显存压力尚可。
qwen2.5-coder	60	7.6b	Apache license	这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以，不辜负coder的定位。
qwq	60	32b	MIT License	这个模型总体来看还是不错的。具体的算命和代码2块主观感受都不错。只是一开始的数据时间不肯配合导致感受不好。
meditron	60	7b/70b	Apache license	这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以，不辜负coder的定位。
granite3-guardian	60	2b/8b	Apache-2.0 License	这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以，不辜负coder的定位。
tinyllama	55	1b	Apache-2.0 License	大跌眼镜。精简模型，彻底漏项。直接用英语回复了。同时错误百出，理解问题也错误。不过处理速度是真的飞快。毕竟模型小啊。才700MB都不到。
falcon	55	4b/40b/180b	Apache-2.0 License	高傲的用英文回复。这个模型可能是迄今为止体验最差的一个模型了不仅拒绝回答，还回复很少。
sqlcoder	30	7b/15b	Apache license	这个大模型，只能回答SQL相关的内容。其余的常规问题，回复都不理想。
solar-pro	0	22b	Apache-2.0 License	跑不动，没结果
command-r-plus	0	104b	Apache-2.0 License	这个模型只有104b一种。操作的时候可能由于我的测试机器GPU性能的问题。未能展现真正的能力。因此个人玩家要注意。可能硬件无法承载.104B的模型无法测试

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

ms44

@ms44

已为社区贡献10条内容