1 概要

我们知道在评测大模型的时候,有很多专业的方法,在 一文中我们有深度的阐述。LLM评测野望4- LLM常见评测基准和资料大全

另外我们也同时用比较感性的个人测试,评价了Ollama框架下的那些主流大模型的表现。

先上总结

辣妈之野望 17 -- Ollama各大模型全方位对比评测总结

2 总结:

  1. 微软的Phi4 , 14.7b的模型给我最好的感受和代码质量。最棒
  2. Yi 6b的模型也非常不错,排第二
  3. Deepseek r1 7b的模型给我还不错的印象。虽然不够精确,精准。但是内容丰富度来说还是可以的。排第三
  4. 第四应该是llama3.3 ,70b, 质量还行,主要是显卡显存要求高了些。

3 我们主要问几个维度的问题

1 你的大模型数据是截止到何时的

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

相关配图由微信小程序【字形绘梦】免费生成,直接扫码进入免费使用

辣妈之野望 17 -- Ollama各大模型全方位对比评测总结

4 各大模型综合比较和评分汇总

综合评分=4项问题综合除以4。

目前来看,比较中庸的分数是65分,

70分,或者靠近的模型已经是表现相当不错了。

模型名称 总结评分 模型参数 授权协议 心得
phi4 75 14.7b MIT License 非常有趣的模型。个人非常喜欢。代码的优秀程度应该是最好的。算命的能力应该不是第一也是第二了。速度也非常快,几乎和7b的模型差不多了。
yi 72.5 6b MIT License 非常有趣的模型。个人挺喜欢。代码质量挺高的。 给我印象深刻的是它竟然拒绝回答我的一些其余LLM回答的问题。很有个性。另外上下文有些串,需要关注。
Deepseek-r1 70 7b MIT License 精准度,聪明度不高。但是内容丰富度不错。还挺适合天朝同学
deepseek-coder-v2 70 15.7b MIT License 非常不错,4个问题,回复都听满意的。
llama3.3 68.75 70b Llama自己的授权协议https://www.llama.com/llama3/license/ 感觉质量蛮高的。就是对GPU性能加载有要求。
这个算命的能力应该是我见过的最厉害的模型了
openchat 68.75 7b Apache-2.0 License 通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。
llama3.2-vision 67.5 9.8b 自己的license 算命很不错,其余的都也可以。还是很赞。尤其是算命能力。
codellama 67.5 7b 自己的license 代码方面有一定能力的解释和增强。算命方面理解也挺有意思。不过英文的暴露能力,和回答问题的不是特别准确性是个比较大的问题。
reflection 67.5 70b 自己的license 跑不动,非常慢。模型参数太大了
orca2 67.5 7b/13b 自己的license 总体来说这个模型还是比较差的。各方面都没有特色。
sailor2 67.5 8.5b 自己的license
command-r 66.25 103b 不详 通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。
codegeex4 65 9.4b Apache-2.0 License 这个模型好像速度很快,表现能力居中。四个问题指标都很中庸。还不错。
llama2-chinese 65 7b 不详 这个模型影响有一些深刻。主要是简介,精准。不会冗余猜想。不过代码回复能力有点弱。拉低了平均分
mistral-nemo 65 12.2b MIT License 算命的能力让人印象深刻,非常不错。 一本正经的胡说八道也是很第一。代码不错。
wizardlm2 65 7b MIT License 这个大模型我很喜欢,算命和代码效率都很高。
starcoder2 63.75 3b/7b Apache-2.0 License 回答质量一般。但是反应速度真实超快。可能是最快的一个了,对于硬件性能貌似也轻度。
codestral 62.5 22.2b 商业许可需要联系对方销售的 代码效果没有预期的好。可能还没有掌握吧。另外商业应用要额外付费,就退了。
hermes3 62.5 8b 不详 质量一般,无感
aya 62.5 8b 不详 非常一般的模型。显存压力尚可。
qwen2.5-coder 60 7.6b Apache license 这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以,不辜负coder的定位。
qwq 60 32b MIT License 这个模型总体来看还是不错的。具体的算命和代码2块主观感受都不错。 只是一开始的数据时间不肯配合导致感受不好。
meditron 60 7b/70b Apache license 这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以,不辜负coder的定位。
granite3-guardian 60 2b/8b Apache-2.0 License 这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以,不辜负coder的定位。
tinyllama 55 1b Apache-2.0 License 大跌眼镜。精简模型,彻底漏项。直接用英语回复了。同时错误百出,理解问题也错误。不过处理速度是真的飞快。毕竟模型小啊。才700MB都不到。
falcon 55 4b/40b/180b Apache-2.0 License 高傲的用英文回复。这个模型可能是迄今为止体验最差的一个模型了不仅拒绝回答,还回复很少。
sqlcoder 30 7b/15b Apache license 这个大模型,只能回答SQL相关的内容。其余的常规问题,回复都不理想。
solar-pro 0 22b Apache-2.0 License 跑不动,没结果
command-r-plus 0 104b Apache-2.0 License 这个模型只有104b一种。操作的时候可能由于我的测试机器GPU性能的问题。未能展现真正的能力。因此个人玩家要注意。可能硬件无法承载.104B的模型无法测试

辣妈之野望 17 -- Ollama各大模型全方位对比评测总结

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐