大语言模型选型
省流
推荐模型: Qwen3 Mistral2503 gemma3 phi4
主流厂牌
中国
1. 通义千问/qwen marco (阿里)
2. [开源在即]文心一言 (百度)
3. internlm (商汤,上海人工智能实验室)
4. glm (清华)
5. deepseek (深度求索)
6. kimi/moonlight (月之暗面)
7. miniCPM (面壁智能)
8. baichuan (目前转行医疗垂类)
9. Yi(零一万物)
10.minimax
美国
0. 仅api: gpt(openai) claude
1. llama (Meta)
2. gemini/gemma (Google)
3. WizardLM/phi (microsoft)
4. Grok (X) (力大砖飞的东西,性价比不高)
其他
1. solar (韩国)
2. falcon (阿联酋)
3. mistral (法国)
4. causal/miniG (无审核模型,开源团队)
5. command A (加拿大)
前置常识
关于MOE
只是选型的话,不用考虑太多,只要衡量好显存和性能就好
MoE技术简单理解就是一个词大模型中有多个独立部分,称为expert,每次只激活一个
使用ktransformer可以只加载所需要的expert,节省显存开销,与之相对的是极大依赖内存吞吐
(也有大聪明做出了依赖硬盘版,不过和虚拟内存没什么区别)
尺寸命名格式: M b-a*N* b
M 为整体尺寸
N 为单一expert尺寸
(不使用ktransformer)计算显存占用时,只需要关注整体尺寸就好
尺寸与能力
\<7b 格式指令
7~32b 简单指令
\>32b 复杂指令/逻辑判断
显存占用
在Q8量化下,显存(单位GB)与模型参数量(单位b)数值上大小大约相等
[latest:2506]主流系列
Qwen
Qwen是狐锋用的最久的模型系列,从qwen开始一直追更到Qwen3
优点:一直被称道中文好(但没实测过),开源大方利落
缺点:阿里喜欢跑分,针对跑分优化有水分;
拒答极严(qwen2 72b除外),即使是abliterated(某种参数尺度的修改,意味着解除限制)依旧拒答严重
很喜欢提意见"阿里味"很冲
历史版本 qwen qwen1.5 Qwen2 Qwen2.5 Qwen3
分支版本 qwq-preview QVQ QwQ qwen2.5-coder(7b/32b)
Qwen3
尺寸
dense: 0.6b 1.7b 4b 8b 14b 32b
MoE: 30b-a3b 235b-a22b
QwQ
狐锋实测上下文超过一轮就有明显幻觉,当然也可能是参数没设对
技术报告中指出:QwQ代码能力通过代码运行服务器进行强化学习
Marco-o1
> 🎯 Marco-o1 不仅关注那些有标准答案的学科,如数学、物理和编程——这些领域非常适合强化学习(RL),还更加强调开放式解决方案。我们旨在回答这个问题:“o1 模型能否有效地泛化到缺乏明确标准且难以量化奖励的更广泛领域?”
> 目前,Marco-o1 大型语言模型 (LLM) 通过_思维链 (CoT) 微调_、蒙特卡洛树搜索 (MCTS)、反思机制 和_创新推理策略_进行优化——专为复杂的实际问题解决任务设计。
marco-o1不是通义千问团队的作品,而是"阿里巴巴国际数字商业"团队的
擅长翻译
phi&gemma&mistral
这三款模型的定位和尺寸相差无几,所以放在一起说
phi系列 主打合成数据,以极低的数据集成本优胜
gemma3 原生支持多模态(it)
mistral 综合性能略微更强一点点
phi
引用自《Textbooks Are All You Need II: phi-1.5 technical》
> 我们注意到,在创建phi-1和phi-1.5的训练数据过程中获得的经验使我们得出结论:创建一个健壮且全面的数据集需要的不仅仅是原始的计算能力:它需要复杂的迭代过程、战略性的主题选择,以及对知识空缺的深刻理解,以确保数据的质量和多样性。我们推测,创建合成数据集在不久的将来将成为一个重要的技术技能和人工智能研究中的一个核心话题。
历史版本 phi-1 phi1.5(1.7b) phi2(2.7b) phi3(3.8B/7B/14B) phi3.5(mini/14b/MoE) phi4(mini/14b)
这款没什么特别吸引狐锋的点
Gemma
最开始是主打轻量这一优势,现在转向企业本地需求,指令遵从不错
历史版本 gemma(2b/7b) gemma2(9b/27b) gemma3(1b/4b/12b/27b)
据说gemma3 27b代码能力很强,虽然狐锋没有实测过
mistral
狐锋最喜欢的模型系列之一
狐锋的挚爱机器人 小I 就是在Small-24B 2503基础上微调来的(现在qq号被风控了qwq)
历史版本
Small-24B 2501 2503
Medium 2505(未开源,据传效果一般)
Large (123B) 2411
Devstral-Small 2505
Pixtral-12B 2409
Ministral-8B 2410
Nemo 2407
Mixtral 8x22B 8x7B
Codestral-22b v0.1
internLM
主打小尺寸模型,微调优选
唯一推荐模型internLM3 8b
GLM
历史版本 GLM4-9b Z1-32B-0414(以及Rumination“沉思能力”分支)Z1-9b-0414
moonlight
唯一模型,且不推荐 Moonlight-16B-A3B
在大规模模型上,采用了Muon取代AdamW的技术创新,减少约50%计算量,但据说增加了显存峰值带宽占用
创新点:采用牛顿迭代法进行梯度更新
[技术报告](https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf "技术报告")
Deepseek
伟大无需多盐
但V3及R1若非财力雄厚就不必考虑了,即使是纯cpu方案/ktransformer方案,也要5wRMB起步,n卡起码8xA100 80G
我们来盘一盘别的小众模型
DeepSeek-V2 (236b)
DeepSeek-V2 0628
DeepSeek-V2-Lite(16b)
DeepSeek-Coder-V2-0724
DeepSeek-V2.5(合并了ds v2及其coder模型)
DeepSeek-V2.5 1210
DeepSeek-Prover-V2-7B
DeepSeek-Coder-V2-Lite(16b)
Janus-Pro (1b/7b) 可以生成图片,据说效果不如sd1
DeepSeek-VL2(4,8b/Tiny:1b/Small:2.8)
其中DSV2.5 v1210 Q2-XXXS是最低限度,Q1无法正常对话
但也没什么特别推荐的模型
MiniMax
主打超长上下文且开源
国外比较热门,国内不温不火
模型尺寸都在400b,狐锋玩不起(
MiniMax-01 Text/VL
Minimax-M1 40K/80K
MiniCPM
最强端侧模型
主打小尺寸边缘计算,miniCPM 3.5VL比较火
miniCPM4 8b/1b/0.5b/MCP
miniCPM-o/v-2_6
miniCPM3 RAG/4b
miniCPM MOE-8x2b
CausalLM
伟大无需多言
尺寸:7b/14b/34b/35b/72b
72b相较34b提升显著
llama
没什么好说的,meta故意过滤中文数据集,导致中文能力几乎没有;llama4 两个MoE据说也一塌糊涂
但有一个英文微调模型llama3.2 70b有绝佳的角色扮演能力,hf评价说像真人
历史版本 llama llama2 llama3 llama3.1 llama3.2 llama3.3(70b) llama4
Command A
历史版本 aya-vision(8b/32b) command-r-v01(35b) command-r-08-2024(32b) R+ 08-2024(104b) r7b-12-2024(7b) 03-2025(111b)
卖点:长上下文,RAG检索
主流模型就介绍到这里
[250621增补]
dots.llm1.inst
小红书发布的模型,猜测语料来自小红书平台
尺寸:142b-a14b
狐锋的印象是比较平庸,对齐味很重
kimi-dev
从qwen2.5-72b微调而来(qwen2.5果然是神 ?)
看起来是跑分特化版(
群u评价:"别用kimi写代码"
二次开发模型/不知名厂商模型
从这里开始就不介绍整套的模型了,只挑选上过各家排行榜top3的模型了
[hf llm天梯榜](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard "hf llm天梯榜")
Athene V2
同时有Athene V2 Agent模型,但狐锋没试过