在人工智能的浪潮中,大模型以惊人的速度重塑技术边界,从OpenAI的GPT系列到DeepSeek-R1,每一款模型的命名与设计都暗藏深意。然而,面对层出不穷的模型名称与技术标签,你是否也曾陷入困惑:DeepSeek-R1与DeepSeek-V3区别何在?模型名称中的参数规模、架构代号又指向哪些核心能力?
本文将以全景视角梳理主流大模型的命名逻辑与技术谱系,助你快速穿透术语迷雾,读懂大模型背后的“身份密码”。论您是开发者探索技术边界,还是从业者把握行业趋势,这里都将成为您通往大模型世界的导航图。

模型命名元素大起底
我们会看到各种方式命名的模型,如QwQ-32B、Phi-4-multimodal-instruct, Claude-3.7-Sonnet,名称长短、含义各不相同,通过总结主流模型命名,模型命名通常包含以下元素:
1. 以团队、缩写、动物、艺术、语言等为标识
- 团队:如
DeepSeek
、Qwen
缩写:技术架构或短语缩写,如下
GPT:Generative pre-trained transformer,生成式预训练Transfomer模型
GLM:Generative Language Model,通用的预训练语言模型
QWQ:Qwen with Questions
BERT:Bidirectional Encoder Representation from Transformers,基于变换器的双向编码器表示技术
动物:如 LLaMA(羊驼)、Orca(虎鲸)
人物:如 Claude(克劳德·香农)、Titan(泰坦)、Moirai(摩伊拉)
语言:如 Chinese(表示中文优化)、mGPT(m表示多语言支持)
其他:如 Grok(火星词)、Gemini(双子座)、doubao、hunyuan
2. 模型系列与版本号
- 系列代号:反映模型定位,如DeepSeek-V:通用型(V意为Version),DeepSeek-R:推理优化型(R意为Reasoning)
- 版本号:
数字版本号,如
DeepSeek-R1,后续会迭代升级,如GPT-3到GPT-4.5 - Release/Latest:表示是正式版本或最新版本,如 Illustrious-xl-early-release-v0、qwen-max-latest
- 日期标识:包含具体日期,如qwen-max-2025-01-25
3. 技术特性一般指模型训练的方式,如下:
- Distill:蒸馏压缩版本,如DeepSeek-R1-Distill-Qwen-1.5B
- GGUF:量化格式优化部署效率,如DeepSeek-R1-GGUF
- MoE:混合专家,如 Qwen1.5-MoE-A2.7B
- GPTQ:量化版本,如 Qwen2.5-7B-Instruct-GPTQ-Int4
- SFT:监督微调,如 CosyVoice-300M-SFT
- DPO:直接偏好优化,如 UI-TARS-72B-DPO
4. 规模标识
- 参数量级:直接表示参数量(7B, 13B, 70B),如 DeepSeek-R1-Distill-Qwen-7B
- 相对规模标识:
- S/M/L/XL:表示 Small、 Medium、Large、Extra Large,如GPT2-XL
- Mini/Base/Large:表示迷你版本、基础版本、大版本,如 deepseek-ai/DeepSeek-V3-Base
- 此外还有:Pro(高级)、Ultra(极致)、Haiku(轻量)、Sonnet(均衡)、Opus(顶级)、Plus(加强)、Omni(全能)、Turbo(升级)等自定义的模型等级,如 GPT-4o 中的o就指Omni,表示全能
- 量化精度:如int4、int8、fp16、bf16,如 Qwen2.5-32B-Instruct-GPTQ-Int4
- 上下文最大Token长度:如 300M、1M等,qwen2.5-7b-instruct-1m
5. 训练数据或用途
- 语言标识:zh(中文)、
multi
(多语言)、cased(保留大小写的) - Vision/V/VL:具备视觉能力,如 GPT-4V, Gemini Pro Vision
- TTS/ASR:具备语音处理能力,如 SparkAudio/Spark-TTS-0.5B
- Code/Coder:专注代码能力,如 CodeLlama, DeepSeek-Coder
- Math:擅长数学推理,如 DeepSeek-Math, MathGPT
- Chat:针对对话优化,如 LLaMA-2-Chat, Yi-Chat
- Instruct:理解并执行人类提供的指令,如 Qwen2.5-VL-7B-Instruct
- squad:擅长问答任务,如 distilbert/distilbert-base-cased-distilled-squad
模型命名元素基本上包含以上几类,如果模型中的词语不包含在以上内容中,也基本上是以上元素的变种。
各大厂商模型命名风格
1. OpenAI
- 命名特点:简洁、版本明确
- 命名结构:基础名称(GPT) + 版本号(3.5, 4) + 功能后缀(turbo)
- 示例:GPT-3.5-turbo、GPT-4、GPT-4-Vision
2. Meta (Facebook)
- 命名特点:使用简短有意义的词汇
- 命名结构:基础名称(LLaMA) + 版本号(2) + 参数规模(7B) + 功能后缀(Chat)
- 示例:LLaMA-2-7B-Chat、CodeLlama-70B-Instruct
3. Anthropic
- 命名特点:使用古典音乐术语
- 命名结构:基础名称(Claude) + 版本号(2) + 能力等级(Opus, Sonnet)
- 示例:Claude-3-Opus、Claude-3-Sonnet、Claude-3-Haiku
4. Google
- 命名特点:系统化命名,偏好简短名称
- 命名结构:基础名称(Gemini) + 能力等级(Pro, Ultra) + 功能后缀(Vision)
- 示例:Gemini Pro、Gemini Ultra、Gemini Pro Vision
5. 阿里巴巴
- 命名特点:使用简短名称,强调通用性
- 命名结构:基础名称(qwen、wanx) + 能力等级(Plus、Max)+版本或规模标识
- 示例:qwen-max-latest、qwen2.5-7b-instruct-1m
6. 深度求索(DeepSeek)
- 命名特点:强调模型迭代与特性
- 命名结构:品牌名(DeepSeek) + 功能/版本标识(R1, V3, Coder)
- 示例:DeepSeek-R1、DeepSeek-V3、DeepSeek-Coder
模型库:全球两大模型生态平台
在AI大模型时代,模型库是开发者与研究者获取、共享和部署模型的核心枢纽。全球范围内,Hugging Face与ModelScope分别代表了国际与国内最活跃的模型生态平台。

Hugging Face 是一个在自然语言处理领域极具影响力的开源平台,被广泛认为是机器学习社区的中心枢纽。它提供了一个庞大的模型库,目前近150W个模型,涵盖了自然语言处理、计算机视觉、语音识别等多个领域的预训练模型。用户可以在该平台上轻松地搜索、下载和使用各种模型,同时还能分享自己的模型和代码。Hugging Face 的优势在于其社区活跃度高,模型更新速度快,并且提供了丰富的文档和示例代码,方便开发者快速上手。
访问地址:https://huggingface.co/models

ModelScope 是阿里云推出的一个面向多模态 AI 的开源模型社区,聚焦于计算机视觉、语音、自然语言处理等多个领域。它整合了众多优秀的开源模型,为开发者提供了一站式的模型开发和应用平台。ModelScope 的特点是结合了阿里云强大的计算资源和技术支持,提供了高效的模型训练和推理服务,同时还支持模型的在线部署和微调,方便用户快速将模型应用到实际场景中。
访问地址:https://modelscope.cn/models
模型通用分类
大模型的分类可从多个维度展开,例如应用领域、架构类型、训练范式、参数规模进行分类,比较通用易于理解的是按应用领域分类,上述两大模型库也采用这种分类方式,具体分类如下:
- 自然语言处理(NLP)模型:主要用于处理和分析人类语言,如文本生成、机器翻译、情感分析、问答系统等。常见的 NLP 模型有 GPT 系列、QWen系列 等。
- 计算机视觉(CV)模型:用于处理和分析图像和视频数据,如图像分类、目标检测、语义分割、图像生成等。典型的 CV 模型包括 ResNet、YOLO、Stable Diffusion 等。
- 语音识别与合成模型:用于将语音信号转换为文本(语音识别)或将文本转换为语音(语音合成)。例如,DeepSpeech 用于语音识别,Tacotron 用于语音合成。
- 多模态模型:指能够处理和整合多种模态或数据类型的信息的机器学习模型。 这些模态可以包括文本、图像、音频、视频和其他形式的感官输入。
- 科学计算模型:如蛋白质结构生成,蛋白质功能预测等模型。
大模型技术日新月异,名称背后的参数、架构与能力标签,既是技术演进的注脚,也是行业趋势的风向标。从闭源巨头到开源新锐,从通用底座到垂直赛道,每一次命名革新都藏着技术跃迁的密码。
收藏本文,这份“大模型辞典”将助你穿透术语迷雾,在参数洪流中锚定方向。当下一代千亿级模型登场时,愿你能从名称中读懂它的基因,从分类中预判它的疆界。技术浪潮奔涌不息,唯有理解本质,方能在AI时代从容前行。
☟☟☟欢迎关注AI不慌指南,解读AI前沿资讯,分享AI普惠知识消除焦虑,拥抱AI 😄