大语言模型
大语言模型
大语言模型(Large Language Model, LLM)是一种能理解和生成自然语言的 AI 模型。核心机制是自回归生成——给定前文预测下一个词,通过海量文本训练掌握语法、语义和世界知识。
Transformer 架构
LLM 的核心是 Transformer。用自注意力机制替代 RNN/CNN,让模型处理每个词时能同时"看到"整个句子中的所有词,捕捉远距离关联。
提示
"小明把钥匙放在桌子上,然后他去上班了"——模型需要知道"他"指"小明"。自注意力机制直接建立"他"和"小明"的联系,不需要逐词回溯。
架构流派:
- Decoder-only(GPT 系列):因果掩码确保预测时只看到前文,适合生成任务
- Encoder-only(BERT):双向注意力理解完整上下文,适合理解任务(分类、抽取)
训练流程
LLM 训练分三阶段,每阶段解决不同问题:
预训练(Pre-training)
在海量文本上做"猜下一个词"训练,习得语言基本规律——语法、语义、世界知识。数据越多、模型越大,能力上限越高。GPT-4 级别需要数万亿 token 训练数据。
监督微调(SFT)
预训练后的模型知识丰富,但不会按指令格式回答。SFT 用人工标注的高质量"问-答"对教模型"如何回答"——用 Markdown 格式输出、分步骤解释问题等。标注数据质量直接决定微调效果。
人类反馈强化学习(RLHF)
让模型输出更符合人类偏好。先训练奖励模型学习人类对不同回答的排序偏好,再用强化学习优化 LLM 生成更高评分的回答。RLHF 解决了 SFT 的局限——SFT 只教模仿正确答案,无法告诉模型"为什么这个比那个好"。
关键技术
RAG(检索增强生成)
LLM 知识截止于训练时间点,且无法访问私有数据。RAG 在用户提问时先从知识库检索相关文档,再把检索结果和问题一起输入模型。
不用重新训练即可获得最新、私有的知识。企业内部智能问答系统大多基于 RAG 实现。
上下文窗口
LLM 单次能处理的文本长度上限。早期模型限制 4K token(约 3000 字),Claude 已支持 200K token(约 15 万字)。更长上下文意味着能处理更长文档和对话,但计算成本更高。
温度(Temperature)
控制生成文本的随机性:
| 温度范围 | 输出特征 | 适用场景 |
|---|---|---|
| 低(0-0.3) | 确定、保守 | 代码生成、事实问答 |
| 高(0.7-1.0) | 多样、有创意 | 写作、头脑风暴 |
代表模型
| 模型 | 厂商 | 特点 |
|---|---|---|
| GPT-4 / GPT-4o | OpenAI | 多模态,闭源,综合能力强 |
| Claude 3 / Claude 3.5 | Anthropic | 长上下文(200K),安全性强,代码能力突出 |
| Llama 3 | Meta | 开源,推动开源生态发展 |
| Gemini | 多模态原生支持,与 Google 生态深度集成 | |
| DeepSeek | DeepSeek | 国产开源,性价比高,MoE 架构 |
应用场景
- 文本生成:文章写作、翻译、摘要——最基础也最广泛的应用
- 代码生成:Claude Code 等产品根据自然语言描述生成功能代码
- RAG 问答:企业基于私有数据构建智能问答系统
- Agent 模式:LLM 不局限于单轮对话,能规划任务步骤、调用外部工具、持续执行直到完成目标
与其他技术栈的关系
MCP协议 的所有工具和资源最终都是为模型提供信息和执行能力。Claude Code 将模型的文本理解和生成能力转化为文件操作、代码编写等实际能力。氛围编程 则是基于大语言模型能力特征设计的编程方法论。
模型能力边界决定整个技术栈上限——上下文窗口从 4K 扩展到 200K,RAG 的必要性降低;模型代码能力从"补全"提升到"自主规划",编程方法论需相应调整。
常见问题
| 问题 | 原因 | 解决方案 |
|---|---|---|
| 输出质量下降 | 上下文窗口填满,早期内容被截断 | 精简提示词、分段对话、使用长上下文模型 |
| 幻觉(Hallucination) | 模型自信输出不存在的事实 | 用 RAG 引入权威数据源,要求模型引用来源 |
| Token 消耗过快 | 长提示词 + 长回复 = 高消耗 | 精简系统提示、小模型处理简单任务、流式输出 |
| API 调用失败 | Key 过期/额度用尽、超时、并发限制 | 检查 Key 状态、设置超时、实现重试和限流 |