大语言模型

大语言模型（Large Language Model, LLM）是一种能理解和生成自然语言的 AI 模型。核心机制是自回归生成——给定前文预测下一个词，通过海量文本训练掌握语法、语义和世界知识。

Transformer 架构

LLM 的核心是 Transformer。用自注意力机制替代 RNN/CNN，让模型处理每个词时能同时"看到"整个句子中的所有词，捕捉远距离关联。

提示

"小明把钥匙放在桌子上，然后他去上班了"——模型需要知道"他"指"小明"。自注意力机制直接建立"他"和"小明"的联系，不需要逐词回溯。

架构流派：

LLM 训练分三阶段，每阶段解决不同问题：

在海量文本上做"猜下一个词"训练，习得语言基本规律——语法、语义、世界知识。数据越多、模型越大，能力上限越高。GPT-4 级别需要数万亿 token 训练数据。

预训练后的模型知识丰富，但不会按指令格式回答。SFT 用人工标注的高质量"问-答"对教模型"如何回答"——用 Markdown 格式输出、分步骤解释问题等。标注数据质量直接决定微调效果。

让模型输出更符合人类偏好。先训练奖励模型学习人类对不同回答的排序偏好，再用强化学习优化 LLM 生成更高评分的回答。RLHF 解决了 SFT 的局限——SFT 只教模仿正确答案，无法告诉模型"为什么这个比那个好"。

LLM 知识截止于训练时间点，且无法访问私有数据。RAG 在用户提问时先从知识库检索相关文档，再把检索结果和问题一起输入模型。

不用重新训练即可获得最新、私有的知识。企业内部智能问答系统大多基于 RAG 实现。

LLM 单次能处理的文本长度上限。早期模型限制 4K token（约 3000 字），Claude 已支持 200K token（约 15 万字）。更长上下文意味着能处理更长文档和对话，但计算成本更高。

控制生成文本的随机性：

温度范围	输出特征	适用场景
低（0-0.3）	确定、保守	代码生成、事实问答
高（0.7-1.0）	多样、有创意	写作、头脑风暴

MCP协议的所有工具和资源最终都是为模型提供信息和执行能力。Claude Code 将模型的文本理解和生成能力转化为文件操作、代码编写等实际能力。氛围编程则是基于大语言模型能力特征设计的编程方法论。

模型能力边界决定整个技术栈上限——上下文窗口从 4K 扩展到 200K，RAG 的必要性降低；模型代码能力从"补全"提升到"自主规划"，编程方法论需相应调整。