大语言模型基础
什么是 LLM
大语言模型(Large Language Model)是基于 Transformer 架构、在海量文本数据上训练的深度学习模型。它通过预测下一个 token 的方式学习语言的统计规律,从而具备文本生成、理解、翻译、推理等能力。
核心概念
Token
模型处理文本的最小单位。一个中文字通常是 1-2 个 token,英文单词约 1-3 个 token。
Temperature
控制生成文本的随机性:
temperature = 0:确定性输出,每次结果相同temperature = 0.7:平衡创造力与一致性temperature = 1.0+:更随机、更有创造力
Context Window
模型一次能处理的最大 token 数量。例如 GPT-4 支持 128K context window。
Transformer 架构
输入 → Embedding → Positional Encoding → [Attention + FFN] × N → Output核心机制是 Self-Attention(自注意力),让模型在处理每个 token 时能关注到序列中所有其他 token 的信息。
注意力计算
$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$
- Q(Query):当前 token 的查询向量
- K(Key):所有 token 的键向量
- V(Value):所有 token 的值向量
Prompt Engineering
有效的 prompt 设计原则:
- 明确指令 — 清晰描述期望的输出格式和内容
- 提供示例 — Few-shot learning,给模型参考样例
- 分步思考 — Chain of Thought(CoT),引导模型逐步推理
- 设定角色 — 通过 system prompt 设定模型的行为边界
text
System: 你是一位资深的代码审查专家。
User: 请审查以下 Python 代码的安全性问题:RAG(检索增强生成)
RAG 将信息检索与文本生成结合,解决 LLM 知识过时和幻觉问题:
- 索引阶段 — 将文档切分为 chunk,通过 Embedding 模型转化为向量,存入向量数据库
- 检索阶段 — 将用户问题向量化,从向量数据库中检索相关文档
- 生成阶段 — 将检索到的文档作为上下文,与用户问题一起输入 LLM 生成回答
Agent
Agent 是具备自主决策能力的 AI 系统,核心循环:
感知 → 思考 → 行动 → 观察 → 思考 → ...通过 Tool Use(工具调用)扩展能力边界,例如搜索网页、执行代码、操作数据库等。