Skip to content

大语言模型基础

什么是 LLM

大语言模型(Large Language Model)是基于 Transformer 架构、在海量文本数据上训练的深度学习模型。它通过预测下一个 token 的方式学习语言的统计规律,从而具备文本生成、理解、翻译、推理等能力。

核心概念

Token

模型处理文本的最小单位。一个中文字通常是 1-2 个 token,英文单词约 1-3 个 token。

Temperature

控制生成文本的随机性:

  • temperature = 0:确定性输出,每次结果相同
  • temperature = 0.7:平衡创造力与一致性
  • temperature = 1.0+:更随机、更有创造力

Context Window

模型一次能处理的最大 token 数量。例如 GPT-4 支持 128K context window。

Transformer 架构

输入 → Embedding → Positional Encoding → [Attention + FFN] × N → Output

核心机制是 Self-Attention(自注意力),让模型在处理每个 token 时能关注到序列中所有其他 token 的信息。

注意力计算

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

  • Q(Query):当前 token 的查询向量
  • K(Key):所有 token 的键向量
  • V(Value):所有 token 的值向量

Prompt Engineering

有效的 prompt 设计原则:

  1. 明确指令 — 清晰描述期望的输出格式和内容
  2. 提供示例 — Few-shot learning,给模型参考样例
  3. 分步思考 — Chain of Thought(CoT),引导模型逐步推理
  4. 设定角色 — 通过 system prompt 设定模型的行为边界
text
System: 你是一位资深的代码审查专家。
User: 请审查以下 Python 代码的安全性问题:

RAG(检索增强生成)

RAG 将信息检索与文本生成结合,解决 LLM 知识过时和幻觉问题:

  1. 索引阶段 — 将文档切分为 chunk,通过 Embedding 模型转化为向量,存入向量数据库
  2. 检索阶段 — 将用户问题向量化,从向量数据库中检索相关文档
  3. 生成阶段 — 将检索到的文档作为上下文,与用户问题一起输入 LLM 生成回答

Agent

Agent 是具备自主决策能力的 AI 系统,核心循环:

感知 → 思考 → 行动 → 观察 → 思考 → ...

通过 Tool Use(工具调用)扩展能力边界,例如搜索网页、执行代码、操作数据库等。