大语言模型基础

什么是 LLM

大语言模型（Large Language Model）是基于 Transformer 架构、在海量文本数据上训练的深度学习模型。它通过预测下一个 token 的方式学习语言的统计规律，从而具备文本生成、理解、翻译、推理等能力。

核心概念

Token

模型处理文本的最小单位。一个中文字通常是 1-2 个 token，英文单词约 1-3 个 token。

Temperature

控制生成文本的随机性：

temperature = 0：确定性输出，每次结果相同
temperature = 0.7：平衡创造力与一致性
temperature = 1.0+：更随机、更有创造力

Context Window

模型一次能处理的最大 token 数量。例如 GPT-4 支持 128K context window。

Transformer 架构

输入 → Embedding → Positional Encoding → [Attention + FFN] × N → Output

核心机制是 Self-Attention（自注意力），让模型在处理每个 token 时能关注到序列中所有其他 token 的信息。

注意力计算

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

Q（Query）：当前 token 的查询向量
K（Key）：所有 token 的键向量
V（Value）：所有 token 的值向量

Prompt Engineering

有效的 prompt 设计原则：

明确指令 — 清晰描述期望的输出格式和内容
提供示例 — Few-shot learning，给模型参考样例
分步思考 — Chain of Thought（CoT），引导模型逐步推理
设定角色 — 通过 system prompt 设定模型的行为边界

text

System: 你是一位资深的代码审查专家。
User: 请审查以下 Python 代码的安全性问题：

RAG（检索增强生成）

RAG 将信息检索与文本生成结合，解决 LLM 知识过时和幻觉问题：

索引阶段 — 将文档切分为 chunk，通过 Embedding 模型转化为向量，存入向量数据库
检索阶段 — 将用户问题向量化，从向量数据库中检索相关文档
生成阶段 — 将检索到的文档作为上下文，与用户问题一起输入 LLM 生成回答

Agent

Agent 是具备自主决策能力的 AI 系统，核心循环：

感知 → 思考 → 行动 → 观察 → 思考 → ...

通过 Tool Use（工具调用）扩展能力边界，例如搜索网页、执行代码、操作数据库等。

BERT

PyTorch

推荐系统

Canvas

Ajax

Chalk

Dexie

Jest

Joi

Node.js

koa

ora

Function

Network

WebSocket

Hooks

Next.js

react-router

V5

V6

基础

高级

Vue2

Vue3

components

逻辑复用

概念

起步

大语言模型基础

什么是 LLM

核心概念

Token

Temperature

Context Window

Transformer 架构

注意力计算

Prompt Engineering

RAG（检索增强生成）

Agent

V5

V6

components

逻辑复用

大语言模型基础 ​

什么是 LLM ​

核心概念 ​

Token ​

Temperature ​

Context Window ​

Transformer 架构 ​

注意力计算 ​

Prompt Engineering ​

RAG（检索增强生成） ​

Agent ​

大语言模型基础

什么是 LLM

核心概念

Token

Temperature

Context Window

Transformer 架构

注意力计算

Prompt Engineering

RAG（检索增强生成）

Agent