从 LLM 到 Agent Skill，一期视频带你打通底层逻辑！

视频信息

- 频道：马克的技术工作坊

- 时长：32分31秒

- 发布时间：2026年3月14日

- 链接：https://youtu.be/7qO8-kx3gW8

- 观看量：38.8万次

---

视频内容简介

📌 AI 核心概念大串联：LLM, Token, Context, Context Window, Prompt, User Prompt, System Prompt, Tool, MCP, Agent, Agent Skill，一期视频带你打通 AI 底层逻辑！

核心目标：不整虚头巴脑的商业概念，从最底层的工程视角出发，一个一个把这些概念拆开、揉碎、讲清楚。

一、LLM（大语言模型）

时间：00:31 - 03:02

1.1 什么是 LLM

LLM 全称 Large Language Model，翻译成中文就是大语言模型，简称大模型。

基本上现在所有的大模型，都是基于 Transformer 这套架构训练出来的。

Transformer 架构最早由 Google 团队在 2017 年提出，对应论文名是 《Attention Is All You Need》。

虽然 Google 发明了火种，但真正把它点燃并且引爆全世界的却是 OpenAI。

1.2 大模型发展时间线

2022 年底：GPT-3.5 横空出世，第一个真正达到可用级别的大模型。

2023 年 3 月：GPT-4 发布，直接把 AI 的能力天花板拉到了新高度。

时至今日：GPT-5.4 依然是业界标杆之一。

如今的 AI 赛道早已不是 OpenAI 的独角戏，Claude、Gemini 等优秀的后起之秀都在各自擅长的领域与它同台竞技。

1.3 大模型的工作原理

大模型本质上就是一个文字接龙游戏：

1. 用户提问："马克的视频怎么样" 2. 模型预测下一个概率最高的词，比如"特别" 3. 模型把"特别"追加到输入后面，形成新的输入 4. 继续预测下一个字，比如"得" 5. 再把"得"塞回去，继续预测下一个词，比如"棒" 6. 当模型发现要说的话全部说完后，输出一个特殊结束标示符 7. 最终完整回答："特别得棒"

关键点：模型要一个词一个词地输出答案，因为它就是这么运作的。

二、Token

时间：03:02 - 08:10

2.1 Token 的本质

大模型本质上是一个庞大的数学函数，里面跑的全是矩阵运算。

它接收的是数字，输出的也是数字，压根就不认识人类写的文字。

所以在人类和大模型之间，必须有一个中间人来做翻译，这个中间人叫做 Tokenizer。

2.2 Tokenizer 的职责

Tokenizer 负责编码和解码两件事情：

编码：把文字变成数字

解码：把数字还原成文字

2.3 编码过程（两步走）

第一步：切分

把用户的问题拆成一个一个最小的片段，这些片段就叫做 Token。

例："马克的视频怎么样" → 切出 4 个 Token

第二步：映射

由于模型只认数字，Tokenizer 会把每一个 Token 对应到一个数字上去。

这个数字就叫做 Token ID。

Token ID 和 Token 是一一对应绑定的：Token 是文字，Token ID 是数字。

2.4 解码过程

方向跟编码反过来，把数字转换成文字。

解码只有一步（映射），不需要切分，因为模型每次只会给出一个 Token。

2.5 Token 与词的关系

Token 和词并不是一一对应的关系。

中文示例：

"工作坊" → 被拆成两个 Token（"工作" + "坊"）

"程序员" → 被拆成两个 Token（"程序" + "员"）

英文示例：

"hello"、"going" → 各 1 个 Token

"helpful" → 拆成两个 Token（"help" + "ful"）

某些字符（如对勾）可能需要 3 个 Token 来表示

2.6 Token 的平均大小

1 个 Token ≈ 0.75 个英文单词

1 个 Token ≈ 1.5 ~ 2 个汉字

40 万个 Token ≈ 60 ~ 80 万个汉字 ≈ 30 万个英文单词

三、Context（上下文）

时间：08:10 - 11:41

3.1 大模型没有真正的记忆

大模型本质上只是一个数学函数，给它输入就给你输出，并不像人一样真的有记忆。

那它是怎么记住之前的聊天内容的呢？

3.2 答案：自动拼接对话历史

每次给大模型发送消息时，背后的程序会自动把之前的整段对话历史找出来一起发过去。

这样模型每次看到的都是完整的对话内容，所以才能知道之前发生了什么。

3.3 Context 的定义

Context（上下文）：代表大模型每次处理任务时，所接收到的信息总和。

从某种程度上，可以把它看成是大模型的一个临时记忆体。

3.4 Context 包含的内容

用户问题

对话历史

大模型正在输出的每一个 Token（也会被追加进来）

工具列表

System Prompt 等信息

3.5 Context Window（上下文窗口）

Context Window 代表了 Context 能够容纳的最大 Token 数量。

目前主流大模型的 Context Window：

GPT-5.4：105 万 Token

Gemini 3.1 Pro：100 万 Token

Claude Opus 4.6：100 万 Token

100 万 Token ≈ 150 万个汉字，整个哈利波特全集都能装得下。

3.6 RAG 技术

如果产品手册太长（上千页），直接全部扔给大模型会导致成本无法控制。

RAG（检索增强生成） 可以从产品手册中抽取用户问题最匹配的几个片段，只把这几个片段发给大模型。

这样就不受 Context Window 大小限制，成本也会低很多。

四、Prompt（提示词）

时间：11:41 - 15:11

4.1 什么是 Prompt

Prompt（提示词）：大模型接收的具体问题或指令。

例："帮我写一首诗" → 这就是 Prompt。

不要把 Prompt 想成特别复杂高端的东西，它只不过就是给大模型的一个问题或指令而已。

4.2 Prompt Engineering（提示词工程）

一个专门的领域，研究怎么把话说明白，让大模型更精准地理解你的意图。

但现在提它的人已经寥寥无几：

1. 门槛太低，本质上就是把话说明白。 2. 大模型能力越来越强，即使提示词含糊不清，也能大致猜出意图。

4.3 两种 Prompt 类型

| 类型 | 名称 | 说明 | 配置者 | |------|------|------|--------| | User Prompt | 用户提示词 | 说明具体任务 | 用户自己输入 | | System Prompt | 系统提示词 | 说明人设和做事规则 | 开发者在后台配置 |

4.4 示例：数学辅导机器人

System Prompt（开发者后台设置）：

你是一个耐心的数学老师，当学生问你数学问题的时候，不要直接给出答案，而是要一步一步引导学生思考，帮助他们理解解题思路。

User Prompt（学生输入）：

3 加 5 等于几

大模型的回答：

我们可以这样想，你手里有 3 个苹果，然后又拿了 5 个，现在一共有多少个呢？你可以数一数看。

如果没有 System Prompt，大模型可能直接说"8"。

五、Tool（工具）

时间：15:11 - 19:20

5.1 大模型的弱点

大模型无法感知外界环境。

例：问"今天上海的天气怎么样"，它会回答无法获取实时天气信息，因为它的知识有截止日期，无法查天气预报网站。

5.2 Tool 的本质

Tool（工具） 本质上就是一个函数。

给它输入，它就给你输出。

例：天气查询工具的输入包含城市和日期，内部调用气象局接口，最后输出天气信息。

5.3 工具调用的完整流程

涉及四个角色：用户、大模型、天气查询工具、平台（传话筒）

1. 用户问题 → 发给平台 2. 平台转发给用户问题 + 可用工具列表 → 发给大模型 3. 大模型分析后，生成工具调用指令 → 发给平台 4. 平台真正调用工具 → 拿到结果 5. 平台把结果返回给大模型 6. 大模型整理成一句人话 → 发给平台 7. 平台转发给用户

5.4 各角色职责

| 角色 | 职责 | |------|------| | 大模型 | ① 选择工具并生成参数 ② 归纳总结工具结果 | | 工具 | 完成具体的查询/操作动作 | | 平台 | 串联整个流程（上传下达） |

重要提醒：模型能做的仅仅是输出一段文本，告诉平台它想要调用哪个工具。调用工具这个事情，最终还是要由平台来完成。

5.5 Tool 的本质总结

Tool 就是给大模型提供一套它可以调用的外部能力，让大模型能够感知和影响外部环境。

六、MCP（模型上下文协议）

时间：19:20 - 21:08

6.1 问题：每个平台的接入规范不一样

ChatGPT → 按 OpenAI 的规范接入 → 写一套代码

Claude → 按 Anthropic 的规范接入 → 再写一套代码

Gemini → 按 Google 的规范接入 → 再写一套代码

同一个工具要写 3 遍！

6.2 MCP 的由来

AI 圈子里有人想：能不能搞一个统一的标准，让所有平台都遵循？

这样工具的开发者只需要写一次代码，就可以在所有平台上使用。

这就是 MCP 的由来。

6.3 MCP 的定义

MCP 全称 Model Context Protocol，翻译为模型上下文协议。

本质上就是一套统一的工具接入标准。

就像所有手机都用 Type-C 接口一样，有了统一的标准，大家都会方便很多。

6.4 MCP 的作用

工具的开发者只需要按照 MCP 的规范开发一次工具。

这个工具就可以被所有支持 MCP 的平台使用。

七、Agent

时间：21:08 - 24:09

7.1 从简单工具调用到多步骤任务

场景：今天天气怎么样？如果下雨的话，帮我查一下附近有没有卖雨伞的店。

可用工具： 1. 定位工具 → 查询用户所在地区的经纬度 2. 天气工具 → 根据经纬度查询天气 3. 店铺工具 → 通过经纬度查询附近店铺

7.2 Agent 的思考-行动循环

1. 大模型思考：用户问天气 → 需要知道位置 → 调用定位工具 2. 平台调用定位工具 → 返回经纬度（经度 -74°，纬度 40°） 3. 大模型思考：拿到位置 → 查询天气 → 调用天气工具 4. 平台调用天气工具 → 返回"有雨" 5. 大模型思考：下雨了 → 需要找雨伞店 → 调用店铺工具 6. 平台调用店铺工具 → 返回"附近 100 米有全家便利店卖伞" 7. 大模型综合所有信息 → 给出最终答案

7.3 Agent 的定义

Agent：能够自主规划、自主调用工具、持续运作直至完成用户任务的系统。

这不再是一个简单的工具调用流程，大模型需要一步一步地思考当前情况，并决定下一步该做什么。

从某种程度上来说，大模型已经有了一定的自主规划能力。

7.4 主流 Agent 产品

Claude Code

Codex

Gemini CLI

7.5 经典构建模式

ReAct

Plan and Execute

八、Agent Skill

时间：24:09 - 30:44

8.1 痛点：每次都要重复输入规则

假设你希望大模型成为出门前的小助手：

下雨带伞

光照强带帽子

空气差带口罩

风大穿防风外套

无论如何手机必带

如果没有预设，每次提问都要把规则和格式要求塞进 Prompt 里，太反人类了。

8.2 Agent Skill 的本质

Agent Skill 本质上就是你提前写好塞给 Agent 的一份说明文档。

它是一个 Markdown 文档。

8.3 Agent Skill 的结构（两部分）

上半部分：元数据层（封面）

至少要有两个属性：

Name：Agent Skill 的名字

Description：描述这个 Skill 负责做什么事情

下半部分：指令层

格式不做具体要求，只要能把事情向 Agent 说明白就行。

通常包含：

要完成的目标

执行步骤

判断规则

输出格式

示例

8.4 存放规范（以 Claude Code 为例）

路径：`

规定： 1. 在 `skills` 目录下新建一个文件夹，文件夹名字必须与 Agent Skill 的 Name 相同。 2. 进入文件夹后，新建一个文件，文件名必须叫做 SKILL.md（SKILL 大写）。

8.5 工作流程

1. 启动 Claude Code，自动发现 `skills` 文件夹中的 Agent Skill。 2. 读取元数据（Name + Description），指令层暂时不读。 3. 当用户问题与 Agent Skill 的名称/描述相关时，才会读取对应的指令层。 4. Agent 按照 Skill 中的要求执行：调用工具 → 获取结果 → 按格式输出。

8.6 Agent Skill 的高级功能

运行代码

引用资源

渐进式披露机制（节省 Token）

九、总结

时间：30:44 - 32:31

核心概念回顾

| 概念 | 定义 | |------|------| | LLM | 大语言模型，所有 AI 技术的核心 | | Token | 大模型处理数据的最基本单元 | | Context | 大模型每次处理任务时接收到的信息总和（临时记忆体） | | Context Window | Context 最多能够容纳的 Token 数量 | | Prompt | 用户或系统给大模型下达的具体指令或问题 | | User Prompt | 用户给模型的输入 | | System Prompt | 开发者在后台配置的模型人设和做事规则 | | Tool | 大模型用来感知和影响外部环境的函数 | | MCP | 统一工具接入格式的标准协议 | | Agent | 能自主规划、自主调用工具、持续运作直至解决用户问题的程序 | | Agent Skill | 给 Agent 看的说明文档，用来规定做事的步骤和规则 |

底层逻辑链条

``` 用户 → Prompt（User Prompt + System Prompt） ↓ Context（历史记录 + 系统规则 + 当前输入） ↓ LLM（文字接龙，Token 级别处理） ↓ 需要外部信息？→ Tool（函数调用） ↓ MCP（统一协议接入工具） ↓ Agent（自主规划 + 多轮工具调用） ↓ Agent Skill（预定义规则文档） ↓ 最终答案 → 用户 ```

一句话概括

理解了这些概念，你就看懂了 AI 圈子里面的各种新产品、新技术。无论是 Claude Code、Codex、Cowork 还是 OpenClaw，它们本质上都在这个框架下运作。