AAIPROS

AIPROS · Static Essay Page

从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!

技术观察 观点札记 2026-05-02 10 min

**核心目标**:不整虚头巴脑的商业概念,从最底层的工程视角出发,一个一个把这些概念拆开、揉碎、讲清楚。

视频信息
- 频道:马克的技术工作坊
- 时长:32分31秒
- 发布时间:2026年3月14日
- 链接:https://youtu.be/7qO8-kx3gW8
- 观看量:38.8万次

---

视频内容简介

📌 AI 核心概念大串联:LLM, Token, Context, Context Window, Prompt, User Prompt, System Prompt, Tool, MCP, Agent, Agent Skill,一期视频带你打通 AI 底层逻辑!

核心目标:不整虚头巴脑的商业概念,从最底层的工程视角出发,一个一个把这些概念拆开、揉碎、讲清楚。

一、LLM(大语言模型)

时间:00:31 - 03:02

1.1 什么是 LLM

LLM 全称 Large Language Model,翻译成中文就是大语言模型,简称大模型

基本上现在所有的大模型,都是基于 Transformer 这套架构训练出来的。

Transformer 架构最早由 Google 团队在 2017 年提出,对应论文名是 《Attention Is All You Need》

虽然 Google 发明了火种,但真正把它点燃并且引爆全世界的却是 OpenAI

1.2 大模型发展时间线

2022 年底:GPT-3.5 横空出世,第一个真正达到可用级别的大模型。

2023 年 3 月:GPT-4 发布,直接把 AI 的能力天花板拉到了新高度。

时至今日:GPT-5.4 依然是业界标杆之一。

如今的 AI 赛道早已不是 OpenAI 的独角戏,Claude、Gemini 等优秀的后起之秀都在各自擅长的领域与它同台竞技。

1.3 大模型的工作原理

大模型本质上就是一个文字接龙游戏

1. 用户提问:"马克的视频怎么样" 2. 模型预测下一个概率最高的词,比如"特别" 3. 模型把"特别"追加到输入后面,形成新的输入 4. 继续预测下一个字,比如"得" 5. 再把"得"塞回去,继续预测下一个词,比如"棒" 6. 当模型发现要说的话全部说完后,输出一个特殊结束标示符 7. 最终完整回答:"特别得棒"

关键点:模型要一个词一个词地输出答案,因为它就是这么运作的。

二、Token

时间:03:02 - 08:10

2.1 Token 的本质

大模型本质上是一个庞大的数学函数,里面跑的全是矩阵运算。

它接收的是数字,输出的也是数字,压根就不认识人类写的文字。

所以在人类和大模型之间,必须有一个中间人来做翻译,这个中间人叫做 Tokenizer

2.2 Tokenizer 的职责

Tokenizer 负责编码解码两件事情:

编码:把文字变成数字

解码:把数字还原成文字

2.3 编码过程(两步走)

第一步:切分

把用户的问题拆成一个一个最小的片段,这些片段就叫做 Token

例:"马克的视频怎么样" → 切出 4 个 Token

第二步:映射

由于模型只认数字,Tokenizer 会把每一个 Token 对应到一个数字上去。

这个数字就叫做 Token ID

Token ID 和 Token 是一一对应绑定的:Token 是文字,Token ID 是数字。

2.4 解码过程

方向跟编码反过来,把数字转换成文字。

解码只有一步(映射),不需要切分,因为模型每次只会给出一个 Token。

2.5 Token 与词的关系

Token 和词并不是一一对应的关系

中文示例:

"工作坊" → 被拆成两个 Token("工作" + "坊")

"程序员" → 被拆成两个 Token("程序" + "员")

英文示例:

"hello"、"going" → 各 1 个 Token

"helpful" → 拆成两个 Token("help" + "ful")

某些字符(如对勾)可能需要 3 个 Token 来表示

2.6 Token 的平均大小

1 个 Token ≈ 0.75 个英文单词

1 个 Token ≈ 1.5 ~ 2 个汉字

40 万个 Token ≈ 60 ~ 80 万个汉字 ≈ 30 万个英文单词

三、Context(上下文)

时间:08:10 - 11:41

3.1 大模型没有真正的记忆

大模型本质上只是一个数学函数,给它输入就给你输出,并不像人一样真的有记忆。

那它是怎么记住之前的聊天内容的呢?

3.2 答案:自动拼接对话历史

每次给大模型发送消息时,背后的程序会自动把之前的整段对话历史找出来一起发过去。

这样模型每次看到的都是完整的对话内容,所以才能知道之前发生了什么。

3.3 Context 的定义

Context(上下文):代表大模型每次处理任务时,所接收到的信息总和

从某种程度上,可以把它看成是大模型的一个临时记忆体

3.4 Context 包含的内容

用户问题

对话历史

大模型正在输出的每一个 Token(也会被追加进来)

工具列表

System Prompt 等信息

3.5 Context Window(上下文窗口)

Context Window 代表了 Context 能够容纳的最大 Token 数量

目前主流大模型的 Context Window:

GPT-5.4:105 万 Token

Gemini 3.1 Pro:100 万 Token

Claude Opus 4.6:100 万 Token

100 万 Token ≈ 150 万个汉字,整个哈利波特全集都能装得下。

3.6 RAG 技术

如果产品手册太长(上千页),直接全部扔给大模型会导致成本无法控制。

RAG(检索增强生成) 可以从产品手册中抽取用户问题最匹配的几个片段,只把这几个片段发给大模型。

这样就不受 Context Window 大小限制,成本也会低很多。

四、Prompt(提示词)

时间:11:41 - 15:11

4.1 什么是 Prompt

Prompt(提示词):大模型接收的具体问题或指令。

例:"帮我写一首诗" → 这就是 Prompt。

不要把 Prompt 想成特别复杂高端的东西,它只不过就是给大模型的一个问题或指令而已。

4.2 Prompt Engineering(提示词工程)

一个专门的领域,研究怎么把话说明白,让大模型更精准地理解你的意图。

但现在提它的人已经寥寥无几:

1. 门槛太低,本质上就是把话说明白。 2. 大模型能力越来越强,即使提示词含糊不清,也能大致猜出意图。

4.3 两种 Prompt 类型

| 类型 | 名称 | 说明 | 配置者 | |------|------|------|--------| | User Prompt | 用户提示词 | 说明具体任务 | 用户自己输入 | | System Prompt | 系统提示词 | 说明人设和做事规则 | 开发者在后台配置 |

4.4 示例:数学辅导机器人

System Prompt(开发者后台设置)

你是一个耐心的数学老师,当学生问你数学问题的时候,不要直接给出答案,而是要一步一步引导学生思考,帮助他们理解解题思路。

User Prompt(学生输入)

3 加 5 等于几

大模型的回答

我们可以这样想,你手里有 3 个苹果,然后又拿了 5 个,现在一共有多少个呢?你可以数一数看。

如果没有 System Prompt,大模型可能直接说"8"。

五、Tool(工具)

时间:15:11 - 19:20

5.1 大模型的弱点

大模型无法感知外界环境

例:问"今天上海的天气怎么样",它会回答无法获取实时天气信息,因为它的知识有截止日期,无法查天气预报网站。

5.2 Tool 的本质

Tool(工具) 本质上就是一个函数

给它输入,它就给你输出。

例:天气查询工具的输入包含城市和日期,内部调用气象局接口,最后输出天气信息。

5.3 工具调用的完整流程

涉及四个角色:用户、大模型、天气查询工具、平台(传话筒)

1. 用户问题 → 发给平台 2. 平台转发给用户问题 + 可用工具列表 → 发给大模型 3. 大模型分析后,生成工具调用指令 → 发给平台 4. 平台真正调用工具 → 拿到结果 5. 平台把结果返回给大模型 6. 大模型整理成一句人话 → 发给平台 7. 平台转发给用户

5.4 各角色职责

| 角色 | 职责 | |------|------| | 大模型 | ① 选择工具并生成参数 ② 归纳总结工具结果 | | 工具 | 完成具体的查询/操作动作 | | 平台 | 串联整个流程(上传下达) |

重要提醒:模型能做的仅仅是输出一段文本,告诉平台它想要调用哪个工具。调用工具这个事情,最终还是要由平台来完成。

5.5 Tool 的本质总结

Tool 就是给大模型提供一套它可以调用的外部能力,让大模型能够感知和影响外部环境

六、MCP(模型上下文协议)

时间:19:20 - 21:08

6.1 问题:每个平台的接入规范不一样

ChatGPT → 按 OpenAI 的规范接入 → 写一套代码

Claude → 按 Anthropic 的规范接入 → 再写一套代码

Gemini → 按 Google 的规范接入 → 再写一套代码

同一个工具要写 3 遍!

6.2 MCP 的由来

AI 圈子里有人想:能不能搞一个统一的标准,让所有平台都遵循?

这样工具的开发者只需要写一次代码,就可以在所有平台上使用。

这就是 MCP 的由来。

6.3 MCP 的定义

MCP 全称 Model Context Protocol,翻译为模型上下文协议

本质上就是一套统一的工具接入标准

就像所有手机都用 Type-C 接口一样,有了统一的标准,大家都会方便很多。

6.4 MCP 的作用

工具的开发者只需要按照 MCP 的规范开发一次工具。

这个工具就可以被所有支持 MCP 的平台使用。

七、Agent

时间:21:08 - 24:09

7.1 从简单工具调用到多步骤任务

场景:今天天气怎么样?如果下雨的话,帮我查一下附近有没有卖雨伞的店。

可用工具: 1. 定位工具 → 查询用户所在地区的经纬度 2. 天气工具 → 根据经纬度查询天气 3. 店铺工具 → 通过经纬度查询附近店铺

7.2 Agent 的思考-行动循环

1. 大模型思考:用户问天气 → 需要知道位置 → 调用定位工具 2. 平台调用定位工具 → 返回经纬度(经度 -74°,纬度 40°) 3. 大模型思考:拿到位置 → 查询天气 → 调用天气工具 4. 平台调用天气工具 → 返回"有雨" 5. 大模型思考:下雨了 → 需要找雨伞店 → 调用店铺工具 6. 平台调用店铺工具 → 返回"附近 100 米有全家便利店卖伞" 7. 大模型综合所有信息 → 给出最终答案

7.3 Agent 的定义

Agent:能够自主规划自主调用工具持续运作直至完成用户任务的系统。

这不再是一个简单的工具调用流程,大模型需要一步一步地思考当前情况,并决定下一步该做什么。

从某种程度上来说,大模型已经有了一定的自主规划能力

7.4 主流 Agent 产品

Claude Code

Codex

Gemini CLI

7.5 经典构建模式

ReAct

Plan and Execute

八、Agent Skill

时间:24:09 - 30:44

8.1 痛点:每次都要重复输入规则

假设你希望大模型成为出门前的小助手:

下雨带伞

光照强带帽子

空气差带口罩

风大穿防风外套

无论如何手机必带

如果没有预设,每次提问都要把规则和格式要求塞进 Prompt 里,太反人类了。

8.2 Agent Skill 的本质

Agent Skill 本质上就是你提前写好塞给 Agent 的一份说明文档

它是一个 Markdown 文档

8.3 Agent Skill 的结构(两部分)

上半部分:元数据层(封面)

至少要有两个属性:

Name:Agent Skill 的名字

Description:描述这个 Skill 负责做什么事情

下半部分:指令层

格式不做具体要求,只要能把事情向 Agent 说明白就行。

通常包含:

要完成的目标

执行步骤

判断规则

输出格式

示例

8.4 存放规范(以 Claude Code 为例)

路径:`

规定: 1. 在 `skills` 目录下新建一个文件夹,文件夹名字必须与 Agent Skill 的 Name 相同。 2. 进入文件夹后,新建一个文件,文件名必须叫做 SKILL.md(SKILL 大写)。

8.5 工作流程

1. 启动 Claude Code,自动发现 `skills` 文件夹中的 Agent Skill。 2. 读取元数据(Name + Description),指令层暂时不读。 3. 当用户问题与 Agent Skill 的名称/描述相关时,才会读取对应的指令层。 4. Agent 按照 Skill 中的要求执行:调用工具 → 获取结果 → 按格式输出。

8.6 Agent Skill 的高级功能

运行代码

引用资源

渐进式披露机制(节省 Token)

九、总结

时间:30:44 - 32:31

核心概念回顾

| 概念 | 定义 | |------|------| | LLM | 大语言模型,所有 AI 技术的核心 | | Token | 大模型处理数据的最基本单元 | | Context | 大模型每次处理任务时接收到的信息总和(临时记忆体) | | Context Window | Context 最多能够容纳的 Token 数量 | | Prompt | 用户或系统给大模型下达的具体指令或问题 | | User Prompt | 用户给模型的输入 | | System Prompt | 开发者在后台配置的模型人设和做事规则 | | Tool | 大模型用来感知和影响外部环境的函数 | | MCP | 统一工具接入格式的标准协议 | | Agent | 能自主规划、自主调用工具、持续运作直至解决用户问题的程序 | | Agent Skill | 给 Agent 看的说明文档,用来规定做事的步骤和规则 |

底层逻辑链条

``` 用户 → Prompt(User Prompt + System Prompt) ↓ Context(历史记录 + 系统规则 + 当前输入) ↓ LLM(文字接龙,Token 级别处理) ↓ 需要外部信息?→ Tool(函数调用) ↓ MCP(统一协议接入工具) ↓ Agent(自主规划 + 多轮工具调用) ↓ Agent Skill(预定义规则文档) ↓ 最终答案 → 用户 ```

一句话概括

理解了这些概念,你就看懂了 AI 圈子里面的各种新产品、新技术。无论是 Claude Code、Codex、Cowork 还是 OpenClaw,它们本质上都在这个框架下运作。

相关视频推荐

1. [MCP终极指南 - 从原理到实战(基础篇)](https://www.youtube.com/watch?v=yjBUnbRgiNs) 2. [MCP终极指南 - 进阶篇](https://www.youtube.com/watch?v=zrs_HWkZS5w) 3. [MCP终极指南 - 番外篇:抓包分析 Cline 与模型的交互协议](https://www.youtube.com/watch?v=YyVkXrXxvX8) 4. [RAG 工作机制详解](https://www.youtube.com/watch?v=WWdlme1EAGI) 5. [Agent 的概念、原理与构建模式](https://www.youtube.com/watch?v=GE0pFiFJTKo) 6. [Token 到底是什么?—— 揭秘大模型背后的"文字压缩术"](https://www.youtube.com/watch?v=QNiaoD5RxPA) 7. [Agent Skill 从使用到原理,一次讲清](https://www.youtube.com/watch?v=yDc0_8emz7M)