视频信息
- 频道:马克的技术工作坊
- 时长:32分31秒
- 发布时间:2026年3月14日
- 链接:https://youtu.be/7qO8-kx3gW8
- 观看量:38.8万次
---
视频内容简介
📌 AI 核心概念大串联:LLM, Token, Context, Context Window, Prompt, User Prompt, System Prompt, Tool, MCP, Agent, Agent Skill,一期视频带你打通 AI 底层逻辑!
核心目标:不整虚头巴脑的商业概念,从最底层的工程视角出发,一个一个把这些概念拆开、揉碎、讲清楚。
一、LLM(大语言模型)
时间:00:31 - 03:02
1.1 什么是 LLM
LLM 全称 Large Language Model,翻译成中文就是大语言模型,简称大模型。
基本上现在所有的大模型,都是基于 Transformer 这套架构训练出来的。
Transformer 架构最早由 Google 团队在 2017 年提出,对应论文名是 《Attention Is All You Need》。
虽然 Google 发明了火种,但真正把它点燃并且引爆全世界的却是 OpenAI。
1.2 大模型发展时间线
2022 年底:GPT-3.5 横空出世,第一个真正达到可用级别的大模型。
2023 年 3 月:GPT-4 发布,直接把 AI 的能力天花板拉到了新高度。
时至今日:GPT-5.4 依然是业界标杆之一。
如今的 AI 赛道早已不是 OpenAI 的独角戏,Claude、Gemini 等优秀的后起之秀都在各自擅长的领域与它同台竞技。
1.3 大模型的工作原理
大模型本质上就是一个文字接龙游戏:
1. 用户提问:"马克的视频怎么样" 2. 模型预测下一个概率最高的词,比如"特别" 3. 模型把"特别"追加到输入后面,形成新的输入 4. 继续预测下一个字,比如"得" 5. 再把"得"塞回去,继续预测下一个词,比如"棒" 6. 当模型发现要说的话全部说完后,输出一个特殊结束标示符 7. 最终完整回答:"特别得棒"
关键点:模型要一个词一个词地输出答案,因为它就是这么运作的。
二、Token
时间:03:02 - 08:10
2.1 Token 的本质
大模型本质上是一个庞大的数学函数,里面跑的全是矩阵运算。
它接收的是数字,输出的也是数字,压根就不认识人类写的文字。
所以在人类和大模型之间,必须有一个中间人来做翻译,这个中间人叫做 Tokenizer。
2.2 Tokenizer 的职责
Tokenizer 负责编码和解码两件事情:
编码:把文字变成数字
解码:把数字还原成文字
2.3 编码过程(两步走)
第一步:切分
把用户的问题拆成一个一个最小的片段,这些片段就叫做 Token。
例:"马克的视频怎么样" → 切出 4 个 Token
第二步:映射
由于模型只认数字,Tokenizer 会把每一个 Token 对应到一个数字上去。
这个数字就叫做 Token ID。
Token ID 和 Token 是一一对应绑定的:Token 是文字,Token ID 是数字。
2.4 解码过程
方向跟编码反过来,把数字转换成文字。
解码只有一步(映射),不需要切分,因为模型每次只会给出一个 Token。
2.5 Token 与词的关系
Token 和词并不是一一对应的关系。
中文示例:
"工作坊" → 被拆成两个 Token("工作" + "坊")
"程序员" → 被拆成两个 Token("程序" + "员")
英文示例:
"hello"、"going" → 各 1 个 Token
"helpful" → 拆成两个 Token("help" + "ful")
某些字符(如对勾)可能需要 3 个 Token 来表示
2.6 Token 的平均大小
1 个 Token ≈ 0.75 个英文单词
1 个 Token ≈ 1.5 ~ 2 个汉字
40 万个 Token ≈ 60 ~ 80 万个汉字 ≈ 30 万个英文单词
三、Context(上下文)
时间:08:10 - 11:41
3.1 大模型没有真正的记忆
大模型本质上只是一个数学函数,给它输入就给你输出,并不像人一样真的有记忆。
那它是怎么记住之前的聊天内容的呢?
3.2 答案:自动拼接对话历史
每次给大模型发送消息时,背后的程序会自动把之前的整段对话历史找出来一起发过去。
这样模型每次看到的都是完整的对话内容,所以才能知道之前发生了什么。
3.3 Context 的定义
Context(上下文):代表大模型每次处理任务时,所接收到的信息总和。
从某种程度上,可以把它看成是大模型的一个临时记忆体。
3.4 Context 包含的内容
用户问题
对话历史
大模型正在输出的每一个 Token(也会被追加进来)
工具列表
System Prompt 等信息
3.5 Context Window(上下文窗口)
Context Window 代表了 Context 能够容纳的最大 Token 数量。
目前主流大模型的 Context Window:
GPT-5.4:105 万 Token
Gemini 3.1 Pro:100 万 Token
Claude Opus 4.6:100 万 Token
100 万 Token ≈ 150 万个汉字,整个哈利波特全集都能装得下。
3.6 RAG 技术
如果产品手册太长(上千页),直接全部扔给大模型会导致成本无法控制。
RAG(检索增强生成) 可以从产品手册中抽取用户问题最匹配的几个片段,只把这几个片段发给大模型。
这样就不受 Context Window 大小限制,成本也会低很多。
四、Prompt(提示词)
时间:11:41 - 15:11
4.1 什么是 Prompt
Prompt(提示词):大模型接收的具体问题或指令。
例:"帮我写一首诗" → 这就是 Prompt。
不要把 Prompt 想成特别复杂高端的东西,它只不过就是给大模型的一个问题或指令而已。
4.2 Prompt Engineering(提示词工程)
一个专门的领域,研究怎么把话说明白,让大模型更精准地理解你的意图。
但现在提它的人已经寥寥无几:
1. 门槛太低,本质上就是把话说明白。 2. 大模型能力越来越强,即使提示词含糊不清,也能大致猜出意图。
4.3 两种 Prompt 类型
| 类型 | 名称 | 说明 | 配置者 | |------|------|------|--------| | User Prompt | 用户提示词 | 说明具体任务 | 用户自己输入 | | System Prompt | 系统提示词 | 说明人设和做事规则 | 开发者在后台配置 |
4.4 示例:数学辅导机器人
System Prompt(开发者后台设置):
你是一个耐心的数学老师,当学生问你数学问题的时候,不要直接给出答案,而是要一步一步引导学生思考,帮助他们理解解题思路。
User Prompt(学生输入):
3 加 5 等于几
大模型的回答:
我们可以这样想,你手里有 3 个苹果,然后又拿了 5 个,现在一共有多少个呢?你可以数一数看。
如果没有 System Prompt,大模型可能直接说"8"。
五、Tool(工具)
时间:15:11 - 19:20
5.1 大模型的弱点
大模型无法感知外界环境。
例:问"今天上海的天气怎么样",它会回答无法获取实时天气信息,因为它的知识有截止日期,无法查天气预报网站。
5.2 Tool 的本质
Tool(工具) 本质上就是一个函数。
给它输入,它就给你输出。
例:天气查询工具的输入包含城市和日期,内部调用气象局接口,最后输出天气信息。
5.3 工具调用的完整流程
涉及四个角色:用户、大模型、天气查询工具、平台(传话筒)
1. 用户问题 → 发给平台 2. 平台转发给用户问题 + 可用工具列表 → 发给大模型 3. 大模型分析后,生成工具调用指令 → 发给平台 4. 平台真正调用工具 → 拿到结果 5. 平台把结果返回给大模型 6. 大模型整理成一句人话 → 发给平台 7. 平台转发给用户
5.4 各角色职责
| 角色 | 职责 | |------|------| | 大模型 | ① 选择工具并生成参数 ② 归纳总结工具结果 | | 工具 | 完成具体的查询/操作动作 | | 平台 | 串联整个流程(上传下达) |
重要提醒:模型能做的仅仅是输出一段文本,告诉平台它想要调用哪个工具。调用工具这个事情,最终还是要由平台来完成。
5.5 Tool 的本质总结
Tool 就是给大模型提供一套它可以调用的外部能力,让大模型能够感知和影响外部环境。
六、MCP(模型上下文协议)
时间:19:20 - 21:08
6.1 问题:每个平台的接入规范不一样
ChatGPT → 按 OpenAI 的规范接入 → 写一套代码
Claude → 按 Anthropic 的规范接入 → 再写一套代码
Gemini → 按 Google 的规范接入 → 再写一套代码
同一个工具要写 3 遍!
6.2 MCP 的由来
AI 圈子里有人想:能不能搞一个统一的标准,让所有平台都遵循?
这样工具的开发者只需要写一次代码,就可以在所有平台上使用。
这就是 MCP 的由来。
6.3 MCP 的定义
MCP 全称 Model Context Protocol,翻译为模型上下文协议。
本质上就是一套统一的工具接入标准。
就像所有手机都用 Type-C 接口一样,有了统一的标准,大家都会方便很多。
6.4 MCP 的作用
工具的开发者只需要按照 MCP 的规范开发一次工具。
这个工具就可以被所有支持 MCP 的平台使用。
七、Agent
时间:21:08 - 24:09
7.1 从简单工具调用到多步骤任务
场景:今天天气怎么样?如果下雨的话,帮我查一下附近有没有卖雨伞的店。
可用工具: 1. 定位工具 → 查询用户所在地区的经纬度 2. 天气工具 → 根据经纬度查询天气 3. 店铺工具 → 通过经纬度查询附近店铺
7.2 Agent 的思考-行动循环
1. 大模型思考:用户问天气 → 需要知道位置 → 调用定位工具 2. 平台调用定位工具 → 返回经纬度(经度 -74°,纬度 40°) 3. 大模型思考:拿到位置 → 查询天气 → 调用天气工具 4. 平台调用天气工具 → 返回"有雨" 5. 大模型思考:下雨了 → 需要找雨伞店 → 调用店铺工具 6. 平台调用店铺工具 → 返回"附近 100 米有全家便利店卖伞" 7. 大模型综合所有信息 → 给出最终答案
7.3 Agent 的定义
Agent:能够自主规划、自主调用工具、持续运作直至完成用户任务的系统。
这不再是一个简单的工具调用流程,大模型需要一步一步地思考当前情况,并决定下一步该做什么。
从某种程度上来说,大模型已经有了一定的自主规划能力。
7.4 主流 Agent 产品
Claude Code
Codex
Gemini CLI
7.5 经典构建模式
ReAct
Plan and Execute
八、Agent Skill
时间:24:09 - 30:44
8.1 痛点:每次都要重复输入规则
假设你希望大模型成为出门前的小助手:
下雨带伞
光照强带帽子
空气差带口罩
风大穿防风外套
无论如何手机必带
如果没有预设,每次提问都要把规则和格式要求塞进 Prompt 里,太反人类了。
8.2 Agent Skill 的本质
Agent Skill 本质上就是你提前写好塞给 Agent 的一份说明文档。
它是一个 Markdown 文档。
8.3 Agent Skill 的结构(两部分)
上半部分:元数据层(封面)
至少要有两个属性:
Name:Agent Skill 的名字
Description:描述这个 Skill 负责做什么事情
下半部分:指令层
格式不做具体要求,只要能把事情向 Agent 说明白就行。
通常包含:
要完成的目标
执行步骤
判断规则
输出格式
示例
8.4 存放规范(以 Claude Code 为例)
路径:`
规定: 1. 在 `skills` 目录下新建一个文件夹,文件夹名字必须与 Agent Skill 的 Name 相同。 2. 进入文件夹后,新建一个文件,文件名必须叫做 SKILL.md(SKILL 大写)。
8.5 工作流程
1. 启动 Claude Code,自动发现 `skills` 文件夹中的 Agent Skill。 2. 读取元数据(Name + Description),指令层暂时不读。 3. 当用户问题与 Agent Skill 的名称/描述相关时,才会读取对应的指令层。 4. Agent 按照 Skill 中的要求执行:调用工具 → 获取结果 → 按格式输出。
8.6 Agent Skill 的高级功能
运行代码
引用资源
渐进式披露机制(节省 Token)
九、总结
时间:30:44 - 32:31
核心概念回顾
| 概念 | 定义 | |------|------| | LLM | 大语言模型,所有 AI 技术的核心 | | Token | 大模型处理数据的最基本单元 | | Context | 大模型每次处理任务时接收到的信息总和(临时记忆体) | | Context Window | Context 最多能够容纳的 Token 数量 | | Prompt | 用户或系统给大模型下达的具体指令或问题 | | User Prompt | 用户给模型的输入 | | System Prompt | 开发者在后台配置的模型人设和做事规则 | | Tool | 大模型用来感知和影响外部环境的函数 | | MCP | 统一工具接入格式的标准协议 | | Agent | 能自主规划、自主调用工具、持续运作直至解决用户问题的程序 | | Agent Skill | 给 Agent 看的说明文档,用来规定做事的步骤和规则 |
底层逻辑链条
``` 用户 → Prompt(User Prompt + System Prompt) ↓ Context(历史记录 + 系统规则 + 当前输入) ↓ LLM(文字接龙,Token 级别处理) ↓ 需要外部信息?→ Tool(函数调用) ↓ MCP(统一协议接入工具) ↓ Agent(自主规划 + 多轮工具调用) ↓ Agent Skill(预定义规则文档) ↓ 最终答案 → 用户 ```
一句话概括
理解了这些概念,你就看懂了 AI 圈子里面的各种新产品、新技术。无论是 Claude Code、Codex、Cowork 还是 OpenClaw,它们本质上都在这个框架下运作。
相关视频推荐
1. [MCP终极指南 - 从原理到实战(基础篇)](https://www.youtube.com/watch?v=yjBUnbRgiNs) 2. [MCP终极指南 - 进阶篇](https://www.youtube.com/watch?v=zrs_HWkZS5w) 3. [MCP终极指南 - 番外篇:抓包分析 Cline 与模型的交互协议](https://www.youtube.com/watch?v=YyVkXrXxvX8) 4. [RAG 工作机制详解](https://www.youtube.com/watch?v=WWdlme1EAGI) 5. [Agent 的概念、原理与构建模式](https://www.youtube.com/watch?v=GE0pFiFJTKo) 6. [Token 到底是什么?—— 揭秘大模型背后的"文字压缩术"](https://www.youtube.com/watch?v=QNiaoD5RxPA) 7. [Agent Skill 从使用到原理,一次讲清](https://www.youtube.com/watch?v=yDc0_8emz7M)