我用了三个月,写了 6759 行代码。
不是用 Cursor 一键生成,不是用低代码平台拖拽,而是用 Qoder Spec Coding ——描述需求,让 AI 生成代码,但每一行都经过我的审查、调试和重构。
项目是一个 Chrome 插件——James 超级助理,在任意 OA/ERP 审批页面提供 AI 辅助分析。
作为一个 AI 产品经理,我原本不懂代码。但这个时代,不懂代码的产品经理,正在失去对产品的掌控力。
一、为什么不是用平台搭建
市面上搭建 AI 智能体的平台很多。
Coze、Dify、FastGPT,可视化界面,拖拽组件,几小时就能跑起来一个 Demo。
但我选择了最难的路:从 0 写代码。
平台搭建的代价是 失去控制权。你无法决定数据流向哪里,无法修改核心逻辑,无法针对业务场景做深度优化。
更重要的是,你无法真正理解 AI 的能力边界。
只有亲手写过流式 SSE 输出的代码,才知道首字延迟对用户体验的影响。只有亲手调过超时降级策略,才明白 5 秒和 60 秒的差别意味着什么。
二、6759 行代码的工程架构
项目不是玩具,是完整可用的工程系统。
1. 双通道 AI 调用架构
主路径:插件内置 Skill 运行时直连阿里云 API(60 秒总超时)。
兜底路径:本地 Qoder CLI 桥接服务(Python HTTP 服务,端口 39877)。
当主路径首字响应超过 5 秒,自动降级到桥接服务。两套系统独立运行,确保可用性。
2. 数据获取三层方案
层 1:DOM 解析(content_script),精准提取审批单字段,零侵入。
层 2:截图 + 视觉识别(captureVisibleTab → /screenshot-analyze),兜底方案。
层 3:标准接口(POST /context),预留给对方系统主动推送。
3. 思考沙箱与流式输出
AI 分析过程不再黑盒。所有中间输出(工具调用、JSON 数据)收纳到折叠沙箱,结论单独展示。
流式 SSE 输出,首字 5 秒内必达,超时自动降级。
4. 多模态文件解析
支持 Excel、PDF、Word、图片 OCR 解析,文件上传后自动提取内容送入 AI 上下文。
三、三层价值:产品、人、企业
第一层:产品价值
这是一个真正可用的智能体,不是 Demo。
有完整的错误处理、超时降级、流式输出、思考可视化。有 6759 行代码的工程健壮性支撑。
第二层:人的价值
我从 AI 用户变成了 AI 建造者。
以前用 ChatGPT,只知道输入 prompt 等结果。现在我知道:流式输出怎么实现、超时怎么设计、工具调用怎么解析、DOM 怎么注入。
这种深度理解,让我能做出平台搭建做不出的产品。
第三层:企业价值
一般企业可以直接部署使用。
解决 OA/ERP 审批场景的实际痛点:自动读取审批单、AI 辅助分析、一键填入审批意见。
支持 Skill 扩展,企业可以自定义审批规则和分析逻辑。
四、Spec Coding:AI 时代的建造方式
这 6759 行代码不是我自己敲的,也不是 AI 自动生成的。
是用 Qoder Spec Coding 方式完成的——我描述需求、定义规格,AI 生成代码,我审查、调试、重构。
这种方式有三个特点:
1. 人是架构师,AI 是工匠
我设计双通道调用架构、三层数据获取方案、思考沙箱交互模式。AI 负责把这些设计翻译成代码。
2. 每一行都经过人的审查
AI 生成的代码我不会直接用。我会读、理解、测试、修改。6759 行中的每一行,我都看过。
3. 深度理解,而非表面使用
只有亲手调过流式 SSE 输出,才知道首字延迟的影响。只有亲手写过超时降级逻辑,才明白 5 秒和 60 秒的差别。
五、深度使用 vs 深度建造
这个时代拥抱 AI 有两个阶段。
第一阶段:深度使用。
但绝不是用免费工具。免费和付费完全是两个门槛。付费 API 让你理解 token、理解延迟、理解成本。
第二阶段:深度建造。
不仅要做好 user,还要做好 builder。
我花了三个月,6759 行代码,从一个不懂代码的 AI 产品经理,变成了能独立交付完整系统的 builder。
这个过程的价值,远大于产品本身。
六、给你的建议
如果你是产品经理,不要停留在画原型图。
去写代码。哪怕从简单的开始。去理解技术实现,去理解 AI 的能力边界。
如果你是业务人员,不要只等着 IT 部门给你做系统。
去用付费 API,去搭一个自己的工具。哪怕很小,也是属于你的创造。
免费工具让你消费,自建系统让你创造
AI 时代最好的拥抱方式,是既做深度 user,又做深度 builder。