会“聊天”的 AI，真的会“做事”吗？

这套 PPT 本身，就是今天的实验品

但我们不拆完整流水账，只追踪一页 PPT 的诞生

目标不是炫技，而是让高一学生看懂一个问题

第一张任务卡：做出一页能讲懂的 PPT

会聊天的 AI，第一反应通常是给你一段草稿

低注意力版本：说话是草稿，做事是作品

聊天窗口背后，是一次次 LLM API 调用

词元积木：标题、讲稿、YAML 都先被拆成小块

生成文本的最低直觉：给前面，猜后面

上下文桌面：模型只能使用桌上摆着的材料

注意力：它从材料堆里找最相关的那张卡

预训练给它语言能力，后训练让它像助手

它能写草稿，但还不知道怎样变成好课

先写逐字稿节奏，再设计每一页

现在开始：一页 PPT 从毛坯长成成品

示例页的任务：解释“说话”和“做事”的差别

第一版标题很容易变成口号

标题要像路标：走神了，也能重新上车

讲稿节奏：这一页只讲 40 秒，不讲成一章

视觉工单：不要画概念，画一个动作

Style 文件：保证每页都像同一套讲义

画师 Agent：按工单画图，不按感觉乱发挥

第一张图出来后，真正的工作才开始

错图不是废图，而是下一版工单的线索

图文一致检查：标题说什么，图里就该看见什么

有些问题改标题就够，有些必须重画

第二版图不是更花，而是更能教

构建 Agent：把标题、图片和顺序装成网页

网页预览是验收台：投影距离下还要看得清

试讲逐字稿：真实听众反应，比自我感觉更重要

我们发现的问题：不是页数，而是注意力掉线

所以这套讲座换成一条线：一页 PPT 如何诞生

这条生产线，就是一个 AI 小编辑部

人类主编：负责目标、品味和最后责任

策划 Agent：决定一小时到底讲哪条线

听众模拟 Agent：假装自己是走神的高一学生

编剧 Agent：把主线写成能讲出口的话

视觉导演 Agent：每页先找一个主视觉动作

画师 Agent：把视觉工单变成白底讲义图

构建 Agent：把材料装成能播放的网页

质检 Agent：不是看好不好看，而是看能不能教

演讲教练 Agent：检查这一页讲 40 秒还是 2 分钟

记忆系统：保存风格、偏好和踩过的坑

任务队列：几十页不是灵感爆发，而是排队生产

权限边界：AI 可以生成，但不能替我决定发布

回滚：旧版本不能丢，因为下一版可能走偏

证据链：需求、标题、图片、网页、反馈都能追溯

多模态不是炫技：文字、图像、网页、声音一起工作

这比普通聊天震撼：它真的交付了一个作品

兴趣常常从“我想把它做出来”开始

一个图画错了，反而让你更想把它改好

把想法放进测试机，而不是贴在口号牌上

做 PPT、读论文、跑代码，本质都是让想法接受检查

科研助理 Agent：先帮我做第一轮笨活

读论文：不是背摘要，而是找问题和证据

跑代码：先别相信结论，先看能不能复现

失败不是废纸：它会告诉你下一步查哪里

你也可以从一个小作品开始，而不是从大模型论文开始

学生项目一：把一篇课文做成图解讲义

学生项目二：把错题本做成会提醒你的复习小助手

学生项目三：给社团做一个海报和报名页

最小工具链：一个模型、一个画图工具、一个预览页

评价小作品：别人能不能一眼看懂

别犯三个错：全网乱查、自动乱发、没有日志

以后看 AI 新闻，先问它交付了什么作品

能做事越强，越要能被人检查

回到开场：这套 PPT 就是工作流留下的回执

最终答案：会做事，就是把想法变成能检查的作品

带着一个问题离开：我能用 AI 做出什么小作品？