Previous slide
Next slide
Toggle fullscreen
Toggle overview view
Open presenter view
会“聊天”的 AI,真的会“做事”吗?
上海交通大学宣怀引航团
王德泉
把聊天框接上工具,AI 小助手才开始会干活
挑战任务:不是让 AI 懂活动,而是把小展台办出来
第一回合只是方案:海报、报名、日程都还没发生
办成一件事,要看报名、日历、网页、通知这些回执
回答只是想法;运行、检查、确认才会留下证据
聊天窗口背后,最小动作是一次 LLM API 调用
LLM API 只会吐字;打开网页和邮箱要靠外部程序
它为什么会说话:先把句子拆成词元积木
上下文像桌面:桌上没有的材料,模型就用不上
会接话的最低机制:给前面词元,猜下一个
问“几点开始”时,注意力应该更盯住日历
预训练:它先在文本、网页和代码里学到模式
后训练:把会续写的模型,调成会协作的助手
产品体验不是公司名,而是模型、界面、上下文、工具和安全的组合
现在开始装配:给 AI 小助手接上工具、记忆、权限和日志
把“办活动”拆成时间、通知、报名、网页、反馈五张卡
每张任务卡,都要匹配一个真正能执行的工具
工具调用链:模型提出请求,程序执行,再把结果放回上下文
查日历不是看日期,而是找冲突并准备改时间
通知先变草稿;确认之后才能发送,发送之后才有回执
做报名表不是生成链接,而是收到真实报名记录
做网页不能只看代码,运行、预览、测试通过才算数
按钮坏了不是坏事:报错会给你修复线索
记忆本记住偏好、历史和失败,下次别再从零开始
任务队列让提醒、检查和反馈排到明天继续跑
权限门要分清:自动、确认、禁止不能混在一起
日志本记录每一步;出了错才能倒回去定位
验收台只看回执:日历、通知、报名、网页都要过关
Agent 不是更会聊天,而是一条会留下证据的工作路径
OpenClaw 像生活助手:从聊天入口接邮箱、日历和浏览器
清理收件箱:先分类、列清单、确认,再考虑删除
处理行程:读取和提醒可自动,付款改签必须确认
Hermes 像长期项目助手:住在服务器上,记事、排队、复用技能
每周周报:定时读记录、写草稿,确认后才发送
重复流程会变成技能卡:第一次很长,第二次可复用
代码 Agent 的乐趣:写、运行、报错、补丁、再运行
我的研究里,Agent 先做科研助理:论文、代码、基线、记录
读论文不是背摘要,而是拆出问题、方法、证据和边界
跑代码先看能不能复现:论文曲线和复现实验要对得上
失败不是废纸:报错、参数和失败样本都会指向下一步
兴趣常从一个不服气的错误开始:为什么我错了?
把想法放进测试机:证据和失败都比口号有用
能发邮件、删文件、改日历,就会有真实后果
风险一:权限太大,读、写、发、删都可能越界
风险二:工具用错,验证失败也可能被说得很顺
风险三:网页或邮件不一定可信,里面可能藏着隐藏指令
安全工具箱:权限、确认、回滚、审计让小助手可用
AI 负责草稿、工具和结果;人负责确认和异常处理
评价 Agent:看结果、看过程、看错误能不能修正
最小 Agent 四块积木:API、工具、记忆、验证
课程资料小助手:回答必须能指回课件、笔记或错题
错题小助手:先分类原因,最后靠再测证明改好了
社团小助手:通知发出不算完,还要看成员确认回执
这个学期只做一件小东西:它必须留下一个可检查结果
别犯三个错:乱查、乱发、没日志;对应要限定资料、确认、记录
以后看 AI 新闻,先看连接:模型、工具、动作、责任
最终隐喻:API 只是发动机,Agent 是带刹车和仪表的车
回到开场:方案只是纸,日历、通知、报名、回执才算办成
会做事 = 接上工具、留下证据、守住边界
带着一个问题离开:它只是说,还是留下了可检查结果?
Generated by workflow/marp_build.py. Do not edit by hand.