我chovy,今天早上起来洗把脸又流鼻血了
今天上午一直在做原型图,除了第一张,其他的图片都是在现在的webai-lite的原图上面修改的:
下午让GPT重新设计了一下trimtalk工具,打算让GPT来搭框架,之前用cc+ds搭出来的框架就是依托,用都用不了。
把那几张图做完了就不知道干啥了,很迷茫,想着下班前再发给mentor看吧,又好像太那个了,现在就发给他吧,他又在那里挑刺,不如先看看八股,刷刷力扣~
下午没有刷力扣,看了会八股看不下去了,之后就在看transformer,自然语言的处理的演变流程
还和mentor聊了一会,主要是我发的我做的图mentor认为这么交上去肯定会被喷的,然后让我看了他用claude design设计出来的页面,这个design是直接出了一个可交互的html页面,然后聊了很多,知道了我们部门大部分都是研究生学历,哎~既然选择了这条路,那就努力吧~
今天的短视频脚本:
什么是agent?
Agent(智能体) 是一种能够自主感知环境、进行思考规划,并采取行动以实现特定目标的软件实体。
在当前的 AI 语境下,它通常被视为一个“数位助手”或“数字员工”,不仅能陪你聊天,更能帮你接管并独立完成复杂的多步骤任务。
一个完整的 AI Agent 通常包含以下四个核心要素:
大脑(大语言模型 - LLM): 负责解析你的需求、理解上下文、逻辑推理和生成文本。
规划(Planning): 将一个宏大复杂的目标拆解成一步步可执行的子任务,并能在遇到错误时进行自我反思和修正。
记忆(Memory): 包含短期记忆(记住当前对话上下文)和长期记忆(存储历史经验、专业知识或外部数据库)。
工具使用(Tool use): 能够调用外部 API、执行代码、使用搜索引擎或连接企业系统去执行具体操作(如发邮件、查天气、预订机票)。
智能体 vs. 传统聊天机器人
聊天机器人:
处于被动状态,主要根据用户给定的关键词或预设规则进行简单的问答和反馈。
AI Agent:
具有极高的自主性,目标明确。你只需下达任务(例如“帮我策划并预订明天去东京出差的行程”),它就能自动规划、收集信息、自主做出决策并完成预订。
像大家在网页上使用的ds,豆包它们都不能算作agent,真正的agent是能帮你做事情的,比如:
常见应用场景智能办公与助手: 自动处理日常邮件、从海量报表提取关键信息、撰写并排版报告。
软件开发: 能够跨文件分析代码、自主定位 Bug 并提供自动化修复方案(如 GitHub Copilot Agent)。
客户服务: 充当虚拟客服,不仅能回答常见问题,还能自主操作系统完成退换货、改签等复杂流程。
像腾讯的workbuddy、GPT的codex,A/的ClaudeCode,这些才能算作agent
前面的内容大概30s-60s带过,重点落在后面的从claudecode源码看agent系统设计
接下来我们来分析一个agent的内部是怎么运行起来的,我们以claudecode为例,因为前端时间它的代码被意外泄漏了,之后市面上就出现了很多类似的agent产品,多的我就不说了
在claudecode的设计中,整个agent的运行其实就是围绕着一个循环来进行的,简单一点就是:用户输入问题 -》 调用LLM -〉 LLM分析是否要执行toolcalling -》 执行后返回结果 -〉 LLM再次决策,知道LLM觉得这次任务已经完成了之后,跳出循环
1 | let messages = [userMessage]; |
当然真正的claudecode源码远没有这么简单,外面还包装了许多东西,包括系统提示词组装、子代理(subagent)和多agent协作、上下文管理、工具系统、hook(钩子)、MCP和skill的管理,以后我们可以慢慢聊
下一个视频参考脚本:
https://linux.do/t/topic/2028574