2026.06.16征图日记37（无聊的一天）

我chovy，今天早上起来洗把脸又流鼻血了

今天上午一直在做原型图，除了第一张，其他的图片都是在现在的webai-lite的原图上面修改的：

下午让GPT重新设计了一下trimtalk工具，打算让GPT来搭框架，之前用cc+ds搭出来的框架就是依托，用都用不了。
把那几张图做完了就不知道干啥了，很迷茫，想着下班前再发给mentor看吧，又好像太那个了，现在就发给他吧，他又在那里挑刺，不如先看看八股，刷刷力扣～

下午没有刷力扣，看了会八股看不下去了，之后就在看transformer，自然语言的处理的演变流程

还和mentor聊了一会，主要是我发的我做的图mentor认为这么交上去肯定会被喷的，然后让我看了他用claude design设计出来的页面，这个design是直接出了一个可交互的html页面，然后聊了很多，知道了我们部门大部分都是研究生学历，哎～既然选择了这条路，那就努力吧～

今天的短视频脚本：

什么是agent？

Agent（智能体）是一种能够自主感知环境、进行思考规划，并采取行动以实现特定目标的软件实体。
在当前的 AI 语境下，它通常被视为一个“数位助手”或“数字员工”，不仅能陪你聊天，更能帮你接管并独立完成复杂的多步骤任务。
一个完整的 AI Agent 通常包含以下四个核心要素：

大脑（大语言模型 - LLM）：负责解析你的需求、理解上下文、逻辑推理和生成文本。
规划（Planning）：将一个宏大复杂的目标拆解成一步步可执行的子任务，并能在遇到错误时进行自我反思和修正。
记忆（Memory）：包含短期记忆（记住当前对话上下文）和长期记忆（存储历史经验、专业知识或外部数据库）。
工具使用（Tool use）：能够调用外部 API、执行代码、使用搜索引擎或连接企业系统去执行具体操作（如发邮件、查天气、预订机票）。

智能体 vs. 传统聊天机器人
聊天机器人：
处于被动状态，主要根据用户给定的关键词或预设规则进行简单的问答和反馈。

AI Agent：
具有极高的自主性，目标明确。你只需下达任务（例如“帮我策划并预订明天去东京出差的行程”），它就能自动规划、收集信息、自主做出决策并完成预订。

像大家在网页上使用的ds，豆包它们都不能算作agent，真正的agent是能帮你做事情的，比如：
常见应用场景智能办公与助手：自动处理日常邮件、从海量报表提取关键信息、撰写并排版报告。
软件开发：能够跨文件分析代码、自主定位 Bug 并提供自动化修复方案（如 GitHub Copilot Agent）。
客户服务：充当虚拟客服，不仅能回答常见问题，还能自主操作系统完成退换货、改签等复杂流程。

像腾讯的workbuddy、GPT的codex，A/的ClaudeCode，这些才能算作agent

前面的内容大概30s-60s带过，重点落在后面的从claudecode源码看agent系统设计

接下来我们来分析一个agent的内部是怎么运行起来的，我们以claudecode为例，因为前端时间它的代码被意外泄漏了，之后市面上就出现了很多类似的agent产品，多的我就不说了

在claudecode的设计中，整个agent的运行其实就是围绕着一个循环来进行的，简单一点就是：用户输入问题 -》调用LLM -〉 LLM分析是否要执行toolcalling -》执行后返回结果 -〉 LLM再次决策，知道LLM觉得这次任务已经完成了之后，跳出循环

let messages = [userMessage];

while (true) {
const assistant = awaitcallModel(messages);
  messages.push(assistant);

const toolUses = extractToolUseBlocks(assistant);
if (toolUses.length === 0) {
    break;
  }

const toolResults = awaitrunTools(toolUses);
  messages.push(...toolResults);
}

returnbuildFinalAnswer(messages);

当然真正的claudecode源码远没有这么简单，外面还包装了许多东西，包括系统提示词组装、子代理（subagent）和多agent协作、上下文管理、工具系统、hook（钩子）、MCP和skill的管理，以后我们可以慢慢聊

下一个视频参考脚本：
https://linux.do/t/topic/2028574