My Book

源码地址

📦 教学仓库：https://github.com/TheSyart/claude-agent-examples ⚔️ 实战项目：https://github.com/TheSyart/emperor-agent

视频简介

本系列旨在从零开始手把手实现一个专属 Agent，帮助观众理解 Agent 核心原理而非仅停留在理论层面。

什么是Agent

AI的局限性

当前AI（如DeepSeek、OpenAI等）虽具强大对话能力，但本质上是“坐在轮椅上的大脑”——只能接收文字输入并输出文字，无法执行命令、读写文件、操作代码。（注：文中将DeepSeek归类为2025年产物略显牵强，其于2025年1月发布，影响力主要在推理能力而非“浪潮”本身；OpenAI的“全民养虾”梗应指Operator或Agent功能，而非小龙虾，但可能是口误）

Agent的定义

Agent是能主动思考并行动的AI，其核心构成包括：

大语言模型：提供智能推理能力
规划能力：任务拆解与策略制定
记忆：上下文理解与知识积累
工具使用：连接外部世界（搜索、执行代码、调用API等）
感知：理解多模态信息（文字、图像、语音、环境反馈）

Agent的四要素

1. 规划（Planning）

Agent的核心决策能力。面对复杂问题时能自动拆解任务、制定执行策略，并具备反思修正能力——某步骤失败时可调整计划重新执行。

示例：要求Agent编写网站，它会自动拆分为数据库设计、前端开发、后端开发三个子任务。

2. 记忆（Memory）

使Agent具备连续性和上下文理解能力：

短时记忆：保存在当前上下文中
长时记忆：通过向量数据库存储为结构化知识

关键特性：Agent随使用时长累积知识，具备“越用越聪明”的进化能力。

3. 工具（Tools）

LLM本身只是“大脑”，通过工具连接外部世界实现从“说”到“做”的跨越：

网络搜索
代码执行
文件读写
API调用
数据库操作

4. 感知（Perception）

Agent获取信息的入口，支持多模态理解：

文字理解
图像识别
语音处理
环境与用户反馈感知

Agent的工作循环

思考 → 选择工具 → 执行 → 观察结果 → 思考 → 选择工具 → ...

不断迭代上述循环，直至任务成功完成。

Agent的能力边界

擅长领域

代码编写与Bug修复
网页搜索与浏览
数据库操作
API调用
Git自动化

局限场景

当任务无法完成时，需反思以下问题：

需求表述：是否清晰描述了需求？
场景处理：是否将复杂场景转化为Agent可理解的形式？
工具边界：任务是否超出工具能力范围？
判断保留：某些判断是否需要人工介入？

核心原则：明确需求 + 提供正确工具 = 事半功倍

案例分析

案例一：OpenCloud（龙虾）

GitHub四大榜登顶项目。本质是典型Agent——长期保存对话、拆解复杂任务、调用工具执行，其他功能皆为锦上添花。

案例二：Claude Code

工程化Agent的典范，编程能力领先。定位为通用Agent，不仅适用于程序员，各行业均可使用。

工具配置建议

数量适中：基础工具足够即可，过多工具会导致上下文过长、Agent执行受限
适度放手：Agent的大脑比99%的人更聪明，过度干涉会限制其能力
让其自主：给足基础工具，让Agent自行判断和选择所需工具

系列预告

核心代码不超过100行，系列将从零实现专属Agent，涵盖所有AI相关核心概念，帮助观众真正理解并用好Agent。

面试题

Q1：什么是Agent？它与普通LLM的本质区别是什么？

答案：Agent是能主动思考并行动的AI系统。与普通LLM的核心区别在于——LLM只是“坐着轮椅的大脑”，只能接收输入并输出文字；而Agent具备规划、记忆、工具使用、感知四大能力，能将思考转化为实际行动，弥补了LLM“能说不能做”的局限性。

Q2：Agent的核心四要素是什么？各自的作用？

答案：

规划：核心决策能力，负责任务拆解与策略制定，支持反思修正
记忆：提供连续性与上下文理解，短时记忆保存在的上下文，长时记忆存入向量数据库
工具：连接外部世界的桥梁，使Agent从“能说”进化到“能做”，支持搜索、执行、API调用等
感知：信息获取入口，支持多模态理解（文字、图像、语音）及环境反馈

Q3：Agent的工作循环是怎样的？

答案：Agent在“思考→选择工具→执行→观察结果”的循环中不断迭代，直到任务成功完成。核心是Agent能根据执行结果动态调整下一步行动，具备自我反思和修正能力。

Q4：使用Agent时需要注意哪些能力边界？

答案：Agent擅长代码编写、搜索浏览、自动化操作等任务，但能力受限于用户需求表述质量、场景复杂度、工具能力边界等因素。使用好Agent需要：①清晰描述需求；②将复杂场景转化为Agent可理解的形式；③提供正确的工具；④保留需要人工判断的任务。

Q5：为什么说工具不是越多越好？

答案：过多工具会导致Agent上下文过长，执行时反而受限。正确的做法是提供基础工具，让Agent自行判断选择所需工具。因为Agent的推理能力比大多数人更强，过度干涉反而会限制其能力发挥。