源码地址
📦 教学仓库:https://github.com/TheSyart/claude-agent-examples ⚔️ 实战项目:https://github.com/TheSyart/emperor-agent
视频简介
本系列旨在从零开始手把手实现一个专属 Agent,帮助观众理解 Agent 核心原理而非仅停留在理论层面。
什么是Agent
AI的局限性
当前AI(如DeepSeek、OpenAI等)虽具强大对话能力,但本质上是“坐在轮椅上的大脑”——只能接收文字输入并输出文字,无法执行命令、读写文件、操作代码。(注:文中将DeepSeek归类为2025年产物略显牵强,其于2025年1月发布,影响力主要在推理能力而非“浪潮”本身;OpenAI的“全民养虾”梗应指Operator或Agent功能,而非小龙虾,但可能是口误)
Agent的定义
Agent是能主动思考并行动的AI,其核心构成包括:
- 大语言模型:提供智能推理能力
- 规划能力:任务拆解与策略制定
- 记忆:上下文理解与知识积累
- 工具使用:连接外部世界(搜索、执行代码、调用API等)
- 感知:理解多模态信息(文字、图像、语音、环境反馈)
Agent的四要素
1. 规划(Planning)
Agent的核心决策能力。面对复杂问题时能自动拆解任务、制定执行策略,并具备反思修正能力——某步骤失败时可调整计划重新执行。
示例:要求Agent编写网站,它会自动拆分为数据库设计、前端开发、后端开发三个子任务。
2. 记忆(Memory)
使Agent具备连续性和上下文理解能力:
- 短时记忆:保存在当前上下文中
- 长时记忆:通过向量数据库存储为结构化知识
关键特性:Agent随使用时长累积知识,具备“越用越聪明”的进化能力。
3. 工具(Tools)
LLM本身只是“大脑”,通过工具连接外部世界实现从“说”到“做”的跨越:
- 网络搜索
- 代码执行
- 文件读写
- API调用
- 数据库操作
4. 感知(Perception)
Agent获取信息的入口,支持多模态理解:
- 文字理解
- 图像识别
- 语音处理
- 环境与用户反馈感知
Agent的工作循环
思考 → 选择工具 → 执行 → 观察结果 → 思考 → 选择工具 → ...
不断迭代上述循环,直至任务成功完成。
Agent的能力边界
擅长领域
- 代码编写与Bug修复
- 网页搜索与浏览
- 数据库操作
- API调用
- Git自动化
局限场景
当任务无法完成时,需反思以下问题:
- 需求表述:是否清晰描述了需求?
- 场景处理:是否将复杂场景转化为Agent可理解的形式?
- 工具边界:任务是否超出工具能力范围?
- 判断保留:某些判断是否需要人工介入?
核心原则:明确需求 + 提供正确工具 = 事半功倍
案例分析
案例一:OpenCloud(龙虾)
GitHub四大榜登顶项目。本质是典型Agent——长期保存对话、拆解复杂任务、调用工具执行,其他功能皆为锦上添花。
案例二:Claude Code
工程化Agent的典范,编程能力领先。定位为通用Agent,不仅适用于程序员,各行业均可使用。
工具配置建议
- 数量适中:基础工具足够即可,过多工具会导致上下文过长、Agent执行受限
- 适度放手:Agent的大脑比99%的人更聪明,过度干涉会限制其能力
- 让其自主:给足基础工具,让Agent自行判断和选择所需工具
系列预告
核心代码不超过100行,系列将从零实现专属Agent,涵盖所有AI相关核心概念,帮助观众真正理解并用好Agent。
面试题
Q1:什么是Agent?它与普通LLM的本质区别是什么?
答案:Agent是能主动思考并行动的AI系统。与普通LLM的核心区别在于——LLM只是“坐着轮椅的大脑”,只能接收输入并输出文字;而Agent具备规划、记忆、工具使用、感知四大能力,能将思考转化为实际行动,弥补了LLM“能说不能做”的局限性。
Q2:Agent的核心四要素是什么?各自的作用?
答案:
- 规划:核心决策能力,负责任务拆解与策略制定,支持反思修正
- 记忆:提供连续性与上下文理解,短时记忆保存在的上下文,长时记忆存入向量数据库
- 工具:连接外部世界的桥梁,使Agent从“能说”进化到“能做”,支持搜索、执行、API调用等
- 感知:信息获取入口,支持多模态理解(文字、图像、语音)及环境反馈
Q3:Agent的工作循环是怎样的?
答案:Agent在“思考→选择工具→执行→观察结果”的循环中不断迭代,直到任务成功完成。核心是Agent能根据执行结果动态调整下一步行动,具备自我反思和修正能力。
Q4:使用Agent时需要注意哪些能力边界?
答案:Agent擅长代码编写、搜索浏览、自动化操作等任务,但能力受限于用户需求表述质量、场景复杂度、工具能力边界等因素。使用好Agent需要:①清晰描述需求;②将复杂场景转化为Agent可理解的形式;③提供正确的工具;④保留需要人工判断的任务。
Q5:为什么说工具不是越多越好?
答案:过多工具会导致Agent上下文过长,执行时反而受限。正确的做法是提供基础工具,让Agent自行判断选择所需工具。因为Agent的推理能力比大多数人更强,过度干涉反而会限制其能力发挥。