源码地址

📦 教学仓库:https://github.com/TheSyart/claude-agent-examples ⚔️ 实战项目:https://github.com/TheSyart/emperor-agent


视频简介

本系列旨在从零开始手把手实现一个专属 Agent,帮助观众理解 Agent 核心原理而非仅停留在理论层面。


什么是Agent

AI的局限性

当前AI(如DeepSeek、OpenAI等)虽具强大对话能力,但本质上是“坐在轮椅上的大脑”——只能接收文字输入并输出文字,无法执行命令、读写文件、操作代码。(注:文中将DeepSeek归类为2025年产物略显牵强,其于2025年1月发布,影响力主要在推理能力而非“浪潮”本身;OpenAI的“全民养虾”梗应指Operator或Agent功能,而非小龙虾,但可能是口误)

Agent的定义

Agent是能主动思考并行动的AI,其核心构成包括:

  • 大语言模型:提供智能推理能力
  • 规划能力:任务拆解与策略制定
  • 记忆:上下文理解与知识积累
  • 工具使用:连接外部世界(搜索、执行代码、调用API等)
  • 感知:理解多模态信息(文字、图像、语音、环境反馈)

Agent的四要素

1. 规划(Planning)

Agent的核心决策能力。面对复杂问题时能自动拆解任务、制定执行策略,并具备反思修正能力——某步骤失败时可调整计划重新执行。

示例:要求Agent编写网站,它会自动拆分为数据库设计、前端开发、后端开发三个子任务。

2. 记忆(Memory)

使Agent具备连续性上下文理解能力:

  • 短时记忆:保存在当前上下文中
  • 长时记忆:通过向量数据库存储为结构化知识

关键特性:Agent随使用时长累积知识,具备“越用越聪明”的进化能力。

3. 工具(Tools)

LLM本身只是“大脑”,通过工具连接外部世界实现从“说”到“做”的跨越

  • 网络搜索
  • 代码执行
  • 文件读写
  • API调用
  • 数据库操作

4. 感知(Perception)

Agent获取信息的入口,支持多模态理解:

  • 文字理解
  • 图像识别
  • 语音处理
  • 环境与用户反馈感知

Agent的工作循环

思考 → 选择工具 → 执行 → 观察结果 → 思考 → 选择工具 → ...

不断迭代上述循环,直至任务成功完成。


Agent的能力边界

擅长领域

  • 代码编写与Bug修复
  • 网页搜索与浏览
  • 数据库操作
  • API调用
  • Git自动化

局限场景

当任务无法完成时,需反思以下问题:

  1. 需求表述:是否清晰描述了需求?
  2. 场景处理:是否将复杂场景转化为Agent可理解的形式?
  3. 工具边界:任务是否超出工具能力范围?
  4. 判断保留:某些判断是否需要人工介入?

核心原则:明确需求 + 提供正确工具 = 事半功倍


案例分析

案例一:OpenCloud(龙虾)

GitHub四大榜登顶项目。本质是典型Agent——长期保存对话、拆解复杂任务、调用工具执行,其他功能皆为锦上添花。

案例二:Claude Code

工程化Agent的典范,编程能力领先。定位为通用Agent,不仅适用于程序员,各行业均可使用。

工具配置建议

  • 数量适中:基础工具足够即可,过多工具会导致上下文过长、Agent执行受限
  • 适度放手:Agent的大脑比99%的人更聪明,过度干涉会限制其能力
  • 让其自主:给足基础工具,让Agent自行判断和选择所需工具

系列预告

核心代码不超过100行,系列将从零实现专属Agent,涵盖所有AI相关核心概念,帮助观众真正理解并用好Agent。


面试题

Q1:什么是Agent?它与普通LLM的本质区别是什么?

答案:Agent是能主动思考并行动的AI系统。与普通LLM的核心区别在于——LLM只是“坐着轮椅的大脑”,只能接收输入并输出文字;而Agent具备规划、记忆、工具使用、感知四大能力,能将思考转化为实际行动,弥补了LLM“能说不能做”的局限性。

Q2:Agent的核心四要素是什么?各自的作用?

答案

  • 规划:核心决策能力,负责任务拆解与策略制定,支持反思修正
  • 记忆:提供连续性与上下文理解,短时记忆保存在的上下文,长时记忆存入向量数据库
  • 工具:连接外部世界的桥梁,使Agent从“能说”进化到“能做”,支持搜索、执行、API调用等
  • 感知:信息获取入口,支持多模态理解(文字、图像、语音)及环境反馈

Q3:Agent的工作循环是怎样的?

答案:Agent在“思考→选择工具→执行→观察结果”的循环中不断迭代,直到任务成功完成。核心是Agent能根据执行结果动态调整下一步行动,具备自我反思和修正能力。

Q4:使用Agent时需要注意哪些能力边界?

答案:Agent擅长代码编写、搜索浏览、自动化操作等任务,但能力受限于用户需求表述质量、场景复杂度、工具能力边界等因素。使用好Agent需要:①清晰描述需求;②将复杂场景转化为Agent可理解的形式;③提供正确的工具;④保留需要人工判断的任务。

Q5:为什么说工具不是越多越好?

答案:过多工具会导致Agent上下文过长,执行时反而受限。正确的做法是提供基础工具,让Agent自行判断选择所需工具。因为Agent的推理能力比大多数人更强,过度干涉反而会限制其能力发挥。