My Book

简介

文档链接：https://oigi8odzc5w.feishu.cn/wiki/WBMfwiNkfi6uNFkRtXdcavDzn0e?from=from_copylink

核心概念梳理

1. Transformer 架构（2017）

谷歌论文《Attention is All You Need》提出，分编码器（Encoder）和解码器（Decoder）
OpenAI 在 GPT-1 中发现仅保留解码器（Decoder-only）在生成任务上表现更强，后续多数模型沿用此架构
当前主流大模型（GPT、Claude、Llama等）均为 Decoder-only 架构

2. 提示词工程（Prompt Engineering）& 微调（Fine-tuning）& RAG

提示词工程：通过优化输入提示词提升输出质量，常用技巧包括少样本提示（Few-shot）、格式约束等。本质是"语言的艺术+技术手段"，但无法突破上下文窗口限制。

微调（Fine-tuning）：在预训练模型基础上用领域数据继续训练，提升特定任务能力。2021年LoRA论文大幅降低了微调的算力成本，让微调"走向千家万户"。但微调缺点：成本高、周期长、基座模型迭代快导致微调成果易被新版本覆盖。

RAG（检索增强生成）：将用户文档切片→向量化→存入向量数据库；用户提问时，检索相关片段拼接到上下文，让模型基于真实参考信息回答，减少幻觉。相比微调，RAG更轻量、低成本、快落地。

3. Function Call & MCP（模型上下文协议）

Function Call：让大模型输出结构化函数调用指令（如JSON），服务端解析后执行真实工具调用，实现模型与外部工具的交互。

MCP（Model Context Protocol）：Anthropic 2024年11月提出的开放协议，标准化工具定义和调用方式，实现跨应用的工具复用。开发者按协议开发工具后，任何适配MCP的AI应用均可使用。

4. Agent & Multi-Agent

Agent（智能体）：模拟人类"思考→行动→观察"的循环过程（ReAct Agent），即Agent Loop。核心论文：ReAct（2023）。

单Agent vs 多Agent：模型能力有限时（上下文窗口小、注意力易分散、工具过多），通过多Agent架构实现任务拆分、上下文隔离、并行执行。Anthropic指出，仅在三种情况下多Agent优于单Agent： 1. 存在上下文爆炸/上下文污染 2. 任务可并行运行 3. 拆分可改善工具决策效果

常见错误：按职能划分Agent（如写代码、测试、review），大量tokens消耗在解释上下文。正确做法：谁掌握信息谁负责到底，除非任务背景知识完全不同。

5. 上下文工程 & Agent Skill

上下文工程：在Agent循环中，从海量数据（系统提示词、历史对话、工具描述、工具返回结果、RAG数据等）中筛选提炼最相关信息放入下一轮调用。原因：上下文窗口有限，且过长上下文会稀释注意力、影响决策。

Agent Skill：Anthropic提出的新概念，目标是实现Agent的可移植、可复用和低门槛分享。每个Skill是一个文件夹，核心文件为skill.md，包含名称、描述、系统提示词、引用文件、脚本等。用户下载Skill文件夹放到指定位置，Coding Agent启动时根据请求自动匹配并激活对应Skill，加载完整上下文。

6. OpenClaw（龙虾） & Harness 工程

OpenClaw：运行在本地的个人AI助手（类似Siri），通过飞书等人类友好入口交互，操作电脑完成私人任务。技术上无重大突破，重点是产品理念和交互体验的革新。可参考nano-ball项目（1%代码实现90%功能）。

Harness 工程（驾驭工程）：随着AI能力增强，人类需从"拆解需求"转向"宏观驾驭"，包括： 1. 对Agent做好约束（边界、规则） 2. 提供完整上下文（项目背景、需求文档、代码架构） 3. 验证Agent输出（自动测试、自动化部署验证） 4. 建立科学纠偏循环（自我修复机制）

核心：创建AI友好的工程环境，改变人机协作模式，最大化Agent潜力。

面试题与参考答案

1. 什么是ReAct Agent的核心思想？ 答：ReAct Agent模拟人类"思考→行动→观察"的循环过程。Agent根据目标列出计划→执行工具调用（行动）→获取结果并观察→根据结果再次思考下一步行动→重复直到得到最终答案。这是所有Agent设计模式的基础。

2. RAG和微调在实际工程中如何选择？ 答：RAG适用于需要实时访问最新/私有知识的场景，成本低、迭代快，但不改变模型基础能力；微调适用于需要提升模型特定领域性能的场景，但成本高、周期长，且容易被新基座模型覆盖。实际工程中经常组合使用：用RAG处理实时知识，用微调优化核心能力。

3. MCP协议解决了什么问题？ 答：MCP标准化了工具定义和调用方式，解决了不同AI应用重复开发相同工具的问题。开发者按MCP协议开发工具后，任何适配该协议的应用都能使用，促进了工具复用和社区生态繁荣。

4. 什么情况下应该使用多Agent架构？ 答：根据Anthropic的建议，仅在三种情况下多Agent优于单Agent：①存在上下文爆炸/污染导致模型智力下降；②任务可并行运行以提升速度；③拆分不同Agent可改善工具决策效果或让任务更聚焦。不应按职能划分Agent（写代码/测试/Review），而应按"谁掌握信息谁负责"的原则拆分。

5. 上下文工程的核心挑战是什么？ 答：核心挑战是在Agent运行产生的海量数据中，有效筛选和提炼最相关信息放入有限的上文窗口。过长上下文会稀释模型的注意力，影响关键信息定位，甚至引入噪声和有害信息。需要做好上下文的写入、选择、压缩和隔离。

![[attention is all you need.pdf]]