AI 学习路线总览
这是一份从"神经元怎么算"到"怎么搭一个能干活的 Agent"的完整路线图。目标读者:有编程基础、想系统补齐 AI 知识的工程师。
一句话先记住:今天的"AI 应用",底下是 LLM,LLM 底下是 Transformer,Transformer 底下是神经网络,神经网络底下是矩阵乘法 + 求导。
一、整套教程的结构
按"从底到顶"分六部分,前三部分讲原理(60%)、后三部分讲应用(40%):
| 部分 | 主题 | 你能搞清楚什么 |
|---|---|---|
| 一、神经网络基础 | 数学、感知机、反向传播 | 一个神经网络是怎么"学会"东西的 |
| 二、经典架构 | CNN、RNN、Embedding | 为什么图像用 CNN、序列用 RNN,以及它们的局限 |
| 三、Transformer 与 LLM | Attention、GPT、训练范式 | ChatGPT 的"脑子"长什么样 |
| 四、LLM 应用基本盘 | Prompt、RAG、Tool Use | 怎么让 LLM 干有用的活 |
| 五、Agent 与工作流 | ReAct、多 Agent、编排 | 怎么让 LLM 自己规划+执行任务 |
| 六、工程实战 | 框架选型、评测、部署 | 真上线时要踩的坑 |
二、完整目录(35 篇)
第一部分:神经网络基础(原理打底)
02-数学预备-向量矩阵概率求导.md—— 看懂论文需要的最低数学03-从感知机到多层神经网络.md—— 为什么"叠层"能解决异或04-激活函数-为什么需要非线性.md—— Sigmoid / ReLU / GELU 怎么选05-损失函数-网络怎么知道自己错了.md—— MSE、CrossEntropy、KL 散度06-反向传播与梯度下降.md—— 整个深度学习的引擎07-训练技巧-过拟合归一化与初始化.md—— Dropout、BatchNorm、Adam08-PyTorch实操-手写一个分类器.md—— 第一次跑通训练循环
第二部分:经典神经网络架构
09-CNN卷积神经网络.md—— 图像怎么"看"10-RNN与LSTM循环神经网络.md—— 序列建模的老办法11-WordEmbedding词向量.md—— 文字怎么变成数
第三部分:Transformer 与大语言模型
12-Attention注意力机制.md—— Transformer 的灵魂13-Transformer架构详解.md—— Encoder / Decoder / 多头注意力14-从GPT到LLM-自回归生成.md—— 为什么"下一个词预测"能搞出智能15-Tokenizer与BPE.md—— 文字到 token 的桥16-推理与采样-temperature-top-p-top-k.md—— 模型"创造力"怎么调17-预训练SFT与RLHF.md—— 一个 LLM 是如何被"调教"出来的18-LoRA与高效微调.md—— 没有 8 张 A100 也能微调19-ScalingLaw与涌现能力.md—— 大力为什么能出奇迹
第四部分:LLM 应用基本盘
20-PromptEngineering.md—— Few-shot、CoT、Self-Consistency21-FunctionCalling与ToolUse.md—— 让模型会调 API22-RAG检索增强生成.md—— 给模型外挂"知识库"23-Embedding与向量数据库.md—— 语义检索的底层24-ContextEngineering上下文工程.md—— 比 Prompt Engineering 更上一层25-Memory记忆系统.md—— 短期/长期记忆怎么设计
第五部分:Agent 与工作流
26-Agent入门-从ReAct说起.md—— 第一个能"自己想办法"的 LLM27-Agent架构模式.md—— Plan-Execute、Reflection、Tree of Thoughts28-多Agent协作.md—— 角色分工、辩论、群聊模式29-工作流编排-LangGraph与状态机.md—— 把 Agent 装进可控流程30-MCP协议.md—— Anthropic 推的"AI 应用插件标准"
第六部分:工程实战
31-框架选型对比.md—— LangChain、LlamaIndex、Claude Agent SDK、AutoGen32-Evaluation评测.md—— 没有 eval 的 AI 项目都是耍流氓33-部署与推理优化.md—— 量化、KV Cache、vLLM、TensorRT34-AI安全与对齐.md—— Prompt Injection、Jailbreak、护栏35-多模态简介.md—— 视觉、语音、视频怎么接进来36-实战-从零搭一个实用Agent.md—— 把前面学的全用上
进阶补充(读完 36 之后的扩展线)
37-视觉模型-CLIP-Diffusion-SAM.md—— VLM 之外另一条视觉主线38-CodingAgent与ComputerUse.md—— Cursor / Claude Code / Devin 怎么工作39-LLMReasoning-o1与DeepSeekR1.md—— "推理模型"范式与 GRPO40-微调实战-QLoRA与Unsloth.md—— 18 篇的实操配套,带你跑通41-推理引擎深入-vLLM-SGLang-TensorRTLLM.md—— 自部署的工程深水区
三、不同背景的学习路径
路径 A:工程师转 AI(最常见)
你已经会写代码,目标是搞清楚 LLM/Agent 怎么工作,后续做 AI 产品。
02 → 03 → 06 → 08 (原理打底,大概一周)
↓
12 → 13 → 14 (直奔 Transformer)
↓
20 → 21 → 22 → 26 (进入应用)
↓
27 → 29 → 31 → 36 (Agent + 工程化)跳过 09-11(CNN/RNN)是可以的,但读 13(Transformer)前必看 12(Attention)。
路径 B:想完整啃下来
按顺序 02 → 36。预计 6-8 周(每天 1-2 小时)。
路径 C:已经在用 LLM,只想补原理
02 → 06 (数学+反向传播,知道梯度下降在干嘛)
12 → 13 → 14 (Attention + Transformer + 自回归)
17 → 18 (训练范式 + LoRA)预计 1-2 周,够你看懂大部分论文和技术博客。
路径 D:只想当应用层调包侠(不推荐但可以)
直接 20 → 36。但强烈建议至少读完 12-14,否则你永远不知道为什么 LLM 会幻觉、为什么 context 会爆。
四、需要的前置知识
| 项 | 程度 | 不会怎么办 |
|---|---|---|
| Python | 能写函数、用 class、装包 | 先学 Python 基础再回来 |
| 微积分 | 知道导数是斜率即可 | 02 篇会带你过一遍 |
| 线性代数 | 矩阵乘法、向量点积 | 02 篇会带你过一遍 |
| 概率 | 期望、条件概率 | 02 篇会带你过一遍 |
| 机器学习经典算法 | 不需要 | 直接深度学习,经典 ML 用到再补 |
不需要本科数学水平。你需要的是"能看懂公式在表达什么",不是"能徒手推导反向传播"。
五、推荐的工具链
| 用途 | 工具 | 备注 |
|---|---|---|
| 写代码 | VSCode / Cursor | Cursor 写 AI 代码尤其顺 |
| 跑训练 | Google Colab(免费 T4) | 入门够用,本地有显卡更好 |
| 框架 | PyTorch + HuggingFace | 整个教程的主线 |
| LLM API | Anthropic Claude / OpenAI | 应用层都需要,Claude 推荐 |
| 向量库 | Chroma(本地) / Pinecone(云) | 22-23 篇会用 |
| Agent 框架 | Claude Agent SDK / LangGraph | 26 篇之后会用 |
六、给新手的几个忠告
- 不要从看论文开始。论文是给已经懂的人写的"压缩包",新手看会怀疑人生。先把这 35 篇过一遍,再回头读论文。
- 必须动手跑代码。AI 不是看会的,是跑会的。每篇能跑的代码都 copy 下来跑一遍,改改超参数。
- 先有"全景图",再补细节。先快速过一遍路径 C,知道 Transformer 大概长什么样,再回来啃 06(反向传播)这种硬骨头会容易很多。
- "原理"和"应用"要交替学。只学原理会枯燥放弃,只学应用会浮在表面遇到问题不会解。
- 对"框架"祛魅。LangChain、LlamaIndex 这些库本质都是 prompt + HTTP 请求 + 一点点状态管理。理解原理后,任何框架你都能 1 天上手。
- 不要纠结"哪个模型最好"。GPT-5、Claude Opus 5、Gemini Ultra 几个月就换一茬,你要学的是能力,不是某个 API 的写法。
七、本教程的风格约定
- 代码用 Python(应用层会出现少量 TypeScript,因为前端集成时常用)
- 每篇控制在 30 分钟读完,但需要你动手跑 30 分钟消化
- 公式不躲也不堆:必要的写出来并用大白话解释,不必要的省掉
- 优先讲"为什么"。光知道"Transformer 用 Attention"没用,要知道"为什么 RNN 不够用、为什么 Attention 解决了它"
- 每篇末尾都有"踩坑提醒"或"选型建议",帮你避免常见误区
八、预计学习节奏
| 阶段 | 篇数 | 预计时间(每天 1-2 小时) |
|---|---|---|
| 神经网络基础(02-08) | 7 | 7-10 天 |
| 经典架构(09-11) | 3 | 3-5 天 |
| Transformer 与 LLM(12-19) | 8 | 10-14 天 |
| LLM 应用(20-25) | 6 | 7-10 天 |
| Agent 与工作流(26-30) | 5 | 7-10 天 |
| 工程实战(31-36) | 6 | 10-14 天 |
| 合计 | 35 | 6-9 周 |
不要赶进度。第一遍 60% 理解就够了,做完一两个项目后回头再读一次,会发现理解深了一个量级。
下一篇:02-数学预备:向量矩阵概率求导.md,先把数学的最低门槛过了。