AI 发展简史:从聊天到智能体,LLM 和世界模型不是一回事
一、AI 是怎么走到今天的
AI 不是突然冒出来的。它的发展大致可以分成四个阶段:
| 阶段 | 时间 | 核心突破 | 代表 |
|---|---|---|---|
| 符号 AI | 1950s-1980s | 用 if-else 规则模拟智能。像一个背了所有棋谱的棋手,遇到没见过的局面就傻眼。 | 深蓝(国际象棋) |
| 机器学习 | 1990s-2010s | 不再写死规则,让机器从数据里自己学规律。像带学生做了一万道题,他自然学会了套路。 | 垃圾邮件过滤、推荐算法 |
| 深度学习 | 2012-2020 | 用海量数据和超大神经网络,让机器学会"看到"和"听懂"。像给学徒配了一双眼睛和一对耳朵。 | 图像识别、语音助手(Siri/小爱) |
| 大语言模型 (LLM) | 2020-现在 | 把互联网上几乎所有文字都"读"一遍,学会理解和生成语言。像一个读遍了人类所有书籍的学者——但只在文字层面。 | GPT-4、Claude、DeepSeek |
二、LLM 和 World Model:这两个东西不是一回事
这是目前 AI 领域最容易混淆的概念,也是理解 AI 能力边界的关键。
LLM(大语言模型)是什么
LLM 的核心任务只有一件事:预测下一个 Token。给它前面的话,猜后面应该接什么。它做这件事做得极其好——好到看起来像在"思考"。但它本质上是一个文字概率预测器。
打个比方:LLM 像一个背下来了整个图书馆的人。你问"重力加速度是多少",他能秒答"9.8m/s²"——不是因为他理解了重力,而是因为他在书里读过这句话无数次。你问"苹果为什么会掉下来",他能写 500 字的解释——不是因为他真的理解万有引力,而是因为书里对这个问题有详细论述。
World Model(世界模型)是什么
World Model 的目标是在内部建立一个对物理世界的模拟。它不只需要知道"苹果会掉下来"这个描述,还需要能预测"如果松手,苹果会在 0.3 秒后落地,弹起 2 厘米,滚到桌子下面"。它需要对空间、时间、因果、物理规律有内在表征。
打个比方:World Model 像一个物理引擎——给它一个场景,它能模拟接下来会发生什么。视频生成模型(如 Sora)是 World Model 研究的产物——它不只是"猜下一帧画面",而是需要理解物体不会凭空消失、光影有来龙去脉、人走路先迈左脚下一步就是右脚。
核心区别
| 维度 | LLM(大语言模型) | World Model(世界模型) |
|---|---|---|
| 核心任务 | 预测下一个 Token(文字) | 预测世界下一刻的状态 |
| 训练数据 | 文本(互联网上的文字) | 多模态(视频、传感器、3D 数据) |
| "理解"的是什么 | 语言模式和文本中的知识 | 物理规律、空间关系、因果逻辑 |
| 知道苹果会掉 | 背下来的——书里写过 | 能模拟出来——预测轨迹、速度、反弹 |
| 目前成熟度 | 已大规模商用 | 早期研究阶段 |
| 你日常用的 | ChatGPT、Claude、Copilot、通义千问 | Sora、自动驾驶的感知系统、机器人控制 |
为什么这个区别对你很重要
当你使用 AI Agent 时,你用的是 LLM。它能写出漂亮的代码、分析复杂的逻辑、阅读和生成文档——这些都是文字领域的事。但它不真正理解物理世界。如果你让一个纯 LLM 的 Agent 去"把桌上的红色杯子拿给我"——它做不到,因为它没有身体,也没有对"桌子""杯子""拿"的物理理解。
理解了这个区别,你就不会:
- 指望 AI Agent 能像人一样"直觉"判断一个设计好不好看(那是视觉+审美,不是文字)。
- 困惑为什么 AI 写代码很厉害但看视频里的动作却经常认错。
- 误以为今天的 AI Agent 已经"理解世界"了——它只是在文字层面超级厉害。
三、AI 工具的进化:从一问一答到自主执行
你手机里的 Siri(2011 年就有了)和你现在用的 Claude Code,虽然都叫"AI",但进化程度天差地别。下面这个进化路线图帮你理解每一代工具的特点:
| 代际 | 工具类型 | 能做什么 | 不能做什么 | 代表产品 |
|---|---|---|---|---|
| 1. 聊天机器人 | 一问一答 | 回答问题、闲聊、翻译 | 不记得上一轮说了什么、不能用工具、不能执行操作 | 早期 ChatGPT、小爱同学 |
| 2. 代码补全 | 编辑器内实时补全 | 你写一行,AI 补完剩下几行 | 只能补代码不能对话、不能跨文件操作 | 早期 Copilot |
| 3. AI 辅助编程 | 对话 + 上下文理解 | 理解项目结构、对话式改代码、跨文件搜索 | 不能执行终端命令、不能自主做多步骤任务 | Copilot Chat、Cursor Chat |
| 4. AI Agent | 自主执行 + 多工具调用 | 自己规划步骤、操作终端、读写文件、调用外部 API、装了 Skill/MCP 后能力可无限扩展 | 仍然基于 LLM(文字层面),没有真正的物理理解,会幻觉会犯错 | Claude Code、Cursor Composer、Codex CLI |
| 5. 多 Agent 协作 | 多个 Agent 分工配合 | 一个当架构师、一个写前端、一个写后端、一个跑测试——像真正的开发团队 | 协调成本高、容易互相打架、还在早期 | CrewAI、AutoGen(实验阶段) |
| 未来:具身 Agent | LLM + World Model 融合 | 操控机器人、驾驶汽车、在真实世界里执行物理任务 | 今天还做不到(需 World Model 成熟) | Figure AI、特斯拉 Optimus(研发中) |
你在这条进化路线上的位置
你现在正在学习的,是第 4 代:AI Agent。它以前三代为基础:
- 聊天能力来自第 1 代 Chatbot 的技术积累。
- 代码理解和补全来自第 2、3 代的编辑器 AI。
- 自主执行和多工具调用是第 4 代的核心突破——Agent 不只是"建议你做什么",而是自己去做。
- 你学的 Skill 和 MCP,本质上是在给第 4 代 Agent 扩展能力边界——让它能连数据库、能操作浏览器、能控制专业软件。
理解了这个进化路线,你就明白为什么本站的教程从术语开始,然后教你选工具、写好提示词,最后才是 Skill 和 MCP——你在学的不是怎么用一款工具,而是怎么驾驭一个正在快速进化的新物种。
最后更新于 2026-06-10 07:14:30