← 返回学习指南列表 基础

AI 发展简史:从聊天到智能体,LLM 和世界模型不是一回事

一、AI 是怎么走到今天的

AI 不是突然冒出来的。它的发展大致可以分成四个阶段:

阶段 时间 核心突破 代表
符号 AI 1950s-1980s 用 if-else 规则模拟智能。像一个背了所有棋谱的棋手,遇到没见过的局面就傻眼。 深蓝(国际象棋)
机器学习 1990s-2010s 不再写死规则,让机器从数据里自己学规律。像带学生做了一万道题,他自然学会了套路。 垃圾邮件过滤、推荐算法
深度学习 2012-2020 用海量数据和超大神经网络,让机器学会"看到"和"听懂"。像给学徒配了一双眼睛和一对耳朵。 图像识别、语音助手(Siri/小爱)
大语言模型 (LLM) 2020-现在 把互联网上几乎所有文字都"读"一遍,学会理解和生成语言。像一个读遍了人类所有书籍的学者——但只在文字层面。 GPT-4、Claude、DeepSeek

二、LLM 和 World Model:这两个东西不是一回事

这是目前 AI 领域最容易混淆的概念,也是理解 AI 能力边界的关键。

LLM(大语言模型)是什么

LLM 的核心任务只有一件事:预测下一个 Token。给它前面的话,猜后面应该接什么。它做这件事做得极其好——好到看起来像在"思考"。但它本质上是一个文字概率预测器

打个比方:LLM 像一个背下来了整个图书馆的人。你问"重力加速度是多少",他能秒答"9.8m/s²"——不是因为他理解了重力,而是因为他在书里读过这句话无数次。你问"苹果为什么会掉下来",他能写 500 字的解释——不是因为他真的理解万有引力,而是因为书里对这个问题有详细论述。

World Model(世界模型)是什么

World Model 的目标是在内部建立一个对物理世界的模拟。它不只需要知道"苹果会掉下来"这个描述,还需要能预测"如果松手,苹果会在 0.3 秒后落地,弹起 2 厘米,滚到桌子下面"。它需要对空间、时间、因果、物理规律有内在表征。

打个比方:World Model 像一个物理引擎——给它一个场景,它能模拟接下来会发生什么。视频生成模型(如 Sora)是 World Model 研究的产物——它不只是"猜下一帧画面",而是需要理解物体不会凭空消失、光影有来龙去脉、人走路先迈左脚下一步就是右脚。

核心区别

维度 LLM(大语言模型) World Model(世界模型)
核心任务 预测下一个 Token(文字) 预测世界下一刻的状态
训练数据 文本(互联网上的文字) 多模态(视频、传感器、3D 数据)
"理解"的是什么 语言模式和文本中的知识 物理规律、空间关系、因果逻辑
知道苹果会掉 背下来的——书里写过 能模拟出来——预测轨迹、速度、反弹
目前成熟度 已大规模商用 早期研究阶段
你日常用的 ChatGPT、Claude、Copilot、通义千问 Sora、自动驾驶的感知系统、机器人控制

为什么这个区别对你很重要

当你使用 AI Agent 时,你用的是 LLM。它能写出漂亮的代码、分析复杂的逻辑、阅读和生成文档——这些都是文字领域的事。但它不真正理解物理世界。如果你让一个纯 LLM 的 Agent 去"把桌上的红色杯子拿给我"——它做不到,因为它没有身体,也没有对"桌子""杯子""拿"的物理理解。

理解了这个区别,你就不会:

  • 指望 AI Agent 能像人一样"直觉"判断一个设计好不好看(那是视觉+审美,不是文字)。
  • 困惑为什么 AI 写代码很厉害但看视频里的动作却经常认错。
  • 误以为今天的 AI Agent 已经"理解世界"了——它只是在文字层面超级厉害。

三、AI 工具的进化:从一问一答到自主执行

你手机里的 Siri(2011 年就有了)和你现在用的 Claude Code,虽然都叫"AI",但进化程度天差地别。下面这个进化路线图帮你理解每一代工具的特点:

代际 工具类型 能做什么 不能做什么 代表产品
1. 聊天机器人 一问一答 回答问题、闲聊、翻译 不记得上一轮说了什么、不能用工具、不能执行操作 早期 ChatGPT、小爱同学
2. 代码补全 编辑器内实时补全 你写一行,AI 补完剩下几行 只能补代码不能对话、不能跨文件操作 早期 Copilot
3. AI 辅助编程 对话 + 上下文理解 理解项目结构、对话式改代码、跨文件搜索 不能执行终端命令、不能自主做多步骤任务 Copilot Chat、Cursor Chat
4. AI Agent 自主执行 + 多工具调用 自己规划步骤、操作终端、读写文件、调用外部 API、装了 Skill/MCP 后能力可无限扩展 仍然基于 LLM(文字层面),没有真正的物理理解,会幻觉会犯错 Claude Code、Cursor Composer、Codex CLI
5. 多 Agent 协作 多个 Agent 分工配合 一个当架构师、一个写前端、一个写后端、一个跑测试——像真正的开发团队 协调成本高、容易互相打架、还在早期 CrewAI、AutoGen(实验阶段)
未来:具身 Agent LLM + World Model 融合 操控机器人、驾驶汽车、在真实世界里执行物理任务 今天还做不到(需 World Model 成熟) Figure AI、特斯拉 Optimus(研发中)

你在这条进化路线上的位置

你现在正在学习的,是第 4 代:AI Agent。它以前三代为基础:

  • 聊天能力来自第 1 代 Chatbot 的技术积累。
  • 代码理解和补全来自第 2、3 代的编辑器 AI。
  • 自主执行和多工具调用是第 4 代的核心突破——Agent 不只是"建议你做什么",而是自己去做
  • 你学的 Skill 和 MCP,本质上是在给第 4 代 Agent 扩展能力边界——让它能连数据库、能操作浏览器、能控制专业软件。

理解了这个进化路线,你就明白为什么本站的教程从术语开始,然后教你选工具、写好提示词,最后才是 Skill 和 MCP——你在学的不是怎么用一款工具,而是怎么驾驭一个正在快速进化的新物种。

最后更新于 2026-06-10 07:14:30