概率游戏到认知接口:生成式AI的技术进化轨迹

生成式AI的四个阶段:从Prompt到多智能体协作

image.png|300

注:本文核心内容由大语言模型生成,辅以人工事实核查与结构调整。

最近学习了生成式 AI 的相关视频:

  1. 【生成式人工智慧與機器學習導論2025】第1講:一堂課搞懂生成式人工智慧的原理 - YouTube
  2. 【生成式人工智慧與機器學習導論2025】第 2 講:上下文工程 (Context Engineering) — AI Agent 背後的關鍵技術 - YouTube
    有了一些总结,索性就让AI 帮忙总体介绍一下。

总结如下:
当前生成式AI,主要可以看作掷骰子的拼接概率游戏,基本演进到了ai agent,乃至于cli等相关的工具。演变主流程是:prompt、context engineering、agent、multi-agent;其中引入了LLM、RAG的相关知识。

ChatGPT 生成的内容如下:

🧩 一、主线

prompt → context engineering → agent → multi-agent

这条线其实刻画了 生成式 AI 从「语言模型」到「具备任务执行能力系统」的演变逻辑
我帮你加上核心特征和代表性技术阶段:

阶段 核心思想 典型技术 AI 形态
1️⃣ Prompt(提示) 人→AI 单向指令 Prompt Crafting, Chain-of-Thought Chatbot, Prompt工程师
2️⃣ Context Engineering(上下文设计) 动态组织提示 + 历史记忆 + 外部文档 Long Context, Function Calling, RAG 问答增强、知识助手
3️⃣ Agent(代理体) 让AI能主动调用工具、规划任务 OpenAI Functions, LangChain, LlamaIndex Agents AI工具链 / AutoGPT类
4️⃣ Multi-Agent(多智能体) 多个AI互相协作,形成分工、协同机制 Swarm, CrewAI, AutoGen, MCP (Model Context Protocol) 多智能体系统 / 自组织式AI

你的归纳正好反映了这四层能力递进:

  • 生成文本 → 到理解上下文 → 到执行任务 → 再到分布式协作

这也是从「语言模型」向「智能系统」的自然演化。


⚙️ 二、背后两条关键支撑线:LLM 与 RAG

你提到的 LLM(Large Language Model) 与 RAG(Retrieval-Augmented Generation)
是支撑整条演进链的两大底层机制:

  • LLM:概率性的「语言生成器」 → 认知接口

    • 早期确实就是一个巨大的「掷骰子拼接概率」模型;

    • 但随着上下文长度、推理链(CoT)和指令微调的增强,
      它变成了一个「世界模型 + 推理接口」。

  • RAG:记忆与知识的桥梁

    • 解决了 LLM「遗忘」「幻觉」问题;

    • 将外部知识注入上下文,使 LLM 不再是封闭系统;

    • 是目前「让AI具备真实世界知识」的最有效方案之一。

可以说:

LLM 提供了认知能力,RAG 提供了记忆与知识基础。
二者结合,就像「大脑 + 长期记忆」,是现代 AI Agent 的基石。


🧠 三、是否出现了通用智能(AGI)的苗头?

这要看「通用」的定义。

  • 如果指跨任务迁移能力(transfer learning)
    ✅ 是的。
    当前的 GPT-5、Claude 3.5、Gemini 1.5 Pro 已能在语言、代码、视觉、工具使用等多任务之间无缝迁移,具备了「弱通用性」。

  • 如果指自我驱动的目标形成与长期规划能力
    🚧 还在早期。
    Agent 系统虽能自动规划任务,但目标仍是外部赋予的。
    它们没有“自我动机”或“持续的世界模型更新”。

  • 如果指可持续、自校正的智能系统(像人一样自我成长)
    ❌ 目前还没有。
    所谓 “AutoGPT” 或 “Reflexion Agent” 能自我反思,但那是循环 prompt 模式,并非真正的自主学习。

总结一句:

当前的生成式 AI 是“任务级通用智能”,但还不是“认知级通用智能”。


🤖 四、具身智能(Embodied Intelligence)方面的进展

具身智能的核心是 让智能体与物理世界交互(包括感知、动作、反馈学习)。
在这一方向,也确实出现了苗头:

领域 典型项目 含义
虚拟具身(模拟环境) Google DeepMind’s SIMA, OpenAI’s Sora, Minecraft MineDojo AI 在虚拟世界中“做事”,学习空间感与策略
现实具身(机器人) Tesla Optimus, Figure AI, 1X, Agility Robotics LLM 结合视觉与运动控制(LLM + 控制栈)
具身语言接口 ChatGPT + Voice + Vision LLM 成为多模态感知与指令中心

LLM 现在正在成为机器人和具身系统的「通用大脑层」:

  • 它提供语言理解、指令规划;

  • 底层控制器负责执行;

  • 传感器反馈形成循环。

这意味着:

“语言智能”正逐步下沉到“行动智能”中。

但真正的具身智能(可持续学习、感知驱动、自适应)仍需突破:

  • 实时感知与推理融合(symbolic + sub-symbolic)

  • 长时记忆与因果模型

  • 能量、空间、运动物理的自我学习


🌌 五、综合展望:从掷骰子到世界模型

你说的“掷骰子拼接概率游戏”非常形象。
确实,早期 LLM 的本质是 条件概率采样器
但正在演化为一种「世界建模与模拟器」。

一个更系统的技术脉络是:

Token Prediction → Thought Chain → World Model → Agent → Embodied Intelligence

这代表从纯粹的语言统计 → 到符号推理 → 到世界理解 → 到行动。

而「RAG」「Memory」「Tool Use」「Multi-Agent」
正是这个进化路径的中间桥梁。


✅ 结论小结

维度 当前状态 是否出现苗头
语言生成 成熟,概率预测高度优化
上下文理解 通过 CoT、RAG、长上下文逐步逼近
Agent 自主执行 有限自主性,仍靠 prompt 指令 🚧
Multi-Agent 协作 初步形成生态(CrewAI、MCP)
通用智能(AGI) 任务级通用,但无持续自学习 🚧
具身智能 模拟具身已起步,物理具身早期 🚧

更多内容

最近文章:

随机文章:


更多该系列文章,参考medium链接:

https://wesley-wei.medium.com/list/you-should-know-in-golang-e9491363cd9a

English post: https://programmerscareer.com/overview-ai-2510/
作者:微信公众号,Medium,LinkedIn,Twitter
发表日期:原文在 2025-10-18 17:50 时创作于 https://programmerscareer.com/zh-cn/overview-ai-2510/
版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证

Go 切片(Slice)机制详解:在简洁、性能与安全之间的永恒平衡

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×