摘要
大模型在 2025-2026 年的核心变化不是”能力继续翻倍”,而是”价格战彻底改变商业逻辑”。GPT-5 vs Claude 4 vs Gemini 2 三足鼎立的同时,Llama 3/4、Qwen、DeepSeek 等开源模型快速追赶,API 价格降幅超过 95%,闭源溢价空间压缩。Agent 框架从 ReAct 循环演进到 LangGraph 状态机,MCP 协议初步实现工具互联标准化,生产级 Agent 部署在金融、软件、营销等领域规模化落地。多模态方面,视频生成进入广告/影视生产流程,端侧 AI 因隐私和低延迟优势加速,具身智能成为 AI 落地物理世界的下一站。全行业面临监管常态化、算力瓶颈、商业化验证三重压力。
一、大模型竞争格局:价格战终结”能力稀缺”
GPT-5 vs Claude 4 vs Gemini 2:没有绝对的全面领先
OpenAI GPT-5、Anthropic Claude 4、Google Gemini 2.0 是 2025 年最受关注的三代模型。三者在复杂推理、代码生成、长上下文处理上各有优势。
GPT-5 在复杂多步推理和代码生成上保持领先,这与 OpenAI 长期积累的 RLHF 和大规模 RL 计算有关。Claude 4 系列以 200K token 上下文窗口为差异化优势,对法律合同分析、代码库理解等场景有实际价值。Gemini 2.0 在多模态原生融合上领先——视觉-语言-代码的统一表示让跨模态任务有结构性优势。
三者共同面临”能力边际递减”:GPT-3 到 GPT-4 的跨越远比 GPT-4 到 GPT-5 更显著。模型厂商正从”让模型更聪明”转向”让模型在特定场景更便宜、更可靠”。
价格战彻底改变行业
GPT-4o 输入价格从 GPT-4 初期的 $30/M tokens 降至不足 $3/M tokens,Gemini 2.0 Flash 低至 $0.075/M tokens,降幅超过 95%。
直接结果:大模型从”稀缺能力”变成”大宗商品”。企业的 AI 投入从”能不能接入 GPT-4”变成”如何用最低成本构建可靠 AI 流程”。API 价格战加速了 AI 应用大规模落地,但也压缩了模型厂商的利润空间,倒逼应用层创新——只有 AI 应用的经济账能算正,AI 才能真正普及。
开源生态的真正崛起
Meta LLaMA 3.1 405B 是开源大模型的里程碑。以往开源模型与 GPT-4 有明显差距,LLaMA 3.1 405B 在很多场景达到了”可接受”水平。
开源模型的战略价值在于三点:降低采纳门槛(企业数据不出境,满足合规要求)、加速垂直领域微调(70B 模型 LoRA 微调只需 1-2 张消费级 GPU)、打破算力垄断(DeepSeek V3 以约 $600 万训练成本达到 GPT-4 水平)。
二、Agent 爆发:从”循环调用工具”到”生产级工作流”
技术架构的三代演进
ReAct 循环(2023)是 Agent 的起点:思考-行动-观察无限循环。简单可跑,但没有退出条件,工具调用错误会级联放大。
LangGraph 状态机(2024)引入了有向图结构。Agent 的每个状态是节点,状态转换是带条件的边。这解决了无限循环问题,支持多步骤长期规划,也便于引入外部记忆(向量数据库检索结果)。
多 Agent 协作+MCP(2025)的核心洞察是”单个 Agent 能力有上限,协作才能 Scale”。CrewAI 框架定义了 Researcher、Critic、Executor 等角色,角色之间通过消息传递协作完成复杂任务。MCP 协议则解决了不同 Agent 与不同工具之间的互联标准问题——类似于 USB-C,统一了 AI 系统的”接口”。
MCP 协议打破生态锁定
MCP(Model Context Protocol)由 Anthropic 在 2024 年提出,2025 年获得 OpenAI 和 Google 支持,成为 Agent 工具互联的事实标准。
MCP 的核心价值:企业切换模型不再需要重写整个 Agent 工具链。如果 Claude Code 不如 GPT-5.4 编程能力强,只需要换一个 MCP-compatible 的 Agent,而不是重建所有工具适配器。这催生了”MCP Server 开发者”这个新职业细分。
行业落地现状
软件开发:Cursor Agent、Gemini Code Assist 已经能独立完成 30-50% 的编码工作。Gary 本人的 SmartPerfetto 项目(Android Perfetto Trace AI 分析工具)就是用 Claude Code 开发。AI 编程的革命性在于:一个人+AI 的开发效率可以媲美一个小团队。
金融投研:Agent 自动爬取财报、新闻、宏观数据,生成投研分析报告,分析师从”数据收集者”变成”策略制定者”。
营销内容:多模态 Agent(文本+图像+视频)可以独立完成从文案到配图到短视频的完整内容生产流水线。
三、多模态与2025-2026技术趋势
视频生成:从演示到生产
Sora、Runway Gen-3、Veo 2 在 2025 年的突破不是”质量更好”,而是”质量稳定可用+价格可接受”。
影视行业:好莱坞开始用 Gen-3 Alpha 生成预演(Pre-viz)镜头,降低实拍成本;独立创作者可以零预算制作短片级别的视觉内容。广告行业:数字广告的 A/B 测试周期从 2-3 周缩短到 2-3 天,AI 生成视频让”千人千面”的个性化广告变得经济可行。
技术瓶颈仍在:超过 30 秒的动作/物体/外观一致性、镜头控制的精细度、版权和肖像权合规是三大障碍。
端侧 AI:隐私优先场景的答案
本地运行大模型解决了云端 AI 的三个核心问题:隐私(医疗病历、法律文书、金融数据不离本地)、延迟(端到端 < 200ms)、离线可用。
2025 年硬件突破:Apple M4 统一内存最高 192GB,Qualcomm Snapdragon X Elite NPU 达到 45 TOPS,使得 70B Qwen2.5 在笔记本本地运行成为现实。
具身智能:AI 的物理世界出口
语言/视觉模型是纯数字世界的 AI,具身智能是将 AI 能力落地到物理世界的桥梁。
2025 年进展:Figure 01 在 BMW 生产线试点执行简单装配任务;Figure 与 OpenAI 终止合作转而自研机器人 AI,反映了”AI 大脑与硬件本体必须深度集成”的判断;特斯拉 Optimus 迁移 FSD 端到端视觉算法,本地化部署加速;宇树 H1 走低成本量产路线,侧重科研和表演场景。
具身智能的瓶颈不在 AI 大脑(语言模型的多模态能力已够用),而在硬件精细控制、实时传感、安全保障。2025-2026 年可能是”AI 大脑先行,硬件本体跟随”的阶段。
四、值得持续关注的问题
- 闭源模型的商业化验证:OpenAI 2025 年是否达到盈亏平衡点是行业焦点,价格战压缩利润后纯模型公司的商业模式受到质疑。
- 开源模型的能力边界:LLaMA 4 发布后能否追平 GPT-4.5 是开源生态的里程碑,决定了企业自建模型的天花板。
- 具身智能的量产时间表:Figure 01 原定 2025 年量产万台,实际进展影响整个行业预期。
- 监管常态化对创新的影响:中国 AI 备案制度、欧盟 AI Act 执行力度、美国芯片出口管制如何影响中美 AI 发展路径分化。