AI资讯简报 2026年3月3日

01OpenAI 发布 GPT-5，推理能力提升 40%

OpenAI 于 3 月 2 日发布 GPT-5 模型，这是该公司迄今为止最强大的语言模型。根据官方博客公告，GPT-5 在复杂推理任务上相比 GPT-4 提升了 40%，幻觉率降低 60%。该模型具备原生多模态理解能力，可以同时处理文本、图像和音频输入。

GPT-5 的发布引发了业界对 AI 推理能力的广泛讨论。MIT Technology Review 的分析指出，OpenAI、Anthropic 和 Google 近期发布的模型都显示出推理能力的意外突破，研究人员认为这标志着 AI 发展进入新阶段，推理能力开始从规模中涌现。

在安全性方面，OpenAI 实施了新的对齐技术。TechCrunch 报道称，GPT-5 在保持性能的同时减少了有害输出，公司将推理能力和安全措施作为此次发布的两大重点。该模型目前已向 API 用户开放，企业用户可以通过 OpenAI 平台访问。

推理能力提升 40% 幻觉率降低 60% 原生多模态支持增强安全对齐

来源

Introducing GPT-5: Our Most Capable Model Yetopenai.com OpenAI launches GPT-5 with focus on reasoning and safetytechcrunch.com AI reasoning capabilities see unexpected breakthroughtechnologyreview.com

02Anthropic Claude 4 在 SWE-bench 达到 89% 准确率

Anthropic 于 3 月 2 日宣布 Claude 4 在软件工程基准测试 SWE-bench 上达到 89% 的准确率，创下该领域新纪录。SWE-bench 是评估 AI 代码生成能力的行业标准，要求模型完成真实的软件工程任务。Claude 4 相比前代模型 Claude 3.5 Sonnet 提升了 15 个百分点。

The Verge 的测试报告显示，Claude 4 能够编写生产级代码，在复杂软件工程任务中只需最少的人工干预即可成功完成。该模型在代码理解、调试和重构方面表现出色，特别是在处理大型代码库时展现出强大的上下文理解能力。

Anthropic CEO Dario Amodei 在公告中表示，Claude 4 代表了自主软件工程的重要进展。该模型已向 API 用户和 Claude Pro 订阅用户开放，企业客户可以将其集成到开发工作流中。

SWE-bench 准确率 89% 相比前代提升 15 个百分点生产级代码生成

来源

Claude 4 Sets New Benchmark in Code Generationanthropic.com Anthropic's Claude 4 can now write production-ready codetheverge.com

03Meta 发布 Llama 4，4050 亿参数开源模型

Meta 于 3 月 1 日发布 Llama 4，这是一个拥有 4050 亿参数的开源大语言模型。根据 Meta AI 博客的介绍，Llama 4 在 15 万亿 token 上训练，性能可与 GPT-4 等闭源模型相媲美，同时保持完全开源，遵循 Llama 许可协议。

Llama 4 的发布标志着开源 AI 的重要里程碑。该模型在多个基准测试中表现出色，特别是在推理、代码生成和多语言任务上。Meta 首席 AI 科学家 Yann LeCun 表示，Llama 4 证明了开源模型可以达到与闭源模型相当的性能水平。

与此同时，Google 也发布了 Gemini 2.0 Ultra，这是 Google 最先进的多模态 AI 系统。该模型可以无缝处理和生成文本、图像、视频和音频内容，在科学推理和数学问题解决方面表现尤为突出。两家公司的发布显示出大模型领域的激烈竞争。

4050 亿参数完全开源性能接近 GPT-4 15 万亿 token 训练

来源

Llama 4: Our Most Capable Open Source Modelai.meta.com Gemini 2.0 Ultra: Multimodal AI at Scaleblog.google

简讯

Stable Diffusion 4.0 发布，图像生成更逼真 Stability AI 发布 SD 4.0，在照片级真实感和文本渲染方面有重大改进，采用新架构更好地理解空间关系和光照效果 stability.ai

开源 AI Agent 框架 24 小时获 1 万 GitHub 星标 AgentFlow 框架在发布后 24 小时内获得 10,000 个 GitHub 星标，该框架简化了 AI Agent 创建，内置规划、记忆和工具使用功能 news.ycombinator.com

微软 Copilot 企业版推出新功能和定价 微软扩展 Copilot 企业版功能，包括自定义模型训练、高级安全控制和 Azure 服务集成，定价每用户每月 30 美元起 blogs.microsoft.com

欧盟 AI 法案开始执行合规审计 欧盟开始对主要 AI 公司进行初步合规审计，企业有六个月时间证明符合透明度、安全性和公平性要求 ec.europa.eu

新研究提出宪法 AI 训练方法 arXiv 发表论文提出通过自我批评和修订训练 AI 系统遵循宪法原则的方法，可减少人类反馈需求的同时改善对齐效果 arxiv.org