今日概览
- OpenAI发布三款语音模型,GPT-5级推理能力进入实时语音交互
- Meta追踪员工电脑活动训练AI,8月启动万人裁员引发内部焦虑
- Codex推出Chrome扩展,AI编程助手深度集成浏览器操作
- Cloudflare AI流量增600%仍裁员1100人
01 OpenAI发布三款语音智能模型,实时交互进入GPT-5级推理时代
OpenAI于5月7日发布三款全新语音模型,标志着AI语音交互从”快问快答”向”边想边做”的重大升级。三款模型分别是:GPT-Realtime-2(首款具备GPT-5级推理能力的语音模型)、GPT-Realtime-Translate(支持70+语言实时翻译)、GPT-Realtime-Whisper(流式语音转文字)。
GPT-Realtime-2的核心突破在于将推理能力嵌入语音交互。与传统语音助手不同,它能够在对话过程中调用工具、保持上下文、处理打断和纠正,并将内部思维通过”checking your calendar”等提示语传递给用户。上下文窗口从32K扩展至128K,支持更复杂的agentic工作流。Zillow已利用该模型构建能听懂”帮我找符合BuyAbility条件、避开繁忙街道的房源”这类复合需求的语音助手。
GPT-Realtime-Translate实现了语音到语音的实时翻译,不再需要”语音→文字→翻译→语音”的三步中转。输入覆盖70+语言,输出支持13种语言。Deutsche Telekom正将其用于多语言客服场景,用户可以用母语与客服对话,模型在后台完成实时翻译。
这三款模型共同指向一个趋势:语音正在成为继文本之后的新一代应用交互层。Priceline规划用语音管理整个旅行流程——从航班搜索、酒店预订,到航班延误自动改签、实时机场导航。OpenAI在安全白皮书中同步披露了Codex的内部安全治理实践,展示如何在”让AI快速行动”与”保持人类控制”之间取得平衡。
关键标签
- 语音AI进入GPT-5级推理时代
- 上下文128K,支持复杂agentic工作流
- 实时语音翻译消除语言障碍
来源
- Advancing voice intelligence with new models in the API - OpenAI
- Running Codex safely at OpenAI - OpenAI
02 Meta追踪员工电脑活动训练AI,万人裁员倒计时引爆内部焦虑
The Verge于5月8日披露,Meta正在追踪员工电脑使用活动以训练AI模型,并计划于5月20日启动约8000人裁员(占员工总数10%)。《纽约时报》报道称,Meta要求员工大量生产AI Agent,导致内部出现”Agent找Agent、Agent评价Agent”的混乱局面,引发员工愤怒与焦虑。
知情人士透露,部分员工已不再将Meta视为可长期发展的平台,有人正在积极寻找新工作,也有人试图”主动申请被裁”以获得遣散费。Meta还授予高管9.21亿美元股票期权与此同时,Zuckerberg在全员大会上将裁员与AI基础设施投入直接挂钩——2026年AI资本支出预计达1250亿至1450亿美元。
这一事件折射出科技行业一个更深层的矛盾:AI正在取代知识工作者的工作,但这些被取代者首先被迫成为训练AI的数据来源。员工对Meta的信任正在这两个层面同时崩塌——不仅担心被AI取代,更不满自己的劳动成果被无偿用于训练将取代自己的系统。
关键标签
- Meta裁员AI化:追踪员工活动作为训练数据
- 8月万人裁员,AI资本支出1450亿美元
- 内部信任危机:员工称”不再视Meta为长期平台”
来源
- Meta employees are reportedly “miserable” between looming layoffs and AI push - The Verge
- Meta will cut 10% of workforce as company pushes deeper into AI - CNBC
03 Codex推出Chrome扩展:AI编程助手首次深度集成浏览器操作
OpenAI于5月7日发布Codex Chrome扩展,实现AI编程助手首次通过浏览器直接操作用户已登录的网站和应用程序。Codex现在可以在用户正常使用Tab时,代替用户完成粘贴表单、点击按钮、滚动页面等操作,任务完成后用户可直接接管。
该扩展支持”任务专用”Tab分组,用户可以保留活跃Tab继续工作,同时Codex在后台操作其他Tab。这意味着AI不再局限于”读代码”和”写代码”,而是开始掌握”操作软件”的完整能力链条——感知界面、理解任务、操作执行、验证结果。
Mozilla同日披露,Claude AI已协助发现并修复Firefox中271个Bug,其中部分为安全漏洞。通常Mozilla会保守这些修复细节数月,但”鉴于整个软件生态系统的紧迫性”,Mozilla破例提前公开了部分修复报告。这一细节既展示了AI在代码安全审计领域的实用价值,也暗示AI对软件生态的渗透正在从”辅助工具”升级为”基础设施”。
关键标签
- Codex首次实现浏览器原生操作控制
- AI从”写代码”进化到”操作软件”
- Claude协助发现Firefox 271个Bug
来源
- OpenAI launched a Codex extension for Chrome - The Verge
- Mozilla is sharing more details about some of the 271 Firefox bugs identified by Claude - The Verge
快速新闻
04 Sony与TSMC成立图像传感器合资公司,索尼控股,结合索尼设计与台积电制造能力,并探索机器人和自动驾驶领域的物理AI应用。The Verge
05 Gmail”帮我写”AI工具升级,可根据用户写作风格和语气生成个性化邮件,并能从Google Drive和Gmail中提取相关上下文。Google Workspace Blog
06 OpenAI在ChatGPT中测试广告,称广告为”支撑免费用户访问的重要收入来源”。同时Anthropic明确表示Claude将保持无广告模式,两家AI公司的商业模式分歧日益明显。OpenAI
07 Cloudflare宣布裁员1100人,理由是”需要在agentic AI时代重新定义公司运营方式”。与此同时Cloudflare的AI使用量同比增长600%。The Verge
08 金球奖公布参赛规则,允许AI用于”技术或美容增强”(如减龄),但表演类奖项”表演必须主要来源于演员本人”。奥斯卡则规定仅人类可获表演类奖项。Golden Globes Rules
09 Digg在关闭开放测试版本并裁员后再次重启,定位为AI新闻舆情追踪工具,目前专注于AI领域,未来计划覆盖所有话题。The Verge
10 Perplexity AI被曝通过”社交媒体剪辑账号”进行隐蔽营销推广,这些匿名账号半公开地推荐Perplexity。Perplexity发言人否认知情,但未解释是谁在运营该推广活动。The Verge
11 Google推出ChatGPT Futures,邀请用户提前体验即将上线的ChatGPT功能,首批功能包括高级语音模式和新的文件处理能力。OpenAI