数字中国 人工智能 汽车智驾 手机数码 更多 智慧家电 酷玩配件 科技创投 产业+ 攻略

Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类

IT之家 2025-11-25 07:16:41
A+ A-

Anthropic 推出了最新 AI 模型“Claude Opus 4.5”,这是一款在编码、智能体以及计算机操作方面表现出色的通用模型。新版本不仅提升了现有能力,还预示着未来工作方式将发生广泛变化。

Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类

在软件工程相关测试中,Claude Opus 4.5 达到了当前最先进水平。该模型已在 Anthropic 应用、API 以及三大云平台上开放使用,开发者可以通过 Claude API 使用 claude-opus-4-5-20251101 版本。输入和输出定价分别为每百万 tokens 5 美元和 25 美元,旨在让更多个人用户、团队与企业能够使用到 Opus 级别的能力。

Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类

公司还更新了 Claude Developer Platform、Claude Code 以及面向消费者的应用,加入了支持更长时间运行的智能体工具,并扩展了 Claude 在 Excel、Chrome 以及桌面端的使用方式。对于应用用户而言,长对话不再受长度限制,系统会自动总结旧内容以持续展开聊天。

Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类

Anthropic 表示,Claude Opus 4.5 在一项难度极高的居家测试中得分超过了所有人类候选人。这项测试旨在考察技术能力和压力下的判断力,但不涉及协作或长期经验等其他能力。这一表现引发了关于 AI 将如何改变工程职业的讨论,Anthropic 的研究团队正关注此类变化并计划公布更多成果。

Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类

Claude Opus 4.5 在视觉、推理与数学方面也取得了显著进步,在多个领域达到行业先进水平。在用于衡量智能体能力的 τ2-bench 基准中,模型需模拟航空公司服务人员处理客户诉求。尽管某些情况下未遵循预设路径,但模型提出了有洞察力的解决方案,如先升级舱位再变更航班,这种方式虽增加费用但符合航空公司条款。

Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类

安全性方面,Claude Opus 4.5 是迄今对齐程度最高的模型,进一步强化了对提示注入攻击的防御能力,能更有效避免欺骗性指令的影响。随着模型能力增强,其任务执行步骤减少,推理过程中的回溯与冗余也更少,从而降低 token 消耗。开发者可通过新增的 effort 参数,在速度、成本与能力之间进行调节。

Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类

在消费者应用方面,Claude 现在可自动总结对话上下文以支持更长的交流内容。Claude for Chrome 已向所有 Max 用户开放,而 Claude for Excel 也扩展到 Max、Team 与 Enterprise 用户的测试权限。拥有 Opus 4.5 权限的 Claude 与 Claude Code 用户已取消特定使用上限,Max 与 Team Premium 用户的总体额度也有所提升,以确保满足日常工作需求。

点击查看全文(剩余0%)

热点新闻

精彩推荐

加载更多……