Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

IT之家 2025-11-25 07:16:41

A+ A-

Anthropic 推出了最新 AI 模型“Claude Opus 4.5”，这是一款在编码、智能体以及计算机操作方面表现出色的通用模型。新版本不仅提升了现有能力，还预示着未来工作方式将发生广泛变化。

在软件工程相关测试中，Claude Opus 4.5 达到了当前最先进水平。该模型已在 Anthropic 应用、API 以及三大云平台上开放使用，开发者可以通过 Claude API 使用 claude-opus-4-5-20251101 版本。输入和输出定价分别为每百万 tokens 5 美元和 25 美元，旨在让更多个人用户、团队与企业能够使用到 Opus 级别的能力。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

公司还更新了 Claude Developer Platform、Claude Code 以及面向消费者的应用，加入了支持更长时间运行的智能体工具，并扩展了 Claude 在 Excel、Chrome 以及桌面端的使用方式。对于应用用户而言，长对话不再受长度限制，系统会自动总结旧内容以持续展开聊天。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

Anthropic 表示，Claude Opus 4.5 在一项难度极高的居家测试中得分超过了所有人类候选人。这项测试旨在考察技术能力和压力下的判断力，但不涉及协作或长期经验等其他能力。这一表现引发了关于 AI 将如何改变工程职业的讨论，Anthropic 的研究团队正关注此类变化并计划公布更多成果。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

Claude Opus 4.5 在视觉、推理与数学方面也取得了显著进步，在多个领域达到行业先进水平。在用于衡量智能体能力的 τ2-bench 基准中，模型需模拟航空公司服务人员处理客户诉求。尽管某些情况下未遵循预设路径，但模型提出了有洞察力的解决方案，如先升级舱位再变更航班，这种方式虽增加费用但符合航空公司条款。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

安全性方面，Claude Opus 4.5 是迄今对齐程度最高的模型，进一步强化了对提示注入攻击的防御能力，能更有效避免欺骗性指令的影响。随着模型能力增强，其任务执行步骤减少，推理过程中的回溯与冗余也更少，从而降低 token 消耗。开发者可通过新增的 effort 参数，在速度、成本与能力之间进行调节。

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

在消费者应用方面，Claude 现在可自动总结对话上下文以支持更长的交流内容。Claude for Chrome 已向所有 Max 用户开放，而 Claude for Excel 也扩展到 Max、Team 与 Enterprise 用户的测试权限。拥有 Opus 4.5 权限的 Claude 与 Claude Code 用户已取消特定使用上限，Max 与 Team Premium 用户的总体额度也有所提升，以确保满足日常工作需求。

点击查看全文(剩余0%)

Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

热点新闻

精彩推荐