新一代 Claude 3 模型问世超越GPT4

URL

type

status

date

slug

summary

介绍 Claude 下一代大模型

今天，我们兴奋地宣布 Claude 3 模型系列的推出，这一系列模型在众多认知任务上重新定义了行业标准。系列包含三款顶尖模型，分别是：Claude 3 Haiku、Claude 3 Sonnet 与 Claude 3 Opus，它们按能力递增排序。这些模型展现出越来越强大的性能，让用户能够根据他们的特定需求，找到智能、速度与成本之间的完美平衡。

目前，Opus 与 Sonnet 已经可以在 claude.ai 和全球159 个国家通用的 Claude API 上使用，Haiku 也将很快推出。

Claude 3 系列

智能的新高度

Opus —— 我们的旗舰模型，在多个常用的 AI 评估标准上超越了同类模型，涵盖了本科水平的专家知识（MMLU）、研究生水平的专家推理（GPQA）、基础数学（GSM8K）等领域。它在处理复杂任务时展现出近乎人类的理解能力和流畅度，是通用智能领域的先锋。

所有的 Claude 3 模型在分析预测、创造细腻内容、代码生成和使用西班牙语、日语、法语等非英语进行交流方面都显示出更强的能力。

下图展示了 Claude 3 模型相比于我们行业同行的模型在多个性能基准上的对比：

几乎即时的响应

Claude 3 模型能够即时处理实时客户对话、自动完成任务和数据提取，确保响应迅速、实时。

Haiku 在其智能等级中是市场上最快、最经济的模型。它能在不到三秒内阅读并处理一个含有图表和图形的密集信息 arXiv 研究论文（约 10k 代币）。随着产品推向市场，我们预期性能将进一步提升。

对于大多数任务，Sonnet 的处理速度是 Claude 2 和 Claude 2.1 的两倍，同时提供更高的智能水平。它特别适合需要快速反应的任务，如知识检索或销售自动化。Opus 在提供与 Claude 2 和 2.1 相似的速度的同时，智能水平大大提高。

卓越的视觉处理能力

Claude 3 模型具备与市场上其他领先模型相匹配的先进视觉处理能力，能够处理包括照片、图表、图形和技术图纸等多种视觉格式。我们特别为能够向企业客户提供这种新功能感到兴奋，特别是那些高达 50% 的知识库以 PDF、流程图或演示幻灯片等多种格式存储的客户。

减少不必要的拒绝

相比以往的 Claude 模型，新一代模型在处理可能触及系统限制的请求时表现出更少的不必要拒绝，这表明它们对上下文的理解更加深入。如下图所示，Claude 3 模型在处理请求时展现出更加细致的理解，能够区分真正的危害，减少对无害请求的拒绝。

提升准确性

各种规模的企业都依赖我们的模型来提供客户服务，因此保持模型输出的高准确性至关重要。我们通过针对当前模型已知弱点的复杂事实问题来评估模型性能，将回答分为正确答案、错误答案（或错误想象）以及不确定性承认。与 Claude 2.1 相比，Opus 在这些挑战性问题上的正确答案数量提高了一倍，同时减少了错误答案的数量。

除了提供更可靠的响应外，我们还计划在不久的将来为 Claude 3 模型启用引用功能，使其能够指向参考资料中的确切句子以验证其答案。

处理长文本和准确回忆

Claude 3 系列模型在推出时最初提供 200K 的上下文窗口。然而，这三款模型都能处理超过 1 百万代币的输入，我们可能会为需要更强大处理能力的特定客户提供这一功能。

有效处理长文本提示需要模型具备强大的回忆能力。'Needle In A Haystack' (NIAH) 评估是衡量模型能否从大量数据中准确找回信息的标准。我们通过随机选择 30 对针/问题对中的一对，并在多样化的众包文档语料库上进行测试，增强了此评估的稳健性。Claude 3 Opus 不仅实现了接近完美的回忆能力，准确率超过 99%，而且有时甚至能识别出评估本身的局限，比如发现“针”句子似乎是人为添加进原文的。

负责任的开发

我们开发 Claude 3 系列模型的目标是使其既可靠又强大。我们有多个专门团队负责跟踪并减轻从错误信息和 CSAM 到生物误用、选举干预和自我复制能力等一系列广泛的风险。我们持续开发如宪法 AI等方法来提高模型的安全性和透明度，并调整模型以降低新功能可能带来的隐私问题。

解决越来越复杂的模型中的偏见是一个持续的过程，我们在这个新版本中取得了进步。如模型卡所示，与我们之前的模型相比，Claude 3 显示出更少的偏见，根据问题回答偏见基准（BBQ）。我们致力于推进减少偏见和增强模型中立性的技术，确保它们不偏向任何特定的政治立场。

尽管 Claude 3 系列在生物知识、网络相关知识和自主性方面相对于以前的模型有所进步，但它仍然符合我们的负责任扩展政策下的 AI 安全级别 2（ASL-2）。我们的红队评估（根据我们的白宫承诺和2023 年美国行政命令进行）表明，这些模型目前的灾难性风险潜力可以忽略不计。我们将继续密切监控未来模型的发展，以评估它们是否接近 ASL-3 阈值。更多安全详情可在 Claude 3 模型卡中查看。

更加用户友好

Claude 3 模型在遵循复杂、多步骤指令方面表现更为出色。它们特别擅长保持品牌声音和响应指南，开发用户可以信赖的客户面向体验。此外，Claude 3 模型在生成如 JSON 这样的受欢迎的结构化输出方面表现得更好，简化了为自然语言分类和情感分析等用例指导 Claude 的过程。

模型细节

Claude 3 Opus 是我们智能最高的模型，它在处理高度复杂任务方面表现出市场领先的性能。它能够以惊人的流畅性和类人的理解处理开放式提示和未见过的情景，展现了生成式 AI (Generative AI) 潜力的前沿。

Claude 3 Opus	Facts
成本 (Cost) [输入 $/百万代币输出 $/百万代币]	$15/$75
上下文窗口 (Context window)	200K*
潜在用途 (Potential uses)	任务自动化：跨 API 和数据库规划和执行复杂动作，交互式编码研发：研究审查、头脑风暴和假设生成、药物发现策略：高级图表 & 图形分析，财务和市场趋势，预测
区别 (Differentiator)	智能水平超越市场上任何其他模型。

针对特定用例，1M 代币可用，请咨询。

Claude 3 Sonnet 在智能与速度之间达到了理想平衡，特别适合企业工作负载。它以较低的成本提供强大的性能，在大规模 AI 部署中具有高耐用性。

Claude 3 Sonnet	Facts
成本 (Cost) [输入 $/百万代币输出 $/百万代币]	$3/$15
上下文窗口 (Context window)	200K
潜在用途 (Potential uses)	数据处理：RAG 或搜索 & 检索大量知识销售：产品推荐、预测、定向营销节省时间的任务：代码生成、质量控制、从图像解析文本
区别 (Differentiator)	与具有相似智能的其他模型相比，更经济；更适合大规模应用。

Claude 3 Haiku 是我们最快、最紧凑的模型，提供近乎即时的响应能力。它以无与伦比的速度回应简单的查询和请求，用户可以借此构建仿佛与人类互动无异的流畅 AI 体验。

Claude 3 Haiku	Facts
成本 (Cost) [输入 $/百万代币输出 $/百万代币]	$0.25/$1.25
上下文窗口 (Context window)	200K
潜在用途 (Potential uses)	客户互动：在实时互动中提供快速准确的支持、翻译内容审核：捕捉风险行为或客户请求节省成本的任务：优化物流、库存管理、从非结构化数据中提取知识
区别 (Differentiator)	在其智能类别中比其他模型更聪明、更快、更经济。

模型可用性

Opus 和 Sonnet 现已在我们的 API 上线，该 API 现已全面开放，开发者可以立即注册并开始使用这些模型。Haiku 也将很快推出。Sonnet 正在为 claude.ai 上的免费体验提供支持，Opus 则为 Claude Pro 订阅者提供。

Sonnet 已经通过 Amazon Bedrock 提供，并在 Google Cloud 的 Vertex AI Model Garden 上进行私人预览——Opus 和 Haiku 也将很快在这两个平台上推出。

更聪明、更快、更安全

我们相信，模型智能的极限远未达到，并计划在接下来的几个月内频繁更新 Claude 3 系列。我们还期待推出一系列功能，以提升模型的能力，特别是针对企业用例和大规模部署。这些新功能将包括工具使用（即函数调用）、交互式编码（即 REPL）以及更高级的代理能力。

随着我们不断推动 AI 能力的极限，我们也同样致力于确保我们的安全措施能够跟上这些性能的飞跃。我们的观点是，站在 AI 发展的前沿是最有效的方式，来引导其发展方向朝着对社会有益的结果前进。

我们期待看到您能用 Claude 3 创造出什么，并希望您能提供反馈，帮助我们让 Claude 成为一个更加有用的助手和创意伙伴。开始构建您的 Claude 体验，请访问 anthropic.com/claude。

💡

对这个话题感兴趣的小伙伴，欢迎加我一起探索交流~