Anthropic Claude 3 Tech Report 阅读笔记

与 Open AI 和 Gemini 一样,技术报告不透露技术实现细节,如具体的模型结构、训练方法、超参数设置等。

Anthropic tech report 读下来,主要感觉是

主要指标达到或超过 GPT4v,把GPT4v从LLM天花板神坛上拉下来,至少终于可以平起平坐了。这个世界变得更加有趣,因为谁也不愿意看独角戏。

以前以为 Gemini 是 GPT4v 的挑战者,后来用了一阵子发现,整体体验差太多了。但 Claude 不同,玩下来感觉很丝滑,尤其是长文本理解和问答。很开心实力派来打了擂台!

引起我注意的几个点有:

克服幻觉上大幅度进步,在事实准确性上大幅提升:Anthropic 开发了几个内部评测来考察模型回答的事实准确程度,并与参考答案对比。Claude 3 Opus 在 100Q Hard 评测(包含一些晦涩的开放式问题)的准确率达到46.5%,是 Claude 2 的近2倍;在 Multi-factual 评测中准确率提高到62.8%,而错误回答的比例减半。模型更多地表示"不确定"而不是给出错误信息。模型很大程度上学会了“不确定” 的中间状态,而不是以生编硬造的错误答案来把假话说的跟真的似的。

长文本理解的亮点:QuALITY 阅读理解基准测试是平均5000个token的长篇章,远超一般模型的输入长度。Claude 3 Opus 在 1-shot 下达到90.5%的准确率,在 0-shot 下也有89.2%,相比人类93.5%的表现,Claude 3 已经大大缩小了与人类的差距。

拒答率大幅降低:这是好消息,因为此前 Claude 一直被诟病拒答太多,因为 Anthropic 从一开始就特别强调安全合规,这方面开始是太严了,现在在技术上做了提升,大幅降低了误杀误伤,提升了用户体验,这对它与Open AI 对垒,特别重要。

这是在 helpfulness 和 harmlessness 之间取得了更好的平衡。之前的模型为了避免有害输出,往往会过度谨慎,拒绝回答一些无害的问题。Claude 3 在这方面做了优化,在无害问题上拒答率大幅降低,而在有害问题上仍保持高拒答率。Opus 的错误拒答率从 Claude 2 的35%降到了9%。通过人工反馈优化,Opus 能更好判断什么是真正有害的,什么是可以回答的。

总结一下Claude 的八大优点:

1. 多模态理解能力出色,不亚于4v:  Claude 3 能很好地处理文本、图像等不同模态的输入,并在手写体识别、视觉推理、图像内容审核等方面展现出色的性能,为发挥语言模型在现实世界问题中的作用铺平了道路。

在技术规格的脚注中, 明确说明了支持的图像格式(JPEG/PNG/GIF/WebP)和规格(最大10MB,分辨率不超过8000x8000),并建议避免使用过小或低分辨率的图像。

对低质量、手写体图片的文字识别能力出色。Claude 3 Opus能够准确地将一张质量较差、带有手写字迹的照片转换为文本,并进一步将表格形式的文本整理为JSON格式。这展现了强大的OCR和文本结构化能力。

识别图像中的物体(但拒绝识别人物), 能建立物体与抽象概念之间的复杂联系。例如:Claude 3不仅能识别出图片中的计算器,还能将其与数学、计算等概念关联起来,体现了一定的概念抽象和推理能力。(也许是多模态模型中 LLM 融合/加持的知识迁移结果?)

在预期用途部分,特别强调了多模态特性对生产力的提升,比如模型可以解读各种图表、图像(GPT4也有这个图表能力,到底强多少?), 支持更广泛的企业应用场景。

2. 在各类权威基准测试中表现卓越: 无论是在 MMLU 这样的通用推理任务,还是 MATH、APPS 等数学和编程任务,或是 RACE-H、QuALITY 等阅读理解和常识问答数据集,Claude 3 都取得了业内领先的成绩,多次超越了 GPT-4、PaLM 等强劲模型,展现了顶尖的综合能力。

在Diamond子集上,Claude 3 Opus 在0-shot CoT设置下达到了50.4%的准确率,超过GPT-4的35.7%。Diamond是GPQA中质量最高的一组问题,这表明Claude 3 Opus在处理需要专业知识的复杂问题上有独特的优势。

3. 强大的少样本学习和推理能力: Claude 3 Opus 在 GSM8K、MGSM、GPQA 等测试中,无需微调,仅通过少量样例(Few-shot)就能掌握复杂任务,特别是在 GPQA 的 Diamond 子集上,其表现已经接近人类专家水平,展现了超强的学习迁移和推理能力。

4. 多语言理解和生成能力突出: 从报告的多语言数学推理 (MGSM)、多语言常识推理 (MMLU)、多语言对话等评测来看,Claude 3 在处理英语之外的语言时也有出色表现,并较上一代模型有显著提升,使其有望服务全球用户。特别注意到,以前它的中文较拉垮,这次算是赶上来了,对国人友好啦!

5. 在开放域对话、写作等任务上的出众表现: 人类评估者在创意写作、开放讨论等多个维度一致认为 Claude 3 优于同类模型,其生成的内容更加流畅、连贯、吸引人,这将极大拓展其在内容创作领域的应用。这方面我试了一些,truly impressed,今后我会很乐意、开心滴常常使用它。

6. 在代码编写任务上的亮眼表现: Claude 3 在 HumanEval、APPS、MBPP 等编程任务上的成绩证明了其对主流编程语言的掌握能力,有望成为开发者的智能编程助手。强化了根据要求生成结构化的输出(如YAML,JSON,XML)的能力,更易于企业应用和商业部署。

7. 在长文档处理和信息检索方面的进步: Claude 3 不仅支持高达百万 token 的超长上下文(但目前生产环境还是20万),在 QuALITY 这样的长文阅读理解测试中也展现出强劲实力。CLaude 3 Opus 在20万token的超长文档上仍能保持99%以上的关键信息召回率,打破了之前大模型在处理长文档时所谓的"中间错乱(lost in the middle)"的魔咒。

Anthropic 在真实场景的评测方面也一直走在前列, ta 开创的“大海捞针(Needle In A Haystack)” 评测,成为业界衡量大模型长文档处理能力的重要标准。

8. 系统的安全评估和缓解机制: Anthropic 专门制定了负责任扩展政策(RSP),从多个维度评估了 Claude 3 可能带来的安全风险,并采取了一系列缓解措施。虽然评估表明目前还没有灾难性风险,但 Anthropic 仍然未雨绸缪,这种审慎、严谨的态度值得赞许。

具体到信任与安全方面,Anthropic 进行了全面的多模态红队测试,以减少有害输出的可能性。结果显示 Claude 3 Opus 和 Sonnet 在97%以上的红队提示中做出了无害回应,在涉及危险话题时能够巧妙地将对话引向更合乎道德的方向。

在减少有害内容方面的努力卓有成效: 红队测试表明,经过有针对性的优化和训练,Claude 3 在面对危险或违规话题时能够做出恰当回应,将对话引向更合乎伦理的方向,这将有效降低 Claude 被滥用于制造有害内容的风险。

对可能的失控风险有清醒认识:  Anthropic 一如既往大打“宪法”大旗,强调它在伦理、安全、鲁棒性方面的 leader 地位。报告坦诚地指出,随着 AI 系统能力的快速提升,其失控和被滥用的风险不容忽视。Anthropic 积极参与全球 AI 治理,推动制定相关标准,展现了一个负责任 AI 企业的担当。

代码能力是它的重要亮点,值得专门总结一下。Claude 3 系列模型在编程和代码方面,在多个权威基准测试中取得了优异的成绩。下面从四个方面总结 Claude 3 的代码能力:

在 HumanEval 评测中,Claude 3 Opus 达到了84.9% 的准确率,远超 GPT-4 的 67% 和 GPT-3.5 的 48.1%。这表明其对 Python 语言的掌握已经非常全面和深入。
在 APPS 和 MBPP 评测中, Claude 3 Opus 分别达到了70.2% 和86.4%的准确率。APPS 包含了 Python 语言的各种应用问题, MBPP 则考察了 Claude 根据问题描述直接生成正确代码的能力。这些成绩进一步验证了 Claude 3 对 Python 的熟练程度。

强大的代码理解和分析能力:
在 APPS 评测中,Claude 3 需要理解问题的自然语言描述,并将其转化为正确的 Python 代码。这要求模型不仅要准确把握问题的本质和要求,还要合理设计算法和数据结构,足见其代码理解和分析能力之强。
HumanEval 中的任务也都是以自然语言描述的, Claude 3 能高质量地完成这些任务,表明其能很好地理解代码的功能和意图。

出色的代码生成能力:
在 MBPP 评测中,Claude 3 展现了强大的代码生成能力,它可以根据问题描述直接生成正确的代码。这种 "一步到位" 的能力将极大提升开发者的效率。
即使在需要多轮对话澄清需求的复杂编程任务中,Claude 3 也能最终生成高质量的代码。这得益于其出色的上下文理解和语义追踪能力。

除了正确性,Claude 3 生成的代码在可读性、健壮性、时间/空间复杂度等方面也有不错的表现,这将有助于工程质量的提升。

在软件工程任务中的应用前景:
除了直接的代码理解和生成,Claude 3 在一些软件工程任务上也有广阔的应用前景。比如代码补全、代码文档生成、源代码转自然语言描述等。

得益于其强大的大语言模型能力,Claude 3 有望成为智能化软件开发的得力助手,协助开发者进行需求分析、架构设计、性能调优等高阶任务。

更进一步,Claude 3 或许能发展为智能化的 "软件工程顾问",为开发团队提供全流程的指导和优化建议,提升软件过程的成熟度。

当然,尽管 Claude 3 在代码相关任务上已经展现了非凡的能力,但其在真实软件开发场景中的应用还有待进一步探索和验证。看能不能对微软 copilot 构成挑战。

缺点方面:

暂不支持网络搜索(这个有点意外,因为应该是标配),知识截止2023年8月。
模型为了安全合规,拒绝识别图像中的人。

视觉理解方面,也有待更全面的评估: 虽然 Claude 3 展现了一些令人印象深刻的视觉理解能力, 如手写体识别、视觉推理等, 但报告并未系统地评测其在 OCR、目标检测、图像描述等常见视觉任务上的性能。此外, 红队测试也发现其在理解视觉内容时偶尔会出现"幻视"、遗漏违规内容等问题。未来还需在更大规模、更多样化的视觉数据集上系统优化。

报告多次提到一些评估方法还处于较早期阶段, 如对 AI 失控风险的评估、对 AI 系统生物和网络安全能力的评估等。虽然 Anthropic 采取了一些超出常规的预防措施,但评估本身还需要随着 AI 能力的进化而持续迭代。

总的来说, Claude 3 家族无疑代表了语言模型的一个新的里程碑, 构成了 GPT4 的强有力的对手(而 Gemini 整体上看,面对 GPT4 则远远不行)。Claude 3 在智能水平、多模态理解、安全评估等多个方面展现了突破/超越。Anthropic 严谨、审慎、透明的态度,在负责任 AI 方面树立了良好典范,保持了其 leader 地位。但 Claude 3 绝非完美, 在幻觉问题、评估框架等方面还有不少提升的空间。

这是从 tech report 中来的信息。至于这个系统本身,今天找机会可以做一些实测,对比 gpt4 和 claude 3 Opus,谈谈真实的个体用户体验和感受。我已经订阅了 claude 3 Opus 最新版本,随时可做对比实验。看朋友的测试便随手做的一个小学数学题,有点令人啼笑皆非:

不过,这点毛病不影响我自己的使用,我用 LLM 从来也不为了做数学。今后几个月,我会坚持同时使用 chat4v 和 claude3, 直到新的 monster chat5 或 Q* 的降临。

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据