辣妈3笔记 以及辣妈MV与辣妈3.1传奇

Meta超大模型辣妈3.1 发布时的92页论文读书笔记

超大模型 辣妈3.1 是大模型开源社区的里程碑。作为 leader,Meta 该项目的参与者/贡献者有 500 多人(这篇论文的作者署名作为附录按字母顺序排列,跟中央委员姓氏笔划公示似的)。这是充满了实现细节描述的原文

meta Llama 3.1 paper

AIGC MV (just for fun & cheering opensource milestone)

【立委笔记】

1. 辣妈3.1 没有用稀疏技术,不是 model 4 那种多专家系统,而是一个 dense model

2. 405B参数,15.6T tokens:token 数是参数的 40 倍

超大规模头部模型现在强调的都是数据量远大于参数量的增长,这 15T tokens 的数据也是开源的吗?(不会,因为即便愿意开源,也没这个胆子,可能会引起无数数据侵权的官司)

3. 强调超大基础模型的三大杠杆:data, scale, and managing complexity.

4. 比上一代系统辣妈2,计算量增加了 50 倍 (using 3.8 × 1025 FLOPs)

5. 复杂性管理:(1)选择标准的密集Transformer架构,而非混合专家模型,以最大化训练稳定性。(2)采用相对简单的后训练程序:监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。就是说,算法设计和实现上,趋于简单化。不利用稀疏技术和分流多专家系统,为的是稳定性(但训练挑战更大,但他们不怕)。后训练阶段用更简单、容易实现的DPO,而不用强化学习,也是为了稳定性,因为强化学习从来就不好缠。

6 基准测试涵盖:通用、代码、数学、推理、工具使用、长上下文和多语言。全部表现为 SOTA(国际先进水平)。

MMLU(大规模多任务语言理解):405B模型达到87.3%(5-shot),88.6%(0-shot,CoT)。
代码生成(HumanEval):405B模型达到89.0%,接近GPT-4。
数学问题(GSM8K):405B模型达到96.8%,略高于GPT-4。
长上下文任务:在某些任务上表现优异,如QuALITY达到95.2%。
多语言任务(MGSM):405B模型达到91.6%,与顶级模型持平。

405B模型在许多任务上与GPT-4和Claude 3.5 Sonnet相当或接近。一句话,开源追平了闭源。

7. 预训练开始是 8k 窗口,在预训练后期(继续训练)时候扩展到了 128k 窗口。

8. 基础模型预训练完成后,经过多次迭代的对齐“后训练”。

包括:(1)通过人类反馈对齐模型,包括多轮的监督微调(SFT)和直接偏好优化(DPO);(2)集成新能力,如工具使用;(3)增强编码和推理能力(专项优化);(4)安全对齐。

9. 多模态扩展(进行中,未上线发布):图像、视频和语音能力。

包括 (1)多模态编码器预训练:图像编码器在大量图像-文本对上训练,统一空间里对齐视觉内容和自然语言;(2)语音独自自训练?(3) 在图片基础上,进一步作视频-文本数据对齐的实验。

10. 语言模型为核心,其他模态都是后加的(无论加到预训练 and/or 后训练)。

在扩展到多模态的时候,语言模型保持参数不变,适配的是多模态,让多模态在同一个意义空间对齐、靠近语言模型。换句话说,辣妈是遵循模块化、步骤化的方式逐渐扩展到多模态。而不是采用主流(主流主要指 Open AI 和谷歌,至少在理论上)倡导的“大一统的多模态原生数据的联合预训练”。

辣妈的所有算法策略,总的印象是求稳,而不是求创新 或 求大一统。偏向于务实,不在乎自己的算法领先。例如语音的集成,先是语音的自训练(因为语音与文字其实很类似,都是语言体系),然后是语音与文字的对齐(包括语音识别 ASR 和语音合成 TTS)。一步一步集成进跨模态的大模型,这方面谈不上先进性,但一步一个脚印,有利于工程化的开发、集成和迭代。不知道他们什么时候可以上线发布多模态的能力?

11. 数据收集清洗工作非常繁杂,但辣妈团队一丝不苟,这也是它质量可以追平 SOTA 的数据保证。

盘点一下:

(1)去重(De-duplication):URL级别去重; 文档级别去重:使用MinHash算法;行级别去重:每30M文档移除出现超过6次的行。
(2)过滤:移除低质量文档、异常值和过度重复的文档,使用重复n-gram覆盖率移除重复内容(如日志或错误消息);使用"脏词"计数过滤未被黑名单覆盖的成人网站;使用token分布KL散度过滤含异常token过多的文档。
(3) 控制数据品质:使用fasttext分类器识别可能被维基百科引用的文本;使用基于Roberta的分类器,该分类器基于Llama 2的预测进行训练;使用DistilRoberta生成文档质量分数。还有 fasttext 的语言分类器,可识别176种语言;特别过滤两类信息:黄色;个人身份等隐私信息。对代码和数学的网页做特别的精细处理。

12. 数据比例:例如,对网络上过度表示的数据类别(如艺术和娱乐)进行降采样;数据混合比例由一系列小模型实验决定比例取舍,最终数据混合摘要:

约50%的token对应一般知识;25%的token涉及数学和推理;17%的token是代码;8%的token是多语言内容。

13. 模型架构:除了经验性细节调整,dense 模型的基本架构不变,所以是数据和规模化造就了头部模型。

405B模型具体参数:126层;token表示维度16,384;128个注意力头;根据scaling law决定模型大小为405B,约为3.8 × 10^25 FLOPs训练预算下的计算最优size。

14. 词汇表:使用128K个token的词汇表。结合了tiktoken3分词器的100K个token和28K个额外的多语言tokens,以更好地支持非英语语言。

15. 计算机资源,包括GPU万卡集群、海量存储和高速网络,巨大的资源投入。具体数据如下:

计算资源:
使用了多达16,000个H100 GPU(一种非常强大的图形处理器)。
每个GPU都有80GB的高带宽内存,功率为700W。
这些GPU被安装在Meta自己设计的服务器上,每个服务器有8个GPU和2个CPU。

存储系统:
使用了一个叫Tectonic的分布式文件系统。
提供了240PB(1PB=1000TB)的存储空间,分布在7,500台服务器上。
可以每秒处理2TB的持续数据,峰值可达7TB/秒。
一个主要挑战是处理模型检查点(保存模型状态的过程)时产生的大量突发写入。

16. 三步预训练过程:a) 初始预训练;b) 长上下文继续预训练;c) 用高质量数据源退火(Annealing)

预训练关键策略:
逐步增加批量大小和序列长度,以平衡稳定性和效率。
动态调整数据混合,针对性地提升特定能力。
分阶段增加上下文长度,避免早期的计算开销。
在训练后期使用退火和高质量数据,微调模型性能。

———————————

【LLM摘要】Llama 3:Meta的开源大模型突破

1. 引言与概述

Meta公司推出的Llama 3是一系列基础语言模型,旨在支持多语言处理、编程、推理和工具使用等多种任务。这个模型系列包括8B、70B和405B参数三个版本,其中最大的405B参数模型采用密集Transformer架构,支持多达128K tokens的上下文窗口。Llama 3的开发突显了三个关键因素:数据质量与规模、计算规模、以及复杂性管理。

2. 模型架构与预训练策略

2.1 模型架构
Llama 3沿用了标准的密集Transformer架构,而非采用混合专家模型。这一选择旨在最大化训练稳定性,体现了Meta对简化设计以管理复杂性的重视。主要的架构改进包括:
- 使用分组查询注意力(GQA)机制,每个注意力层有8个键值头。
- 引入防止同一序列中不同文档之间自注意力的注意力掩码。
- 扩展词汇表至128K tokens,结合了tiktoken3分词器的100K tokens和28K个额外多语言tokens。
- 将RoPE基频超参数增加到500,000,以支持更长的上下文。

2.2 预训练数据处理
Llama 3的预训练数据处理极为严格,包括:
- 多层次去重:URL级、文档级(使用MinHash算法)和行级去重。
- 启发式过滤:移除低质量文档、异常值和过度重复内容。
- 模型基础质量过滤:使用fasttext和基于Roberta的分类器进行质量评估。
- 特殊内容处理:为代码和数学内容开发专门的处理流程。
- 多语言数据处理:使用fasttext基础语言识别模型,支持176种语言。
- 安全与隐私保护:过滤包含个人可识别信息(PII)和不安全内容的网站数据。

2.3 预训练策略
预训练过程分为三个主要阶段:
1. 初始预训练:在约15T多语言tokens上进行,远超Llama 2的1.8T tokens。
2. 长上下文预训练:从初始的8K tokens逐步扩展到128K tokens的上下文窗口。
3. 退火阶段:在最后阶段使用高质量数据进行微调,并采用Polyak平均法生成最终模型。

数据混合比例经过精心设计:
- 50%通用知识
- 25%数学和推理
- 17%代码
- 8%多语言内容

3. 训练基础设施与挑战

3.1 计算资源
- 使用多达16K个H100 GPUs,每个GPU配备80GB HBM3内存。
- 采用4D并行策略:张量并行、流水线并行、上下文并行和数据并行。

3.2 存储系统
- 使用Tectonic分布式文件系统,提供240PB存储空间。
- 支持2TB/s的持续吞吐量,峰值可达7TB/s。

3.3 网络优化
- 开发NCCLX通信库,提高网络效率。
- 设计特定的网络拓扑和负载均衡策略。

3.4 训练挑战
- 在54天训练期间经历466次作业中断,其中419次为意外中断。
- 开发自动化系统和专门工具处理硬件故障和网络问题。

4. 后训练与对齐

Llama 3采用多轮迭代的后训练过程,包括:
1. 监督微调(SFT)
2. 直接偏好优化(DPO)
3. 奖励模型训练:使用人类反馈数据
4. 安全对齐:实施多轮安全措施

这一过程不仅提升了模型的指令遵循能力,还增强了安全性和特定能力(如编码和推理)。

5. 多模态扩展

虽然尚未正式发布,但Llama 3展示了promising的多模态能力:
- 图像识别:训练独立的图像编码器,通过适配器与语言模型集成。
- 视频理解:在图像适配器基础上添加视频适配器。
- 语音处理:独立训练语音编码器,然后与语言模型对齐。

这种模块化方法允许灵活添加新模态,同时保持核心语言能力不变。

6. 性能评估

Llama 3在多项基准测试中表现卓越:
- MMLU(5-shot):87.3%
- HumanEval(代码生成):89.0%
- GSM8K(数学问题):96.8%
- 长上下文任务(如QuALITY):95.2%
- MGSM(多语言任务):91.6%

这些结果表明Llama 3 405B在多个任务上与GPT-4和Claude 3.5 Sonnet相当或接近,特别是在文档理解和长上下文任务上表现突出。

7. 安全性考虑

Meta在Llama 3的开发过程中高度重视安全性:
- 预训练和后训练阶段均实施严格的安全措施。
- 开发Llama Guard系统级安全解决方案。
- 进行广泛的红队测试和风险评估。

8. 开源影响与未来方向

Meta决定公开发布Llama 3全系列模型,包括405B参数版本,这一决定可能对AI研究社区产生深远影响:
- 推动开放、负责任的AI发展。
- 加速AGI的研究进程。
- 为研究者提供检验和改进大规模语言模型的机会。

未来发展方向可能包括:
- 进一步改进多模态集成。
- 扩展上下文长度。
- 持续提升数据质量和模型规模。

9. 结论

Llama 3的开发展示了Meta在大规模AI系统方面的深厚经验和前瞻性思考。通过聚焦数据质量、计算规模和复杂性管理这三个关键杠杆,Llama 3在多个关键基准上达到或接近了当前最先进水平。其开源发布可能会推动整个AI领域的创新浪潮,为负责任的AGI开发铺平道路。

———————————

老友说大模型做摘要千篇一律 看了等于没看。其实那是因为学术圈摘要 人类就是这么写的 难免有点八股 怪不得大模型。其实大模型擅长各种表述 端看你怎么提点它了。例如,指令: 根据上面的《辣妈3之歌》,讲一个风趣幽默但不离谱的故事:

好的,我来尝试用更加风趣生动、通俗易懂的方式重新描述Llama 3这个庞然大物:

辣妈3号:Meta的AI大厨烹饪的最新"神仙美味"

各位吃瓜群众请注意,AI界的米其林三星大厨Meta又出新菜了!这道名为"辣妈3号"的神仙美味,不仅辣得够味,还要把你的味蕾辣出新境界!

1. 主厨的秘密武器

想象一下,辣妈3号就像是一位会8国语言、能写代码、会算数、还能当你小助手的超级保姆。她不仅能照顾一个幼儿园的熊孩子(8B版本),还能管理一个中型公司(70B版本),甚至能治理一个小国家(405B版本)!这位405B大姐能同时记住12.8万个"流言蜚语"(哦不,是上下文),简直是行走的百科全书+超级计算机!

2. 食材选择:只选最新鲜的!

辣妈3号的主厨们可是挑食材的老手:
- 他们从网上"海捞"了15万亿个词,比上一代多了近10倍!
- 这些词里,一半是日常生活的调料,四分之一是数学题和脑筋急转弯,近五分之一是程序员的咒语,剩下的是环游世界学来的各国方言。
- 他们还发明了一个超级除草机,把网上的垃圾、重复的、不健康的统统都筛了出去。

3. 烹饪过程:三步炒作法

第一步:"小火慢炖"- 先用普通灶台(8K上下文)煮个半熟。
第二步:"大火爆炒"- 换成超级灶台(逐步加到128K上下文),把汤汁收得又浓又香。
第三步:"温火收尾"- 最后用最好的食材轻轻一熬,这就是传说中的"退火"(连厨师自己都不知道为啥叫这名),让味道达到巅峰!

4. 厨房设备:顶配豪华版

- 16000个超级大功率电磁炉(H100 GPU)同时开火!
- 一个能装下半个太平洋的冰箱(240PB存储)!
- 比5G还快的专属配菜系统(NCCLX通信库)!

想象一下,这么多灶台同时开火,厨房里热得跟桑拿房似的。但我们的大厨们愣是顶着高温,54天里换了466次厨师服,才把这道菜给炒出来!

5. 调教方法:既要软萌可爱,又要知书达理

光会做菜不行,还得懂礼貌啊!于是我们的厨师们开始了漫长的"调教"过程:
- 先是来了一轮"温柔教育"(监督微调)
- 接着是"棒棒糖加大棒"战术(直接偏好优化)
- 最后还请来了道德模范(安全对齐)来指导

经过这番折腾,辣妈3号不仅会做菜,还会哄人、会编程、会算数、懂礼貌,简直就是十项全能!

6. 特色小菜:多才多艺显身手

别以为辣妈3号只会做饭,她还是个多才多艺的"女神":
- 看图说故事?小菜一碟!
- 看视频写影评?不在话下!
- 听歌识曲还能唱两句?简直就是KTV麦霸!

虽然这些"才艺"还在练习中,但已经有几分李白"朝如青丝暮成雪"的潜质了!

7. 实力派:考试成绩单亮瞎眼

辣妈3号参加了一系列"星厨争霸赛",成绩简直亮瞎眼:
- 大学入学考试(MMLU):87.3分(满分100)
- 程序员面试(HumanEval):89分(满分100)
- 奥数比赛(GSM8K):96.8分(满分100)
- 长篇小说阅读理解(QuALITY):95.2分(满分100)

这成绩单拿回家,恐怕连"虎妈"都要笑得合不拢嘴!

8. 安全第一:AI界的"保安队长"

Meta的厨师们深知"枪支弹药不能乱放"的道理。他们给辣妈3号配了个24小时保镖团队(Llama Guard),防止她不小心说错话或做错事。还时不时安排几次"道德考试",确保她不会变成"终结者"。

9. 开源盛宴:人人都能当大厨!

最厉害的是,Meta决定把这道"神仙美味"的菜谱完全公开!这就相当于米其林三星餐厅把招牌菜的制作方法放到了网上。以后谁想做,在家就能整一道!这波操作,不仅让其他大厨们惊掉了下巴,还让无数吃货们欢呼雀跃!

10. 未来展望:更上一层楼

Meta的厨师们可没闲着,他们已经在琢磨下一道"神仙美味"了:
- 也许是会跳舞的辣妈4号?
- 或者会画画的辣妈5号?
- 搞不好哪天就冒出个会写交响乐的辣妈6号!

总之,AI界的"米其林"之路,才刚刚开始呢!

结语

辣妈3号的诞生,不仅让Meta在AI界的江湖地位更上一层楼,还为整个AI研究界带来了一股新风。这碗"辣妈汤",不仅好喝,还给大家带来了无限的想象空间。AI的未来会怎样?让我们拭目以待,看看下一道"神仙美味"会是什么滋味!

———————————

下面才是中规中矩、非常忠实的另外几个LLM论文摘要,出自头部大模型,角度和风格略有不同,可以对比着快速浏览,获得辣妈3的基本信息 。我核对过,觉得比人类写得好。

【摘要2】

Meta最新推出的Llama 3系列基础模型,旨在支持多语言任务、编程、推理和工具使用,其旗舰模型拥有4050亿参数,上下文窗口可达128K tokens。本文将深入探讨Llama 3的模型架构、训练过程、性能评估、多模态扩展、数据处理与质量控制、复杂性管理以及安全性等方面。

模型架构与训练

Llama 3采用了标准的密集Transformer架构,而非混合专家模型,以最大化训练稳定性。模型训练分为三个主要阶段:

  1. 初始预训练:使用大规模多语言文本语料库进行预训练,模型在此阶段学习语言结构和大量知识。初始上下文长度为8K tokens。
  2. 长上下文预训练:逐步增加上下文长度至128K tokens,以支持更长的输入和输出。
  3. 退火:对高质量数据进行上采样,并采用Polyak平均化方法生成最终预训练模型。

数据处理与质量控制

Llama 3的数据处理过程极其严格,包括大规模文本语料库清理、去重和过滤,以确保数据的高质量。具体步骤包括:

  1. PII和安全过滤:过滤掉可能包含个人可识别信息(PII)和不安全内容的网站数据。
  2. 文本提取和清理:使用自定义解析器从HTML内容中提取高质量文本,并保留数学和代码内容的结构。
  3. 去重:在URL、文档和行级别上进行多轮去重。
  4. 启发式过滤:通过启发式方法去除低质量文档、异常值和重复内容。
  5. 模型质量过滤:使用模型分类器对数据进行进一步的质量筛选,确保训练语料库的高质量。

最终数据混合比例为:50%通用知识,25%数学和推理,17%代码,8%多语言内容。

模型评估与性能

Llama 3在多个基准数据集上进行了评估,包括多语言理解、编程、推理等任务。其旗舰模型在多个关键基准上的性能接近甚至超过了GPT-4。具体来说:

  • 多语言能力:支持至少八种语言的问答和指令执行。
  • 编程能力:能够编写高质量代码,并在HumanEval等编程基准上表现优异。
  • 推理能力:在ARC Challenge等推理基准上表现出色。
  • 长上下文任务:在某些任务上表现优异,如QuALITY达到95.2%。
  • 多语言任务(MGSM):与顶级模型持平。

多模态扩展

Llama 3还进行了多模态扩展实验,整合了图像、视频和语音的识别能力。这些模型通过组合方法进行训练,显示出与当前最先进模型在图像、视频和语音任务上的竞争力。

复杂性管理与安全性

Llama 3在设计上做出了一些简化以管理复杂性,如采用标准的密集Transformer模型架构,而非混合专家模型,从而最大限度地提高训练的稳定性。此外,Llama 3引入了Llama Guard 3模型,用于输入和输出的安全性过滤,并在训练过程中实施多轮安全措施,以确保模型的安全性和可靠性。

开源与未来发展

Llama 3的所有模型将在更新的Llama 3社区许可证下公开发布,包括预训练和后训练版本的4050亿参数语言模型。通过公开发布旗舰模型,Meta希望推动研究社区的创新,并加速通向人工通用智能(AGI)的负责任发展。

总结

Llama 3展示了在多语言、编程、推理和工具使用等方面的显著改进。通过优化数据质量和多样性、扩大训练规模以及简化模型架构,Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。Llama 3的公开发布将对AI研究社区产生深远影响,并加速AGI的负责任发展。

【摘要3】

引言

现代人工智能系统的基础是基础模型。本综述介绍了Meta推出的新一代基础模型集——Llama 3。Llama 3是一组支持多语言、编程、推理和工具使用的语言模型,其最大模型包含4050亿参数,并支持最多128K的上下文窗口。本论文对Llama 3进行了广泛的实证评估,结果显示其在多种任务上的性能与当前领先的语言模型如GPT-4相当。

模型架构与训练

Llama 3采用标准的稠密Transformer架构,并在数据质量和多样性以及训练规模上进行了显著改进。模型分为三个主要阶段进行训练:

  1. 初始预训练:使用大规模多语言文本语料库对模型进行预训练,模型在此阶段学习语言结构并获得大量知识。初始上下文长度为8K tokens。
  2. 长上下文预训练:在初始预训练后,通过逐步增加上下文长度进行进一步预训练,最终支持128K tokens的上下文窗口。
  3. 退火:在最后的退火阶段,对高质量数据进行上采样,并采用Polyak平均化方法生成最终预训练模型。

Llama 3在设计上做出了一些简化以管理复杂性,如采用标准的稠密Transformer模型架构,而非混合专家模型,从而最大限度地提高训练的稳定性。后训练阶段采用相对简单的程序:监督微调(SFT)、拒绝抽样(RS)和直接偏好优化(DPO)。

模型评估与性能

Llama 3的模型被评估在多个基准数据集上,包括多语言理解、编程、推理等任务。其旗舰模型在多个关键基准上的性能接近甚至超过了GPT-4,具体表现如下:

  • 多语言能力:Llama 3支持至少八种语言的问答和指令执行,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
  • 编程能力:能够编写高质量代码,并在HumanEval等编程基准上表现优异。
  • 推理能力:在ARC Challenge等推理基准上表现出色。
  • 长上下文任务:在某些任务上表现优异,如QuALITY达到95.2%。
  • 多语言任务:在MGSM测试中,405B模型达到91.6%,与顶级模型持平。

Llama 3还进行了多模态扩展实验,整合了图像、视频和语音的识别能力。这些模型通过组合方法进行训练,显示出与当前最先进模型在图像、视频和语音任务上的竞争力。

数据处理与质量控制

Llama 3的数据处理过程包括大规模的文本语料库清理、去重和过滤,以确保数据的高质量。具体步骤包括:

  1. PII和安全过滤:过滤掉可能包含个人可识别信息(PII)和不安全内容的网站数据。
  2. 文本提取和清理:使用自定义解析器从HTML内容中提取高质量文本,并保留数学和代码内容的结构。
  3. 去重:在URL、文档和行级别上进行多轮去重。
  4. 启发式过滤:通过启发式方法去除低质量文档、异常值和重复内容。
  5. 模型质量过滤:使用模型分类器对数据进行进一步的质量筛选,确保训练语料库的高质量。

复杂性管理

Llama 3在设计上做出了一些简化以管理复杂性,如采用标准的稠密Transformer模型架构,而非混合专家模型,从而最大限度地提高训练的稳定性。通过优化数据质量和多样性、扩大训练规模以及简化模型架构,Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。

安全性

Llama 3引入了Llama Guard 3模型,用于输入和输出的安全性过滤。该模型在训练过程中实施多轮安全措施,以确保模型的安全性和可靠性。

训练基础设施

Llama 3的训练在Meta的生产集群上进行,使用多达16,000个H100 GPUs,每个GPU具有80GB的高带宽内存,功率为700W。存储系统使用Tectonic分布式文件系统,提供240PB的存储空间,支持每秒2TB的持续数据处理能力,峰值可达7TB/秒。网络方面,使用RDMA over Converged Ethernet (RoCE) 和Nvidia Quantum2 Infiniband fabric。

后训练与对齐

Llama 3的后训练和对齐过程包括:

  1. 监督微调(SFT):使用人类反馈数据训练奖励模型,然后用于指导模型生成。
  2. 直接偏好优化(DPO):进一步对齐模型,使其更符合人类偏好。

通过多轮迭代,不断改进模型的指令遵循能力和安全性。

社区贡献与未来发展

Llama 3的所有模型将在更新的Llama 3社区许可证下公开发布,包括预训练和后训练版本的4050亿参数语言模型。通过公开发布旗舰模型,Meta希望推动研究社区的创新,并加速通向人工通用智能(AGI)的负责任发展。

结论

总体而言,Llama 3展示了在多语言、编程、推理和工具使用等方面的显著改进。通过优化数据质量和多样性、扩大训练规模以及简化模型架构,Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。通过公开发布如此大规模的模型,Meta展现了其推动开放、负责任的AI发展的决心,这可能会对整个AI领域产生深远影响。

【摘要4】

本文详细介绍了Meta推出的基础语言模型Llama 3。Llama 3是一组支持多语言、编程、推理和工具使用等多种任务的模型,其最大模型具有405B参数和128K token的上下文窗口。

Llama 3的开发基于数据、规模和复杂性管理三大关键支柱。在数据方面,其预训练数据量达约15T多语言tokens,远超Llama 2的1.8T tokens,并进行了严格的数据清洗和质量控制,包括PII和安全过滤、文本提取和清理、多轮去重、启发式过滤以及模型质量过滤等,数据混合比例为约50%通用知识、25%数学和推理、17%代码、8%多语言内容。

在规模上,旗舰语言模型使用3.8 × 10^25 FLOPs进行预训练,规模远大于以前的Llama模型。在管理复杂性方面,采用标准的密集Transformer架构和相对简单的后训练程序,如监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),以最大化训练稳定性。

Llama 3在多个基准数据集上进行了广泛评估,包括多语言理解、编程、推理等任务。其旗舰模型在许多任务上的表现与GPT - 4等领先语言模型相当或接近,在帮助性和无害性之间取得了更好的平衡。例如,在MMLU、HumanEval、GSM8K、QuALITY、MGSM等基准测试中表现出色。

此外,Llama 3还进行了多模态扩展实验,通过组合方法整合图像、视频和语音的识别能力。图像编码器在大量图像 - 文本对上训练,语音模块进行了自训练并与语言模型对齐,视频 - 文本数据也进行了对齐实验。这些模型仍在积极开发中,尚未准备好发布。

Llama 3的训练基础设施强大,使用多达16K个H100 GPUs,采用4D并行策略和专门的网络拓扑及负载均衡策略。训练过程中面临硬件挑战,但通过自动化系统和专门工具解决。在预训练和后训练阶段都实施了严格的安全措施,开发了Llama Guard系统级安全解决方案,并进行了广泛的红队测试和风险评估。

Meta公开发布了Llama 3模型,包括405B参数版本,这可能会推动AI研究社区的创新,加速负责任的AGI开发。未来可能会进一步提升模型能力,如改进多模态集成和扩展上下文长度,同时持续改进数据质量和模型规模。总的来说,Llama 3强调了数据质量、计算规模和复杂性管理在开发高质量基础模型中的重要性,其算法策略求稳务实,通过一丝不苟的数据收集清洗工作保证了模型质量。

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据