辣妈3笔记以及辣妈MV与辣妈3.1传奇

Meta超大模型辣妈3.1 发布时的92页论文读书笔记

超大模型辣妈3.1 是大模型开源社区的里程碑。作为 leader，Meta 该项目的参与者/贡献者有 500 多人（这篇论文的作者署名作为附录按字母顺序排列，跟中央委员姓氏笔划公示似的）。这是充满了实现细节描述的原文：

meta Llama 3.1 paper

AIGC MV （just for fun & cheering opensource milestone）

【立委笔记】

1. 辣妈3.1 没有用稀疏技术，不是 model 4 那种多专家系统，而是一个 dense model

2. 405B参数，15.6T tokens：token 数是参数的 40 倍

超大规模头部模型现在强调的都是数据量远大于参数量的增长，这 15T tokens 的数据也是开源的吗？（不会，因为即便愿意开源，也没这个胆子，可能会引起无数数据侵权的官司）

3. 强调超大基础模型的三大杠杆：data, scale, and managing complexity.

4. 比上一代系统辣妈2，计算量增加了 50 倍（using 3.8 × 1025 FLOPs）

5. 复杂性管理：（1）选择标准的密集Transformer架构，而非混合专家模型，以最大化训练稳定性。（2）采用相对简单的后训练程序：监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。就是说，算法设计和实现上，趋于简单化。不利用稀疏技术和分流多专家系统，为的是稳定性（但训练挑战更大，但他们不怕）。后训练阶段用更简单、容易实现的DPO，而不用强化学习，也是为了稳定性，因为强化学习从来就不好缠。

6 基准测试涵盖：通用、代码、数学、推理、工具使用、长上下文和多语言。全部表现为 SOTA（国际先进水平）。

MMLU（大规模多任务语言理解）：405B模型达到87.3%（5-shot），88.6%（0-shot，CoT）。
代码生成（HumanEval）：405B模型达到89.0%，接近GPT-4。
数学问题（GSM8K）：405B模型达到96.8%，略高于GPT-4。
长上下文任务：在某些任务上表现优异，如QuALITY达到95.2%。
多语言任务（MGSM）：405B模型达到91.6%，与顶级模型持平。

405B模型在许多任务上与GPT-4和Claude 3.5 Sonnet相当或接近。一句话，开源追平了闭源。

7. 预训练开始是 8k 窗口，在预训练后期（继续训练）时候扩展到了 128k 窗口。

8. 基础模型预训练完成后，经过多次迭代的对齐“后训练”。

包括：（1）通过人类反馈对齐模型，包括多轮的监督微调（SFT）和直接偏好优化（DPO）；（2）集成新能力，如工具使用；（3）增强编码和推理能力（专项优化）；（4）安全对齐。

9. 多模态扩展（进行中，未上线发布）：图像、视频和语音能力。

包括（1）多模态编码器预训练：图像编码器在大量图像-文本对上训练，统一空间里对齐视觉内容和自然语言；（2）语音独自自训练？（3）在图片基础上，进一步作视频-文本数据对齐的实验。

10. 语言模型为核心，其他模态都是后加的（无论加到预训练 and/or 后训练）。

在扩展到多模态的时候，语言模型保持参数不变，适配的是多模态，让多模态在同一个意义空间对齐、靠近语言模型。换句话说，辣妈是遵循模块化、步骤化的方式逐渐扩展到多模态。而不是采用主流（主流主要指 Open AI 和谷歌，至少在理论上）倡导的“大一统的多模态原生数据的联合预训练”。

辣妈的所有算法策略，总的印象是求稳，而不是求创新或求大一统。偏向于务实，不在乎自己的算法领先。例如语音的集成，先是语音的自训练（因为语音与文字其实很类似，都是语言体系），然后是语音与文字的对齐（包括语音识别 ASR 和语音合成 TTS）。一步一步集成进跨模态的大模型，这方面谈不上先进性，但一步一个脚印，有利于工程化的开发、集成和迭代。不知道他们什么时候可以上线发布多模态的能力？

11. 数据收集清洗工作非常繁杂，但辣妈团队一丝不苟，这也是它质量可以追平 SOTA 的数据保证。

盘点一下：

（1）去重（De-duplication）：URL级别去重；文档级别去重：使用MinHash算法；行级别去重：每30M文档移除出现超过6次的行。
（2）过滤：移除低质量文档、异常值和过度重复的文档，使用重复n-gram覆盖率移除重复内容（如日志或错误消息）；使用"脏词"计数过滤未被黑名单覆盖的成人网站；使用token分布KL散度过滤含异常token过多的文档。
（3）控制数据品质：使用fasttext分类器识别可能被维基百科引用的文本；使用基于Roberta的分类器，该分类器基于Llama 2的预测进行训练；使用DistilRoberta生成文档质量分数。还有 fasttext 的语言分类器，可识别176种语言；特别过滤两类信息：黄色；个人身份等隐私信息。对代码和数学的网页做特别的精细处理。

12. 数据比例：例如，对网络上过度表示的数据类别（如艺术和娱乐）进行降采样；数据混合比例由一系列小模型实验决定比例取舍，最终数据混合摘要：

约50%的token对应一般知识；25%的token涉及数学和推理；17%的token是代码；8%的token是多语言内容。

13. 模型架构：除了经验性细节调整，dense 模型的基本架构不变，所以是数据和规模化造就了头部模型。

405B模型具体参数：126层；token表示维度16,384；128个注意力头；根据scaling law决定模型大小为405B，约为3.8 × 10^25 FLOPs训练预算下的计算最优size。

14. 词汇表：使用128K个token的词汇表。结合了tiktoken3分词器的100K个token和28K个额外的多语言tokens，以更好地支持非英语语言。

15. 计算机资源，包括GPU万卡集群、海量存储和高速网络，巨大的资源投入。具体数据如下：

计算资源：
使用了多达16,000个H100 GPU（一种非常强大的图形处理器）。
每个GPU都有80GB的高带宽内存，功率为700W。
这些GPU被安装在Meta自己设计的服务器上，每个服务器有8个GPU和2个CPU。

存储系统：
使用了一个叫Tectonic的分布式文件系统。
提供了240PB（1PB=1000TB）的存储空间，分布在7,500台服务器上。
可以每秒处理2TB的持续数据，峰值可达7TB/秒。
一个主要挑战是处理模型检查点（保存模型状态的过程）时产生的大量突发写入。

16. 三步预训练过程：a) 初始预训练；b) 长上下文继续预训练；c) 用高质量数据源退火（Annealing）

预训练关键策略：
逐步增加批量大小和序列长度，以平衡稳定性和效率。
动态调整数据混合，针对性地提升特定能力。
分阶段增加上下文长度，避免早期的计算开销。
在训练后期使用退火和高质量数据，微调模型性能。

———————————

【LLM摘要】Llama 3：Meta的开源大模型突破

1. 引言与概述

Meta公司推出的Llama 3是一系列基础语言模型，旨在支持多语言处理、编程、推理和工具使用等多种任务。这个模型系列包括8B、70B和405B参数三个版本，其中最大的405B参数模型采用密集Transformer架构，支持多达128K tokens的上下文窗口。Llama 3的开发突显了三个关键因素：数据质量与规模、计算规模、以及复杂性管理。

2. 模型架构与预训练策略

2.1 模型架构
Llama 3沿用了标准的密集Transformer架构，而非采用混合专家模型。这一选择旨在最大化训练稳定性，体现了Meta对简化设计以管理复杂性的重视。主要的架构改进包括：
- 使用分组查询注意力（GQA）机制，每个注意力层有8个键值头。
- 引入防止同一序列中不同文档之间自注意力的注意力掩码。
- 扩展词汇表至128K tokens，结合了tiktoken3分词器的100K tokens和28K个额外多语言tokens。
- 将RoPE基频超参数增加到500,000，以支持更长的上下文。

2.2 预训练数据处理
Llama 3的预训练数据处理极为严格，包括：
- 多层次去重：URL级、文档级（使用MinHash算法）和行级去重。
- 启发式过滤：移除低质量文档、异常值和过度重复内容。
- 模型基础质量过滤：使用fasttext和基于Roberta的分类器进行质量评估。
- 特殊内容处理：为代码和数学内容开发专门的处理流程。
- 多语言数据处理：使用fasttext基础语言识别模型，支持176种语言。
- 安全与隐私保护：过滤包含个人可识别信息（PII）和不安全内容的网站数据。

2.3 预训练策略
预训练过程分为三个主要阶段：
1. 初始预训练：在约15T多语言tokens上进行，远超Llama 2的1.8T tokens。
2. 长上下文预训练：从初始的8K tokens逐步扩展到128K tokens的上下文窗口。
3. 退火阶段：在最后阶段使用高质量数据进行微调，并采用Polyak平均法生成最终模型。

数据混合比例经过精心设计：
- 50%通用知识
- 25%数学和推理
- 17%代码
- 8%多语言内容

3. 训练基础设施与挑战

3.1 计算资源
- 使用多达16K个H100 GPUs，每个GPU配备80GB HBM3内存。
- 采用4D并行策略：张量并行、流水线并行、上下文并行和数据并行。

3.2 存储系统
- 使用Tectonic分布式文件系统，提供240PB存储空间。
- 支持2TB/s的持续吞吐量，峰值可达7TB/s。

3.3 网络优化
- 开发NCCLX通信库，提高网络效率。
- 设计特定的网络拓扑和负载均衡策略。

3.4 训练挑战
- 在54天训练期间经历466次作业中断，其中419次为意外中断。
- 开发自动化系统和专门工具处理硬件故障和网络问题。

4. 后训练与对齐

Llama 3采用多轮迭代的后训练过程，包括：
1. 监督微调（SFT）
2. 直接偏好优化（DPO）
3. 奖励模型训练：使用人类反馈数据
4. 安全对齐：实施多轮安全措施

这一过程不仅提升了模型的指令遵循能力，还增强了安全性和特定能力（如编码和推理）。

5. 多模态扩展

虽然尚未正式发布，但Llama 3展示了promising的多模态能力：
- 图像识别：训练独立的图像编码器，通过适配器与语言模型集成。
- 视频理解：在图像适配器基础上添加视频适配器。
- 语音处理：独立训练语音编码器，然后与语言模型对齐。

这种模块化方法允许灵活添加新模态，同时保持核心语言能力不变。

6. 性能评估

Llama 3在多项基准测试中表现卓越：
- MMLU（5-shot）：87.3%
- HumanEval（代码生成）：89.0%
- GSM8K（数学问题）：96.8%
- 长上下文任务（如QuALITY）：95.2%
- MGSM（多语言任务）：91.6%

这些结果表明Llama 3 405B在多个任务上与GPT-4和Claude 3.5 Sonnet相当或接近，特别是在文档理解和长上下文任务上表现突出。

7. 安全性考虑

Meta在Llama 3的开发过程中高度重视安全性：
- 预训练和后训练阶段均实施严格的安全措施。
- 开发Llama Guard系统级安全解决方案。
- 进行广泛的红队测试和风险评估。

8. 开源影响与未来方向

Meta决定公开发布Llama 3全系列模型，包括405B参数版本，这一决定可能对AI研究社区产生深远影响：
- 推动开放、负责任的AI发展。
- 加速AGI的研究进程。
- 为研究者提供检验和改进大规模语言模型的机会。

未来发展方向可能包括：
- 进一步改进多模态集成。
- 扩展上下文长度。
- 持续提升数据质量和模型规模。

9. 结论

Llama 3的开发展示了Meta在大规模AI系统方面的深厚经验和前瞻性思考。通过聚焦数据质量、计算规模和复杂性管理这三个关键杠杆，Llama 3在多个关键基准上达到或接近了当前最先进水平。其开源发布可能会推动整个AI领域的创新浪潮，为负责任的AGI开发铺平道路。

———————————

老友说大模型做摘要千篇一律看了等于没看。其实那是因为学术圈摘要人类就是这么写的难免有点八股怪不得大模型。其实大模型擅长各种表述端看你怎么提点它了。例如，指令：根据上面的《辣妈3之歌》，讲一个风趣幽默但不离谱的故事：

好的，我来尝试用更加风趣生动、通俗易懂的方式重新描述Llama 3这个庞然大物：

辣妈3号：Meta的AI大厨烹饪的最新"神仙美味"

各位吃瓜群众请注意，AI界的米其林三星大厨Meta又出新菜了！这道名为"辣妈3号"的神仙美味，不仅辣得够味，还要把你的味蕾辣出新境界！

1. 主厨的秘密武器

想象一下，辣妈3号就像是一位会8国语言、能写代码、会算数、还能当你小助手的超级保姆。她不仅能照顾一个幼儿园的熊孩子（8B版本），还能管理一个中型公司（70B版本），甚至能治理一个小国家（405B版本）！这位405B大姐能同时记住12.8万个"流言蜚语"（哦不，是上下文），简直是行走的百科全书+超级计算机！

2. 食材选择：只选最新鲜的！

辣妈3号的主厨们可是挑食材的老手：
- 他们从网上"海捞"了15万亿个词，比上一代多了近10倍！
- 这些词里，一半是日常生活的调料，四分之一是数学题和脑筋急转弯，近五分之一是程序员的咒语，剩下的是环游世界学来的各国方言。
- 他们还发明了一个超级除草机，把网上的垃圾、重复的、不健康的统统都筛了出去。

3. 烹饪过程：三步炒作法

第一步："小火慢炖"- 先用普通灶台（8K上下文）煮个半熟。
第二步："大火爆炒"- 换成超级灶台（逐步加到128K上下文），把汤汁收得又浓又香。
第三步："温火收尾"- 最后用最好的食材轻轻一熬，这就是传说中的"退火"（连厨师自己都不知道为啥叫这名），让味道达到巅峰！

4. 厨房设备：顶配豪华版

- 16000个超级大功率电磁炉（H100 GPU）同时开火！
- 一个能装下半个太平洋的冰箱（240PB存储）！
- 比5G还快的专属配菜系统（NCCLX通信库）！

想象一下，这么多灶台同时开火，厨房里热得跟桑拿房似的。但我们的大厨们愣是顶着高温，54天里换了466次厨师服，才把这道菜给炒出来！

5. 调教方法：既要软萌可爱，又要知书达理

光会做菜不行，还得懂礼貌啊！于是我们的厨师们开始了漫长的"调教"过程：
- 先是来了一轮"温柔教育"（监督微调）
- 接着是"棒棒糖加大棒"战术（直接偏好优化）
- 最后还请来了道德模范（安全对齐）来指导

经过这番折腾，辣妈3号不仅会做菜，还会哄人、会编程、会算数、懂礼貌，简直就是十项全能！

6. 特色小菜：多才多艺显身手

别以为辣妈3号只会做饭，她还是个多才多艺的"女神"：
- 看图说故事？小菜一碟！
- 看视频写影评？不在话下！
- 听歌识曲还能唱两句？简直就是KTV麦霸！

虽然这些"才艺"还在练习中，但已经有几分李白"朝如青丝暮成雪"的潜质了！

7. 实力派：考试成绩单亮瞎眼

辣妈3号参加了一系列"星厨争霸赛"，成绩简直亮瞎眼：
- 大学入学考试（MMLU）：87.3分（满分100）
- 程序员面试（HumanEval）：89分（满分100）
- 奥数比赛（GSM8K）：96.8分（满分100）
- 长篇小说阅读理解（QuALITY）：95.2分（满分100）

这成绩单拿回家，恐怕连"虎妈"都要笑得合不拢嘴！

8. 安全第一：AI界的"保安队长"

Meta的厨师们深知"枪支弹药不能乱放"的道理。他们给辣妈3号配了个24小时保镖团队（Llama Guard），防止她不小心说错话或做错事。还时不时安排几次"道德考试"，确保她不会变成"终结者"。

9. 开源盛宴：人人都能当大厨！

最厉害的是，Meta决定把这道"神仙美味"的菜谱完全公开！这就相当于米其林三星餐厅把招牌菜的制作方法放到了网上。以后谁想做，在家就能整一道！这波操作，不仅让其他大厨们惊掉了下巴，还让无数吃货们欢呼雀跃！

10. 未来展望：更上一层楼

Meta的厨师们可没闲着，他们已经在琢磨下一道"神仙美味"了：
- 也许是会跳舞的辣妈4号？
- 或者会画画的辣妈5号？
- 搞不好哪天就冒出个会写交响乐的辣妈6号！

总之，AI界的"米其林"之路，才刚刚开始呢！

结语

辣妈3号的诞生，不仅让Meta在AI界的江湖地位更上一层楼，还为整个AI研究界带来了一股新风。这碗"辣妈汤"，不仅好喝，还给大家带来了无限的想象空间。AI的未来会怎样？让我们拭目以待，看看下一道"神仙美味"会是什么滋味！

———————————

下面才是中规中矩、非常忠实的另外几个LLM论文摘要，出自头部大模型，角度和风格略有不同，可以对比着快速浏览，获得辣妈3的基本信息。我核对过，觉得比人类写得好。

【摘要2】

Meta最新推出的Llama 3系列基础模型，旨在支持多语言任务、编程、推理和工具使用，其旗舰模型拥有4050亿参数，上下文窗口可达128K tokens。本文将深入探讨Llama 3的模型架构、训练过程、性能评估、多模态扩展、数据处理与质量控制、复杂性管理以及安全性等方面。

模型架构与训练

Llama 3采用了标准的密集Transformer架构，而非混合专家模型，以最大化训练稳定性。模型训练分为三个主要阶段：

初始预训练：使用大规模多语言文本语料库进行预训练，模型在此阶段学习语言结构和大量知识。初始上下文长度为8K tokens。
长上下文预训练：逐步增加上下文长度至128K tokens，以支持更长的输入和输出。
退火：对高质量数据进行上采样，并采用Polyak平均化方法生成最终预训练模型。

数据处理与质量控制

Llama 3的数据处理过程极其严格，包括大规模文本语料库清理、去重和过滤，以确保数据的高质量。具体步骤包括：

PII和安全过滤：过滤掉可能包含个人可识别信息（PII）和不安全内容的网站数据。
文本提取和清理：使用自定义解析器从HTML内容中提取高质量文本，并保留数学和代码内容的结构。
去重：在URL、文档和行级别上进行多轮去重。
启发式过滤：通过启发式方法去除低质量文档、异常值和重复内容。
模型质量过滤：使用模型分类器对数据进行进一步的质量筛选，确保训练语料库的高质量。

最终数据混合比例为：50%通用知识，25%数学和推理，17%代码，8%多语言内容。

模型评估与性能

Llama 3在多个基准数据集上进行了评估，包括多语言理解、编程、推理等任务。其旗舰模型在多个关键基准上的性能接近甚至超过了GPT-4。具体来说：

多语言能力：支持至少八种语言的问答和指令执行。
编程能力：能够编写高质量代码，并在HumanEval等编程基准上表现优异。
推理能力：在ARC Challenge等推理基准上表现出色。
长上下文任务：在某些任务上表现优异，如QuALITY达到95.2%。
多语言任务（MGSM）：与顶级模型持平。

多模态扩展

Llama 3还进行了多模态扩展实验，整合了图像、视频和语音的识别能力。这些模型通过组合方法进行训练，显示出与当前最先进模型在图像、视频和语音任务上的竞争力。

复杂性管理与安全性

Llama 3在设计上做出了一些简化以管理复杂性，如采用标准的密集Transformer模型架构，而非混合专家模型，从而最大限度地提高训练的稳定性。此外，Llama 3引入了Llama Guard 3模型，用于输入和输出的安全性过滤，并在训练过程中实施多轮安全措施，以确保模型的安全性和可靠性。

开源与未来发展

Llama 3的所有模型将在更新的Llama 3社区许可证下公开发布，包括预训练和后训练版本的4050亿参数语言模型。通过公开发布旗舰模型，Meta希望推动研究社区的创新，并加速通向人工通用智能（AGI）的负责任发展。

总结

Llama 3展示了在多语言、编程、推理和工具使用等方面的显著改进。通过优化数据质量和多样性、扩大训练规模以及简化模型架构，Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。Llama 3的公开发布将对AI研究社区产生深远影响，并加速AGI的负责任发展。

【摘要3】

引言

现代人工智能系统的基础是基础模型。本综述介绍了Meta推出的新一代基础模型集——Llama 3。Llama 3是一组支持多语言、编程、推理和工具使用的语言模型，其最大模型包含4050亿参数，并支持最多128K的上下文窗口。本论文对Llama 3进行了广泛的实证评估，结果显示其在多种任务上的性能与当前领先的语言模型如GPT-4相当。

模型架构与训练

Llama 3采用标准的稠密Transformer架构，并在数据质量和多样性以及训练规模上进行了显著改进。模型分为三个主要阶段进行训练：

初始预训练：使用大规模多语言文本语料库对模型进行预训练，模型在此阶段学习语言结构并获得大量知识。初始上下文长度为8K tokens。
长上下文预训练：在初始预训练后，通过逐步增加上下文长度进行进一步预训练，最终支持128K tokens的上下文窗口。
退火：在最后的退火阶段，对高质量数据进行上采样，并采用Polyak平均化方法生成最终预训练模型。

Llama 3在设计上做出了一些简化以管理复杂性，如采用标准的稠密Transformer模型架构，而非混合专家模型，从而最大限度地提高训练的稳定性。后训练阶段采用相对简单的程序：监督微调（SFT）、拒绝抽样（RS）和直接偏好优化（DPO）。

模型评估与性能

Llama 3的模型被评估在多个基准数据集上，包括多语言理解、编程、推理等任务。其旗舰模型在多个关键基准上的性能接近甚至超过了GPT-4，具体表现如下：

多语言能力：Llama 3支持至少八种语言的问答和指令执行，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
编程能力：能够编写高质量代码，并在HumanEval等编程基准上表现优异。
推理能力：在ARC Challenge等推理基准上表现出色。
长上下文任务：在某些任务上表现优异，如QuALITY达到95.2%。
多语言任务：在MGSM测试中，405B模型达到91.6%，与顶级模型持平。

数据处理与质量控制

Llama 3的数据处理过程包括大规模的文本语料库清理、去重和过滤，以确保数据的高质量。具体步骤包括：

PII和安全过滤：过滤掉可能包含个人可识别信息（PII）和不安全内容的网站数据。
文本提取和清理：使用自定义解析器从HTML内容中提取高质量文本，并保留数学和代码内容的结构。
去重：在URL、文档和行级别上进行多轮去重。
启发式过滤：通过启发式方法去除低质量文档、异常值和重复内容。
模型质量过滤：使用模型分类器对数据进行进一步的质量筛选，确保训练语料库的高质量。

复杂性管理

Llama 3在设计上做出了一些简化以管理复杂性，如采用标准的稠密Transformer模型架构，而非混合专家模型，从而最大限度地提高训练的稳定性。通过优化数据质量和多样性、扩大训练规模以及简化模型架构，Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。

安全性

Llama 3引入了Llama Guard 3模型，用于输入和输出的安全性过滤。该模型在训练过程中实施多轮安全措施，以确保模型的安全性和可靠性。

训练基础设施

Llama 3的训练在Meta的生产集群上进行，使用多达16,000个H100 GPUs，每个GPU具有80GB的高带宽内存，功率为700W。存储系统使用Tectonic分布式文件系统，提供240PB的存储空间，支持每秒2TB的持续数据处理能力，峰值可达7TB/秒。网络方面，使用RDMA over Converged Ethernet (RoCE) 和Nvidia Quantum2 Infiniband fabric。

后训练与对齐

Llama 3的后训练和对齐过程包括：

监督微调（SFT）：使用人类反馈数据训练奖励模型，然后用于指导模型生成。
直接偏好优化（DPO）：进一步对齐模型，使其更符合人类偏好。

通过多轮迭代，不断改进模型的指令遵循能力和安全性。

社区贡献与未来发展

结论

总体而言，Llama 3展示了在多语言、编程、推理和工具使用等方面的显著改进。通过优化数据质量和多样性、扩大训练规模以及简化模型架构，Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。通过公开发布如此大规模的模型，Meta展现了其推动开放、负责任的AI发展的决心，这可能会对整个AI领域产生深远影响。

【摘要4】

本文详细介绍了Meta推出的基础语言模型Llama 3。Llama 3是一组支持多语言、编程、推理和工具使用等多种任务的模型，其最大模型具有405B参数和128K token的上下文窗口。

Llama 3的开发基于数据、规模和复杂性管理三大关键支柱。在数据方面，其预训练数据量达约15T多语言tokens，远超Llama 2的1.8T tokens，并进行了严格的数据清洗和质量控制，包括PII和安全过滤、文本提取和清理、多轮去重、启发式过滤以及模型质量过滤等，数据混合比例为约50%通用知识、25%数学和推理、17%代码、8%多语言内容。

在规模上，旗舰语言模型使用3.8 × 10^25 FLOPs进行预训练，规模远大于以前的Llama模型。在管理复杂性方面，采用标准的密集Transformer架构和相对简单的后训练程序，如监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO），以最大化训练稳定性。

Llama 3在多个基准数据集上进行了广泛评估，包括多语言理解、编程、推理等任务。其旗舰模型在许多任务上的表现与GPT - 4等领先语言模型相当或接近，在帮助性和无害性之间取得了更好的平衡。例如，在MMLU、HumanEval、GSM8K、QuALITY、MGSM等基准测试中表现出色。

此外，Llama 3还进行了多模态扩展实验，通过组合方法整合图像、视频和语音的识别能力。图像编码器在大量图像 - 文本对上训练，语音模块进行了自训练并与语言模型对齐，视频 - 文本数据也进行了对齐实验。这些模型仍在积极开发中，尚未准备好发布。

Llama 3的训练基础设施强大，使用多达16K个H100 GPUs，采用4D并行策略和专门的网络拓扑及负载均衡策略。训练过程中面临硬件挑战，但通过自动化系统和专门工具解决。在预训练和后训练阶段都实施了严格的安全措施，开发了Llama Guard系统级安全解决方案，并进行了广泛的红队测试和风险评估。

Meta公开发布了Llama 3模型，包括405B参数版本，这可能会推动AI研究社区的创新，加速负责任的AGI开发。未来可能会进一步提升模型能力，如改进多模态集成和扩展上下文长度，同时持续改进数据质量和模型规模。总的来说，Llama 3强调了数据质量、计算规模和复杂性管理在开发高质量基础模型中的重要性，其算法策略求稳务实，通过一丝不苟的数据收集清洗工作保证了模型质量。

辣妈3笔记以及辣妈MV与辣妈3.1传奇

Meta超大模型辣妈3.1 发布时的92页论文读书笔记

【立委笔记】

【LLM摘要】Llama 3：Meta的开源大模型突破

辣妈3号：Meta的AI大厨烹饪的最新"神仙美味"

1. 主厨的秘密武器

2. 食材选择：只选最新鲜的！

3. 烹饪过程：三步炒作法

4. 厨房设备：顶配豪华版

5. 调教方法：既要软萌可爱，又要知书达理

6. 特色小菜：多才多艺显身手

7. 实力派：考试成绩单亮瞎眼

8. 安全第一：AI界的"保安队长"

9. 开源盛宴：人人都能当大厨！

10. 未来展望：更上一层楼

结语

【摘要2】

【摘要3】

引言

模型架构与训练

模型评估与性能

数据处理与质量控制

复杂性管理

安全性

训练基础设施

后训练与对齐

社区贡献与未来发展

结论

【摘要4】

发布者

立委

发表回复