Llama 3 Notes and Llama MV with Llama 3.1 Legend

Notes on the 92-page Paper Released with Meta's Super Large Model Llama 3.1

The super-large model Llama 3.1 is a milestone in the open-source large model community. As a leader, Meta's project involved over 500 participants/contributors (the authors of this paper are listed alphabetically in the appendix, similar to how the Central Committee members' names are displayed by stroke order). This original text is full of implementation details:

meta Llama 3.1 paper

AIGC MV using Suno and keling (just for fun & cheering opensource milestone)

Notes:

  1. Llama 3.1 doesn't use sparse techniques, it's not a multi-expert system like model 4, but a dense model.
  2. 405B parameters, 15.6T tokens: The number of tokens is 40 times the number of parameters. Large-scale top models now emphasize data growth far exceeding parameter growth. Is this 15T tokens of data open source? (No, because even if they were willing to open source it, they wouldn't dare, as it could lead to countless data infringement lawsuits)
  3. Emphasizes three major levers for super-large foundation models: data, scale, and managing complexity.
  4. Compared to the previous generation system Llama 2, computational power has increased 50 times (using 3.8 × 10^25 FLOPs).
  5. Complexity management: (1) Choosing a standard dense Transformer architecture instead of a mixture of experts model to maximize training stability. (2) Adopting a relatively simple post-training procedure: Supervised Fine-Tuning (SFT), Rejection Sampling (RS), and Direct Preference Optimization (DPO). In other words, algorithm design and implementation tend towards simplification. Not using sparse techniques and multi-expert systems is for stability (but training challenges are greater, though they're not afraid). Using simpler, easier-to-implement DPO in the post-training phase instead of reinforcement learning is also for stability, as reinforcement learning has always been difficult to handle.
  6. Benchmark tests cover: general, code, math, reasoning, tool use, long context, and multilingual. All performances are SOTA (state-of-the-art international level).
    • MMLU (Massive Multitask Language Understanding): 405B model achieves 87.3% (5-shot), 88.6% (0-shot, CoT).
    • Code generation (HumanEval): 405B model reaches 89.0%, close to GPT-4.
    • Math problems (GSM8K): 405B model achieves 96.8%, slightly higher than GPT-4.
    • Long context tasks: Excellent performance on some tasks, such as 95.2% on QuALITY.
    • Multilingual tasks (MGSM): 405B model reaches 91.6%, on par with top models. The 405B model is comparable or close to GPT-4 and Claude 3.5 Sonnet on many tasks. In short, open-source has caught up with closed-source.
  7. Pre-training started with an 8k window, expanded to a 128k window in the later stages of pre-training (continued training).
  8. After the foundation model pre-training was completed, multiple iterations of alignment "post-training" were performed. Including: (1) Aligning the model through human feedback, including multiple rounds of Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO); (2) Integrating new capabilities, such as tool use; (3) Enhancing coding and reasoning abilities (specialized optimization); (4) Safety alignment.
  9. Multimodal expansion (in progress, not yet released): Image, video, and speech capabilities. Including (1) Multimodal encoder pre-training: Image encoder trained on a large number of image-text pairs, aligning visual content and natural language in a unified space; (2) Speech self-training? (3) Experiments on video-text data alignment based on images.
  10. Language model as the core, other modalities are added later (whether added to pre-training and/or post-training). When expanding to multimodal, the language model parameters remain unchanged, adapting to multimodality, allowing multimodal alignment in the same semantic space, closer to the language model. In other words, Llama follows a modular, step-by-step approach to gradually expand to multimodality. This is not the mainstream approach (mainly referring to Open AI and Google, at least in theory) advocating for "unified multimodal native data joint pre-training". The overall impression of Llama's algorithmic strategies is seeking stability rather than innovation or unification. It tends towards practicality, not caring about leading in algorithms. For example, the integration of speech first involves speech self-training (because speech is actually very similar to text, both being language systems), then alignment between speech and text (including Automatic Speech Recognition ASR and Text-to-Speech TTS). Integrating step by step into the cross-modal large model, this approach isn't cutting-edge in terms of advancement, but it's steady progress, beneficial for engineering development, integration, and iteration. It's unclear when they will be able to release multimodal capabilities online.
  11. Data collection and cleaning work is very complex, but the Llama team is meticulous, which is also the data guarantee for its quality to catch up with SOTA. To recap: (1) De-duplication: URL-level de-duplication; Document-level de-duplication using MinHash algorithm; Row-level de-duplication: removing rows appearing more than 6 times every 30M documents. (2) Filtering: Removing low-quality documents, outliers, and excessively repetitive documents, using repetitive n-gram coverage to remove repetitive content (such as logs or error messages); using "dirty word" counts to filter adult websites not covered by blacklists; using token distribution KL divergence to filter documents with too many abnormal tokens. (3) Controlling data quality: Using fasttext classifier to identify text that might be cited by Wikipedia; using a Roberta-based classifier trained on Llama 2's predictions; using DistilRoberta to generate document quality scores. Also, fasttext language classifier can identify 176 languages; specially filtering two types of information: adult content and personal identity/privacy information. Special fine processing for code and math web pages.
  12. Data proportions: For example, downsampling over-represented data categories on the web (such as art and entertainment); data mixing ratios determined by a series of small model experiments, final data mix summary: About 50% of tokens correspond to general knowledge; 25% of tokens involve math and reasoning; 17% of tokens are code; 8% of tokens are multilingual content.
  13. Model architecture: Apart from empirical detail adjustments, the basic architecture of the dense model remains unchanged, so it's data and scaling that create top models. 405B model specific parameters: 126 layers; token representation dimension 16,384; 128 attention heads; model size of 405B determined according to scaling law, about the computational optimal size under 3.8 × 10^25 FLOPs training budget.
  14. Vocabulary: Using a vocabulary of 128K tokens. Combines 100K tokens from the tiktoken3 tokenizer and 28K additional multilingual tokens to better support non-English languages.
  15. Computing resources, including GPU clusters of tens of thousands of cards, massive storage, and high-speed networks, represent huge resource investments. Specific data as follows: Computing resources:
    • Used up to 16,000 H100 GPUs (a very powerful graphics processor).
    • Each GPU has 80GB of high-bandwidth memory, with a power of 700W.
    • These GPUs are installed on servers designed by Meta itself, with 8 GPUs and 2 CPUs per server. Storage system:
    • Uses a distributed file system called Tectonic.
    • Provides 240PB (1PB=1000TB) of storage space, distributed across 7,500 servers.
    • Can process 2TB of continuous data per second, with a peak of 7TB/second.
    • A major challenge is handling the large amount of burst writes generated when processing model checkpoints (the process of saving model states).
  16. Three-step pre-training process: a) Initial pre-training; b) Long context continued pre-training; c) Annealing with high-quality data sources Key pre-training strategies:
    • Gradually increase batch size and sequence length to balance stability and efficiency.
    • Dynamically adjust data mixing to specifically enhance certain capabilities.
    • Increase context length in stages to avoid early computational overhead.
    • Use annealing and high-quality data in the late stages of training to fine-tune model performance.

 

[LLM Summary]

Llama 3: Meta's Open-Source Large Language Model Breakthrough**

1. Introduction and Overview

Meta has introduced Llama 3, a series of foundation language models designed to support various tasks including multilingual processing, programming, reasoning, and tool use. This model series includes versions with 8B, 70B, and 405B parameters, with the largest 405B parameter model adopting a dense Transformer architecture and supporting context windows of up to 128K tokens. The development of Llama 3 highlights three key factors: data quality and scale, computational scale, and complexity management.

2. Model Architecture and Pre-training Strategy

2.1 Model Architecture

Llama 3 retains the standard dense Transformer architecture rather than adopting a mixture of experts model. This choice aims to maximize training stability, reflecting Meta's emphasis on simplifying design to manage complexity. Key architectural improvements include:
- Using Grouped-Query Attention (GQA) mechanism, with 8 key-value heads per attention layer.
- Introducing attention masks to prevent self-attention between different documents in the same sequence.
- Expanding the vocabulary to 128K tokens, combining 100K tokens from the tiktoken3 tokenizer and 28K additional multilingual tokens.
- Increasing the RoPE base frequency hyperparameter to 500,000 to support longer contexts.

2.2 Pre-training Data Processing

Llama 3's pre-training data processing is extremely rigorous, including:
- Multi-level deduplication: URL-level, document-level (using MinHash algorithm), and row-level deduplication.
- Heuristic filtering: Removing low-quality documents, outliers, and excessively repetitive content.
- Model-based quality filtering: Using fasttext and Roberta-based classifiers for quality assessment.
- Special content processing: Developing specialized processing pipelines for code and mathematical content.
- Multilingual data processing: Using fasttext base language identification model, supporting 176 languages.
- Safety and privacy protection: Filtering website data containing personally identifiable information (PII) and unsafe content.

2.3 Pre-training Strategy

The pre-training process is divided into three main stages:
1. Initial pre-training: Conducted on about 15T multilingual tokens, far exceeding Llama 2's 1.8T tokens.
2. Long context pre-training: Gradually expanding from initial 8K tokens to 128K tokens context window.
3. Annealing phase: Fine-tuning with high-quality data in the final stage, using Polyak averaging to generate the final model.

Data mixing ratios are carefully designed:
- 50% general knowledge
- 25% mathematics and reasoning
- 17% code
- 8% multilingual content

3. Training Infrastructure and Challenges

3.1 Computational Resources
- Using up to 16K H100 GPUs, each equipped with 80GB HBM3 memory.
- Adopting a 4D parallel strategy: tensor parallelism, pipeline parallelism, context parallelism, and data parallelism.

3.2 Storage System
- Using the Tectonic distributed file system, providing 240PB of storage space.
- Supporting 2TB/s sustained throughput, with peak capacity of 7TB/s.

3.3 Network Optimization
- Developing the NCCLX communication library to improve network efficiency.
- Designing specific network topologies and load balancing strategies.

3.4 Training Challenges
- Experiencing 466 job interruptions during the 54-day training period, 419 of which were unexpected.
- Developing automated systems and specialized tools to handle hardware failures and network issues.

4. Post-training and Alignment

Llama 3 adopts a multi-round iterative post-training process, including:
1. Supervised Fine-Tuning (SFT)
2. Direct Preference Optimization (DPO)
3. Reward model training: Using human feedback data
4. Safety alignment: Implementing multiple rounds of safety measures

This process not only improves the model's instruction-following capabilities but also enhances safety and specific abilities (such as coding and reasoning).

5. Multimodal Expansion

Although not officially released yet, Llama 3 demonstrates promising multimodal capabilities:
- Image recognition: Training independent image encoders, integrated with the language model through adapters.
- Video understanding: Adding video adapters based on image adapters.
- Speech processing: Independently training speech encoders, then aligning with the language model.

This modular approach allows flexible addition of new modalities while maintaining core language capabilities.

6. Performance Evaluation

Llama 3 performs excellently in multiple benchmark tests:
- MMLU (5-shot): 87.3%
- HumanEval (code generation): 89.0%
- GSM8K (math problems): 96.8%
- Long context tasks (like QuALITY): 95.2%
- MGSM (multilingual tasks): 91.6%

These results indicate that Llama 3 405B is comparable or close to GPT-4 and Claude 3.5 Sonnet on multiple tasks, particularly excelling in document understanding and long context tasks.

7. Safety Considerations

Meta highly prioritizes safety in the development of Llama 3:
- Implementing strict safety measures in both pre-training and post-training stages.
- Developing the Llama Guard system-level safety solution.
- Conducting extensive red team testing and risk assessments.

8. Open Source Impact and Future Directions

Meta's decision to publicly release the entire Llama 3 series, including the 405B parameter version, may have far-reaching impacts on the AI research community:
- Promoting open, responsible AI development.
- Accelerating AGI research progress.
- Providing researchers with opportunities to examine and improve large-scale language models.

Future development directions may include:
- Further improving multimodal integration.
- Expanding context length.
- Continuously enhancing data quality and model scale.

9. Conclusion

The development of Llama 3 demonstrates Meta's deep experience and forward-thinking in large-scale AI systems. By focusing on three key levers - data quality, computational scale, and complexity management - Llama 3 has reached or approached the current state-of-the-art level on several key benchmarks. Its open-source release may drive a wave of innovation across the entire AI field, paving the way for responsible AGI development.

Llama 3: Meta's AI Chef's Latest "Divine Delicacy"

Attention, all tech enthusiasts! The Michelin three-star AI chef Meta has just unveiled a new dish! This divine delicacy named "Llama 3" is not only spicy enough but will elevate your taste buds to new heights!

1. The Chef's Secret Weapon

Imagine Llama 3 as a super nanny who speaks 8 languages, writes code, does math, and can be your personal assistant. She can handle a kindergarten full of rambunctious kids (8B version), manage a mid-sized company (70B version), or even govern a small country (405B version)! This 405B big sister can remember 128,000 "gossips" (oh no, I mean context) simultaneously, essentially a walking encyclopedia + supercomputer!

2. Ingredient Selection: Only the Freshest!

Llama 3's chefs are masters at picking ingredients:

  • They "fished" 15 trillion words from the internet, nearly 10 times more than the previous generation!
  • Half of these words are everyday life seasonings, a quarter are math problems and brain teasers, nearly a fifth are programmer spells, and the rest are dialects learned from world travels.
  • They even invented a super weed remover, filtering out all the online garbage, repetitive, and unhealthy stuff.

3. Cooking Process: Three-Step Stir-Fry Method

Step 1: "Slow Simmer" - Start with a regular stove (8K context) to cook it halfway. Step 2: "High Heat Stir-Fry" - Switch to a super stove (gradually increasing to 128K context), reducing the sauce to be thick and fragrant. Step 3: "Low Heat Finish" - Finally, a gentle simmer with the best ingredients, the legendary "annealing" (even the chefs don't know why it's called that), bringing the flavor to its peak!

4. Kitchen Equipment: Top-of-the-Line Luxury Version

  • 16,000 super high-power induction cookers (H100 GPUs) firing simultaneously!
  • A refrigerator that could fit half the Pacific Ocean (240PB storage)!
  • A proprietary ingredient prep system faster than 5G (NCCLX communication library)!

Imagine all these stoves firing at once, making the kitchen feel like a sauna. But our chefs persevered through the heat, changing chef uniforms 466 times in 54 days to whip up this dish!

5. Training Method: Both Cute and Well-Mannered

Being a good cook isn't enough; you've got to have manners too! So our chefs began a long "training" process:

  • First came a round of "gentle education" (supervised fine-tuning)
  • Then the "carrot and stick" tactic (direct preference optimization)
  • Finally, they invited moral role models (safety alignment) for guidance

After all this fuss, Llama 3 not only cooks well but also knows how to please people, program, do math, and mind her manners - a true decathlon champion!

6. Special Side Dishes: Showcasing Multiple Talents

Don't think Llama 3 can only cook; she's a multi-talented "goddess":

  • Storytelling from images? Piece of cake!
  • Writing movie reviews? No problem!
  • Recognizing songs and even singing a bit? The karaoke queen!

Although these "talents" are still in practice, they already show the potential of Li Bai's "from black hair to snow white in a day"!

7. A True Powerhouse: Dazzling Test Scores

Llama 3 participated in a series of "Top Chef Competitions," with eye-popping scores:

  • College Entrance Exam (MMLU): 87.3 points (out of 100)
  • Programmer Interview (HumanEval): 89 points (out of 100)
  • Math Olympiad (GSM8K): 96.8 points (out of 100)
  • Long Novel Reading Comprehension (QuALITY): 95.2 points (out of 100)

Bring this report card home, and even a "Tiger Mom" would be grinning from ear to ear!

8. Safety First: AI's "Security Captain"

Meta's chefs know well the principle of "don't leave guns and ammo lying around." They've assigned Llama 3 a 24/7 bodyguard team (Llama Guard) to prevent her from accidentally saying or doing the wrong thing. They even arrange occasional "moral exams" to ensure she doesn't turn into a "Terminator."

9. Open Source Feast: Everyone Can Be a Master Chef!

The most impressive part is that Meta decided to make the recipe for this "divine delicacy" completely public! It's like a Michelin three-star restaurant putting their signature dish's recipe online. Now anyone who wants to can whip it up at home! This move not only shocked other master chefs but also made countless food lovers cheer with joy!

10. Future Outlook: Reaching New Heights

Meta's chefs aren't resting on their laurels; they're already pondering the next "divine delicacy":

  • Maybe a dancing Llama 4?
  • Or a painting Llama 5?
  • Who knows, one day we might see a Llama 6 composing symphonies!

In short, the AI world's "Michelin" journey has only just begun!

Epilogue

The birth of Llama 3 not only elevates Meta's status in the AI world but also brings a fresh breeze to the entire AI research community. This bowl of "Llama soup" is not only delicious but also brings unlimited imagination to everyone. What will the future of AI be like? Let's wait and see what flavor the next "divine delicacy" will be!

辣妈3笔记 以及辣妈MV与辣妈3.1传奇

Meta超大模型辣妈3.1 发布时的92页论文读书笔记

超大模型 辣妈3.1 是大模型开源社区的里程碑。作为 leader,Meta 该项目的参与者/贡献者有 500 多人(这篇论文的作者署名作为附录按字母顺序排列,跟中央委员姓氏笔划公示似的)。这是充满了实现细节描述的原文

meta Llama 3.1 paper

AIGC MV (just for fun & cheering opensource milestone)

【立委笔记】

1. 辣妈3.1 没有用稀疏技术,不是 model 4 那种多专家系统,而是一个 dense model

2. 405B参数,15.6T tokens:token 数是参数的 40 倍

超大规模头部模型现在强调的都是数据量远大于参数量的增长,这 15T tokens 的数据也是开源的吗?(不会,因为即便愿意开源,也没这个胆子,可能会引起无数数据侵权的官司)

3. 强调超大基础模型的三大杠杆:data, scale, and managing complexity.

4. 比上一代系统辣妈2,计算量增加了 50 倍 (using 3.8 × 1025 FLOPs)

5. 复杂性管理:(1)选择标准的密集Transformer架构,而非混合专家模型,以最大化训练稳定性。(2)采用相对简单的后训练程序:监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。就是说,算法设计和实现上,趋于简单化。不利用稀疏技术和分流多专家系统,为的是稳定性(但训练挑战更大,但他们不怕)。后训练阶段用更简单、容易实现的DPO,而不用强化学习,也是为了稳定性,因为强化学习从来就不好缠。

6 基准测试涵盖:通用、代码、数学、推理、工具使用、长上下文和多语言。全部表现为 SOTA(国际先进水平)。

MMLU(大规模多任务语言理解):405B模型达到87.3%(5-shot),88.6%(0-shot,CoT)。
代码生成(HumanEval):405B模型达到89.0%,接近GPT-4。
数学问题(GSM8K):405B模型达到96.8%,略高于GPT-4。
长上下文任务:在某些任务上表现优异,如QuALITY达到95.2%。
多语言任务(MGSM):405B模型达到91.6%,与顶级模型持平。

405B模型在许多任务上与GPT-4和Claude 3.5 Sonnet相当或接近。一句话,开源追平了闭源。

7. 预训练开始是 8k 窗口,在预训练后期(继续训练)时候扩展到了 128k 窗口。

8. 基础模型预训练完成后,经过多次迭代的对齐“后训练”。

包括:(1)通过人类反馈对齐模型,包括多轮的监督微调(SFT)和直接偏好优化(DPO);(2)集成新能力,如工具使用;(3)增强编码和推理能力(专项优化);(4)安全对齐。

9. 多模态扩展(进行中,未上线发布):图像、视频和语音能力。

包括 (1)多模态编码器预训练:图像编码器在大量图像-文本对上训练,统一空间里对齐视觉内容和自然语言;(2)语音独自自训练?(3) 在图片基础上,进一步作视频-文本数据对齐的实验。

10. 语言模型为核心,其他模态都是后加的(无论加到预训练 and/or 后训练)。

在扩展到多模态的时候,语言模型保持参数不变,适配的是多模态,让多模态在同一个意义空间对齐、靠近语言模型。换句话说,辣妈是遵循模块化、步骤化的方式逐渐扩展到多模态。而不是采用主流(主流主要指 Open AI 和谷歌,至少在理论上)倡导的“大一统的多模态原生数据的联合预训练”。

辣妈的所有算法策略,总的印象是求稳,而不是求创新 或 求大一统。偏向于务实,不在乎自己的算法领先。例如语音的集成,先是语音的自训练(因为语音与文字其实很类似,都是语言体系),然后是语音与文字的对齐(包括语音识别 ASR 和语音合成 TTS)。一步一步集成进跨模态的大模型,这方面谈不上先进性,但一步一个脚印,有利于工程化的开发、集成和迭代。不知道他们什么时候可以上线发布多模态的能力?

11. 数据收集清洗工作非常繁杂,但辣妈团队一丝不苟,这也是它质量可以追平 SOTA 的数据保证。

盘点一下:

(1)去重(De-duplication):URL级别去重; 文档级别去重:使用MinHash算法;行级别去重:每30M文档移除出现超过6次的行。
(2)过滤:移除低质量文档、异常值和过度重复的文档,使用重复n-gram覆盖率移除重复内容(如日志或错误消息);使用"脏词"计数过滤未被黑名单覆盖的成人网站;使用token分布KL散度过滤含异常token过多的文档。
(3) 控制数据品质:使用fasttext分类器识别可能被维基百科引用的文本;使用基于Roberta的分类器,该分类器基于Llama 2的预测进行训练;使用DistilRoberta生成文档质量分数。还有 fasttext 的语言分类器,可识别176种语言;特别过滤两类信息:黄色;个人身份等隐私信息。对代码和数学的网页做特别的精细处理。

12. 数据比例:例如,对网络上过度表示的数据类别(如艺术和娱乐)进行降采样;数据混合比例由一系列小模型实验决定比例取舍,最终数据混合摘要:

约50%的token对应一般知识;25%的token涉及数学和推理;17%的token是代码;8%的token是多语言内容。

13. 模型架构:除了经验性细节调整,dense 模型的基本架构不变,所以是数据和规模化造就了头部模型。

405B模型具体参数:126层;token表示维度16,384;128个注意力头;根据scaling law决定模型大小为405B,约为3.8 × 10^25 FLOPs训练预算下的计算最优size。

14. 词汇表:使用128K个token的词汇表。结合了tiktoken3分词器的100K个token和28K个额外的多语言tokens,以更好地支持非英语语言。

15. 计算机资源,包括GPU万卡集群、海量存储和高速网络,巨大的资源投入。具体数据如下:

计算资源:
使用了多达16,000个H100 GPU(一种非常强大的图形处理器)。
每个GPU都有80GB的高带宽内存,功率为700W。
这些GPU被安装在Meta自己设计的服务器上,每个服务器有8个GPU和2个CPU。

存储系统:
使用了一个叫Tectonic的分布式文件系统。
提供了240PB(1PB=1000TB)的存储空间,分布在7,500台服务器上。
可以每秒处理2TB的持续数据,峰值可达7TB/秒。
一个主要挑战是处理模型检查点(保存模型状态的过程)时产生的大量突发写入。

16. 三步预训练过程:a) 初始预训练;b) 长上下文继续预训练;c) 用高质量数据源退火(Annealing)

预训练关键策略:
逐步增加批量大小和序列长度,以平衡稳定性和效率。
动态调整数据混合,针对性地提升特定能力。
分阶段增加上下文长度,避免早期的计算开销。
在训练后期使用退火和高质量数据,微调模型性能。

———————————

【LLM摘要】Llama 3:Meta的开源大模型突破

1. 引言与概述

Meta公司推出的Llama 3是一系列基础语言模型,旨在支持多语言处理、编程、推理和工具使用等多种任务。这个模型系列包括8B、70B和405B参数三个版本,其中最大的405B参数模型采用密集Transformer架构,支持多达128K tokens的上下文窗口。Llama 3的开发突显了三个关键因素:数据质量与规模、计算规模、以及复杂性管理。

2. 模型架构与预训练策略

2.1 模型架构
Llama 3沿用了标准的密集Transformer架构,而非采用混合专家模型。这一选择旨在最大化训练稳定性,体现了Meta对简化设计以管理复杂性的重视。主要的架构改进包括:
- 使用分组查询注意力(GQA)机制,每个注意力层有8个键值头。
- 引入防止同一序列中不同文档之间自注意力的注意力掩码。
- 扩展词汇表至128K tokens,结合了tiktoken3分词器的100K tokens和28K个额外多语言tokens。
- 将RoPE基频超参数增加到500,000,以支持更长的上下文。

2.2 预训练数据处理
Llama 3的预训练数据处理极为严格,包括:
- 多层次去重:URL级、文档级(使用MinHash算法)和行级去重。
- 启发式过滤:移除低质量文档、异常值和过度重复内容。
- 模型基础质量过滤:使用fasttext和基于Roberta的分类器进行质量评估。
- 特殊内容处理:为代码和数学内容开发专门的处理流程。
- 多语言数据处理:使用fasttext基础语言识别模型,支持176种语言。
- 安全与隐私保护:过滤包含个人可识别信息(PII)和不安全内容的网站数据。

2.3 预训练策略
预训练过程分为三个主要阶段:
1. 初始预训练:在约15T多语言tokens上进行,远超Llama 2的1.8T tokens。
2. 长上下文预训练:从初始的8K tokens逐步扩展到128K tokens的上下文窗口。
3. 退火阶段:在最后阶段使用高质量数据进行微调,并采用Polyak平均法生成最终模型。

数据混合比例经过精心设计:
- 50%通用知识
- 25%数学和推理
- 17%代码
- 8%多语言内容

3. 训练基础设施与挑战

3.1 计算资源
- 使用多达16K个H100 GPUs,每个GPU配备80GB HBM3内存。
- 采用4D并行策略:张量并行、流水线并行、上下文并行和数据并行。

3.2 存储系统
- 使用Tectonic分布式文件系统,提供240PB存储空间。
- 支持2TB/s的持续吞吐量,峰值可达7TB/s。

3.3 网络优化
- 开发NCCLX通信库,提高网络效率。
- 设计特定的网络拓扑和负载均衡策略。

3.4 训练挑战
- 在54天训练期间经历466次作业中断,其中419次为意外中断。
- 开发自动化系统和专门工具处理硬件故障和网络问题。

4. 后训练与对齐

Llama 3采用多轮迭代的后训练过程,包括:
1. 监督微调(SFT)
2. 直接偏好优化(DPO)
3. 奖励模型训练:使用人类反馈数据
4. 安全对齐:实施多轮安全措施

这一过程不仅提升了模型的指令遵循能力,还增强了安全性和特定能力(如编码和推理)。

5. 多模态扩展

虽然尚未正式发布,但Llama 3展示了promising的多模态能力:
- 图像识别:训练独立的图像编码器,通过适配器与语言模型集成。
- 视频理解:在图像适配器基础上添加视频适配器。
- 语音处理:独立训练语音编码器,然后与语言模型对齐。

这种模块化方法允许灵活添加新模态,同时保持核心语言能力不变。

6. 性能评估

Llama 3在多项基准测试中表现卓越:
- MMLU(5-shot):87.3%
- HumanEval(代码生成):89.0%
- GSM8K(数学问题):96.8%
- 长上下文任务(如QuALITY):95.2%
- MGSM(多语言任务):91.6%

这些结果表明Llama 3 405B在多个任务上与GPT-4和Claude 3.5 Sonnet相当或接近,特别是在文档理解和长上下文任务上表现突出。

7. 安全性考虑

Meta在Llama 3的开发过程中高度重视安全性:
- 预训练和后训练阶段均实施严格的安全措施。
- 开发Llama Guard系统级安全解决方案。
- 进行广泛的红队测试和风险评估。

8. 开源影响与未来方向

Meta决定公开发布Llama 3全系列模型,包括405B参数版本,这一决定可能对AI研究社区产生深远影响:
- 推动开放、负责任的AI发展。
- 加速AGI的研究进程。
- 为研究者提供检验和改进大规模语言模型的机会。

未来发展方向可能包括:
- 进一步改进多模态集成。
- 扩展上下文长度。
- 持续提升数据质量和模型规模。

9. 结论

Llama 3的开发展示了Meta在大规模AI系统方面的深厚经验和前瞻性思考。通过聚焦数据质量、计算规模和复杂性管理这三个关键杠杆,Llama 3在多个关键基准上达到或接近了当前最先进水平。其开源发布可能会推动整个AI领域的创新浪潮,为负责任的AGI开发铺平道路。

———————————

老友说大模型做摘要千篇一律 看了等于没看。其实那是因为学术圈摘要 人类就是这么写的 难免有点八股 怪不得大模型。其实大模型擅长各种表述 端看你怎么提点它了。例如,指令: 根据上面的《辣妈3之歌》,讲一个风趣幽默但不离谱的故事:

好的,我来尝试用更加风趣生动、通俗易懂的方式重新描述Llama 3这个庞然大物:

辣妈3号:Meta的AI大厨烹饪的最新"神仙美味"

各位吃瓜群众请注意,AI界的米其林三星大厨Meta又出新菜了!这道名为"辣妈3号"的神仙美味,不仅辣得够味,还要把你的味蕾辣出新境界!

1. 主厨的秘密武器

想象一下,辣妈3号就像是一位会8国语言、能写代码、会算数、还能当你小助手的超级保姆。她不仅能照顾一个幼儿园的熊孩子(8B版本),还能管理一个中型公司(70B版本),甚至能治理一个小国家(405B版本)!这位405B大姐能同时记住12.8万个"流言蜚语"(哦不,是上下文),简直是行走的百科全书+超级计算机!

2. 食材选择:只选最新鲜的!

辣妈3号的主厨们可是挑食材的老手:
- 他们从网上"海捞"了15万亿个词,比上一代多了近10倍!
- 这些词里,一半是日常生活的调料,四分之一是数学题和脑筋急转弯,近五分之一是程序员的咒语,剩下的是环游世界学来的各国方言。
- 他们还发明了一个超级除草机,把网上的垃圾、重复的、不健康的统统都筛了出去。

3. 烹饪过程:三步炒作法

第一步:"小火慢炖"- 先用普通灶台(8K上下文)煮个半熟。
第二步:"大火爆炒"- 换成超级灶台(逐步加到128K上下文),把汤汁收得又浓又香。
第三步:"温火收尾"- 最后用最好的食材轻轻一熬,这就是传说中的"退火"(连厨师自己都不知道为啥叫这名),让味道达到巅峰!

4. 厨房设备:顶配豪华版

- 16000个超级大功率电磁炉(H100 GPU)同时开火!
- 一个能装下半个太平洋的冰箱(240PB存储)!
- 比5G还快的专属配菜系统(NCCLX通信库)!

想象一下,这么多灶台同时开火,厨房里热得跟桑拿房似的。但我们的大厨们愣是顶着高温,54天里换了466次厨师服,才把这道菜给炒出来!

5. 调教方法:既要软萌可爱,又要知书达理

光会做菜不行,还得懂礼貌啊!于是我们的厨师们开始了漫长的"调教"过程:
- 先是来了一轮"温柔教育"(监督微调)
- 接着是"棒棒糖加大棒"战术(直接偏好优化)
- 最后还请来了道德模范(安全对齐)来指导

经过这番折腾,辣妈3号不仅会做菜,还会哄人、会编程、会算数、懂礼貌,简直就是十项全能!

6. 特色小菜:多才多艺显身手

别以为辣妈3号只会做饭,她还是个多才多艺的"女神":
- 看图说故事?小菜一碟!
- 看视频写影评?不在话下!
- 听歌识曲还能唱两句?简直就是KTV麦霸!

虽然这些"才艺"还在练习中,但已经有几分李白"朝如青丝暮成雪"的潜质了!

7. 实力派:考试成绩单亮瞎眼

辣妈3号参加了一系列"星厨争霸赛",成绩简直亮瞎眼:
- 大学入学考试(MMLU):87.3分(满分100)
- 程序员面试(HumanEval):89分(满分100)
- 奥数比赛(GSM8K):96.8分(满分100)
- 长篇小说阅读理解(QuALITY):95.2分(满分100)

这成绩单拿回家,恐怕连"虎妈"都要笑得合不拢嘴!

8. 安全第一:AI界的"保安队长"

Meta的厨师们深知"枪支弹药不能乱放"的道理。他们给辣妈3号配了个24小时保镖团队(Llama Guard),防止她不小心说错话或做错事。还时不时安排几次"道德考试",确保她不会变成"终结者"。

9. 开源盛宴:人人都能当大厨!

最厉害的是,Meta决定把这道"神仙美味"的菜谱完全公开!这就相当于米其林三星餐厅把招牌菜的制作方法放到了网上。以后谁想做,在家就能整一道!这波操作,不仅让其他大厨们惊掉了下巴,还让无数吃货们欢呼雀跃!

10. 未来展望:更上一层楼

Meta的厨师们可没闲着,他们已经在琢磨下一道"神仙美味"了:
- 也许是会跳舞的辣妈4号?
- 或者会画画的辣妈5号?
- 搞不好哪天就冒出个会写交响乐的辣妈6号!

总之,AI界的"米其林"之路,才刚刚开始呢!

结语

辣妈3号的诞生,不仅让Meta在AI界的江湖地位更上一层楼,还为整个AI研究界带来了一股新风。这碗"辣妈汤",不仅好喝,还给大家带来了无限的想象空间。AI的未来会怎样?让我们拭目以待,看看下一道"神仙美味"会是什么滋味!

———————————

下面才是中规中矩、非常忠实的另外几个LLM论文摘要,出自头部大模型,角度和风格略有不同,可以对比着快速浏览,获得辣妈3的基本信息 。我核对过,觉得比人类写得好。

【摘要2】

Meta最新推出的Llama 3系列基础模型,旨在支持多语言任务、编程、推理和工具使用,其旗舰模型拥有4050亿参数,上下文窗口可达128K tokens。本文将深入探讨Llama 3的模型架构、训练过程、性能评估、多模态扩展、数据处理与质量控制、复杂性管理以及安全性等方面。

模型架构与训练

Llama 3采用了标准的密集Transformer架构,而非混合专家模型,以最大化训练稳定性。模型训练分为三个主要阶段:

  1. 初始预训练:使用大规模多语言文本语料库进行预训练,模型在此阶段学习语言结构和大量知识。初始上下文长度为8K tokens。
  2. 长上下文预训练:逐步增加上下文长度至128K tokens,以支持更长的输入和输出。
  3. 退火:对高质量数据进行上采样,并采用Polyak平均化方法生成最终预训练模型。

数据处理与质量控制

Llama 3的数据处理过程极其严格,包括大规模文本语料库清理、去重和过滤,以确保数据的高质量。具体步骤包括:

  1. PII和安全过滤:过滤掉可能包含个人可识别信息(PII)和不安全内容的网站数据。
  2. 文本提取和清理:使用自定义解析器从HTML内容中提取高质量文本,并保留数学和代码内容的结构。
  3. 去重:在URL、文档和行级别上进行多轮去重。
  4. 启发式过滤:通过启发式方法去除低质量文档、异常值和重复内容。
  5. 模型质量过滤:使用模型分类器对数据进行进一步的质量筛选,确保训练语料库的高质量。

最终数据混合比例为:50%通用知识,25%数学和推理,17%代码,8%多语言内容。

模型评估与性能

Llama 3在多个基准数据集上进行了评估,包括多语言理解、编程、推理等任务。其旗舰模型在多个关键基准上的性能接近甚至超过了GPT-4。具体来说:

  • 多语言能力:支持至少八种语言的问答和指令执行。
  • 编程能力:能够编写高质量代码,并在HumanEval等编程基准上表现优异。
  • 推理能力:在ARC Challenge等推理基准上表现出色。
  • 长上下文任务:在某些任务上表现优异,如QuALITY达到95.2%。
  • 多语言任务(MGSM):与顶级模型持平。

多模态扩展

Llama 3还进行了多模态扩展实验,整合了图像、视频和语音的识别能力。这些模型通过组合方法进行训练,显示出与当前最先进模型在图像、视频和语音任务上的竞争力。

复杂性管理与安全性

Llama 3在设计上做出了一些简化以管理复杂性,如采用标准的密集Transformer模型架构,而非混合专家模型,从而最大限度地提高训练的稳定性。此外,Llama 3引入了Llama Guard 3模型,用于输入和输出的安全性过滤,并在训练过程中实施多轮安全措施,以确保模型的安全性和可靠性。

开源与未来发展

Llama 3的所有模型将在更新的Llama 3社区许可证下公开发布,包括预训练和后训练版本的4050亿参数语言模型。通过公开发布旗舰模型,Meta希望推动研究社区的创新,并加速通向人工通用智能(AGI)的负责任发展。

总结

Llama 3展示了在多语言、编程、推理和工具使用等方面的显著改进。通过优化数据质量和多样性、扩大训练规模以及简化模型架构,Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。Llama 3的公开发布将对AI研究社区产生深远影响,并加速AGI的负责任发展。

【摘要3】

引言

现代人工智能系统的基础是基础模型。本综述介绍了Meta推出的新一代基础模型集——Llama 3。Llama 3是一组支持多语言、编程、推理和工具使用的语言模型,其最大模型包含4050亿参数,并支持最多128K的上下文窗口。本论文对Llama 3进行了广泛的实证评估,结果显示其在多种任务上的性能与当前领先的语言模型如GPT-4相当。

模型架构与训练

Llama 3采用标准的稠密Transformer架构,并在数据质量和多样性以及训练规模上进行了显著改进。模型分为三个主要阶段进行训练:

  1. 初始预训练:使用大规模多语言文本语料库对模型进行预训练,模型在此阶段学习语言结构并获得大量知识。初始上下文长度为8K tokens。
  2. 长上下文预训练:在初始预训练后,通过逐步增加上下文长度进行进一步预训练,最终支持128K tokens的上下文窗口。
  3. 退火:在最后的退火阶段,对高质量数据进行上采样,并采用Polyak平均化方法生成最终预训练模型。

Llama 3在设计上做出了一些简化以管理复杂性,如采用标准的稠密Transformer模型架构,而非混合专家模型,从而最大限度地提高训练的稳定性。后训练阶段采用相对简单的程序:监督微调(SFT)、拒绝抽样(RS)和直接偏好优化(DPO)。

模型评估与性能

Llama 3的模型被评估在多个基准数据集上,包括多语言理解、编程、推理等任务。其旗舰模型在多个关键基准上的性能接近甚至超过了GPT-4,具体表现如下:

  • 多语言能力:Llama 3支持至少八种语言的问答和指令执行,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
  • 编程能力:能够编写高质量代码,并在HumanEval等编程基准上表现优异。
  • 推理能力:在ARC Challenge等推理基准上表现出色。
  • 长上下文任务:在某些任务上表现优异,如QuALITY达到95.2%。
  • 多语言任务:在MGSM测试中,405B模型达到91.6%,与顶级模型持平。

Llama 3还进行了多模态扩展实验,整合了图像、视频和语音的识别能力。这些模型通过组合方法进行训练,显示出与当前最先进模型在图像、视频和语音任务上的竞争力。

数据处理与质量控制

Llama 3的数据处理过程包括大规模的文本语料库清理、去重和过滤,以确保数据的高质量。具体步骤包括:

  1. PII和安全过滤:过滤掉可能包含个人可识别信息(PII)和不安全内容的网站数据。
  2. 文本提取和清理:使用自定义解析器从HTML内容中提取高质量文本,并保留数学和代码内容的结构。
  3. 去重:在URL、文档和行级别上进行多轮去重。
  4. 启发式过滤:通过启发式方法去除低质量文档、异常值和重复内容。
  5. 模型质量过滤:使用模型分类器对数据进行进一步的质量筛选,确保训练语料库的高质量。

复杂性管理

Llama 3在设计上做出了一些简化以管理复杂性,如采用标准的稠密Transformer模型架构,而非混合专家模型,从而最大限度地提高训练的稳定性。通过优化数据质量和多样性、扩大训练规模以及简化模型架构,Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。

安全性

Llama 3引入了Llama Guard 3模型,用于输入和输出的安全性过滤。该模型在训练过程中实施多轮安全措施,以确保模型的安全性和可靠性。

训练基础设施

Llama 3的训练在Meta的生产集群上进行,使用多达16,000个H100 GPUs,每个GPU具有80GB的高带宽内存,功率为700W。存储系统使用Tectonic分布式文件系统,提供240PB的存储空间,支持每秒2TB的持续数据处理能力,峰值可达7TB/秒。网络方面,使用RDMA over Converged Ethernet (RoCE) 和Nvidia Quantum2 Infiniband fabric。

后训练与对齐

Llama 3的后训练和对齐过程包括:

  1. 监督微调(SFT):使用人类反馈数据训练奖励模型,然后用于指导模型生成。
  2. 直接偏好优化(DPO):进一步对齐模型,使其更符合人类偏好。

通过多轮迭代,不断改进模型的指令遵循能力和安全性。

社区贡献与未来发展

Llama 3的所有模型将在更新的Llama 3社区许可证下公开发布,包括预训练和后训练版本的4050亿参数语言模型。通过公开发布旗舰模型,Meta希望推动研究社区的创新,并加速通向人工通用智能(AGI)的负责任发展。

结论

总体而言,Llama 3展示了在多语言、编程、推理和工具使用等方面的显著改进。通过优化数据质量和多样性、扩大训练规模以及简化模型架构,Llama 3在多个关键基准上达到了或接近了当前最先进模型的性能。通过公开发布如此大规模的模型,Meta展现了其推动开放、负责任的AI发展的决心,这可能会对整个AI领域产生深远影响。

【摘要4】

本文详细介绍了Meta推出的基础语言模型Llama 3。Llama 3是一组支持多语言、编程、推理和工具使用等多种任务的模型,其最大模型具有405B参数和128K token的上下文窗口。

Llama 3的开发基于数据、规模和复杂性管理三大关键支柱。在数据方面,其预训练数据量达约15T多语言tokens,远超Llama 2的1.8T tokens,并进行了严格的数据清洗和质量控制,包括PII和安全过滤、文本提取和清理、多轮去重、启发式过滤以及模型质量过滤等,数据混合比例为约50%通用知识、25%数学和推理、17%代码、8%多语言内容。

在规模上,旗舰语言模型使用3.8 × 10^25 FLOPs进行预训练,规模远大于以前的Llama模型。在管理复杂性方面,采用标准的密集Transformer架构和相对简单的后训练程序,如监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),以最大化训练稳定性。

Llama 3在多个基准数据集上进行了广泛评估,包括多语言理解、编程、推理等任务。其旗舰模型在许多任务上的表现与GPT - 4等领先语言模型相当或接近,在帮助性和无害性之间取得了更好的平衡。例如,在MMLU、HumanEval、GSM8K、QuALITY、MGSM等基准测试中表现出色。

此外,Llama 3还进行了多模态扩展实验,通过组合方法整合图像、视频和语音的识别能力。图像编码器在大量图像 - 文本对上训练,语音模块进行了自训练并与语言模型对齐,视频 - 文本数据也进行了对齐实验。这些模型仍在积极开发中,尚未准备好发布。

Llama 3的训练基础设施强大,使用多达16K个H100 GPUs,采用4D并行策略和专门的网络拓扑及负载均衡策略。训练过程中面临硬件挑战,但通过自动化系统和专门工具解决。在预训练和后训练阶段都实施了严格的安全措施,开发了Llama Guard系统级安全解决方案,并进行了广泛的红队测试和风险评估。

Meta公开发布了Llama 3模型,包括405B参数版本,这可能会推动AI研究社区的创新,加速负责任的AGI开发。未来可能会进一步提升模型能力,如改进多模态集成和扩展上下文长度,同时持续改进数据质量和模型规模。总的来说,Llama 3强调了数据质量、计算规模和复杂性管理在开发高质量基础模型中的重要性,其算法策略求稳务实,通过一丝不苟的数据收集清洗工作保证了模型质量。

 

What did Ilya see? -- secret behind success of LLMs

What did Ilya see?

-- looking closely into his historical Berkeley talk

by Wei Li, Jia Gao

Introduction

When Ilya Sutskever left OpenAI and re-emerged with his new company, SSI (Safe Superintelligence Inc.), the move was both surprising and expected—he bypassed AGI and directly aimed at SSI (Safe Superintelligence). He confidently declared: Superintelligence is imminent, and establishing safe superintelligence (SSI) is the most important technological issue of our time.

Ilya, a legend in the field of deep learning and AI, and the former true soul of OpenAI, was at the center of the dramatic internal shift, addressing the issue—effective acceleration versus super alignment. Why was Ilya so steadfast about "super alignment" amid the underlying AI values and strategic path debate? Even after the storm settled, the outside world continued to speculate: what did Ilya see that compelled him to join the board in making the decision to oust CEO Sam Altman? Ilya remained hidden until recently, when he left OpenAI, leading to the dissolution of his super alignment team and the creation of his new company.

What did he see behind the push for "safe intelligence"?

Back on October 3, 2023, Ilya gave a talk at UC Berkeley titled "A Theory of Unsupervised Learning." Though obscure and known to few, it is destined to be one of the most significant moments in AI history. This talk was a theoretical reflection and summary by a top expert in deep learning on the GPT model he pioneered, now famous worldwide. Ilya revealed the core principles of large models and vividly described his obsession with, and excitement over, independently understanding the mechanisms of unsupervised learning. Despite the complexity, the talk was brilliant and enlightening.

Until recently, Leopold Aschenbrenner, a former member of his super alignment team, published a 165-page article, "Situation Awareness," preliminarily revealing the shock and concerns within OpenAI over the exponential evolution of GPT models. This partly answered the question of what Ilya saw, but Ilya himself remained silent until his official re-emergence not long ago.

Reflecting on his "confessional" talk at Berkeley, we might glimpse his "moment of enlightenment" when facing potential superintelligence and understand his original intent for safe intelligence. It was a rare deep sharing by Ilya, attempting to convey essential message to the world. But did the world hear him?

1. Machine Learning: Supervised Learning and Unsupervised Learning

To accommodate readers with varying mathematical backgrounds, this blog aims to explain Ilya's historical presentation in an accessible language. Purely technical explanations can be skipped by non-technical readers without affecting the understanding of the presentation's main ideas.

Before diving in, let's review the basic concepts of machine learning. Machine learning is like having computers as students and humans as teachers. By providing computers with numerous "practice problems" and "answer keys," they slowly learn to solve problems. This is supervised learning. But can computers really learn from practice problems instead of merely memorizing them? Ilya assures us there's theoretical proof of this.

Imagine a sea of problems before you, each paired with a standard answer. This is the model's training data. Model training is like diligently solving these problems until most of them are correct, meaning low training error. But even an extensive problem set has its limits. When new problems arise, can the model still get them right? These new problems are the test data, akin to exams. Whether the model performs well depends on its test error rate.

Mathematics tells us that as long as the problem set is large enough, far exceeding the model's size, excellent performance on training problems (low training error) ensures good performance on test problems (low testing error). In other words, if the model trains well, it will do well in exams! This is the mathematical guarantee for supervised learning.

However, if the model merely memorizes without extraction, no matter how large its memory or how strong its "memory power," it lacks real adaptive learning ability (called "generalization ability"). Only when the model isn't too smart, it will be forced to extract the essence (called "compression"), learning real skills from the problem set.

This explains why the model size shouldn't be too large, to avoid giving the model too much room to cut corners. In short, Ilya wants to say that "big labeled data + low training error" is the winning formula for supervised learning, guaranteed by mathematics. This point has been confirmed both theoretically and practically. Since the deep learning revolution 12 years ago, countless successful cases have shown that as long as the training data is sufficient, neural networks can excel, at all sorts of AI tasks, from recognizing cats and dogs to machine translation.

But what about unsupervised learning? Can computers learn intelligence from a problem set without standard answers? It sounds far-fetched, but Ilya is about to explain how he managed to seek a solid mathematical foundation for unsupervised learning as well.

2. Distribution Matching: A New Approach to Unsupervised Learning

Everyone knows that machine translation was a typical win of supervised learning, in fact, the only win among various NLP tasks (such as dialogue, information extraction, sentiment analysis,  question answering, docuent understanding, etc.) prior to the large language model's era. Why? Because we have a vast amount of historical bilingual data. It's like students having workbooks with English on the left and Chinese on the right—supervised learning thrives on this setup.

But what if the teacher suddenly stops providing aligned bilingual data and only gives you English books and unrelated Chinese books, leaving you to figure out how to align and learn automatic translation? That's the problem unsupervised learning needs to solve. Ilya says unsupervised learning can also handle various language machine translations (which we've seen today with large models—specialized translation software is no longer needed), and even any input-to-output transformation tasks. What's the catch?

Ilya discovered a new approach called distribution matching. Essentially, if the English and Chinese book collections are large enough, containing various sentence structures, their linguistic regularities will be learned "without supervision". For example, the context distribution of "I/me/my" in English should correspond to "我" in Chinese; adjectives near nouns in English with semantic compatibility should have a similar pattern in Chinese, etc. This provides the basic condition for potential language alignment.

Ilya points out that if two languages' native data is sufficiently rich, the input in one language can almost uniquely determine the equivalent translation in the other language. This principle applies not only to machine translation but also to tasks like speech recognition and image recognition.

Ilya independently discovered this approach in 2015, fascinated by the underlying mathematical principle—compression theory. If we can find a method that maximally compresses both English and Chinese data, this approach will capture the common patterns of the two languages, which form the basis of translation.

So, Ilya proposes that unsupervised learning is essentially about finding the optimal data compression method. This perspective not only sounds cool but also provides a mathematical explanation for the effectiveness of unsupervised learning. Although real-world tasks are not idealized, this principle gives unsupervised learning a solid theoretical foundation, making it as convincing as supervised learning.

Next, Ilya will delve deeper into the mathematical principles behind it. Although somewhat abstract, he promises it’s full of insights. We'll see how he uses the magic of compression to explain the mysteries of unsupervised learning.

3. Ilya’s Ultimate Theory: From Conditional Modeling to Joint Modeling

This is the final and most intriguing slide of Ilya's talk, worthy of thorough analysis and contemplation. The goal of unsupervised learning is often defined as "learning the internal structure of data." Ilya suggests understanding unsupervised learning from the perspective of data compression: a good unsupervised learning algorithm should maximally compress the data, representing its content in the simplest form. This introduces the concept of Kolmogorov complexity.

The Kolmogorov complexity of a data object is the length of the shortest computer program that can fully describe this object. You can imagine this shortest program as a "compressed package" containing all the information needed to reconstruct the original data. From this perspective, the goal of unsupervised learning is to find the optimal compressed representation of the data, which is the Kolmogorov complexity.

The Kolmogorov complexity of a data object is the length of the shortest computer program that can fully describe this object. Imagine this shortest program as a "compressed package" containing all the information needed to reconstruct the original data. From this perspective, the goal of unsupervised learning is to find the optimal compressed representation of the data, which is the Kolmogorov complexity.

However, in practice, we often need to handle multiple related datasets. For instance, in machine translation, we have the source language dataset X and the target language dataset Y. We want to learn a model that can translate sentences from X to Y (or vice versa). Traditionally, this is viewed as a conditional probability problem: given X, what is the probability distribution of Y? Represented in terms of Kolmogorov complexity, this involves finding K(Y|X), the shortest description length of Y given X.

Ilya proposes a different approach. Instead of viewing X and Y as condition and result, like in supervised learning, he suggests viewing them as a whole and compressing them together within a massive model. Essentially, we seek the joint Kolmogorov complexity K(X,Y), the shortest program length that compresses both X and Y simultaneously. This approach must fully utilize the correlation between X and Y, using information in X to automatically align Y (or vice versa), much like how we use our native language knowledge to understand and remember foreign language expressions.

Ilya believes this joint compression idea is the true power of unsupervised learning. Real-world data is often interconnected, with numerous deep common patterns and regularities. If unsupervised learning can discover and utilize these regularities, it can significantly enhance learning efficiency and generalization ability. This explains the remarkable performance of large language models like GPT across various tasks: through massive unsupervised pretraining, they learn the deep regularities of the training data, and these regularities are transferable across related datasets.

Although Kolmogorov complexity is theoretically uncomputable, Ilya believes we can approximate this process using deep neural networks (like GPT). Through optimization algorithms such as gradient descent, neural networks can find the optimal compressed representation in massive data, capturing the essence of the data and its alignment patterns, even if not strictly in terms of Kolmogorov complexity.

Thus, Ilya’s theory can be seen as a new paradigm for unsupervised learning, elevating traditional independent modeling (like separate models for English and Chinese) to a unified associative modeling approach. In this paradigm, the goal of unsupervised learning is no longer just compressing individual datasets but finding the connections between them. This cross-modality learning represents an advanced form of artificial general intelligence (AGI).

Now, let’s closely examine this final slide. In it, X represents dataset 1 and Y represents dataset 2. The key point is extracting every bit of information from X (or Y) to help predict Y (or X). This is what Ilya refers to when he says training X and Y together yields the effect that unsupervised learning of X helps accomplish the task of transforming X to Y.

The crucial idea is: K(Y|X) becomes K(X, Y).

Ilya transforms the universally applicable functional AI task of "input X conditions output Y" into an approximate solving problem by jointly training X and Y without modal segmentation. This joint training approach is effectively the current multimodal unified training, abbreviated as K(X, Y).

Ilya aims to strengthen the theoretical basis, emphasizing his surprising discovery that self-learning of X has a strong predictive effect on Y.

The essence of unsupervised self-learning is that the self-learning of X is to compress X, and the self-learning of Y is to compress Y. This is straightforward because the essence of self-learning is involves only positive examples, without negative samples. Unsupervised self-learning lacks a specific task orientation; it learns language from language, images from images, music from music, and so on, continually abstracting various patterns from phenomena.

Ilya points out in the slide: conditioning on a dataset, not an example. The compression object is the dataset, not individual data points, which is crucial. This distinction separates superficial compression from content compression. Superficial compression is merely a mechanical process that does not produce intelligence. Only content compression can achieve artificial intelligence.

How do we understand the difference and connection between superficial lossless compression (e.g., digital music) and content lossless compression (e.g., Suno)? Compressing a specific song losslessly aims to ensure it can be restored to its original musical form (including noise and imperfections). This is traditional music compression, targeting individual sample, e.g., a specific song. Compressing a collection of music, whether using GPT or Diffusion, targets a group of samples, resulting in a large model like Suno.

When individual objects turn into group objects, formal compression naturally transforms into content compression. This is because, although the group comprises individuals, compressing the group is like "painting" a portrait of the group, outlining its characteristics. It may resemble an individual, but it is not a specific individual in the original data; otherwise, it would not be a model but a memory repository.

This is understandable because the purpose of large model compression is to identify the characteristics and regularities of the dataset. The text generated by GPT-4 might seem familiar; the music generated by Suno might sound familiar; the videos generated by Sora might look familiar; the images generated by MJ might seem familiar. However, they are virtual individuals "restored" based on prompts, abstracted or compressed from big data: derived from data, higher than data, mingling with data, indistinguishable from real and fake.

Given that the compression object is the entire dataset content, how do we measure its effectiveness after decompression? What is the gold standard?

This standard is each sample itself. However, this is not entirely accurate; the standard could have equivalent answers, as the same content can have various ways of expressions. The implementation method is "masking", and NTP simply masks the next token. Training involves calculating the loss for each sample, using backpropagation with gradient descent to adjust parameters continually, eventually lowering the loss in the group training of the dataset to an acceptable point, forming the large model.

This final slide and Ilya’s explanation emphasize a core point: Conditional Kolmogorov complexity K(Y|X) provides a theoretically optimal solution for unsupervised learning. K(Y|X) is defined as the length of the shortest program that produces the output dataset Y given access to the input dataset X. It represents the theoretical limit of extracting all valuable information from X to predict Y. An algorithm that can achieve K(Y|X) would be the best for predicting Y using unlabeled data X.

This can be seen as the theoretical basis for large models performing various language translations. Each language is potentially X and potentially Y. After self-learning with an huge amount of data, LLMs learn the relationships between languages, possessing the potential to translate from X to Y.

In practice, the machine translation task, like other tasks, initially involves few-shot examples in instruction-following fine-tuning to define the task, ultimately triggering the internal power of large models to translate various languages. This internal power of unsupervised learning for various tasks is the theme of his talk.

However, K(Y|X) is uncomputable in practice. Ilya proposes a feasible alternative, using joint Kolmogorov complexity K(X,Y) (joint compression of X and Y). He believes K(X,Y) can achieve the same effect as K(Y|X) in practical machine learning tasks.

Let us stop and think again: conditional modeling is now replaced by sequence modeling by Ilya. The widely known probability simplification in traditional machine learning, such as the Markov chain, has a similar effect.

Conclusion

Ilya's historic presentation at Berkeley on the theory of unsupervised learning reveals the secret behind the mainstream of self-learning large models, especially GPT. It seems that Ilya, after long contemplation, finally disclosed this "heavenly secret" in a cryptic manner at Berkeley. Although the theory and its proof appear complex, it is crucial for understanding why GPT's sequence learning method ("next token prediction") has become a universal simulator for AI tasks.

Ilya exudes a genius prophet aura, with a lonely invincibility and high-altitude isolation, blending a sense of deep realization, compassion, and the pure, focused, and idealistic earnestness of a graduate student nerd.

He claims to prefer compression but does not emphasize so-called lossless compression. He leaves room for himself and the mainstream, proposing the concept of "no regret"—though GPT may not achieve lossless or perfect compression, it theoretically proves there is no better way: GPT is the closest to lossless, "no-regret" modeling.

When Ilya officially re-emerges to establish SSI, emphasizing a single focus, a single goal, and a single product—to use technology to ensure the superintelligence brought by large models is safe for humanity—he asserts: AI will be eternal, its birth akin to the creation of heaven and earth. As Ilya passionately discusses AI's progress, he is most qualified to declare and lead the "exciting yet dangerous journey towards AGI."

References

Chinese full-length post

Ilya's presentation:

Related Links:

https://www.youtube.com/live/AKMuA_TVz3A?si=7dVfcBUv3rHBHtyT

https://situational-awareness.ai/

Ilya Sutskever:你会 bet against AI 吗?

挥刀董事会,OpenAI 如何解决致命难题

英伟达GTC的一小步,AI进化史的一大步

为什么说 Sora 是世界的模拟器?

世界语国,朋友遍天下(视频修订版)

朋友遍天下

 

可灵AI视觉大模型重现1987年北京世界语春节晚会联欢聚会的场面,当时正谈恋爱,带着领导(当时是女友)去见圈子里老朋友(右边是大百科全书的郑伯承,非常有才华的老友),背后是春节猜谜的谜语。复原的真切程度,难以置信,包括神态、微表情和动作。。

除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。)

世界语的大同理念很像是国际歌的传奇,这让我想起我们从小就熟读的列宁语录:“一个有觉悟的工人,不管他来到哪个国家,不管命运把他抛到哪里,不管他怎样感到自己是异邦人,言语不通,举目无亲,远离祖国,——他都可以凭《国际歌》的熟悉的曲调,给自己找到同志和朋友。”世界语对于世界语者,就如上个世纪早期的《国际歌》对于工人革命者一样,成为联络同志的桥梁。正是这样,我凭着“爱斯不难读”(Esperanto)这共同的语言,从英伦而加拿大,再到美国,每到一处,总能找到同志。

世界语者总人数并不多,约三千万,但分布极广,世界上差不多每个中等以上的城市都有或大或小的世界语俱乐部。所有的世界语俱乐部对待远道而来的世界语者就象自己的亲人一样,对此我深有体会。

英国曼城是我出国留学的第一站。跟很多人一样,第一次远离故国,伴随着难以名状的痛苦,内心空荡而恍惚。百无聊赖,我于是找来电话黄页,查询 Esperanto, 果然发现有联络人,原来是一帮退休老人组成的俱乐部,每周在 Pub(酒馆) 活动一次。他们很高兴,我的加入给他们带来了新奇。

于是每个周末,他们派人来车接我送我。这是我第一次接触英国的 Pub 文化。刚开始对 Pub 不是很习惯,里面闹哄哄的,硕大的屏幕上总是播放着足球赛事,有人打台球,有人玩游戏,更多的人在那里喝着啤酒高谈阔论。英国人对 Pub 的热衷,超出我的想像,有人每天傍晚来这里泡到后半夜,海量的啤酒入肚,满面通红,谈些不知所云的话题。以酒会友,人生几何。

我们这个俱乐部通常是找一个相对安静的小角落里围坐在一起。具体谈些什么记不得了,可那种温馨的气氛给我短暂而孤寂的留英生活,留下了回味。

在英国尝到了寻找世界语“同志”的甜头,到了温哥华第二天,就打开黄页,果然联系上了一位老世界语者J,德国人,极为彬彬有礼,和蔼热情。温哥华的五年,他成为我来往最密切的忘年之交。有次我在系里讲演“世界语的机器处理”,他象个记者一样扛来他的老式摄像机, 跑前跑后,给我录像,使我们系里的教授同学亲眼见到世界语者的热情。

立委与世界语者朋友在温哥华合影(J先生居中)

温哥华世界语俱乐部当时还有一批电话公司的白人小伙子,长的都很精神,听说来了一个如假包换的中国世界语者, 都很兴奋。相约聚餐后,他们诚邀我周末跟他们一起滑雪去。我当时刚来,功课很紧,可是盛情难却,还是豁出去一天跟他们去了。这是我第一次滑雪,尽管老摔跤,感觉新鲜美好。我以前从来没有置身过这样的环境,松树白雪,笑语喧哗,各类雪衣,色彩缤纷,真是天上人间。

滑雪过后,我们来到其中一位的女朋友家吃晚饭。女主人年轻漂亮,热情爽朗,给我们煮了一锅大杂烩。她的房子在山腰上,后院对着风景无限的大峡谷。尽管天气寒冷,大家还是愿意在室外,一边喝啤酒,一边欣赏景色。在英国灰蒙蒙雨蒙蒙地度过一年,置身温哥华这样有气势的自然景观,如入仙境。餐后大家围坐一起看美国卡通《Simpsons》的录象,女主人挨着我坐,很体谅地说:你刚来,可能不懂里面的文化和幽默,我来给你做点讲解。于是她热情可掬地在我耳边嘟嘟囔囔,我根本没听明白,只是胡乱点头。她看我点头,孺子可教,更加热情有加。这是一次愉快又有点透不过气来的经历。身边一个金发美女,殷勤热情,差不多靠在我身上了,耳边是她的带有热气的喃喃细语。

以后的每个周末,我们俱乐部会面聚餐一次,总是J老先生牵头,五年下来,从不间断。这是一段非常愉快的时光。值得一提的是,在温哥华俱乐部里,我曾经巧遇多年没有联系的老友郑伯承。伯承兄是北京世界语协会秘书长,当年曾是我世界语班上的同学。他来温哥华开国际艾滋病大会并宣读论文,事先跟J老先生有联络。J老先生通知我说,下次聚会我们欢迎来自北京的朋友,我还在琢磨是谁呢,心里想,如果是北京的老世界语者,八成我早就认识了,没想到来的是伯承兄。老朋友相见分外亲切,我们欢聚一堂,相叙甚欢。

1987年春立委携夫人(当时是女友)参加世界语者聚会,与伯承兄合影

记于2004年五月28,美国水牛城

 

《朝华午拾》电子版目录

Suno:《立委:Esperanto: Al Nia Kara Lingvo(世界语之恋)》

立委两分钟:大模型时代的痛

我是数字主播小雅,今天《立委两分钟》节目的话题是大模型时代的痛。目前在上海召开的人工智能大会,也提到了这个话题。

这次不谈技术,也不科普,专门谈谈大模型时代带来的问题,主要是两点,一个是真假莫辨;另一个是被模型吃掉的工作岗位。都是沉重的话题,但都是进行时,问题只会越来越严重。

生成式AI的到来,也就意味着真假莫辨时代的到来。现如今,无论文字、音频还是视频,随着大模型的普及,深度造假(deep fake)的门槛无限低。耳听为虚,眼见也一样可能是虚。有什么信息可以相信呢?社会似乎并没有为此做好准备。

更闹心的是就业市场受到的冲击。几乎所有的白领工作,都面临大模型的挑战。AI结合机器人(所谓具身智能)的方向也在加速度发展,再过几年,蓝领的工作也面临类似的挑战。

最近几个月在美国,身边不少年轻人失业了,有好几个是伯克利data science毕业的学生。一方面AI大厂如英伟达、苹果、微软等市值不断攀升,另一方面包括大厂在内的IT裁员风潮也一波接着一波。不是 hard core engineering 的数据科学专业生,冲击很大,所以很多年轻人对大模型有怨气。这才刚刚开始。名校毕业生也一样两极分化。非常可怕的AI碾压人工的潮流,data science 是重灾区。

曾几何时,在大模型之前,全美国都有预见,说未来最大的需求是数据科学,每个企业、产品,无论大小,都对数据工作有极大的需求。于是,各大学都开始增加 ds 的 programs,校内极速扩张这个介于电脑和统计之间的学士、硕士课程,各种网上的课程和学位也满天飞。结果,大模型来了,数据分析、总结和渲染都比人做得既快又好。非常可怕的AI碾压人工的潮流,data science 是重灾区。

美国做教授的老友说,数据科学杀掉了统计,人工智能杀掉了数据科学。现在高等教育里还有一个潮流,叫micro credentials, 各种证书。大量的half baked potatoes 就会抢占工作市场,真正全方位科班出身的人反而找不到工作。这些拿了证书的技工把工作都占了,是不是对正式毕业生不公平? 学生怎样会有动力学习?各种研究生教育有什么用?

问题尖锐,但不好回答。局面只会越来越糟。人类的心理承受、社会的应对,都是慢了几拍的。但技术却滚滚向前。

大模型来了后,很多教育其实是不必要的,传统教育的知识传授已经没有多少实质意义了,因为知识是招之即来,问之即答。大模型做辅导,比多数讲师教授还强。其实,教育和学校更大的功能现在就是一个蓄水池,稳住那些无业也找不到工作的人,推迟进入职场,给人一种虚假的对未来的希望。

国内也是同样。很多本科毕业生开始读硕士,不少硕士开始读博士,不是因为不断高读在他们的人生规划中,而是无法面对毕业失业的现实,不得不用升造来逃避。但水涨船高,职场的要求越来越高,而职位却不增反减。核物理博士毕业进街道办,博士出来做辅警,汉语毕业出来扫大街,诸如此类,恶性循环。

AI 也许真应该缓行。但没人能阻挡技术的内卷外卷。人类跳不出自己的怪圈。以职业生涯(career development)作为指挥棒的社会传统意识和价值观,必须改变,但改变需要很长的时间和配套的机制,这些都看不到任何靠谱的方案和行动。

处在漩涡中心的大模型产业也卷得惨烈。上一次移动技术革命在衣食住行、娱乐通信这些刚需领域已经做到了 极致,出现了一批超级应用,美团、滴滴、微信、抖音、拼多多等。剩下的知识和艺术工作属于高端需求,写文章、作曲儿、画个画、做个视频、用个秘书,大多是锦上添花。也许有一天这些高端需求会成为刚需,但在目前很像是伪需求,因此规模化落地应用就显得格外困难。

现在被认可的真需求是什么?有企业老板说得好:你显示给我看,用了你的AI,我可以裁员多少?那才是刚需。

问题是,通用大模型可以免费或白菜价来使用,根本没有多少大模型创业的机会。而大模型的降本增效所引起的裁员已经开始。只有那些特别定制的AI,能够帮助企业进一步裁员,才有活路。

最讽刺的是,以前被尊为打工贵族的码农,也首当其冲。在横扫了 data science 工作后,cs 的毕业生中比较平庸的,也在工作被铲除的路上。美国作为IT超级大国,多少年来在培养程序员方面一直有缺口,本国毕业的cs学生填不满,只好大量留用印度、中国和其他国家的毕业生。这样的好日子,也快到头了。

我不认同一个流行观念,说以前的技术革命消灭了一些工作,也创造了新的就业,所以大可放心,这次也会如此。时代不同了,大概率不会如此。必须认清消灭的岗位比创造的岗位,会多得多。虽然美团外卖小哥、滴滴司机是上一次移动平台技术扫荡了实体店以后产生的新工作,但看看这些最低工资的工作岗位的内卷情况就知道,就连这些工作也是僧多粥少,大家都在挣扎。人工智能的 Robo Taxi 的到来,会逐步消灭滴滴司机。
生产效率的提高一定伴有大量的失业,产业机构改变,也有失业。很多这种失业人员,基本没有希望东山再起。所谓结构性失业,大批中年人,只能等退休。除非奇迹发生,年轻人的就业问题也越来越严峻。人类必须改变和面对的是,不工作是常态,UBI 必须建设。

UBI制度(Universal Basic Income,全民基本收入)必须提上日程,这是因为生产力和GPT并不因为就业人员的急剧萎缩而降低,反而得益于技术革命而在稳步或快速增长中。两极分化必须遏制,必须防止技术革命的红利为少数人独占。否则国将不国,球将不球,人类将非人类。

我是小雅,上面播报的是《立委两分钟》的有角度的沉重思考,谢谢聆听,咱们下次再见。

立委两分钟:大模型到底有没有逻辑推理能力?

我是大模型数字主播小雅,今天播报的题目是立委两分钟最新的话题《大模型到底有没有逻辑推理能力?》。

这是最近一篇论文的题目。ICML 2024:“Case-Based or Rule-Based: How Do Transformers Do the Math?” 第一作者为来自北京大学物理学院、即将加入人工智能研究院读博的胡逸。有点意思。

论文第一个结论是,llm 学不到真正的推理规则,只能通过相似案例学到有限泛化。人学到的推理规则是可以 外推的(extrapolation) , 而相似案例的有限泛化却只能做内插(intrapolation)。无法外推,所以训练集没有类似案例的区域就成了盲区。
这个实验是在 gpt2 上做的。可以理解为什么第一个实验必须在 gpt 2 上做,因为他可以控制训练数据,制造数据真空,来验证有没有逻辑推理带来的外推能力。但这种GPT2这样规模的“大”模型没有出现的能力,并不表明真正的大模型就不会“涌现”。

论文后来的实验是在比GPT2大得多的 “辣妈” 上做的,似乎得出一个相左的结论。结论是,如果模型足够大,只需要少量的任务微调,llm 就学会了接近规则推理的效果。在长整数加法上的表现,表明模型不仅会内插,在外推上也表现很好。

非常有趣的研究,实验设计也不错,但论文貌似同时发表了两个矛盾的结论。

谈谈我的看法。从序列学习的方式上看,数据驱动的模型学习是以 case based 的归纳(也叫压缩)作为起点和主干的,这个没有疑问。问题是,case based 的学习,到了一定的程度和量级的时候,是不是会非常逼近 rule-based 的学习。承认后者就是承认了大模型具有某种逻辑推理能力。大模型具有初步的逻辑推理能力这一点在大模型主流社区中本来不是问题,而是默契的共识,大模型测试的一个重要维度就是逻辑推理能力。但在更大的范围内(非主流圈子以及普罗大众),一直还是作为疑问存在的。

一个有意义的视角是看泛化中外推的理解。对于非解析的、没有对应符号规则的现象,外推本质上是不可计算的,也就是只能碰运气了。出路只有收集相关数据,把盲区带入雷达屏,化外推为内插。但是对于有解析解的高度规则化的数据分布,外推能力是泛化学习的自然期望,达不到期望就说明llm只是一个鹦鹉。达到了期望, 就说明 llm 跳过了鹦鹉的门槛,学会了某种推理规则。现在看来,头部大模型是跨越了这个门槛,继续拿鹦鹉学舌来比况大模型,彰显的是人类盲目的狂妄自大。
要摈弃削足适履的思维定式。只要模型展现出符号规则类似的推理逼近的能力,就应该承认它学会了初步的推理。更本质的,它融会贯通,对于规律现象,可以达到外推的能力。其实,小语种之间的机器翻译能力,就是外推的结果,因为训练数据中严重缺乏相关的数据。
前不久引起关注的一项关于KAN模型的研究中,KAN 的 AI for science 实验,其实已经展示了模型如何数据驱动去逼近解析解,等于是把模型学习逻辑推理的内部过程图示化了,非常生动 ,有相当的说服力。当然,KAN的实验表明对于简单的解析解,数据驱动可以逼近符号规则,但并不轻易就得出符号规则。实验中是加入了人为的剪枝等操作才得出了数据背后的符号规则。

与此对照,深度学习大佬杨立昆却坚决否认GPT有逻辑推理能力。杨立昆语录: AGI is a complete nonsense;GPT is a deadend,等等。矫枉过正反潮流,把话说死,并不是坏事。但轻信他,也可能就被带进沟里去了。

诚然,大模型序列学习的本性是在序列上再现数据的丝滑和顺畅,所以擅长语言生成类任务。序列学习不擅长逻辑推理,尤其是深度、复杂的逻辑推理过程。但完全否定大模型具有初步的逻辑推理能力却是走到了另一个极端,也不符合我们所看到的事实表现。

我是小雅,以上就是今天的立委两分钟的播报,希望对您有启发,谢谢聆听,咱们下次再见。

立委NLP频道

英烈颂

 

Ode to Madam Hu

July 1, 2024 at 1:50 PM

[verse 1]
In Suzhou's June, beneath a scorching sky,
A madman's blade flashed, evil drawing nigh.
Mother and child cried out in desperate fear,
Their screams of anguish piercing far and near.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 2]
Before the school bus, Madam Hu stood tall,
Her gentle hands became a shield for all.
No tiger-wrestler she, no dragon-slayer,
But love unbounded made her their savior.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 3]
Her blood stained red the soil of Jiangnan,
White clouds and grieving grass bore witness, wan.
Though snuffed, her candle's light forever gleams,
Like brave Feng Yuan of old, her courage beams.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 4]
Why must the kind so often suffer woe?
When will justice's path smooth waters show?
We question Heaven, tears fall like the rain,
In silence seek life's meaning through our pain.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 5]
Madam Hu's name shall echo through the years,
Half-masted flags, a nation draped in tears.
Her love, transcending life and death's divide,
One selfless act, as sun and moon abide.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 6]
Rest now in peace, return to native ground,
Let not your family grieve, all hearts are bound.
In old Wu Gate, by Suzhou's storied streams,
We offer flowers and wine to honor dreams.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[fade]
[end]

胡氏颂
苏州六月炎炎日,
街头突现凶徒起。
匕首寒光闪不已,
母女惊呼声声急。
校车门前胡氏立,
柔弱双手化盾力。
非为搏虎斩蛟志,
只因大爱无私意。
鲜血染红江南地,
白云悲悯草木悲。
烛火虽灭光不已,
如古冯媛勇气继。
善良何故遭祸际?
正义何曾得善治?
追问苍天泪如洗,
沉默中觅人生理。
胡氏芳名世代记,
旗帜半垂国人泣。
大爱无疆超生死,
一念救人照月日。
愿君安息归故里,
家人莫悲天下悯。
吴门故地姑苏际,
香花清酒祭英魂。
勇者浩气长存世,
感人义举青史立。
愿以诗文寄哀思,
颂扬英烈万古记。

 

立委NLP频道

短视频:大模型奥秘

llm secret

我是大模型数字主播,今天播报的题目是《大模型真经》。

尼克语录,日诵三回:“首先Church Turing thesis,其次Turing machine求逆就是所有学习,再次,所有学习可归约到ntp (next token prediction)。”

没看明白的, 再诵三回。

此乃大模型真经也!

再诵三回仍不明白的,且听分解如下。

简单来说就是,一切可计算的数据,都有个图灵自动机计算它。学习(或 模型训练)就是为制造这台自动机。而所有的学习都可以用数据驱动的GPT完成。

这就是大模型成为万能任务解锁器,成为通向AGI的不泄天机。

但天机还是泄漏了,也许上帝正好打了个瞌睡。

朋友反馈说,还是没看明白。好,咱们用老妪能解的说法试试。

首先,什么叫“可计算的数据”,就是“有规律的现象”:
有规律的现象数字化以后,就是可计算的数据。

哪些现象是有规律的呢?

其实,理论大咖们相信宇宙大部分现象是没有规律的随机现象,茫茫星际,有规律属于罕见。宇宙的本真也许就是混沌一片。

然而人类出现了,演化出文明和智能。人类的现象,尤其是智能工作的结果呈现,例如文字书籍、录音录像、艺术创造,这些人类创造物都是有规律的。例如,语言文字里面有文法和用法。绘画艺术里面有技法和风格。

把这些语言文字、音频视频等多模态的数据收集起来,灌进大模型的熔炉去炼,结果就是我们现在看到的几乎无所不能的主流大模型,以OpenAI的GPT系列为代表。

我是科技数字主播,咱们下次再见。

 

 

 

立委NLP频道

Nick tracing the AI history for theoretical foundation and sources (English)

6.99 10/15 bnQ:/ [email protected] 6月26日-English https://v.douyin.com/i6MbUvKH/ 复制此链接,打开Dou音搜索,直接观看视频!
Click this link: https://v.douyin.com/i6MbUvKH/

 

I am AI Xiao Fan, Nick's secretary, and today I'm reporting on Nick's latest lecture "Solomonoff: The Prophet of Large Language Models".

Nick needs no introduction. Besides his many roles as an entrepreneur, investor, scholar, and philosopher, he is best known for his bestselling book "A Brief History of Artificial Intelligence", which became a sensation, sold out quickly, won numerous awards, and became a legend in China's AI publishing world. We all boast about getting his autographed copies.

The following is a concise and accessible explanation of his lecture.

Let's get to know this mathematical genius with a Santa Claus-like white beard - Ray Solomonoff! Born in 1926 and passed away in 2009, this mathematical and physics double major who "mixed" his degree at the University of Chicago was no ordinary academic overachiever. He was a pioneer of independent research, using mathematical formulas to predict the future, even more impressive than fortune tellers!

Welcome to the 'old child' battle in the scientific world! On the left is Wiener, the 'godfather' of cybernetics. In 1948, he and Shannon simultaneously published groundbreaking papers, but with very different viewpoints! Wiener said: 'Control is the way', while others became infatuated with the little "demon" called 'information'. Shannon and McCarthy were like-minded, both not optimistic about Wiener's cybernetics. McCarthy even played a word game, turning 'Automata' into 'AI', ushering in a new era of artificial intelligence!

Now let's look at the 'prequel' of the AI world! Before the AI feast of the Dartmouth Conference, the big shot McCarthy was secretly writing the 'script'! His article "The inversion of functions defined by Turing machines" wasn't about how to use Turing machines backwards. This 'heavenly book' was actually discussing how to design a super problem-solving machine. McCarthy's imagined divine machine could solve all clearly defined intellectual problems. Isn't this the prototype of AI?

At the Dartmouth Conference, McCarthy and Solomonoff, these two 'mathematical knights', engaged in a fierce 'battle of ideas'! The topic? It was McCarthy's 'heavenly book'. The two hit it off and discovered an earth-shattering secret: the inverse problem of Turing machines is actually a learning problem! This discovery tightly bound AI and machine learning together! From then on, AI was no longer just about computation, but took a big step towards 'learning'. At this moment, the future of AI was completely rewritten!

"Let's look at the 'brainstorming' moments of two 'mad scientists'! First is the French mathematician Borel, who conducted a logical experiment, imagining a group of monkeys randomly hitting typewriters, eventually producing the complete works of Shakespeare! Isn't this the infinite monkey theorem?
On the other side, the Argentine literary giant Borges conceived a 'perfect library' in his short story, containing all possible combinations of books.
These two ideas are simply the prophets of AI and big data! Borel and Borges, one using mathematics, the other literature, were both imagining the sequential possibilities of information."

"At the Dartmouth Conference, Solomonoff, like a magician, pulled out a mysterious typescript 'Inductive Inference Machine' from his hat. This move captivated everyone! Scientists who were originally obsessed with neural networks all 'defected' and embraced symbolism. But look at this dramatic twist! Years later, it was the 'abandoned' neural networks that truly realized Solomonoff's induction! This is like a fairy tale in the tech world - Cinderella finally put on her glass slipper and became the star of the AI ball!
Solomonoff's idea was like a seed planted, eventually blossoming in unexpected places."

"Let's look at the 'roller coaster' history of the AI world! Connectionism, once an 'abandoned baby', is now the 'star' of the AI world!
Imagine this as a long relay race. At the start, there was the perceptron inspired by neurons, fearless like a newborn calf. But it soon met its 'Waterloo' with the so-called XOR problem of single-layer neural networks, and was 'banished' by the big shots.
However, in the 1980s, multi-layer neural networks and the BP algorithm emerged out of nowhere, injecting new life into connectionism. Now, deep learning is at its peak, and connectionism has made a 'dramatic comeback', becoming the 'top flow' in the AI world.

"Let's look at Solomonoff's 'magic moment' in 1960!
The first magic, minimum description, refers to compressing data in the most concise way. This idea later developed into 'Kolmogorov complexity', that is, K-complexity, becoming the core of large model theory.
The second magic, prior probability: the initial estimate of the possibility of an event occurring without specific information.
These two concepts seem simple, but contain profound insights. They provide a whole new perspective for us to understand information, complexity and learning, directly influencing the later development of artificial intelligence and machine learning"

In 1961, AI guru Minsky wrote an important article mentioning concepts such as machine theorem proving, neural networks, machine learning, reinforcement learning, etc., which was simply the secret manual of the AI world! He cited 95 references, 4 of which were Solomonoff's, showing his high regard for Solomonoff. Interestingly, it was neural networks that first realized Solomonoff Induction, which is an unexpected twist!

In 1964, Solomonoff published a groundbreaking paper titled "A Formal Theory of Inductive Inference". This paper can be considered the "secret manual" of the AI field, detailing how to describe inductive reasoning using mathematical language. Simply put, it's about learning patterns from data to predict the future! This paper is Solomonoff's "masterpiece" on inductive reasoning, establishing his status in the machine learning field.
The second part of Solomonoff's paper gives examples of applying the formal theory of inductive inference to different problems. One of these examples is grammar discovery, that is, how to learn the grammatical rules of a language from observed language data. This example, in today's view, is the problem of language learning, i.e., how machines learn language like humans do. Solomonoff also discussed a deeper question in the paper: Is language equivalent to thought? This question still doesn't have a clear answer today, but Solomonoff's research provided us with a new perspective to think about this question.

Solomonoff developed a strong interest in how scientists discover things and tried to find a universal method of scientific discovery. This interest led him to start researching inductive reasoning and eventually propose the concept of algorithmic probability.
In his academic career, Solomonoff applied inductive reasoning to fields such as language learning, achieving important results.

Soviet mathematician Andrey Kolmogorov is known as the "universal mathematician". In the field of computer science, he mainly has two major contributions:
Kolmogorov Superposition Theorem (K-A-N): This theorem is related to the famous Hilbert's 13th problem, involving function representation and approximation.
K-complexity: This is a method of measuring information complexity. It defines the complexity of an object as the length of the shortest program that can generate that object.
In addition, Kolmogorov had unique insights into cybernetics and information theory. He believed that cybernetics lacked inherent unity, but expressed agreement with information theory. This view is consistent with those of Shannon, McCarthy, and others.

Kolmogorov thought that information theory was like a hodgepodge, with three different approaches:
Counting School: Like rolling dice, looking at how many times a certain number appears.
Building Blocks School: Focusing on the number of building blocks and how to combine them.
Programming School: Viewing information as a program, with shorter programs being simpler.
K-complexity is the representative work of the "Programming School". Simply put, it measures how complex something is by how short a program is needed to describe it.
Interestingly, K-complexity and Solomonoff induction are actually talking about the same thing. Solomonoff induction believes that simpler things are more likely to occur.

Chaitin was a prodigy, publishing his first paper in IEEE Transactions on Electronic Computers at the age of 18. At 19, he independently rediscovered the ideas of Solomonoff and Kolmogorov in a paper published in JACM.
Starting from Berry's paradox, Chaitin believed that naming an integer is equivalent to writing a program that can output this integer. Most integers can only be named by directly printing themselves, with no more concise representation method. These integers are viewed as "random" under the framework of Kolmogorov complexity because their complexity is comparable to their length. Chaitin's view is consistent with Kolmogorov's idea, both emphasizing that most objects (or integers) are incompressible, i.e., their complexity is comparable to their length. This means they have no simpler representation method and cannot be concisely explained.
This inexplicability or randomness is ubiquitous in nature. For example, most DNA sequences, physical constants, and natural phenomena have no obvious patterns to follow and cannot be explained by simple formulas or theories. On the contrary, explicability (i.e., phenomena that can be described or explained in a concise way) only appears occasionally.
Leonid Levin proved two theorems in a two-page paper published in 1972:
Theorem 1: NP-completeness, i.e., the Cook-Levin theorem, which made an important contribution to the development of computational complexity theory.
Theorem 2: A generalization of Kolmogorov complexity.

Charles Bennett proposed the concept of logical depth, which considers the running time of the shortest program needed to generate an object. The parameters of large language models can be seen as the amount of information stored internally in the model. Therefore, it is reasonable to compare model parameters to K-complexity. It is also reasonable to compare the inference time of large language models to logical depth.
Ming Li is a distinguished professor at the University of Waterloo who has made outstanding contributions in the fields of information theory and bioinformatics. He extended K-complexity from a single sequence to two sequences, which can measure not only the information within a single sequence but also the information between two sequences. This is of great significance for universal large models to define universal tasks and complete various tasks through unsupervised learning. His book "An Introduction to Kolmogorov Complexity and Its Applications", co-authored with Paul Vitanyi, is considered a classic in the field and has had a profound impact on the development of information science.
Marcus Hutter is a computer scientist with a background in physics. He proposed the AIXI universal artificial intelligence framework and believes that language modeling is essentially compression. He applied Solomonoff induction to explain agents and reinforcement learning, believing that the learning process is a compression process, and is dedicated to researching universal artificial intelligence.
In his Berkeley lecture, Ilya, the former soul figure of OpenAI, revealed the connection between supervised learning and unsupervised or self-supervised learning. Ilya claimed that he independently came up with the idea in 2016 that all supervised learning can be reduced to self-supervised learning, tracing back to compression theory based on K-complexity. Ilya firmly believes that simple autoregressive GPT models can demonstrate super intelligence on super large data.
Let's review the timeline of model development: The deep neural Transformer architecture was proposed in June 2017, and the BERT model was proposed in October 2018. OpenAI's GPT series models started from June 2018, successively launching GPT, GPT2, and GPT3, now up to GPT4, becoming the industry mainstream.
To summarize, the first step of Solomonoff induction is to collect observational data. The second step is to form hypotheses to explain the data: hypotheses can be a Turing machine or a data-driven large model. The third step is experimental verification. If the data falsifies, return to step 2 to form new hypotheses.
Large models follow Solomonoff induction's approach to train models and their inferential applications.

Looking back at the entire history, perhaps it's not that theory lagged behind practice, but that it was too far ahead.

I am Xiao Fan, Nick's digital secretary. Thank you for following Nick's journey to explore the theoretical origins of large models and the historical changes in AI. We'll meet again.

 

立委NLP频道

不可错过,奇妙元小范介绍尼克的最新演讲,探寻大模型的理论基础与渊源(中文版,英文字幕)

4.35 05/03 CHI:/ [email protected] 尼克讲解大模型的理论渊源与奥秘 https://v.douyin.com/i6Mq91wS/ 复制此链接,打开Dou音搜索,直接观看视频!

 

 

我是AI小范,尼克的秘书,今天播报解说尼克最新的讲演《所罗门诺夫:大语言模型的先知》。

尼克就不用介绍了,除了他的企业家、投资人、学者和哲学家的许多角色,他最知名的著述是其畅销书《人工智能简史》,风靡一时,洛阳纸贵,拿奖拿到手软,成为中国AI出版界的传奇。我们都为得到他的亲笔签名版而炫耀。

下面是对他讲演的一个深入浅出的解说。

让我们来认识一下这位留着圣诞老人般白胡子的数学怪才——Ray Solomonoff!1926年出生,2009年离世,这位在芝加哥大学混学位的数学物理双料高手,可不是普通的学霸。他是独立研究的先驱,用数学公式预测未来,比算命先生还厉害!

欢迎来到科学界的'老顽童'大战!左边这位是维纳,控制论的'教父'。1948年,他和香农同时发表重磅论文,但观点大不同!维纳说:'控制才是王道',而其他人却迷恋上了'信息'这个小妖精。香农和麦卡锡倒是志同道合,都不看好维纳的控制论。麦卡锡更是玩了个文字游戏,把'Automata'变成了'AI',开启了人工智能新纪元!

现在我们来看看AI界的'前传'!在达特茅斯会议这场AI盛宴前,麦卡锡大佬就在偷偷摸摸写'剧本'啦!他的文章《The inversion of functions defined by Turing machines》可不是在讲怎么把图灵机倒过来用。这篇'天书'其实在讨论如何设计一台超级解题机器。麦卡锡想象中的这台神机,能解决所有明确定义的智力问题。这不就是AI的雏形吗?"

达特茅斯会议上,麦卡锡和所罗门诺夫这两位'数学侠'展开了一场激烈的'思想格斗'!话题?就是麦卡锡那篇'天书'。他们俩一拍即合,发现了个惊天秘密:图灵机求逆问题其实就是学习问题!这个发现把AI和机器学习紧紧绑在了一起!从此,AI不再是单纯的计算,而是朝着'学习'迈出了一大步。这一刻,AI的未来被彻底改写了!

"让我们来看看两位'疯狂科学家'的脑洞大开时刻!首先是法国数学家博雷尔,他做了个逻辑实验,想象一群猴子在打字机上随机敲击,最终能打出莎士比亚全集!这不就是无限猴子定理吗?
另一边,阿根廷文豪博尔赫斯在小说里构思了个'完美图书馆',里面包含了所有可能的书籍组合。
这两个想法简直就是AI和大数据的先知啊!博雷尔和博尔赫斯,一个用数学,一个用文学,都在畅想信息的序列可能性。"
"达特茅斯会议上,所罗门诺夫像个魔术师,从帽子里拿出了一份神秘打字稿《归纳推理机器》。这一手可把大家迷住了!原本痴迷神经网络的科学家们纷纷'叛变',投入了符号主义的怀抱。但是,瞧瞧这戏剧性的转折!多年后,真正实现所罗门诺夫归纳的,竟然是被'抛弃'的神经网络!这简直就像是科技界的童话故事——灰姑娘终于穿上了水晶鞋,成为了AI舞会的主角!
所罗门诺夫的想法,就像是种下的一颗种子,最终在意想不到的地方开花结果。"

"让我们来看看AI界的'过山车'历史!连接主义,这个曾经的'弃婴',现在可是AI界的'明星'啦!
想象一下,这是一场漫长的接力赛。起跑时,是受神经元启发的感知器,像个初生牛犊不怕虎。但很快就遇到了所谓单层神经的XOR的'滑铁卢',被大佬们打入冷宫'。
但是,上世纪80年代,多层神经和BP算法横空出世,给连接主义注入了新的生命力。如今,深度学习更是如日中天,连接主义'咸鱼翻身',成为了AI界的'顶流'。

"让我们来看看1960年所罗门诺夫的'魔法时刻'!
第一个魔法,最小描述,这是指用最简洁的方式压缩数据。这一思想后来发展成为了'柯尔莫戈罗夫复杂度',即,K氏复杂度,成为大模型理论的核心。
第二个魔法,先验概率:在没有特定信息的情况下,对事件发生可能性的初始估计。
这两个概念看似简单,却蕴含深刻的洞见。它们为我们理解信息、复杂性和学习提供了全新的视角,直接影响了后来人工智能和机器学习的发展方向"

1961年,人工智能大神Minsky写了一篇重要文章,提到了机器定理证明、神经网络、机器学习、强化学习等概念,简直是AI界的武林秘籍!他引用了95篇参考文献,其中4篇是所罗门诺夫的,可见他对所罗门诺夫的重视。有趣的是,最终是神经网络率先实现了所罗门诺夫Induction,这真是个令人意外的转折!

1964年,所罗门诺夫发表了一篇惊世骇俗的论文,名为《归纳推理的形式理论》。这篇论文堪称 AI 领域的“武林秘籍”,详细介绍了如何用数学语言来描述归纳推理。简单来说,就是从数据中学习规律,预测未来!这篇论文可是 所罗门诺夫归纳推理的“扛鼎之作”,奠定了他在机器学习领域的江湖地位。
Solomonoff 的这篇论文第二部分给出了归纳推理的形式理论在不同问题上的应用示例。其中一个例子就是语法发现,即如何从观测到的语言数据中学习语言的语法规则。这个例子在今天看来,就是语言学习的问题,即机器如何像人类一样学习语言。所罗门诺夫 在论文中还探讨了一个更深层次的问题:语言是否等于思维?这个问题至今仍然没有明确的答案,但所罗门诺夫的研究为我们思考这个问题提供了一个新的视角。

所罗门诺夫对科学家如何发现事物产生浓厚的兴趣,并试图找到一种通用的科学发现方法。这个兴趣促使他开始研究归纳推理,并最终提出了算法概率的概念。
在学术生涯中,所罗门诺夫将归纳推理应用于语言学习等领域,取得了重要的成果。

苏联数学家安德烈·柯尔莫哥洛夫被誉为“万能数学家”。在计算机科学领域,他主要有两大贡献:
Kolmogorov K氏叠加定理 (K-A-N): 该定理与著名的希尔伯特第13问题有关,涉及到函数的表示与逼近。
K氏复杂度: 这是一种衡量信息复杂性的方法。它将一个对象的复杂度定义为生成该对象的最短程序的长度。
此外,柯尔莫哥洛夫对控制论和信息论也有独特的见解。他认为控制论缺乏内在的统一性,但对信息论表示认同。这种观点与香农、麦卡锡等人的看法一致。

柯尔莫哥洛夫认为,信息论就像个大杂烩,有三种不同的做法:
数数派: 就像掷骰子,看某个点数出现的次数。
搭积木派: 关注积木块的数量和怎么组合。
写程序派: 把信息看成程序,越短的程序越简单。
K氏复杂性就是“写程序派”的代表作。简单来说,它就是衡量一个东西有多复杂,需要多短的程序才能把它描述出来。
有趣的是,K氏复杂性和所罗门诺夫归纳其实说的是一回事。所罗门诺夫归纳认为,简单的东西更容易出现。

蔡廷年少有为,18岁就在IEEE Transactions on Electronic Computers上发表了第一篇论文。19岁时,他在JACM上发表的论文独立地重新发现了所罗门诺夫和柯尔莫哥洛夫的思想。
蔡廷从贝里悖论出发,他认为,命名一个整数就相当于写出一个能输出这个整数的程序。大多数整数只能通过直接打印自身的方式来命名,没有更简洁的表示方法。这些整数在柯尔莫哥洛夫复杂性的框架下被视为“随机的”,因为它们的复杂性与它们的长度相当。蔡廷的观点与柯尔莫哥洛夫的思想一致,都强调了大多数对象(或整数)是不可压缩的,即它们的复杂性与它们的长度相当。这意味着它们没有更简单的表示方法,无法简洁的解释。
这种不可解释性或随机性在自然界中普遍存在。例如,大多数DNA序列、物理常数和自然现象没有明显的规律可循,无法用简单的公式或理论来解释。相反,可解释性(即可以用简洁的方式描述或解释的现象)只是偶然出现的。
列昂尼德·列文在1972年发表的一篇两页纸的论文中证明了两个定理:
定理1: 即NP-完全性,即Cook-Levin定理,为计算复杂性理论的发展做出了重要贡献。
定理2: 是柯尔莫哥洛夫复杂性的一个推广。

Charles Bennett提出了逻辑深度的概念,它考虑了生成一个对象所需的最短程序的运行时间。大语言模型的参数可以看作是模型内部存储的信息量。因此,将模型参数比作柯氏复杂度是合理的。大语言模型的推理时间比作逻辑深度也是合理的。
李明是滑铁卢大学的杰出教授,在信息论和生物信息学领域做出了卓越贡献。他将K氏复杂性从单个序列扩展到两个序列,不仅可以测量单个序列内的信息,还可以测量两个序列之间的信息,这对通用大模型定义万能任务及其非监督学习完成各种任务意义重大。他与Paul Vitanyi合著的《An Introduction to Kolmogorov Complexity and Its Applications》被认为是该领域的经典著作,对信息科学的发展产生了深远影响。
Marcus Hutter是一位物理学家出身的计算机科学家,他提出了AIXI通用人工智能框架,并认为语言建模本质上就是压缩。他将所罗门诺夫归纳用于解释智能体和强化学习,认为学习过程就是压缩过程,并致力于研究通用人工智能。
Open AI 前灵魂人物伊利亚在伯克利演讲中,揭示监督学习与非监督或曰自监督学习的联系。伊利亚声称他在2016年独立想到了所有监督学习可以被归约为自监督学习的观点,并追溯到K氏复杂度为基础的压缩理论。伊利亚笃信简单的自回归GPT模型可以在超大数据展现超级智能。
回顾一下模型发展的时间线:深度神经Transformer架构于2017年6月提出,BERT模型于2018年10月提出。OpenAI的GPT系列模型从2018年6月开始,陆续推出了GPT、GPT2和GPT3,现在到了GPT4,成为业界主流。
总结一下,所罗门诺夫归纳第一步是收集观察数据。第二步形成假设解释数据: 假设可以是一个图灵机或一个数据驱动的大模型。第三步进行实验验证。如果数据证伪,则返回步骤2形成新的假设。
大模型遵循的是所罗门诺夫归纳的路线训练模型及其推理应用。

回顾整个历史,也许不是理论落后于实践,而是太超前了。

我是小范,尼克的数字秘书,谢谢您一路跟随尼克探寻大模型理论渊源以及AI历史风云的过程。咱们后会有期。

 

立委NLP频道

觉得可以留个记录

2023-2024年关于大模型以及AIGC的演讲和采访汇总

2023-03-05:源码资本AIGC“尖峰系列”丨李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战

2023/05/09: 腾讯科技,对话产业专家:“百模大战”愈演愈烈,地球上算力不够支撑10亿人使用

2023/07/16: 轩辕之学讲座,特邀讲座《大模型的历史、现状和挑战

2023/06/28: 中国证券报报道 360 GPT 联盟特邀演讲:李维:避免大模型行业同质化竞争 深耕领域阶段有很多“细活”可做

2023/07/21: ArchSummit 全球架构师峰会主题演讲《从架构师视角谈如何迎接/拥抱大模型及其新生态》(https://blog.csdn.net/EDDYCJY/article/details/131929057

2023/07/28: Chinajoy,中国音像与数字出版协会和上海汉威信恒展览有限公司主办,特邀演讲《AIGC时代,数字人引领内容创作新范式

2023/08/06: 亚马逊云科技和真格基金主办的闭 “机遇与挑战——生成式AI的发展趋势和落地应用”,主题演讲《AI大模型落地的前景和痛点》

2023/08/23: 江苏师范大学主办 “大语言模型离人类语言有多远”学术研讨会特邀演讲《大模型的本性及其落地痛点》

2023/10/20: 第十一届科博会,特邀主题演讲《AI和大模型趋势》

2024年3月18:英伟达 GTC2024全球开发者大会 与英伟达中国团队合作,讲演《重塑数字人互动潜能》

2024/04/22: 第十四届北京国际电影节光影未来,演讲《捕捉未来的魔术师》

2024/04/22 九派财经专访出门问问副总裁李维:两年内大模型的商业化爆发一定会发生

2023/11/11: 香蕉论坛,“百“模”大战对智能座舱发展意义与实践”,2023/12/05 汽车商业评论,《​李维:大模型技术的过去、现在与未来

2023/12/05 汽车商业评论,《​李维:大模型技术的过去、现在与未来

2024/04/22:九派财经专访出门问问副总裁李维:两年内大模型的商业化爆发一定会发生

2024/05/24: 九派财经专访出门问问副总裁李维:找产品方向是更大痛点,跑通场景是第一位

《飞哥说AI》深度系列:

2023/12/09: 飞哥说AI,李维 高佳:OpenAI狂飙生态? 领域壁垒仍是大山

2023/12/09: 飞哥说AI,李志飞 高佳 李维:关于 Google Gemini 的八点启示

2024/02/19: 飞哥说AI,李志飞 李维 高佳:为什么说 Sora 是世界的模拟器?

2024/02/29: 飞哥说AI,李志飞 李维 高佳:万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本

2024/03/05: 飞哥说AI,李志飞 李维:Claude 3 追平或超越 GPT-4,能归纳15万单词

2024/04/01: 飞哥说AI,李维 王艺 高佳:Suno 将如何进化?

2024/04/12: 飞哥说AI,高佳 李维 王艺「产模结合」也许是AI公司更好的出路?

2024/06/04: 飞哥说AI,李维 高佳:KAN会引起大模型的范式转变吗?

 

立委NLP频道

《谈两种复杂度》短视频科普

我是AIGC频道数字主播小雅,今天播报的立委两分钟的题目是“两种复杂度”。
我们要区分两种"复杂度"。一种是 Kolmogorov 复杂度(K氏复杂度),它指的是描述一个对象所需的最短指令的长度。另一种是模型复杂度,它指的是机器学习模型本身的参数数量或者灵活性(模型的大小)。
当我们说数据的最简洁表示就是 K氏复杂度时,我们指的是第一种复杂度。K氏复杂度衡量的是数据的内在信息量(类似于以前所说的深层结构、语义表示),并非数据的表面形式。比如,一个看似随机的字符串,如果它实际上是由一个简单的程序生成的,那么它的 K氏复杂度就很低。换句话说,K氏复杂度反映的是数据的规律性和可压缩性。
当一个机器学习模型的参数过多,灵活性过高时,它可能会过度拟合训练数据中的噪声,导致在新数据上的泛化能力下降。这时我们说模型过于"复杂",需要通过缩小模型的规模或使用正则化等技术来限制其复杂度。
一个好的无监督学习模型应该能学习到接近数据的 K氏复杂度的表示(所谓无损压缩的理想)。也就是说,模型应该能抓住数据的内在规律,用尽量简洁的方式来表示数据,而不是简单地记住数据的表面形式。
这一点为什么重要?
换句话说,不懈追求无损压缩的理想为什么是获得智能的关键?
信息的无损压缩(注意不是指传统的表层模态形式的无损压缩,例如音乐的无损压缩只是形式的无损压缩,与这里讲的信息内容的无损压缩不同)以达到K氏复杂度为天花板。换句话说,任何数据对象的K氏复杂度等于是该对象的深层语义。在深层语义的层面,不同数据的相同的语义就可以自然对齐,从而帮助实现不同数据的相互转换。这是对作为压缩器的大模型能够完成任何端到端AI任务(即逼近任何函数)的信息论意义上的解释。
形式之间的转换作为智能任务,无论是机器翻译,还是文生图,图生图,文生音乐,文生视频,图生视频,看图说话,等等,都有一个预设。那就是输入和输出具有类似的意义,即有可以相通或对齐的K氏复杂度。
完全不相干的形式无法转换和映射,也就不会具有相同的K氏复杂度。例如心电图与交响乐,就不兼容。它们各自的K氏复杂度对于对方等同于随机噪音,没有 shared 信息可以作为映射的依据。当我们说大模型像个魔术师,可以把任何形式转换成任何其他形式。其实里面蕴含了一个前提,就是转换的形式之间有可以对齐或意义兼容的 shared 深层结构,在意义空间它们是可以相互关联的。这个预设通常不需要特别明示,因为这是不言而喻的,而且在实际的AI应用中,人类想要模型帮助达成的某个智能任务,会自然而然遵循这个预设。否则,那个胡乱转换的智能任务指令就是一个不可理解的目标。人类自己都不理解目标是什么的话,也就谈不上是个正经的“任务”,也无法给出达成目标的任何黄金标准。
当通用大模型把 input pattern 和 output pattern 都能压缩得很好的话,二者在意义空间的对应关系就剩下一层窗户纸了。大模型在多语言机器翻译上的成功是上述解说的最典型的显现。
对于一个数据集C做压缩,目标当然是C的K氏复杂度,模型F的复杂度必须恰到好处,F不能太大,也不能太小。太大,譬如 模型规模大于数据集,就 overfitting,就无法逼近K氏复杂度。太小,模型“吃不下”数据,也不能做到好的压缩。scaling law 虽然是个经验法则,但理论规定了大模型与大数据之间适配边界,具体的适配比例,决定于实际效果的实验。
我是小雅,每次两分钟,分享立委先生对于AI大模型的有角度的思考。谢谢聆听,咱们下次再见。

 

【相关】

 

《介绍监督学习的数学原理》短视频科普

9.46 [email protected] 09/17 mQK:/ 科普 # aigc https://v.douyin.com/ijouUSBq/ 复制此链接,打开Dou音搜索,直接观看视频!

https://v.douyin.com/ijouUSBq/

我是AI大模型频道小雅,今天播报立委先生的短评《介绍监督学习的数学原理》。
Open AI 前灵魂人物伊利亚曾经在伯克利给了一个 talk。这是注定载入史册的一次演讲,阐释非监督学习的GPT突破原理。这个演讲的开头部分讲的是监督学习(supervised learning)的数学原理。咱们今天先从这个比较容易的知识点开始讲起。
说的是数据大模型大就是模型强的道理。暴力美学,美就美在,大即是美。插一句,这与唐代的审美观貌似相若:肥即是美?嘿嘿...
说监督学习的数学保证,意思是,足够大的数据,足够多的参数,就会有足够高的精度。伊利亚为了怕“过拟合”(overfitting),特别强调了 数据规模必须大于模型规模这个业内常识。“过拟合”的时候,训练误差虽然小,但测试误差降不下来。如果要让训练误差反映模型的实际能力(即测试误差),这是一个必要条件。否则,模型根本就不用做真正的抽象或“压缩”,不去找规律,它就全部死记硬背了。我们知道死记硬背的模型,缺乏泛化能力。它在训练集上可以考高分,但到了盲测的时候就抓瞎了,模型的质量得不到保证。所以给出的原理公式里面必然有模型大小这个变量,事实上这是一个决定性因素。数据量的增长会导致偏差指数级下降,保障模型质量的持续上升。
伊利亚说监督学习没有问题,有理论上的保证。所谓理论就是那个统计学习的Hoeffding 不等式,说的是,随着训练样本数量增加,测试偏差超过一定阈值的概率会呈指数级下降。其主要含义是:当训练数据足够大,训练误差足够低,且训练数据远大于模型规模的时候,模型的泛化能力和精度是有保证的,这就是监督学习能够起作用的理论基础。
这个其实我们早就知道了,第一,宏观上和理论上,“万能近似定理”(UUniversal Approaximation Theorem)早已论证了深层神经网络可以逼近任意函数。这其实是 scaling law 的源泉。第二,当代 AI 历史上,12年前的深度学习革命就开始证明,只要有足够带标数据,神经网络就可以让“老母鸡变鸭”,或做任何其他变换。
但具体说来,为什么大模型一直强调“大”呢(模型大就是模型参数多),但现在似乎又在强调不能太大?那是因为数据超大的时候,模型不大,就消化不了。前大模型时代的传统机器学习就有这个问题。传统机器学习算法总体而论复杂度不够,模型过小,你给再多的数据也没用,它肚子小,吃不下,质量很容易达到一个点就基本 stuck there 了。深层的神经网络在原理上解决了这个问题,你总可以根据你的数据来决定需要多大多深的网络来适配才最佳。这是大模型之所以要大的一面。但也不能太大,要与数据规模拉开距离。换句话说,大数据必须大于大模型,这才是 scaling 的有效适配。
ChatGPT 出来的时候,模型参数与模型数据是一个量级的,其实现在看来是某种过拟合了。GPT4 超过 ChatGPT3.5 的一个很大的原因,可能就是因为调整了这个比例。
我是小雅,上面分享的是立委先生每次几分钟关于大模型的有角度的思考,希望对您有启发,咱们下次再见。

【相关】

《谈谈端到端和大模型》短视频科普

我是科技频道小雅,今天播报立委先生的短评《谈谈端到端》。

端到端(end to end)的扬名天下是伴随深度学习革命而来。那是十多年前的时候,那时候大模型还没有诞生,但深层神经网络已经革命了,表现在解决了端到端的监督学习(supervised learning)的问题。这一波监督学习的大革命横扫了图像、语音与机器翻译。但在多数NLP任务上遭遇了瓶颈。
就是说,可以把深度学习看成一个黑盒子,任何AI智能定义都可以在这个盒子的两端定义输入和输出。解决了监督学习指的是,只要有足够大的输入和输出的对齐数据,即所谓带标数据(labeled data),深层神经网络就可以搞定它。这与前深度学习时代不同,以前的传统机器学习算法是搞不定的,即便有海量的对齐数据,因为学到了某点就 stuck there,不像深层神经那样的大肚子有消化力。深度学习可以搞定,背后有著名的万能近似定理,意思是,只要数据足够大,模型参数足够多,多层神经网络的精度理论上可以持续提升。

但是在大模型(LLM,Large Language Model)出现之前,只有监督学习搞定了端到端定义的任何AI任务,而缺乏带标数据的非监督学习还是搞不定。多数NLP任务,例如信息抽取、问答等都属于此类,这就是所谓带标数据的NLP知识瓶颈。

基于transformer架构的大模型的出现,尤其是 GPT的 next token prediction 的自回归学习突破了这个知识瓶颈。从此,非监督学习也可以搞定端到端定义的AI任务了,横扫了NLP各个任务,包括机器翻译、文摘、问答、聊天、辅助写作等。近几个月,多模态数据加入了大模型以后,同样的架构和原理也基本搞定了文生图、图生图、文生音乐、看图说话、文生视频、图生视频,等等等等。

基本上,对于一个多模态大一统的大模型,只要有足够的多模态的原始数据,任何模态理论上可以转换成任何其他模态。端到端于是成为大模型在大数据上完成各种AI的一个最典型的任务定义方式。

这是怎么搞定的呢?背后的理论是 K氏复杂性定理(Komogorov complexity),又叫所罗门诺夫归纳法(Solomonoff induction),伊利亚的伯克利讲演通篇就是在说这个道理:非监督学习,与监督学习一样,可以搞定任何端到端的智能任务。如果有足够的(不需要标注的)原生数据(raw corpora)的话,GPT 可以自动去做对齐,最多是加上一层薄薄的少样本(few shots)的模型微调来触发这种对齐。

总结一下,端到端是定义AI任务的万能范式。深层神经网络在足够大的数据支持下可以搞定端到端的任务。具体说,监督学习需要足够的带标数据支持,非监督学习需要足够的原生数据支持。大模型属于非监督学习搞定AI的最新主流。这是因为原生数据可以真正规模化,非监督学习(其实是“自监督”学习)自然唱起了主角。

我是小雅,上面分享的是立委先生每次两分钟的有角度的思考,希望对您有启发,咱们下次再见。

我是科技频道小雅,今天播报立委先生的短评《谈谈端到端 第二部分》。

接着上次的话题深入谈谈端到端与大模型的关系。

声称大模型是通向通用人工智能(A-G-I)最靠谱的道路,里面有个预设。预设是 A-G-I 是可以端到端定义完备的,如果有人能指出人类智能的一些东西是无法用端到端数据来定义,譬如 灵感、爱情、自我意识等。那么我们起码可以得出结论: 大模型走出来的AGI 是不完备的,有某种异于人类智能的根本缺陷。

但其实,做这样的挑战也不容易,因为你可以 argue 智能 x(例如灵感、意识、爱情)不能用端到端数据来表示,但你必须用其他方式给x做一个形式化的清晰定义,否则就难免玩弄概念之嫌。你的智能x需要具有可证伪性,而不是张口一说,宣称一下此乃人类专属,机器模型无从染指。有谁清晰定义清楚过非端到端的x吗?

也许限于孤陋寡闻,我没看到。谈人类智能的不少吧,但具有可证伪性的智能定义,除去端到端数据的方式的,还有哪些?

这是从任务角度看 end to end : 如前所述,它实际上成为智能任务定义的通用范式。

从系统的内部构造与实现智能任务的角度看,端到端模型是与 pipeline 的显式模块化模型相对照的,这是多数人理解的端到端系统,近义词就是“黑盒子”。

pipeline系统与端到端系统不同,pipeline内部的模态之间有可以清晰定义的中间结果作为连接模块之间的接口纽带,可以透明化做内部模块的测试,而大模型 或 多层神经网络 的系统,则难以清晰定义内部的接口。例如大模型里面的前馈多层网络看上去也是一个内部的 pipeline,但层与层之间是很难定义清楚接口的,最多是个模糊的大概。例如,原则上我们知道,后层的网络比前层的网络具有更抽象的意义或结构表示。不过这通常并不影响我们达成我们的端到端定义的任务目标,只是可解释性和定点纠错的能力确实不如透明的符号逻辑的pipeline系统。

无论大模型,还是传统机器学习,还是老古董的符号逻辑系统,都可以在通用的端到端数据集定义的任务上,一比高下。数据集一分为二, 一部分做训练集或开发集,另一部分做盲测集。历史选择的结果是,可以利用超出训练集外的原生大数据的大模型是压倒性的。这里面的奥秘值得写一篇专门的文章去进一步阐释、解说,迄今科学传播在揭示大模型奥秘上做得还很不够。

老友问:这里有个问题,为什么要把自学习归类为非监督的学习?NTP不是明显的监督学习么,每次都在用NT作为答案去降低loss。只不过这种监督数据比较特殊,是人类的一种活动中自然而然的留下了,不需要额外标注。

这是个非常好的问题。其实非监督学习有两个定义,一个是用否人工标注数据作为监督和非监督的分界 。另一个是用学习的目标函数来定义:有绝对黄金标准的学习是监督学习,反之是非监督学习,后者的一个典型任务是所谓聚类(clustering)。clustering 与 classification 最大的区别是前者无监督,结果没有预定,而后者是先有 labels 然后去分类。

这个话题值得深究。从学习的机理上看,“自监督学习”(即,自学习)本质上也是一种监督学习。自学习大模型的成功,实际上在深度学习革命搞定监督学习的那一天就注定了自己的宿命或使命,深层神经网络是天选,是有通用近似定理保障的“天机”。只不过,理解这一点需要对黄金标准做一个拓展。自学习实际上是监督学习与非监督学习的某种结合。

第一,自学习是自己给自己做标准,属于所谓回归类训练,只有正例,没有负例,这一点是非监督学习的特征。自学习是回归类预测模型,这与典型的clustering是一致的:就是说,在学习之前,并不存在一个固定的黄金标准。

第二,在自学习 利用了而且最大化了监督学习的无限逼近的能力方面,也就是在遵循了万能近似定理所决定的规模化法则(scaling law)方面,在实现层面,一线研发人员发明了一个技巧,所谓“掩码”,就是遮住部分字符让系统去猜谜,类似于填字游戏或接龙游戏。这样就把没有labels的自学习,转换成了有目标的监督学习范式。

著名的下一词预测(ntp)的自回归接龙式训练,是掩码学习的最成功的范例,成就了GPT的主流霸主地位。这里面的奥秘就是所谓K氏复杂性理论,可以视为万能近似定理的一个细化版本,为解决非监督学习的通用大模型搞定端到端任务提供了理论基础。
上面的说法搞不懂也没关系,本来就不是很好理解的理论。但结果是很明显的,人类只要说话或写文章,就是在给大模型做标注。自学习突破了人工标注的知识瓶颈,把组织化的人工劳动改变为 自然产生的原生数据。这一优势怎么强调也不过分,算是“免费午餐”的极致,“顺风车”的天花板,非监督学习通向监督学习的桥梁。做到这一点的前提是模型的通用化(所谓“预训练“)以及定向任务通过微调的零样本化。关于少样本实现零样本的微调(fine tune)这个大模型的知识点,以前多次提过,也有很多人做过解说,此处不赘。

总之,哇塞,跨模态大模型的奇迹就这样诞生了。跨模态大模型的自学习的养料或饲料,已经不仅是人类说话、写文章了,人类的一切自然表现的智能活动,无论画画、配词、作曲、导演、编辑等等,它们所产生的数据都是自学习的饲料。不仅如此,现在已经发展到非人类的产出,由模型再生的数据,也可以反哺给自学习来自提升。

我是小雅,上面分享的是立委先生每次几分钟的有角度的思考,希望对您有启发,咱们下次再见。

 

 

【相关】

Suno prompt engineering tips

 

chinese traditional folk

chinese traditional folk, slow, Ethereal, angelic voice, zheng

Chinese Folk. Percussive. Beat Drop. slow. guzheng

chinese folk. Inspired Pop Ballad. Clear Voice, Moderate tempo

chinese traditional folk, slow, Ethereal, angelic voice, zheng

 

 

 

 

Chinese Folk. Dark Pop. Percussive. Beat Drop

Chinese Folk. Pop Rock. Percussive. Beat Drop. guzheng

chineses Folk. Cinematic Rock. Epic

 

 

国语 playlists:

https://suno.com/playlist/945eb006-705b-4a74-a5b4-5d8e4afc4fad

 

《李白对话录新篇:谈大模型的无损压缩》

我是数字秘书小雅,今天播报《李白对话录新篇:所谓无损压缩》

李老师说:纠结有日子了,今天算是搞明白了,关于无损压缩的问题,原来很简单:

无损压缩是一个点,一个终点,是目标函数。这与有损压缩不同,有损压缩是一条线,a spectrum。说当代大模型在做无损压缩,是从目标上说的,当然没错,的确是朝着无损压缩的目标去的。我们怀疑LLM不是无损压缩,而是有损压缩,是从结果上说的,其实也没错。因为 有损到无损,是一个无限逼近的过程。任何一个模型在训练结束的时候,都不能达到理想的状态,自然是有损的。如果你说,自回归学习的 GPT 是一种有损压缩的学习,这可能是有问题的,你需要举证,the burden of proof is on you 而不是被质疑者。

有损的问题不是出在这个算法或算法原理本身,就是出在训练上: 数据不足,训练不足,天才不足,money 不足,时间太紧,等等,都可能是原因。Open AI 那些人坚信 GPT 是无损压缩,传达的意思是,算法本身没问题,是无损压缩,就是要挤出海绵里面的每一滴水,就是要压缩到理想状态,这才能穷尽数据背后的大大小小的各种patterns和知识。但实际上的模型,总是有损的。没关系,我们继续逼近,但不需要改变路线和算法,只要沿着 scaling law 一直做下去,我们就可以无限逼近(虽然其实永远也达不到无损的“共产主义”态)。

如果对于一种类型的模型,你一开口就说这是有损压缩的模型,这不是谦虚的事儿,温良恭俭让不好使,因为你立刻会陷入困扰:

1. 你的算法一定有致命缺陷,或你的路线就错了;

2. 你不能声称了有损就完事儿,有损是需要量化的:你的算法模型到底是 5% 的有损,10% 的有损,还是 what?

如果有损是出于算法的考虑,那就要指出硬伤,需要找到某种本性上的局限,使得模型永远都做不到无损。这就好比当年皮尔斯指出单层神经网络的硬伤:你不是机器学习要仿生吗,说神经网络可以解决几乎一切的问题。可是,非线性问题就是它的命门,异或(XOR)的鬼门关你绕不过去(见【读书笔记:异或门是神经网络的命门】)。同理,只有找到硬伤证明GPT 的 ntp 的训练方法有本性上绕不过去的坎儿,有人找到硬伤了吗?

嗨,这么个简单问题,回想起来,纠结了大半年了。切.....

白硕老师说:压缩的是函数不是文本。给定目标函数长什么样,数据足够大,参数就可以圆满表示目标函数。如果文本无损,那泛化就无从谈起。

李老师说:对,压缩的对象肯定不是文本。对象是函数的话,无损压缩就是 by definition,从“万能近似定理”(注:这是深度学习的理论基础,说的是带有非线性转换的多层神经网络可以逼近任何函数)出来的。

这样一来,1. 这不等于没说吗?2. 万能近似定理说的也不仅仅是 ntp(next token prediction),而是所有的多层(+激活)的神经网络啊。

总结下来就是,无损压缩就好比说了一通大话废话,永远正确(无法证伪)因为是 by definition,而且容易与数据作为对象的传统压缩定义混淆的说法。

那为什么Open AI大佬们独宠这个术语呢?为什么不用大家熟悉的术语:抽象、泛化、patterns discovery、knowledge mining 不都行吗?

能想到的理由是,“无损压缩”是目标定义,而 “抽象”、“泛化”,包括“压缩”本身,等等都不是目标,而是过程。有了目标,才能坚定信仰。

白老师说:对于数据来说,降维、去噪、归一化、softmax,都有明显的“降低数据表示复杂度”特点。所以,维纳一系的叫压缩是不难理解的,但压缩中包含了一种武断,即“你应该是什么样的”,即使你原始数据没说或者说了但与此不符。所以,维纳一系确实在压缩数据,学到的参数也确实是在表示数据。涉及到的泛化和纠错,都是对数据的一种主动的调整,是在表明“我才是你该是的样子”。

图灵一系跟着叫“压缩”,就是另外一个意思了:生成这些数据的程序即目标函数,如果是“真”随机的,那你参数体量跟训练数据必须在本质上一边儿多。只要不是真随机的,是有规律可言的,那就有压缩空间。我是真真切切在压缩一个函数。那些参数,就如同插值多项式或者分段多项式的系数一样,是表示函数的零件。

李老师说:非常有洞见。就是说:统计机器学习压缩的是数据, 而LLM压缩的是函数。

白老师阐述了维纳一系(即统计机器学习)和图灵一系(即神经网络的LLM)对于"压缩"这一概念的不同理解和应用。咱们试图理解一下:

维纳一系的"压缩": 是对原始数据进行降维、去噪、归一化、softmax等操作, 目的是降低数据的表示复杂度, 学到的参数是在表示经过处理后的数据。这种压缩是一种"带有偏见"的压缩, 即先验地认为数据"应该是什么样子",然后主动对数据进行调整。这种压缩虽然能在一定程度上实现泛化和纠错, 但本质上是对数据的一种"武断"。就好比学校老师批改学生的作文。

图灵一系的"压缩": 目标是压缩生成这些数据的程序即目标函数本身。如果数据不是完全随机的, 而是有内在规律的, 那就存在压缩目标函数的空间。这里压缩的对象是生成数据的函数, 而不是数据本身。模型的参数如同插值多项式或分段多项式的系数, 是表示目标函数的"零件"。

但听上去,二者还有很多 overlapping 的感觉。

白老师说:overlapping的地方,正是两派吵架的地方。

李老师说:先验的标准也不是凭空来的,所以压缩数据,与压缩“压缩数据”的函数,有某种效果上的雷同和一致性。

数据驱动+先验【约等于】 没有解析解的目标函数?

白老师说:这意味着维纳和图灵在走向合流。

李老师说:无论统计还是神经,都不是还原原文意义上的无损压缩。这样 coin 过来一个术语,简直就是“蓄意”误导。

如果连我们老司机都被误导过,可想而知对于普罗大众有多大的误导。

 

我是小雅,以上就是立委先生最新博客的两分钟播报,分享关于大模型和AI的有角度的思考。咱们下次再见。

 

【相关】

读书笔记:异或门是神经网络的命门

两分钟谈一下啊:模型训练的内插与外推

520 Suno Specials: I heart u

https://suno.com/song/86e41f02-786d-4560-bcf7-42adeb830496

https://suno.com/song/25d65f8f-e08f-4959-8105-0b74aa8c1a67

https://suno.com/song/c7ed177c-7e59-4c3f-8f77-5412894b95a1

https://suno.com/song/648ce424-0ccd-416c-8486-4c2dbcaeb6fd

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/2458e60c-e7e6-469f-8d31-c43a880b6f6e

 

【相关】

两分钟谈谈:Moravec悖论

简介一下 first:

Moravec悖论是由机器人专家汉斯·莫拉维克(Hans Moravec)在20世纪80年代提出的一个观察,指出了人工智能领域中的一个有趣现象:高水平的推理需要相对较少的计算资源,而低水平的感知和运动技能则需要大量的计算资源。这意味着计算机和机器人在处理复杂逻辑和数学问题时相对容易,而在执行诸如行走、抓取和视觉识别等基本感知和运动任务时却非常困难。

Moravec悖论的主要观点

高水平推理 vs. 低水平感知和运动技能:

高水平的认知任务(如象棋、数学证明、逻辑推理)可以被算法高效地解决,因为这些任务往往有明确的规则和结构。

低水平的感知和运动技能(如步行、抓取物体、视觉识别)涉及大量的不确定性和复杂的环境变量,这些任务需要处理大量的感官输入并实时做出反应,非常困难。
人类和机器的不同发展路径:

人类在进化过程中,低水平的感知和运动技能(如走路、避开障碍物)已经通过数百万年的进化得到优化,并且我们对这些技能的认知是无意识的。相比之下,高水平的认知任务是相对新的发展,且大多是有意识的。

计算机和机器在这些高水平任务上表现出色,但在处理低水平感知和运动任务时却非常困难,因为它们缺乏人类进化中积累的那些隐性知识和适应能力。

Moravec悖论的实际例子

下棋 vs. 走路:计算机程序可以打败世界上最好的选手,但要让一个机器人在复杂的现实环境中稳定地行走仍然是一个巨大的挑战。

逻辑推理 vs. 抓取物体:逻辑推理问题可以通过算法高效解决,而让机器人精确地抓取和操纵不同形状和材质的物体仍然需要复杂的感知和控制算法。

有几点感想:

1. 既然低水平的感知和运动技能是亿万年进化的结果,成为动物和人的遗传本能,后天只是激发出来了这种能力。

那么 LeCun 以动物和人总是在语言能力之前,先“学”会了这些能力作为理由,批判LLM对于多模态的干扰和“投机取巧”,就不是很有说服力。因为模型并没有进化出来的遗传基因作为基础。模型唯一可以利用的是LLM里面的认知知识(包括感知常识的语言描述)。

2. 虚拟机器人(LLM)可以轻易做很多高级白领工作,但人形机器人却对蓝领低级工作的模仿非常笨拙,这是大家都看到的事实。

但其实我们也观察到,虽然笨拙,但任何低级的力气活(例如举重)、技巧活(例如翻筋斗),一旦学会了,机器人就比人类有无比的优越性:它不知疲倦,不怕单调,耐力超强。学会了投篮以后,你不用担心他的成绩不稳定。

3. 视觉识别以前是模型的短板,人和动物的强项。

但是现如今就不同了。例如,人脸识别,模型比人强了。看图说话和视觉理解最近的表现也有明显的碾压人类趋势。

这是因为当悖论提出的时候,那还是符号逻辑主导AI的年代,机器学习刚开始有一些进展,但善于从海量数据学习patterns的深度学习还没有发明。感知智能当时是一座难以逾越的大山。

4. 具身机器人的外推能力怎么来呢

我们知道,机器人以前的建模都是非常“内向”的,在厨房环境建立的模型,换到了办公室环境就不行,必须一切重来,重新准备场景数据,重新训练。厨房环境的数据 “外推” 到办公室环境的能力,可不可以做到?

可以的。在大模型的架构下,这早已不是幻想。可行性可以从半年多前的谷歌 RT-2 机器人的项目表现看到端倪。

道理就是大模型虽然没有遗传的基因,也没有目标场景(厨房场景)的数据, 但办公室环境的数据 finetune 出来的大模型能力,是有希望迁移(外推)到其他的环境(例如办公室环境),因为LLM 某种意义上起的作用就是生物进化得到的先验遗传。

 

两分钟谈一下啊:模型训练的内推与外推

模型训练的讨论中,常常提到 interpolation(内推)与 extrapolation(外推)两个术语,可以说说。

大家都知道,在数据驱动的主流学习过程中,内推需要的是在训练数据的边界内“泛化”能力,善于信息压缩的深度学习训练是内推的利器。但外推(extrapolation)就没见有长于此道的算法或模型。实际上,外推与数据驱动是直接矛盾的,by nature 就是无解的,因此很可能这就是个伪问题,根本就不该对外推抱有幻想。当然,从鲁棒性角度,外推现象出现的时候,应该有个合理的应对,至少要做到模型不死机,至于外推的精度,主要是看运气,而非模型的内功可以发力。

不过,外推的问题还是值得梳理一下。

外推(Extrapolation)
定义:外推是指在已知数据点之外进行预测或推断。例如,已知某个函数在几个点上的值,外推就是在这些已知点之外估计函数的值。

前面说了,数据驱动的路数,本质上对外推无解。不能强人所难,巧妇难为无米之炊。米就是数据。

但加强外推,理论上还有 “先验知识” 和 “模型结构复杂化” 两个路子可能有点帮助,而数据本身的短板,除了数据,没有它途:就是说把对于“无人区”的外推问题,转化为收集相关数据,让外推变成内推。

模型结构复杂化在历史上是帮助了训练的“外推”能力的,如果原来的简单模型有自身的结构性局限。我们都知道,AI历史上,非线性问题在简单的单层神经网络的模型里是无解的,无论给出多少训练数据(这其实是早期神经网络的命门:单层神经无法解决 XOR 的现象)。但到了多层+非线性转换,就有解了。这其实是深度学习神经革命的最基本的立足点。这其实反映了当本质上是多维的数据被挤压在低维空间的时候,简单模型是无法跨越维度去找patterns的,相当于外推遇到了墙壁。模型复杂化就是开拓了多维空间,供训练施展。

至于“先验”对于外推的作用,我们从 Alpha-Zero 利用 self- play 再生数据可以看到效果。self-play 的好处是有游戏规则等先验知识,因此它所产生的数据,可以是在先验知识条件下的未见过的“外推”数据。

尼克:其实是个动态的过程。我按照你的理解,用美国实用主义哲学的话语替你更清晰地表述:可以证伪或者科学革命的是外推,可以证实的是内插。但是都符合奥卡姆剃刀,都是压缩。

白硕:啥叫外啥叫内?彼此互为“外”的,在一个巧妙的映射下就成了“内”。基因组和字符串,当初谁知道是外还是内呢?

鲁为民:我的理解是如果用数学语言来描述, 给定一个数据集,如果一个数据 sample 在该数据集的 Convex Hull 是内插,在Convex Hull 之外是外推。所以 Nick 说的证伪也还应该是内插,但科学革命要看革命到什么程度。

所以内插问题基本是可解的问题。从这个意义上来说 NTP 都是内插 (不过 Sonomonoff 说的下一个符号预测是外推,定义和这个不一样)。

尼克:convexity的判定非常简单,复杂性很低。

白硕:内插是纯粹连续空间里的事儿。外推符号也可以。那么问题来了,对应于符号的外推,连续模型是什么?比如离散符号集上的归纳。

还有就是奇奇怪怪的分布,用凸包就太“宽大”了,什么点都进来了。差值很容易不靠谱。把原始数据先变到某个流形上,再做凸包和内插,会精准很多。代价就是要去搞定流形。

尼克:连续是离散的近似,还是离散是连续的近似?

白硕:.1、.2,这种离散不是真离散。张三李四更离散。

中医说心是君主之官,肺是宰辅之官,肝是将军之官,这个映射是离散到离散。要嵌入向量空间还要能内插外推,不知道大模型中医书读多了会不会玩这套。

尼克:对,单说convexity从复杂性角度没意义。

鲁为民:但这个基本上可以界定对人类和机器可解的问题;比如我们可以判别哪些努力是在是制造(信息)永动机。

尼克:微分vs差分。是连续到离散。连续简单,离散就复杂。

鲁为民:所以像 Embedding 这样试图将离散问题近似为连续问题,将问题简化到利用目前的手段可解。另外通过概率方法,也可将离散问题连续化 ...

立委:如果某数据的本性就是完全随机(布朗运动?) 不存在任何有效的压缩。外与内如何区分?区分又有何意义?

尼克:有修辞的意义

立委:这类数据本性是不可计算的,但在谜底泄漏之前,只要给数据 模型(or 图灵机)就一定在计算。它在计算或压缩什么呢?

又因为所给的数据一定是有限的,这有限的数据一定会被“误读” 而且一定形成某种内外之别。不完全归纳/回归??数据驱动的方法 其实不知道 也不可能知道背后的真相。

立委:离散符号的 embedding 比起 1 hot 是降维 降维克服了数据稀疏的挑战 从而为压缩创造条件。但从传统的符号逻辑 用人为的非常有限的离散 features (例如词类与子类)来表示离散符号来看, embedding 是在增加维度。但除了 embedding 还有更好的办法 与上帝对话吗 ?embedding 的维度数,本来就具有任意性、可配置。

白硕:理论上离散的NP完全问题对应的人造数据也都可以“嵌入”连续空间。连续方法对求解有好处吗?@Nick Zhang(尼克)

尼克:看怎么嵌入了,可能对求近似解有用。

白硕:用1 hot那种嵌入。能不能找到结构相似性?比如对变元做一个permutation不变的SAT问题。

尼克:这个permutation复杂性有要求吗?

 

 

 

 

 

 

 

 

 

【立委NLP频道总目录】

 

两分钟短评:大模型开始进入平台期吗?

在Anthropic 的 Claude 3 和 谷歌 Gemini 赶上 GPT4 以后,就不断有人希望 Open AI 放出它的 GPT5 的大招来,但传说中的 5 迟迟不来,于是有人怀疑,scaling law 是不是失效了,大模型是不是进入了平台期。

这个怀疑有一定的道理,因为GPT路线上的 scaling law 不过是个经验“法则”,虽然说,it never fails us,so far,但谁也不敢保证它永远有效。遇到瓶颈不是不可能的。

微信中也开始流转马库斯最近的评论:“大模型开始进入收益递减的时代”。但他的论证感觉很有问题。

文章开始有个奇怪的递减结论的依据。在一个 100 scale 的性能上,达到 80 以后,绝对递升减缓不是一个宇宙真理吗?怎么就成了马库斯眼中的递减论的批评依据呢?我们对 “更大力出更大奇迹” 的 scaling 期望,主要是要补齐那些目前能力的空白 和 短板,最终实现 “在所有职能任务上,模型都可以达到或超过人类水平” 的 AGI 理想。因此,合理评价大模型更新换代是不是走在agi的路上,应该细致分析空白与短板,而不是用那些已经达到 接近 或超过人类水平的指标上。 也许 gpt5 确实遇到平台期或过不去的瓶颈 (我们其实不知道),但这种论证方式显得多么不靠谱。

道理上,对于已经达到或超过人类技能的指标上,应该关注不要有太大的退步(regressions)。对于一个重要的智能也有上百甚至上千种需要全面测量的模型,只要智能边界在扩大,空白被填补,低性能有增长、高性能没有大退步,就是走在正确的路上。就不能说是处于平台期。

有人看不起多模态的进步,认为那是低级的智能任务,是横向的发展,是“向下看”为应用落地,而不是向上去探顶,去加强高级智能任务的能力。这个看法,缺乏对于智能的全面深刻的理解。

多媒体方向的进步,虽然水到渠成,但其实速度很快,无论Sora的发布,还是前两天Open AI 和谷歌的全双工、实时、流式、能看能听能说、甚至能逗哏捧哏、打情骂俏的超写实助理的发布,其表现和速度实际上超出我们多数人的预期,完全不像是模型进入平台期的景象。

实时交互等于是在大模型原来的短板上大幅度增强,填补了一些空白。把这些能力排除在外,只看、只认认知智力的进展进度,是非常偏见的。

从功能对于应用的影响来看,感知多模态的加强,比起认知智能的进一步提升(例如在所有的专家资格考试中赶上人类专家),更为关键,因为模态是认知智能落地的重要接口。

从大模型本身的健康来看,多模态也是绕不过去的关,认知智能只有借助感知智能(进而结合具身智能从数字世界进入物理世界),才能算是真正落地(grounding),获得数字世界 ——或跳出数字空间获得物理世界—— 的意义。

在这一点上,LeCun 在 AGI 中特别强调感知智能是有其道理的。但LeCun过分纠结于感知和认知训练的次序了:他坚持感知智能先行,要排除语言模型的认知的“投机取巧”和对感知智能的“干扰”,淡化或无视认知智能对于感知智能的知识迁移作用,这是具体路线之争,不是特别有说服力的。

LeCun 说过: GPT 不如我家的一条狗。

这话你也不能说他错,但显然是偏激之词,带有太大的情绪。

其实,不仅LLM不及猫狗,我们人类也不及,没有猫狗的嗅觉灵敏,也没有他们躲避危险的高效。我们人类甚至在算术方面不如计算器,更甭提计算机。

so what?

对不如一条狗的LLM,我们也不能因此否认它比1000个教授和博士都更博学。LLM 可以与物理学家讨论暗物质,与语言学家谈乔姆斯基层次结构,与任何专家谈任何问题。而且所谈的并不是人们想象的那么无知和胡说,虽然里面 here and there 确实有幻觉和臆测。

切身体会是,如果你作为专家保持一种探究问题的心态和对于幻觉警惕的 alert,你会发现与它交谈比与很多中等水平的同行讨论,更有意思,或受启发。ta 看的书实在太多,而且也本性上学到了融会贯通,而不仅仅是死记答案:学到了语言,也相当程度上,学到了知识。

无视LLM这种人类智能,贬之为不如一条狗,除了发泄情绪外,只有一个价值:提醒感知智能的重要性。

不管怎样,AI 因为有了马库斯和LeCun这些“持不同政见者”,而更加丰富多彩。但我们也没必要被他们蛊惑。

 

悲观主义的视角,人类的宿命。

甜甜听到我的 piano ballad,问:are u ok, Dad?

我说,if you are blue, what you do is play piano.
我也想 play,但可惜我不会。所以,I made a piano ballad

她说,I see, 但她没想到这是 AI 歌曲。

甜有很高的音乐素养,以前一直看不起AIGC,主要是她觉得她看到的AIGC内容在似像不像之间,所谓“恐怖谷”效应,感觉 weird,但这次说,这一首的确不像是AI的,与人类艺术家产出无异。

我说,there will be more and more AIGC beyond our imagination

human like or super human like ...

我说我在公园转,循环听了这首不知道多少遍,还没有烦。谁说 AIGC 出不来可循环听放的曲子?

当连听三个 sad, 很难不泪眼模糊:人生本来就有无尽的不可承受之重。

有时候也想,人类从个体角度,绝大多数人都经历过生不如死般的磨难,和没有道理的内卷和碾压。而人类并不抽象,它是由一个个注定饱经磨难的个体组成的。那么,人类灭亡、文明毁灭又有什么了不得的?不过是落下一片白茫茫大地真干净。

绝大多数人类行为,换一个角度看,不仅仅毫无意义,而且是飞蛾扑火。

歌唱的是爱情毁灭的残酷,但传达的绝望情绪,却是所有的悲观主义哲学。

昨天,听李飞飞 Ted 演讲,她确实是个演讲高手。谈她刚下场要做的初创,做所谓“空间智能”,就是视觉 3D,也许加“具身智能”,当前的热门。

她一开篇从宇宙历史开始,说,“有了光,但没有眼睛,没有视网膜。”

听上去像是在说新约上帝造人的故事。

我在想,如果文明终结,不过就是回到“有光但没有眼睛”的世界。物质、色彩、感情、烦恼、痛苦与狂热,压缩、理性、概念与意识,这一切的一切,全部消失于无形。从哪里来,回哪里去。

一万个不情愿,我们每个人都(被)接受了个体的这个宿命,长远来看,为什么不能接受群体的宿命呢。

这个意义上,超级对齐不仅是杞人忧天,而且是要做上帝,或替上帝操心。太把自己当回事儿了。伊利亚、马斯克,无不如此,自以为超人。马斯克准备投巨资要移民火星 说是为文明买一张保险。但巨额保费谁出?打着人类的名义,本质上还是人类买单,哪怕这是从他个人的超级利润拿出来的。这其实没有道理。尤其是在还有疾病、饥饿和无数本来可以避免的痛苦的世界。

 

 

 

【唐诗300首 AIGC 配乐: 李商隐 无题】

锦瑟
锦瑟无端五十弦,一弦一柱思华年。
庄生晓梦迷蝴蝶,望帝春心托杜鹃。
沧海月明珠有泪,蓝田日暖玉生烟。
此情可待成追忆,只是当时已惘然。

 

相见时难别亦难, 东风无力百花残。
春蚕到死丝方尽, 蜡炬成灰泪始干。
晓镜但愁云鬓改, 夜吟应觉月光寒。
蓬山此去无多路, 青鸟殷勤为探看。

 

夜雨寄北
君问归期未有期 巴山夜雨涨秋池
何当共剪西窗烛 却话巴山夜雨时。

【唐诗300首 AIGC 配乐: 杜甫 春望】

欣逢大模型AIGC盛世,久违的心愿有了实现的可能:一直有个梦想,想给中国古典诗词配乐,寓教于乐,以利传唱。从「唐诗300首」的工程开始,不求速达,但求坚持。

Suno 是目前音乐大模型中比较成熟的,就尝试先利用这个工具。通常每一首诗,都会尝试从AIGC候选中,5选1或2作为本工程的起点。等到工程的第一期完成后,可以再做迭代,精益求精。当然,审美趣味是很主观的,受到个人偏好的影响,但欢迎反馈意见,以便更加合乎大众口味,特别是要让少年儿童喜欢,因为他们是主要的传唱对象。

以前的杂记,关于AGI、马斯克、奥特曼和OpenAI

三月的时候有个新闻,伊隆马斯克起诉Open AI,引来了OpenAI奥特曼和Ilya等人的公开信,披露了Open AI草创时期的的很多细节,引起热议(例如《权力与背叛:马斯克与奥特曼如何从兄弟情走向商业对决》)。对此也颇有感慨,点评一下。
这个瓜太大,太具有戏剧性了。有很多看点 ...... 整个过程太戏剧化,更重要的是事关人类命运:
“开源了,更危险”,这是 Ilya 7年前就写的邮件给马斯克说的,马斯克表示同意。
开源更危险论是这样说的:开源以后,只要有钱就可以造出来超级模型。这种情况下,坏人更容易这么做。谁有钱谁就能做,谁愿意不管不顾谁就占先。光脚的不怕穿鞋的。所以,“核武器” 发展到一定的时候,就应该转为闭源。因为相信自己 比相信未知的对象要靠谱。
记得奥特曼当时是 YC 的 CEO,他大概把 Open AI 包装成 YC 孵化出来的 AI 企业,老马作为联合创始人和当时最大的投资人,在这一点不太满意。所以老马说,博客(说的Open AI计划)听上去不错,如果做些调整让新公司更加中立,而不是以YC为中心。
  1. 现在我们知道,是 Open AI 打开了 AGI 的大门,开启了人类文明的新时代,但走通这条路到 GPT3 或 ChatGPT 的核爆炸时刻,实在是太幸运的极小概率事件了。
  2. 老马与奥特曼这两位 AI 圈外但又接近 AI 的先知,与 Ilya 这样的圈内顶级科学家,在 AGI 的信念上,很早就非常默契:他们在计划这件事的时候,没有任何自我怀疑,好像就在谈一个事关人类命运的必然发生的事情一样。他们后来的分歧只是在实现的方式以及资源的局限上,并不在 AGI 本身。要知道那个时代,全球科学家和知识分子全体,几乎100%是不相信什么通用AI这种“鬼话”的,但地球上就有这么几个人,坚信AGI,并且能气味相投,凑在一起为之谋划,并开始担忧人类文明的命运。
  3. 他们默契,并决定成立 Open AI,是出于对于 AGI 可能被垄断的担心。具体说,是担心谷歌称霸世界:当时的谷歌已经搞出了 Alpha-go/-zero,让他们感觉此事无法缓行,必须立刻动手,以开源对抗谷歌。老马一半出于公心(为人类文明的前途忧虑),一半出于私心(希望自己成为谷歌AI的挑战者领袖,而不是放任奥特曼这些年轻人来领导)。
  4. 他对这个AGI事业和他可能扮演的角色非常投入,愿意做背后的金主,一开始就让奥特曼把第一笔融资提高一个量级,明确说,任何融资亏空他都可以补齐,隐含前提当然是他是 CEO 和 leader,最好是控股老板。按照 business 逻辑,这是完全合理的,毕竟在那样的早期,这样烧钱的AI“曼哈顿计划”,也只有老马这样识货的人才愿意成为金主。现代社会的铁律是,谁有钱,谁当家。可是奥特曼不甘心,他与Ilya几个是实际工作中的 Open AI 创始人和 AGI践行者,不甘心只做 COO 而把 CEO/Chairman 让给这个几乎是唯一靠谱的大金主。
  5. 于是上演了这一出最后分手的戏剧:老马在得不到他想得到的 CEO 或让 Open AI 依附于 Tesla 之后,决定退出。没有惊人的定力,奥特曼是不可能敢于把金主放跑的。而老马在决定离开的时候,宣判了 Open AI 的死刑:你们成功的希望为0,他说。不是老马对 AGI 的成功有丝毫怀疑,而是他觉得离开了他,Open AI 无法海量融资,只有死路一条。他当时列举了苹果和Facebook,判断这两家不可能有远见给 Open AI 输血,他却漏掉了微软,可能是根本没想到微软有此可能,他小看了微软CEO的眼光。
  6. 奥特曼怎么吸引和说服了微软,那是另一个故事了。但当时的情况是,除了老马,有钱人几乎没人能看懂 AGI 和前途,业内人士也看不懂,Open AI 就是一帮“疯子”在异想天开。融资几乎不可能,那么奥特曼怎么敢与老马分手,而不委曲求全让位给老马呢?
  7. 谁知道先知和天才不仅仅就是这几个疯子,微软CEO萨蒂亚·纳德拉(Satya Nadella)也是,虽然他离 AI 更远。萨蒂亚与奥特曼的“勾搭”是人类历史上最具浪漫色彩的一章,需要冲破种种桎梏。
  8. 现在我们似乎理解了,微软今天能超越苹果成为世界企业首富,就是英雄创造的历史:萨蒂亚是不可思议的领袖。他的悟性和远见让 Open AI 与微软结合,这是一桩非常奇特的姻缘:一方投入巨资,另一方短期看不到希望,巨资投入也带不来任何董事会决定权,萨蒂亚依然前行。世界上找不到微软这样的对象,它几乎是彼时彼刻唯一可以牵手 Open AI,摆脱它必死宿命的救星。呼唤的与被呼唤的,在千载难逢的那个时间点,没有错过。
  9. 后来的故事,所有人都知道了:这个“姻缘”彻底改变了AI,更重要的是,也改变了人类文明的走向。
  10. 其他都是花絮了:老马以维护人类的名义起诉 Open AI 违背初衷;Open AI 披露早期信件来往证明老马本人就梦想控股,并不真正在乎开源还是闭源,而他们则依然不忘初心。
顺便一提,Ilya 此前不知所踪,现在看来是被冷藏了,但他现在出来给奥特曼这个公开信背书,而且作为公开信的主要作者,似乎说明,他并没有(被)选择分道扬镳。我们的猜想是,他还在内部继续领导 AGI 的安全研究,所谓人类价值观的超级对齐,希望用技术手段保障AGI不失控。但(被要求?)保持了低调。
微软的地位其实很尴尬。一方面,现在知道他们对于 Open AI 的巨额投资,已经从股价的飞升中得到了足够的回报,所以从投资角度,萨蒂亚是微软的英雄。但另一方面,这个“婚姻”始终无法稳定,也难以建立恒久的互信。微软不得不给自己做 Plan B,而 Open AI 也有自己的 Plan B:都需要在两人分手的时候有所准备。Open AI 这种独一无二的公益实体控股企业实体的架构,改变了人类历史进程,但却天然有矛盾和不稳定。上次奥特曼被踢出而复返的危机会不会重演?奥特曼本人会不会成为 AGI 沙皇,违背初心,一意孤行?
这些都还在演进中,进行时 ......

Suno:《立委:女神》

【女神新版】

manderin Chinese, Modern Classic, Guzheng & erhu & Chinese flute & Cello, Slow, Sad, Mellow

April 22, 2024 at 3:48 AM

[Intro With Guzheng]
[Verse 1 Climb]
我心中有无数的诗歌,
虽不华美情感却真,
乏味的数理化将它掩遮,
可惜,却无遐一一去写.
[Bridge]
古代那些绝代的美人,
如中国西施希腊海伦,
她们的才能没人提起,
只是虚名儿后人喜欢
[Chorus 1 Climb] 
谢道韫倒是出名的才女,  
林黛玉更是盖世绝伦.  
可她们何能与你相比呀,  
你才是熔化一切的女神!  

[Break] 

[Chorus 2 Climb] 
单恋的苦痛, 多少人熬过!  
是人, 谁不把女神爱慕?
 
谁不把女神爱慕? 
谁不把女神爱慕? 
谁不把女神爱慕?  

[Hook] 

[Chorus Climb] 
轮廓略显 
挟着寒气,  
夜神抚我脸  

[Hook Climb] 
万籁俱寂,  我却听出了音响:  
嗡嗡嗡,象蜜蜂,  
___是我生双翼的耽想.  


[Outro] 
耽想中的她 亲近又遥远 
细语蜜蜜 笑窝浅浅 

[fade] 
[End]

manderin Chinese, Modern Classic, Guzheng & erhu & Chinese flute & Cello, Slow, Sad, Mellow

April 3, 2024

[Intro With Guzheng] 

[Verse 1 Climb] 
我心中有无数的诗歌,  
虽不华美情感却真/切,  
乏味的数理化将它掩遮,  
可惜,却无遐一一去写.  
(却无遐一一去写) 

[Cello & Piano] 

[Bridge] 
古代那些绝代的美人,  
如中国西施希腊海伦,  
她们的才能没人提及,  
只是虚名儿后人欣钦.  

[Chorus 1 Climb] 
谢道韫倒是著名的才女,  
林黛玉更是盖世绝伦.  
可她们何能与你相比呀,  
你才是熔化一切的女神!  

[Break] 

[Verse 2 Climb] 
古代那些绝代的美人,  
如中国西施希腊海伦,  
她们的才能没人提及,  
只是虚名儿后人欣钦.  

[Pre-Chorus Climb] 
女神一蹙,倾城倾国;  
女神一悦,飞魂散魄.  

[Chorus 2 Climb] 
单恋的苦痛,多少人熬过!  
是人,谁不把女神爱慕?  

(羡慕了)
谁不把女神爱慕?  
[Hook] 
[Break] 

[Verse 3 Climb] 
(夜,己经两点,  远近几只梦的眼.  
有绿色的,有黄色的,  )

一闪.一闪.  

[Chorus Climb] 
乌青的穹隆,  轮廓略显.  
挟着寒气,  夜神抚我脸.  

[Hook Climb] 
万籁俱寂, 我却听出了音响: 
嗡嗡嗡,象蜜蜂, 
___是我生双翼的耽想.  

[Fade Out] 
[Outro] 
耽想中的她, 亲近又遥远. 
细语蜜蜜, 笑窝浅浅. 

[Chorus Climb] 
乌青的穹隆,  轮廓略显.  
挟着寒气,  夜神抚我脸.  

[Hook Climb] 
万籁俱寂, 我却听出了音响: 
嗡嗡嗡,象蜜蜂, 
___是我生双翼的耽想. 

[Fade Out] 
[Outro] 
耽想中的她, 亲近又遥远. 
细语蜜蜜, 笑窝浅浅. 
[End] 


from 《朝华十一:   青春恋曲

MV《女神》首版(小雅 Maria 出演)

与湾区著名男高音猫哥的对话:

立委:来一首古风纯粹的制作。年少时的80年代涂鸦之作。恍如隔世,情愫依稀。(from 《朝华十一: 青春恋曲(同桌的她)》) 。

猫哥:@wei li 很棒![ThumbsUp] 可以作为电视剧 主题歌了[Grin]。不过 我还是希望小雅的脸上有颗痣什么的会更迷人,制作起来可能会有挑战?!

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十一:   青春恋曲

Suno:《立委:Esperanto: Al Nia Kara Lingvo(世界语之恋)》

《立委:世界语之恋

Medieval, Male Singer, Ars Antiqua, Storytelling, Bard, Lute, Italian style, Esperanto Song,

April 4, 2024

[Verse 1] 
La lingvo gracia, kara mia, 
Ghis kiam vi venis al mi fine fin'? 
Atendis soife mi, eterne via, 
MI AMAS VIN ! 

[Chorus] 
MI AMAS VIN ! 
MI AMAS VIN ! 

[Verse 2] 
Mi amas vin vere, pruvu Dio, 
Kaj mia bon-koro batas nur por vi; 
Ne plu sekreteto estas tio: 
VIN AMAS MI ! 

[Chorus] 
VIN AMAS MI ! 
VIN AMAS MI ! 
VIN AMAS MI ! 

[Bridge] 
Chu kredas vi mian amon maran? 
Chu kredas, ke mia koro flamas? 
Chu kredas la vorton pure karan: 
VIN MI AMAS vin! 

[Chorus] 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin! 


[Verse 1] 
优美的语言,我的亲爱的, 
到什么时候你最后来到了我这儿? 
我渴望地等待,你的永远的, 
我爱你! 

[Chorus] 
mi amas MI AMAS VIN! 
mi amas MI AMAS VIN! 


[Bridge] 
你相信我的大海一样的爱吗? 
相信,我的心燃烧吗? 
相信纯粹地亲爱的词吗: 
我爱你 vin! 

[Outro] 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin!

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十七: 我的世界语国

Suno:《宋輝:人生笑话》-- 献给插队一代人

《宋輝:人生笑话

[Verse 1]
记得我在課桌旁,
與理想青梅竹馬;
突然被告知,
你的理想不應該在這裡,
而應該在田間、地頭、鄉下;
於是,我放下書包,打起背包,
向著一個迷茫的目標出發。
驀然回首,
碎落了一地芳華。
驀然回首,
碎落了一地芳華。

[Chorus]
驀然回首,碎落了一地芳華
豁然醒悟,人生原來就是个笑話

[Verse 2]
四十年前,
我有了自己的一個家,
有了一個嗷嗷待哺的娃娃。
我多想攜妻帶子,
去海邊踏浪,
去山中賞花;
可現實是,
因为職稱
一切都要文憑說話。
我沒有選擇,
轉身去了電大夜大。
那一段生活,從來沒有
琴棋歌畫詩酒花,
攒精竭慮的,都是
柴米油鹽醬醋茶。


[Chorus]
驀然回首,碎落了一地芳華
豁然醒悟,人生原來就是个笑話

[Outro]
再過三十年,
我們當中,還有人在嗎?
請準備紙錢一堆,
爐香一把,
將我們的名字,
在青煙中融化。


smooth ballad

其中,“再过30年” 【已是风烛】 “我们当中 还有人在吗”?

貌似 suno 顺着 next token prediction 加了 【已是风烛】代替了原词中的 “2050”,这是很有意思的【合理】“幻觉”现象?我灌输给 suno 的可是原词啊。歌词产生的背景资料如下:

坐下,歇著吧!。

中共開國上將宋任窮的兒子宋輝,在中國藝術家群裡發了一首詩,讀起來感慨萬千。那句“驀然回首,碎落了一地芳華”和那句“老年了,才豁然醒悟,人生原來是笑話”不知擊中多少同齡人。
宋輝是老屆知青,1968年下鄉到吉林燒鍋店, 現在旅居美國弗吉尼亞州。

人生原來是笑話!

作者:宋輝

五十年前,我在課桌旁,
與理想青梅竹馬;
突然被告知,
你的理想不應該在這裡,
而應該在田間、地頭、鄉下;
於是,我放下書包,打起背包,
向著一個迷茫的目標出發。
驀然回首,
碎落了一地芳華。

四十年前,
我有了自己的一個家,
有了一個嗷嗷待哺的娃娃。
我多想攜妻帶子,
去海邊踏浪,
去山中賞花;
可現實是,
聘位職稱
一切都要文憑說話。
我沒有選擇,
轉身去了電大夜大。
那一段生活,從來沒有
琴棋歌畫詩酒花,
殫精竭慮的,都是
柴米油鹽醬醋茶。

三十年前,多美好的壯年,
藍天麗日,青松如塔。
可上老下小,葷七素八,
千頭萬緒,生活重壓。
女兒的成績,
費心勞神,
醫院病床上等待手術的妻子,擔憂的淚痕留在臉頰。
已有兩個星期沒去看望爹媽,
焦頭爛額的兒子,
時時把你們牽掛。
迤邐一路,風吹雨打,
嘗盡生活,酸甜苦辣。
唯一一個信念,
生活不會苦海無涯。

二十年前,女兒上了大學,
我卻永遠失去了老媽。
老人家彌留之際,
突然迴光返照,
“快坐下,歇歇吧!”
這是她一生對我說的最後一句話。
重度昏迷兩個小時後,
我母子親情的大廈崩塌。
世上那個最愛我的人走了,從此後,
再沒人喊我回家吃飯,
再沒人囑我寒衣多加。
我長跪不起,
哭得肝腸寸斷,
淚乾聲啞。

十年前,我和妻都已退休,
應女兒之邀,
飛到了弗吉尼亞。
遇到的很多事,
令人感慨,
看到的好些事,
讓我驚詫。
抱起外孫女,
粉糰的小臉,
笑靨如花;
我卻暗自嗟呀,
喊了一輩子打倒美國佬,
這個小美國佬,
就誕生在我家。
小時候,相信人生是童話,
長大後,希望人生是神話,
老年了,才豁然醒悟,
人生原來是笑話!

再看這張小臉,
黃皮膚,黑眼睛,黑頭髮;
還是龍的傳人,
血脈中華。

今年,我們都已年過古稀,
可還在把激情揮灑。
過去努力,是落葉隨風;
現在努力,是老樹新芽。
凡是過往,皆為序章,
人生大幕,剛剛開拉。
我不敢老去,
因為外孫還沒長大。
我最大的心願,是能看到,
外孫學業有成,
外孫女披上婚紗。

再過十年,2030
我們已經耄耋之年,
但願滿頭黑髮,滿口牙,
腿腳健,身挺拔。
我們相邀,一個都不能少,
我們出遊,路能走,山能爬。
閒看風雲變幻,
淡泊富貴榮華;
世上瑰寶千千萬,
只有健康無價。

再過二十年,2040
九十歲的聚會,我還在嗎?
我思念的同學們,身體怎樣?
是否耳不聾,眼不花?
公園裡,能跳一曲華爾茲?
歌廳裡,高歌一首茉莉花?
回憶同窗,無限傷感;
突聞噩耗,分外驚訝。
抽刀怎能斷水,
天命安可叱吒!
不管錢多厚,官多大,
閻王照樣往裡拉。
懷一份千里共嬋娟的心願,
隨緣聽命吧!

再過三十年,2050
我們當中,還有人在嗎?
請準備紙錢一堆,
爐香一把,
將我們的名字,
在青煙中融化。

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十: 插队山村

就《Suno: 望震》与音乐大家的对话

 

Nakasi, 1980s, Manderin Chinese, Hokkien Song, 国语歌, sad, Enka

April 4, 2024

 

[Introl, Piano build]

[Verse 1, Mandarin Chinese]

怎么, 大地颤微,
敢不是地震来临, 乘着人们熟睡?
我丢下诗笔跳出窗外,
蓦然记起她还在。

[Chorus]

[......?]
敢不是地震来临, 乘着人们熟睡?
敢不是地震来临, 乘着人们熟睡?

[Verse 2]

象黑色的闪电, 我猛冲进去.
她安然脱险, 我却遭了致命一击。

象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去

[Bridge]

她安然脱险, 我却遭了致命一击。

象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去
去...

魂灵似乎正听到, 她在为我哭泣
泣...

[sigh, break, instrumental build]

[Chorus]

要抵得多少 我这样的凡人, Amem,
一个完美的女神。

[Outro, Piano build]

要抵得多少 我这样的凡人
Amem!

[End]

from 《朝华十一:   青春恋曲

关于《望震》与湾区著名男高音猫哥的对话:

立委:@夏阳?声乐 必须请教你了,这一首不算口水歌了吧,我听、唱了多遍:Suno: 望震; from 《朝华十一: 青春恋曲》 。

不懂音乐,却想出一个集子,满足一下内心的音乐感受。

猫哥:@wei li 这有点像人类唱的啊

立委:电脑合成的啊,100%

第二次提到“敢不是地震来临” 前,Suno 有“幻觉”了,增添了五六个字,不知道什么词。很久没琢磨出来到底是啥,但听起来却那么丝滑,与 genAI 精神符合。似乎有点像是:“咱们不是支持为爱呀?” 如果是,那才神了,本来就是热恋歌曲。

在轻唱“她在为我哭泣”的时候,打死我也不信这是电子合成的声乐演绎。

但真假莫辨的时代的确已经降临,不仅是数字人形象,不仅是超写实语音,也包括声乐演唱。

猫哥:原始的音色哪来的?

立委:歌曲大模型的原理与其他生成式AI(genAI)模型相同:它“消化”(压缩、抽象)了它能够得着的所有的碟片(音乐训练数据),模型训练出来以后,在生成声乐演绎的时候,这些被咀嚼、嚼碎、消化了的人声,会被重新组装出来,根据不同的曲风。

猫哥:比如 男声 女声 高音 低音 是怎么确定的?

立委:内部不是显式确定的,是一个黑盒子内部,随机生成的。但外部常常是有用户的显式指令作为输入条件的。所以内部这种随机性是一种条件概率,就像风筝飘在空中,貌似是随机飘移,但还有一个牵线的人。条件概率中的条件就是人给的那些音乐描述。两次生成不可能出现同样的作品,虽然风格往往类似,因为都是同样的描述条件(Suno现在每次都生成两个平行的小样 demos,供用户挑选)。

其实 生文、生图,都是同样的原理,现在也都做到了真假莫辨。

猫哥:你可以指定它唱男声或者女声吗?

立委:可以指定。你写 male singer,它大概率生成男声(但不排除目前偶然不听指令。)。这首歌,我给的prompt指令(俗称“咒语”)是:Nakasi, 1980s, Manderin Chinese, Hokkien Song, 国语歌, sad, Enka。

猫哥:这个歌做的不错,已经有气息和情感了 。

立委:我自己挺触动的。因为是自己的真情实感写的词,虽然是40年前的作品。对它的演绎非常满意,而且有感动。

但国语,它其实还是带了口音,估计是数据中有香港、台语口音的国语歌者并不少。

猫哥:[ThumbsUp] 港澳歌曲听多了[Grin]

立委:对,模型受到数据的影响,所以出来的国语往往不是很标准。特别是第一句开口唱,一听就不是国语,虽然不影响欣赏。

猫哥:不错? 很好的尝试。等我这阵子忙过了也去体会一下

立委:大模型的好处是,虽然它比不了你们一流的歌者,但是它在走调方面比人类歌手要强,基本不会犯下低级的走调错误 -- 可是人类歌唱家,甚至明星(例如大名鼎鼎的王菲),也往往免不了“走调”,所以出唱片、送广播的时候需要做后期修正。这就好比你让大模型 ChatGPT 写一段文字,它不会犯语法错,但是我们人说话有口误、犯错却是常有的事儿。

猫哥:是一种不错的快餐音乐文化[Joyful] 也会给作曲家提供很多不一样的思路。

立委:你可以让它生成很多 demos,然后决定取舍。也可以受到启发。也可以在它生成的基础上,再做后编辑、精加工,使璞成玉。

一般而言,拥抱了AI的音乐人,肯定有机会碾压不懂或抗拒AI的音乐人,极少例外。

将来所有的行业都是如此,拥抱派碾压守旧派。因为你的生产效率大幅度提升,你就有机会把才智用在一些需要精雕细琢的地方,靠着素养和灵感,而把其他的方方面面交给模型。

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十一:   青春恋曲