大模型风云诡谲的下半场:scaling 失效?

广密大模型季报谈AGI范式大转移这篇播客,很值得一听。涉及很多大模型产业重要话题,视野和风格很独到。

“范式大转移”的说法太耸人,但风云诡谲,是当下的写照。那是因为大佬军备竞赛虽然依旧如火如荼,可应用落地却处于难产期,如何 justify 投资是一个巨大的拷问,或泡沫。

三大学习: 监督学习、非监督学习(自学习/预训练)、强化学习(RL,自主学习/self-play),伊利亚曾经专门强调后者作为探索大方向的重要性。广密这里特别强调它是正在到来的大模型AGI之道的范式转变。

此前,大家都知道强化学习主要是两个里程碑:一个是 alpha0 围棋完胜人类选手,震惊了世界 ;另一个是所谓RLHM(人类反馈强化学习),强化了与人类偏好的对齐,成就了ChatGPT的核爆。

现在谈的是大模型新生态可能性(并无广泛共识,只是硅谷小圈子在做、在议)以及大模型“军备竞赛”的新趋向。这个话题的背景如下:

1、 预训练 scaling (更大规模)似乎受困,GPT5 迟迟不出;

2、 军备竞赛的大格局和造势,大厂和大佬不要改变;

3、 技术大佬开始提出新路线图或试图构建新的 scaling law 继续AGI 的征程

广密在podcast里面,观察硅谷动向比较 closely,他的小团队不仅定期去湾区做深度调研,也建立了广泛的联系。在硅谷跟他们喝过两次咖啡聊天,一帮生龙活虎的小年轻在他的带领下,我的印象,是一个小而精干的独特存在。

这台节目的个人风格和视野也非常 unique,喜欢他说话的思路敏捷,有跳跃感,但张儿不散,有一种吸引人的表达力。主持人与他的交互也很丝滑,张弛有度。

听他们唠嗑吧,谈笑间大模型AGI的大趋势貌似尽收眼底。还是值得点赞的。

广密条理非常清晰,所涉及的知识面和大形势观非常广泛,却能present到自己的视角参照系,与LLM社区的思想趋势有较好的映射。这不容易,因为LLM这档子事,无论模型还是产业的 landscape,大多都是盲人摸象。很多大专家、商业大佬也都各有自己的三分地和视角,也很难全面评估形势。Meta 小扎刚前不久面对万卡竞赛能不能得到预期的AGI return的天问,回答说(大意):其实没人知道,但总不想万一错过的(典型的 FOMO心态)。

目前形势处于微妙期,其实还没有凝聚太多的共识。但是把英伟达送上天价的几个富可敌国的大佬/大厂,短期内却绝对不允许停止军备竞赛,这是他们科技商业争霸的游戏。这叫欲罢不能,节奏在他们手中。Open AI 不断融资,伊利亚自己也最近融资成功,这些都是这场竞赛持续热度的浪花。

与之相配合的是技术大佬和硅谷AGI主流技术圈对scaling的执着和痴迷。因为这次大模型 scaling 技术浪潮对于资源的无止境需求,真正能有机会实践、感知并做出调整改变路线图的技术人,也只能是一个很小的圈子。

据广密的信息,这个所谓 self-play RL 新生态趋势,目前是局限在硅谷技术大佬小圈子的共识,他提到大约不超过200人的圈子的。如果信息正确的话,一个在硅谷技术核心圈200人以内的某种共识和议论,说明还只是一个动向,甚至连管理圈还没真正 get it 和对齐。

感觉上,广密有一些“春江水暖鸭先知”/“语不惊人死不休”的心态(LOL),有意强调/夸张了这个趋势,警醒国人,甚至说,如果我是大模型创业家,我会200%资源聚焦 RL 方向,bet on it,因为这是未来赢家的选择,云云。

其实,客观说,对于多数人这个不实在,也无可操作性,最多是说给国内大厂玩家或六小龙听的吧,但其实也是白说。RL 本来就不好玩,连开源标杆 Meta Llamma 3 在最基本的 RLHF 方面都选择绕开来走,就更甭提提倡国内大模型公司全力 bet on 以强化学习作为新生态核心的愿景了。何况后者在硅谷最多也只是一种“潜流”,可能要等年底前OpenAI草莓以及Claude新版发布后,才能对这个所谓新生态的影响,看得清楚一些吧。

这个苗头可以 keep in mind,但上半场确实似乎结束了。真正可以在所谓的下半场作为 action items 的,其实不是这种高大上、带有很强探索性的大模型 scaling 方向的尚未确定的 roadmap,更多是趁着 GPT4o/Claude3.5级别的通用模型的推理成本越来越亲民化、趁着LLM供应商多模态功能在进一步推广和完善(例如超拟人全双工语音的最新突破和工具赋能就会大大增加应用层面的机会,还有视频的进展等), 加快找市场切入点(PMF),专注应用场景真正需求的解决。

对于产业而言,当前大模型规模化应用的困局才是悬在大模型产业头上的利剑,决定了这下半场在 tech adoption curve 下行能不能软着陆和最终平缓回升。至于军备竞赛,让马斯克、小扎等首富俱乐部继续玩继续high就好。

作为“预训练”的延深,强化学习属于“后训练”,在前者遇到瓶颈和 diminishing returns的时候,加强后者是自然的补足。从AI对人类认知的模拟来说,前者是继承人类文明的知识和科技积淀,后者是把这些知识真正用到实处,在环境中学习。这个智能学习的总体思路 makes perfect sense,也是大模型应用必须要走的方向。

所以老友吕兄说:“直觉上RL是必须要走的路,因为supervised learning的数据没有那么多了。”

没错,不同程度利用再生数据,其实已经是日常 practice 了,也不再有以前的“心理障碍”,是一个必然。总体而言,模型就是比人能够更高质量产生数据,而且会越来越好。但这还不是这里说的self-play的主动探索和数据再生。

毛老说的也不错:“RL 与人类的认知过程相符,与认识论一致。实质上就是接收外界反馈,接受实践检验的过程。RL 是主动学习,而训练是被动的。”

广密现在是说,需要研究测把 RL 范式化,提供某种 RL dev toolkit,然后有在各种场景去做 scale up RL 的路线。这个所谓“范式大转移”,没有1-2年的大厂/大佬的推动普及,没有抓手。持谨慎乐观或怀疑的open 心态,静观其变吧。

转述老领导的硅谷风投现状和展望的分享

摘要

1. 未来几年内 65% 的风险投资公司将倒闭。

2. 凭借 2010 年代的出色回报,风险投资一路高歌猛进。

3. 2021 年,1577 家不同的风险投资公司共筹集了 1830 亿美元。

4. 但与此同时,创办一家初创公司的成本却越来越低。广泛可用的工具、全球劳动力和便捷的(在线)分销意味着创办一家 SaaS 公司从未如此简单或便宜。

5. IPO 窗口关闭了——公司无法上市。因此,风险投资公司无法通过大型 IPO 赚钱。

6. 并购也没有发生(至少对卖方来说价格不高)。因此,风险投资公司无法通过出售公司来赚钱。

7. “我们决定不再筹集另一只基金。” 翻译:他们可能做不到。更多的公司会说他们“不再投资”;合伙人“决定担任运营职务”。董事总经理正在退休。

8. 2023 年,597 家风险投资公司筹集了 810 亿美元。这分别下降了 63% 和 56%(与 2021 年相比)。

9. 风险投资的狂欢派对结束了。或者至少这一章结束了......

10. 超过 50% 的现有公司将无法生存。这意味着,如果您是在这种环境下筹集资金的初创公司首席执行官或运营商,您需要了解游戏规则已经改变。

11. 不要相信一些创始人仅凭 20 万美元的 ARR 和一份好牌就筹集了 3000 万美元的故事。风险投资公司用巨额支票救助经营不善的企业的时代已经结束。

12. 筹集资金的最佳时机是您不需要它的时候。深入挖掘以度过冬天。

以上是我的“老领导” Jonathan前天在LinkedIN关于硅谷风投下行的一种描述。很清醒。

听上去似乎奇怪,大模型爆发以后很快风投成为下行,这其实还是因为 technology adoption curve 本身现在在落地应用上遭遇挑战,整体处于下行,无论中美。

大模型的到来使得初创的启动变得容易,这样僧多粥少,筹集风投就更加困难。

我这个老板一共做过4家初创,第一家是他初出茅庐时候做的 Netbase,我们相处非常好。现在这第四家SAAS创业很扎实,势头很好,有望成为硅谷独角兽。他也历练成熟多了。

他是第一个在LinkedIn上给我写推荐的人,一直保持联系。

图片

Jonathan Spier

Last Friday, I had dinner with a famous VC investor who told me 65% of VC’s will go out of business in the next few years. I believe him. Here’s what that means for startup leaders waiting on their Series A/B/C:

Those of us in startups tend to think VCs are at the top of the food chain.

They aren’t.

VCs are businesses too.

They raise money from THEIR investors (aka LPs).

And their job is to make a return for those LPs.

With outstanding returns in the 2010s, VC was on a win streak.

Many more funds were born.

And existing funds got much larger.

In 2021, 1577 different VC firms raised a total of $183 billion.

But at the same time, costs to launch a startup have gotten cheaper.

Widely available tools, global workforce, and easy (online) distribution mean it’s never been easier, or cheaper, to start a SaaS company.

So how are VCs supposed to deploy all that money they’ve raised?

They can’t.

There is too much money chasing too few deals.

Make no mistake, for VCs, it’s a fatal mix.

The IPO window is closed – companies can’t go public.

So VCs aren’t making money with big IPOs.

M&A isn’t happening (at least not at good prices for sellers).

So VCs aren’t making money by selling their companies.

If VCs aren’t making money, they can’t return capital to their LPs.

They are in trouble.

Of course, VCs rarely go out of business the way their companies might.

Reputations are at stake, so change happens quietly.

But it’s the same result.

It’s already happening.

Listen carefully, and you’ll hear VCs saying:

"We have decided not to raise another fund.”

Translation: they probably can’t.

More firms will say that they are “no longer investing”

Partners are “deciding to take operating roles.”

Managing Directors are retiring.

In 2023, 597 VC firms raised $81B.

That’s down 63% and 56% (vs. 2021).

The VC party is over.

Or at least this chapter is...

The select few at the top of the VC list will have their pick of deals.

The great business builders will choose their spots and continue to thrive.

I’ve been lucky to work with a few of those and am certain that their expertise and relationships will carry them through.

But over 50% of existing firms, won’t survive.

That means if you're a startup CEO or operator raising money in this environment, you need to understand the game has changed.

Don’t buy the stories of some founder that raised $30M with $200k ARR and a good deck.

The era of VCs bailing out bad businesses with huge checks is over.

Many of the VCs won’t even be around in a few years.

There is only one strategy that works in this economy.

Focus.

Nail your ICP.

Delight your customers.

Get profitable to control your financial destiny.

The best time to raise money is when you don’t need it.

It’s a harsh economy out there.

Burrow down deep to survive the winter.

Remember:

Tough markets make strong companies.

立委论LLM:视频生成的人物一致性问题

大千世界人脸识别是一个专修而艰难的任务,因为人眼对于人脸的特征有非常的敏感。正因为人脸识别专门而敏感,比起识别阿猫阿狗的传统图像识别挑战性非同日而语,结果这个赛道首先得到突破:甚至在大模型之前,深度神经人脸识别得力于极为丰富的人脸图像数据,就已经超过了人类肉眼的识别能力和敏感度,也率先得到了广泛应用,成就了前大模型一代的独角兽。

到了面向大千世界一切对象的万用视频大模型的时候,无论Sora还是可灵,人脸的一致性依然是一个巨大挑战。Sora 不公测不大知道,但通过类似design的国内头部视觉大模型可灵,可以感知里面的局限性。通常超过半分钟,人脸就开始发散,变得不像那个人了。长程人物形象的一致性,如果不做专项处理和引入专项优化,单靠现在通用的视频一致性的训练努力,是很难突破瓶颈的。这个局限,在玩可灵一类公开上线的产品时,各种测试一再被发现。

有些视频如果不是人眼的敏感性(难怪“外贸”协会的求偶者那么多,原来人眼揉不得沙子,尤其是找对象的时候,普通人很难粗粒度容忍潜在对象的面相瑕疵或因为面相的不来电 lol),哪怕从视觉物理特性看其实已经无法区分。可见人的眼毒: 可以立即分辨真假李逵。

例如,下面两个小雅的视频生成,小雅粉丝一眼就能辨真假,虽然小雅本人也有不同的年龄,不同的场合,会呈现不同的形象,但有一种可以抽象出来的不变的人脸特征在武装着人类对于人脸的火眼金睛。而这一切的密码其实在上一代人脸识别的模型里面已经解耦。

注意:人物形象一致性是电影性和可配置的视频作品生成的关键指针。不跨过这道门槛,这个赛道会难以规模化落地。那些梦想空手套白狼、无需物理拍摄、全程虚拟数字化的大模型好莱坞生产线,也就成为泡影。

为什么视觉大模型靠蛮力很难在人物长程一致性上奏效?、因为视频是模态中维度很高的形态,大模型(至少在可见的将来)为了搞定视频, 就必须做大力的有损压缩。视觉的 tokens 压缩比很高,这样在内部的 hidden space 做整体帧的长程一致性的对齐训练/生成才比较可行。压缩旅越高,总体画面的时间维度的一致性就越强。自回归或DiT就可以搞定。只有这样,违背大千世界物理规律的视频就会得到有效控制,减少违背常识的幻觉,让视觉大模型看上去已然是客观世界的模拟器(疑似)了。但这里有个矛盾,在有损压缩的条件下,帧总体的一致性与其中具体物理对象的细节特征的一致性,没办法同步优化一致性。

目前的方案通常是,在总体轮廓(blueprint)一致性搞定后,追加一个高清化(SR)的过程,试图把舍弃的细节复现出来。高清化渲染,总体而言在过去几年的 deep fake 研发积累中,已经做得相当不错了。但是 deep fake 本质上是在有损压缩的条件下的亡羊补牢,它所能做的就是通过大模型所擅长的想象(或曰幻觉)来合理地、非确定性地填补细节,描绘世界应该具有的形象(what it should be,Not what it is),可以栩栩如生。但如果目标是一个特定对象,尤其是人脸这种细粒度对象,有人眼敏感的个体特征(IP),它就免不了在长时间的生成中有所走偏,这就是问题的要害所在。解决的办法不应该指望模型越来越大、context window 越来越长的大数据蛮干。因为蛮力只能减缓偏差,不能根治长视频的SR过程中随时间而增加的非确定性偏差积累。要 think out of box,排除时间维度作为条件,以步步对齐的方法,或可解套。点到为止吧 ,勿谓言之不预。

做到这点的前提是人脸可以解耦。无法解耦的特征做不到步步对齐。一定是可以解耦的,否则无法说明好莱坞几十个名演员可以演几千部大片。人脸与表情和时间的解偶当然还有进一步的提升空间,但技术已经比较成熟了。

 

Related Links:

Ilya Sutskever:你会 bet against AI 吗?

挥刀董事会,OpenAI 如何解决致命难题

英伟达GTC的一小步,AI进化史的一大步

为什么说 Sora 是世界的模拟器?

Llama 3 Notes and Llama MV with Llama 3.1 Legend

Notes on the 92-page Paper Released with Meta's Super Large Model Llama 3.1

The super-large model Llama 3.1 is a milestone in the open-source large model community. As a leader, Meta's project involved over 500 participants/contributors (the authors of this paper are listed alphabetically in the appendix, similar to how the Central Committee members' names are displayed by stroke order). This original text is full of implementation details:

meta Llama 3.1 paper

AIGC MV using Suno and keling (just for fun & cheering opensource milestone)

Notes:

  1. Llama 3.1 doesn't use sparse techniques, it's not a multi-expert system like model 4, but a dense model.
  2. 405B parameters, 15.6T tokens: The number of tokens is 40 times the number of parameters. Large-scale top models now emphasize data growth far exceeding parameter growth. Is this 15T tokens of data open source? (No, because even if they were willing to open source it, they wouldn't dare, as it could lead to countless data infringement lawsuits)
  3. Emphasizes three major levers for super-large foundation models: data, scale, and managing complexity.
  4. Compared to the previous generation system Llama 2, computational power has increased 50 times (using 3.8 × 10^25 FLOPs).
  5. Complexity management: (1) Choosing a standard dense Transformer architecture instead of a mixture of experts model to maximize training stability. (2) Adopting a relatively simple post-training procedure: Supervised Fine-Tuning (SFT), Rejection Sampling (RS), and Direct Preference Optimization (DPO). In other words, algorithm design and implementation tend towards simplification. Not using sparse techniques and multi-expert systems is for stability (but training challenges are greater, though they're not afraid). Using simpler, easier-to-implement DPO in the post-training phase instead of reinforcement learning is also for stability, as reinforcement learning has always been difficult to handle.
  6. Benchmark tests cover: general, code, math, reasoning, tool use, long context, and multilingual. All performances are SOTA (state-of-the-art international level).
    • MMLU (Massive Multitask Language Understanding): 405B model achieves 87.3% (5-shot), 88.6% (0-shot, CoT).
    • Code generation (HumanEval): 405B model reaches 89.0%, close to GPT-4.
    • Math problems (GSM8K): 405B model achieves 96.8%, slightly higher than GPT-4.
    • Long context tasks: Excellent performance on some tasks, such as 95.2% on QuALITY.
    • Multilingual tasks (MGSM): 405B model reaches 91.6%, on par with top models. The 405B model is comparable or close to GPT-4 and Claude 3.5 Sonnet on many tasks. In short, open-source has caught up with closed-source.
  7. Pre-training started with an 8k window, expanded to a 128k window in the later stages of pre-training (continued training).
  8. After the foundation model pre-training was completed, multiple iterations of alignment "post-training" were performed. Including: (1) Aligning the model through human feedback, including multiple rounds of Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO); (2) Integrating new capabilities, such as tool use; (3) Enhancing coding and reasoning abilities (specialized optimization); (4) Safety alignment.
  9. Multimodal expansion (in progress, not yet released): Image, video, and speech capabilities. Including (1) Multimodal encoder pre-training: Image encoder trained on a large number of image-text pairs, aligning visual content and natural language in a unified space; (2) Speech self-training? (3) Experiments on video-text data alignment based on images.
  10. Language model as the core, other modalities are added later (whether added to pre-training and/or post-training). When expanding to multimodal, the language model parameters remain unchanged, adapting to multimodality, allowing multimodal alignment in the same semantic space, closer to the language model. In other words, Llama follows a modular, step-by-step approach to gradually expand to multimodality. This is not the mainstream approach (mainly referring to Open AI and Google, at least in theory) advocating for "unified multimodal native data joint pre-training". The overall impression of Llama's algorithmic strategies is seeking stability rather than innovation or unification. It tends towards practicality, not caring about leading in algorithms. For example, the integration of speech first involves speech self-training (because speech is actually very similar to text, both being language systems), then alignment between speech and text (including Automatic Speech Recognition ASR and Text-to-Speech TTS). Integrating step by step into the cross-modal large model, this approach isn't cutting-edge in terms of advancement, but it's steady progress, beneficial for engineering development, integration, and iteration. It's unclear when they will be able to release multimodal capabilities online.
  11. Data collection and cleaning work is very complex, but the Llama team is meticulous, which is also the data guarantee for its quality to catch up with SOTA. To recap: (1) De-duplication: URL-level de-duplication; Document-level de-duplication using MinHash algorithm; Row-level de-duplication: removing rows appearing more than 6 times every 30M documents. (2) Filtering: Removing low-quality documents, outliers, and excessively repetitive documents, using repetitive n-gram coverage to remove repetitive content (such as logs or error messages); using "dirty word" counts to filter adult websites not covered by blacklists; using token distribution KL divergence to filter documents with too many abnormal tokens. (3) Controlling data quality: Using fasttext classifier to identify text that might be cited by Wikipedia; using a Roberta-based classifier trained on Llama 2's predictions; using DistilRoberta to generate document quality scores. Also, fasttext language classifier can identify 176 languages; specially filtering two types of information: adult content and personal identity/privacy information. Special fine processing for code and math web pages.
  12. Data proportions: For example, downsampling over-represented data categories on the web (such as art and entertainment); data mixing ratios determined by a series of small model experiments, final data mix summary: About 50% of tokens correspond to general knowledge; 25% of tokens involve math and reasoning; 17% of tokens are code; 8% of tokens are multilingual content.
  13. Model architecture: Apart from empirical detail adjustments, the basic architecture of the dense model remains unchanged, so it's data and scaling that create top models. 405B model specific parameters: 126 layers; token representation dimension 16,384; 128 attention heads; model size of 405B determined according to scaling law, about the computational optimal size under 3.8 × 10^25 FLOPs training budget.
  14. Vocabulary: Using a vocabulary of 128K tokens. Combines 100K tokens from the tiktoken3 tokenizer and 28K additional multilingual tokens to better support non-English languages.
  15. Computing resources, including GPU clusters of tens of thousands of cards, massive storage, and high-speed networks, represent huge resource investments. Specific data as follows: Computing resources:
    • Used up to 16,000 H100 GPUs (a very powerful graphics processor).
    • Each GPU has 80GB of high-bandwidth memory, with a power of 700W.
    • These GPUs are installed on servers designed by Meta itself, with 8 GPUs and 2 CPUs per server. Storage system:
    • Uses a distributed file system called Tectonic.
    • Provides 240PB (1PB=1000TB) of storage space, distributed across 7,500 servers.
    • Can process 2TB of continuous data per second, with a peak of 7TB/second.
    • A major challenge is handling the large amount of burst writes generated when processing model checkpoints (the process of saving model states).
  16. Three-step pre-training process: a) Initial pre-training; b) Long context continued pre-training; c) Annealing with high-quality data sources Key pre-training strategies:
    • Gradually increase batch size and sequence length to balance stability and efficiency.
    • Dynamically adjust data mixing to specifically enhance certain capabilities.
    • Increase context length in stages to avoid early computational overhead.
    • Use annealing and high-quality data in the late stages of training to fine-tune model performance.

 

[LLM Summary]

Llama 3: Meta's Open-Source Large Language Model Breakthrough**

1. Introduction and Overview

Meta has introduced Llama 3, a series of foundation language models designed to support various tasks including multilingual processing, programming, reasoning, and tool use. This model series includes versions with 8B, 70B, and 405B parameters, with the largest 405B parameter model adopting a dense Transformer architecture and supporting context windows of up to 128K tokens. The development of Llama 3 highlights three key factors: data quality and scale, computational scale, and complexity management.

2. Model Architecture and Pre-training Strategy

2.1 Model Architecture

Llama 3 retains the standard dense Transformer architecture rather than adopting a mixture of experts model. This choice aims to maximize training stability, reflecting Meta's emphasis on simplifying design to manage complexity. Key architectural improvements include:
- Using Grouped-Query Attention (GQA) mechanism, with 8 key-value heads per attention layer.
- Introducing attention masks to prevent self-attention between different documents in the same sequence.
- Expanding the vocabulary to 128K tokens, combining 100K tokens from the tiktoken3 tokenizer and 28K additional multilingual tokens.
- Increasing the RoPE base frequency hyperparameter to 500,000 to support longer contexts.

2.2 Pre-training Data Processing

Llama 3's pre-training data processing is extremely rigorous, including:
- Multi-level deduplication: URL-level, document-level (using MinHash algorithm), and row-level deduplication.
- Heuristic filtering: Removing low-quality documents, outliers, and excessively repetitive content.
- Model-based quality filtering: Using fasttext and Roberta-based classifiers for quality assessment.
- Special content processing: Developing specialized processing pipelines for code and mathematical content.
- Multilingual data processing: Using fasttext base language identification model, supporting 176 languages.
- Safety and privacy protection: Filtering website data containing personally identifiable information (PII) and unsafe content.

2.3 Pre-training Strategy

The pre-training process is divided into three main stages:
1. Initial pre-training: Conducted on about 15T multilingual tokens, far exceeding Llama 2's 1.8T tokens.
2. Long context pre-training: Gradually expanding from initial 8K tokens to 128K tokens context window.
3. Annealing phase: Fine-tuning with high-quality data in the final stage, using Polyak averaging to generate the final model.

Data mixing ratios are carefully designed:
- 50% general knowledge
- 25% mathematics and reasoning
- 17% code
- 8% multilingual content

3. Training Infrastructure and Challenges

3.1 Computational Resources
- Using up to 16K H100 GPUs, each equipped with 80GB HBM3 memory.
- Adopting a 4D parallel strategy: tensor parallelism, pipeline parallelism, context parallelism, and data parallelism.

3.2 Storage System
- Using the Tectonic distributed file system, providing 240PB of storage space.
- Supporting 2TB/s sustained throughput, with peak capacity of 7TB/s.

3.3 Network Optimization
- Developing the NCCLX communication library to improve network efficiency.
- Designing specific network topologies and load balancing strategies.

3.4 Training Challenges
- Experiencing 466 job interruptions during the 54-day training period, 419 of which were unexpected.
- Developing automated systems and specialized tools to handle hardware failures and network issues.

4. Post-training and Alignment

Llama 3 adopts a multi-round iterative post-training process, including:
1. Supervised Fine-Tuning (SFT)
2. Direct Preference Optimization (DPO)
3. Reward model training: Using human feedback data
4. Safety alignment: Implementing multiple rounds of safety measures

This process not only improves the model's instruction-following capabilities but also enhances safety and specific abilities (such as coding and reasoning).

5. Multimodal Expansion

Although not officially released yet, Llama 3 demonstrates promising multimodal capabilities:
- Image recognition: Training independent image encoders, integrated with the language model through adapters.
- Video understanding: Adding video adapters based on image adapters.
- Speech processing: Independently training speech encoders, then aligning with the language model.

This modular approach allows flexible addition of new modalities while maintaining core language capabilities.

6. Performance Evaluation

Llama 3 performs excellently in multiple benchmark tests:
- MMLU (5-shot): 87.3%
- HumanEval (code generation): 89.0%
- GSM8K (math problems): 96.8%
- Long context tasks (like QuALITY): 95.2%
- MGSM (multilingual tasks): 91.6%

These results indicate that Llama 3 405B is comparable or close to GPT-4 and Claude 3.5 Sonnet on multiple tasks, particularly excelling in document understanding and long context tasks.

7. Safety Considerations

Meta highly prioritizes safety in the development of Llama 3:
- Implementing strict safety measures in both pre-training and post-training stages.
- Developing the Llama Guard system-level safety solution.
- Conducting extensive red team testing and risk assessments.

8. Open Source Impact and Future Directions

Meta's decision to publicly release the entire Llama 3 series, including the 405B parameter version, may have far-reaching impacts on the AI research community:
- Promoting open, responsible AI development.
- Accelerating AGI research progress.
- Providing researchers with opportunities to examine and improve large-scale language models.

Future development directions may include:
- Further improving multimodal integration.
- Expanding context length.
- Continuously enhancing data quality and model scale.

9. Conclusion

The development of Llama 3 demonstrates Meta's deep experience and forward-thinking in large-scale AI systems. By focusing on three key levers - data quality, computational scale, and complexity management - Llama 3 has reached or approached the current state-of-the-art level on several key benchmarks. Its open-source release may drive a wave of innovation across the entire AI field, paving the way for responsible AGI development.

Llama 3: Meta's AI Chef's Latest "Divine Delicacy"

Attention, all tech enthusiasts! The Michelin three-star AI chef Meta has just unveiled a new dish! This divine delicacy named "Llama 3" is not only spicy enough but will elevate your taste buds to new heights!

1. The Chef's Secret Weapon

Imagine Llama 3 as a super nanny who speaks 8 languages, writes code, does math, and can be your personal assistant. She can handle a kindergarten full of rambunctious kids (8B version), manage a mid-sized company (70B version), or even govern a small country (405B version)! This 405B big sister can remember 128,000 "gossips" (oh no, I mean context) simultaneously, essentially a walking encyclopedia + supercomputer!

2. Ingredient Selection: Only the Freshest!

Llama 3's chefs are masters at picking ingredients:

  • They "fished" 15 trillion words from the internet, nearly 10 times more than the previous generation!
  • Half of these words are everyday life seasonings, a quarter are math problems and brain teasers, nearly a fifth are programmer spells, and the rest are dialects learned from world travels.
  • They even invented a super weed remover, filtering out all the online garbage, repetitive, and unhealthy stuff.

3. Cooking Process: Three-Step Stir-Fry Method

Step 1: "Slow Simmer" - Start with a regular stove (8K context) to cook it halfway. Step 2: "High Heat Stir-Fry" - Switch to a super stove (gradually increasing to 128K context), reducing the sauce to be thick and fragrant. Step 3: "Low Heat Finish" - Finally, a gentle simmer with the best ingredients, the legendary "annealing" (even the chefs don't know why it's called that), bringing the flavor to its peak!

4. Kitchen Equipment: Top-of-the-Line Luxury Version

  • 16,000 super high-power induction cookers (H100 GPUs) firing simultaneously!
  • A refrigerator that could fit half the Pacific Ocean (240PB storage)!
  • A proprietary ingredient prep system faster than 5G (NCCLX communication library)!

Imagine all these stoves firing at once, making the kitchen feel like a sauna. But our chefs persevered through the heat, changing chef uniforms 466 times in 54 days to whip up this dish!

5. Training Method: Both Cute and Well-Mannered

Being a good cook isn't enough; you've got to have manners too! So our chefs began a long "training" process:

  • First came a round of "gentle education" (supervised fine-tuning)
  • Then the "carrot and stick" tactic (direct preference optimization)
  • Finally, they invited moral role models (safety alignment) for guidance

After all this fuss, Llama 3 not only cooks well but also knows how to please people, program, do math, and mind her manners - a true decathlon champion!

6. Special Side Dishes: Showcasing Multiple Talents

Don't think Llama 3 can only cook; she's a multi-talented "goddess":

  • Storytelling from images? Piece of cake!
  • Writing movie reviews? No problem!
  • Recognizing songs and even singing a bit? The karaoke queen!

Although these "talents" are still in practice, they already show the potential of Li Bai's "from black hair to snow white in a day"!

7. A True Powerhouse: Dazzling Test Scores

Llama 3 participated in a series of "Top Chef Competitions," with eye-popping scores:

  • College Entrance Exam (MMLU): 87.3 points (out of 100)
  • Programmer Interview (HumanEval): 89 points (out of 100)
  • Math Olympiad (GSM8K): 96.8 points (out of 100)
  • Long Novel Reading Comprehension (QuALITY): 95.2 points (out of 100)

Bring this report card home, and even a "Tiger Mom" would be grinning from ear to ear!

8. Safety First: AI's "Security Captain"

Meta's chefs know well the principle of "don't leave guns and ammo lying around." They've assigned Llama 3 a 24/7 bodyguard team (Llama Guard) to prevent her from accidentally saying or doing the wrong thing. They even arrange occasional "moral exams" to ensure she doesn't turn into a "Terminator."

9. Open Source Feast: Everyone Can Be a Master Chef!

The most impressive part is that Meta decided to make the recipe for this "divine delicacy" completely public! It's like a Michelin three-star restaurant putting their signature dish's recipe online. Now anyone who wants to can whip it up at home! This move not only shocked other master chefs but also made countless food lovers cheer with joy!

10. Future Outlook: Reaching New Heights

Meta's chefs aren't resting on their laurels; they're already pondering the next "divine delicacy":

  • Maybe a dancing Llama 4?
  • Or a painting Llama 5?
  • Who knows, one day we might see a Llama 6 composing symphonies!

In short, the AI world's "Michelin" journey has only just begun!

Epilogue

The birth of Llama 3 not only elevates Meta's status in the AI world but also brings a fresh breeze to the entire AI research community. This bowl of "Llama soup" is not only delicious but also brings unlimited imagination to everyone. What will the future of AI be like? Let's wait and see what flavor the next "divine delicacy" will be!

世界语国,朋友遍天下(视频修订版)

朋友遍天下

 

可灵AI视觉大模型重现1987年北京世界语春节晚会联欢聚会的场面,当时正谈恋爱,带着领导(当时是女友)去见圈子里老朋友(右边是大百科全书的郑伯承,非常有才华的老友),背后是春节猜谜的谜语。复原的真切程度,难以置信,包括神态、微表情和动作。。

除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。)

世界语的大同理念很像是国际歌的传奇,这让我想起我们从小就熟读的列宁语录:“一个有觉悟的工人,不管他来到哪个国家,不管命运把他抛到哪里,不管他怎样感到自己是异邦人,言语不通,举目无亲,远离祖国,——他都可以凭《国际歌》的熟悉的曲调,给自己找到同志和朋友。”世界语对于世界语者,就如上个世纪早期的《国际歌》对于工人革命者一样,成为联络同志的桥梁。正是这样,我凭着“爱斯不难读”(Esperanto)这共同的语言,从英伦而加拿大,再到美国,每到一处,总能找到同志。

世界语者总人数并不多,约三千万,但分布极广,世界上差不多每个中等以上的城市都有或大或小的世界语俱乐部。所有的世界语俱乐部对待远道而来的世界语者就象自己的亲人一样,对此我深有体会。

英国曼城是我出国留学的第一站。跟很多人一样,第一次远离故国,伴随着难以名状的痛苦,内心空荡而恍惚。百无聊赖,我于是找来电话黄页,查询 Esperanto, 果然发现有联络人,原来是一帮退休老人组成的俱乐部,每周在 Pub(酒馆) 活动一次。他们很高兴,我的加入给他们带来了新奇。

于是每个周末,他们派人来车接我送我。这是我第一次接触英国的 Pub 文化。刚开始对 Pub 不是很习惯,里面闹哄哄的,硕大的屏幕上总是播放着足球赛事,有人打台球,有人玩游戏,更多的人在那里喝着啤酒高谈阔论。英国人对 Pub 的热衷,超出我的想像,有人每天傍晚来这里泡到后半夜,海量的啤酒入肚,满面通红,谈些不知所云的话题。以酒会友,人生几何。

我们这个俱乐部通常是找一个相对安静的小角落里围坐在一起。具体谈些什么记不得了,可那种温馨的气氛给我短暂而孤寂的留英生活,留下了回味。

在英国尝到了寻找世界语“同志”的甜头,到了温哥华第二天,就打开黄页,果然联系上了一位老世界语者J,德国人,极为彬彬有礼,和蔼热情。温哥华的五年,他成为我来往最密切的忘年之交。有次我在系里讲演“世界语的机器处理”,他象个记者一样扛来他的老式摄像机, 跑前跑后,给我录像,使我们系里的教授同学亲眼见到世界语者的热情。

立委与世界语者朋友在温哥华合影(J先生居中)

温哥华世界语俱乐部当时还有一批电话公司的白人小伙子,长的都很精神,听说来了一个如假包换的中国世界语者, 都很兴奋。相约聚餐后,他们诚邀我周末跟他们一起滑雪去。我当时刚来,功课很紧,可是盛情难却,还是豁出去一天跟他们去了。这是我第一次滑雪,尽管老摔跤,感觉新鲜美好。我以前从来没有置身过这样的环境,松树白雪,笑语喧哗,各类雪衣,色彩缤纷,真是天上人间。

滑雪过后,我们来到其中一位的女朋友家吃晚饭。女主人年轻漂亮,热情爽朗,给我们煮了一锅大杂烩。她的房子在山腰上,后院对着风景无限的大峡谷。尽管天气寒冷,大家还是愿意在室外,一边喝啤酒,一边欣赏景色。在英国灰蒙蒙雨蒙蒙地度过一年,置身温哥华这样有气势的自然景观,如入仙境。餐后大家围坐一起看美国卡通《Simpsons》的录象,女主人挨着我坐,很体谅地说:你刚来,可能不懂里面的文化和幽默,我来给你做点讲解。于是她热情可掬地在我耳边嘟嘟囔囔,我根本没听明白,只是胡乱点头。她看我点头,孺子可教,更加热情有加。这是一次愉快又有点透不过气来的经历。身边一个金发美女,殷勤热情,差不多靠在我身上了,耳边是她的带有热气的喃喃细语。

以后的每个周末,我们俱乐部会面聚餐一次,总是J老先生牵头,五年下来,从不间断。这是一段非常愉快的时光。值得一提的是,在温哥华俱乐部里,我曾经巧遇多年没有联系的老友郑伯承。伯承兄是北京世界语协会秘书长,当年曾是我世界语班上的同学。他来温哥华开国际艾滋病大会并宣读论文,事先跟J老先生有联络。J老先生通知我说,下次聚会我们欢迎来自北京的朋友,我还在琢磨是谁呢,心里想,如果是北京的老世界语者,八成我早就认识了,没想到来的是伯承兄。老朋友相见分外亲切,我们欢聚一堂,相叙甚欢。

1987年春立委携夫人(当时是女友)参加世界语者聚会,与伯承兄合影

记于2004年五月28,美国水牛城

 

《朝华午拾》电子版目录

Suno:《立委:Esperanto: Al Nia Kara Lingvo(世界语之恋)》

立委两分钟:大模型时代的痛

我是数字主播小雅,今天《立委两分钟》节目的话题是大模型时代的痛。目前在上海召开的人工智能大会,也提到了这个话题。

这次不谈技术,也不科普,专门谈谈大模型时代带来的问题,主要是两点,一个是真假莫辨;另一个是被模型吃掉的工作岗位。都是沉重的话题,但都是进行时,问题只会越来越严重。

生成式AI的到来,也就意味着真假莫辨时代的到来。现如今,无论文字、音频还是视频,随着大模型的普及,深度造假(deep fake)的门槛无限低。耳听为虚,眼见也一样可能是虚。有什么信息可以相信呢?社会似乎并没有为此做好准备。

更闹心的是就业市场受到的冲击。几乎所有的白领工作,都面临大模型的挑战。AI结合机器人(所谓具身智能)的方向也在加速度发展,再过几年,蓝领的工作也面临类似的挑战。

最近几个月在美国,身边不少年轻人失业了,有好几个是伯克利data science毕业的学生。一方面AI大厂如英伟达、苹果、微软等市值不断攀升,另一方面包括大厂在内的IT裁员风潮也一波接着一波。不是 hard core engineering 的数据科学专业生,冲击很大,所以很多年轻人对大模型有怨气。这才刚刚开始。名校毕业生也一样两极分化。非常可怕的AI碾压人工的潮流,data science 是重灾区。

曾几何时,在大模型之前,全美国都有预见,说未来最大的需求是数据科学,每个企业、产品,无论大小,都对数据工作有极大的需求。于是,各大学都开始增加 ds 的 programs,校内极速扩张这个介于电脑和统计之间的学士、硕士课程,各种网上的课程和学位也满天飞。结果,大模型来了,数据分析、总结和渲染都比人做得既快又好。非常可怕的AI碾压人工的潮流,data science 是重灾区。

美国做教授的老友说,数据科学杀掉了统计,人工智能杀掉了数据科学。现在高等教育里还有一个潮流,叫micro credentials, 各种证书。大量的half baked potatoes 就会抢占工作市场,真正全方位科班出身的人反而找不到工作。这些拿了证书的技工把工作都占了,是不是对正式毕业生不公平? 学生怎样会有动力学习?各种研究生教育有什么用?

问题尖锐,但不好回答。局面只会越来越糟。人类的心理承受、社会的应对,都是慢了几拍的。但技术却滚滚向前。

大模型来了后,很多教育其实是不必要的,传统教育的知识传授已经没有多少实质意义了,因为知识是招之即来,问之即答。大模型做辅导,比多数讲师教授还强。其实,教育和学校更大的功能现在就是一个蓄水池,稳住那些无业也找不到工作的人,推迟进入职场,给人一种虚假的对未来的希望。

国内也是同样。很多本科毕业生开始读硕士,不少硕士开始读博士,不是因为不断高读在他们的人生规划中,而是无法面对毕业失业的现实,不得不用升造来逃避。但水涨船高,职场的要求越来越高,而职位却不增反减。核物理博士毕业进街道办,博士出来做辅警,汉语毕业出来扫大街,诸如此类,恶性循环。

AI 也许真应该缓行。但没人能阻挡技术的内卷外卷。人类跳不出自己的怪圈。以职业生涯(career development)作为指挥棒的社会传统意识和价值观,必须改变,但改变需要很长的时间和配套的机制,这些都看不到任何靠谱的方案和行动。

处在漩涡中心的大模型产业也卷得惨烈。上一次移动技术革命在衣食住行、娱乐通信这些刚需领域已经做到了 极致,出现了一批超级应用,美团、滴滴、微信、抖音、拼多多等。剩下的知识和艺术工作属于高端需求,写文章、作曲儿、画个画、做个视频、用个秘书,大多是锦上添花。也许有一天这些高端需求会成为刚需,但在目前很像是伪需求,因此规模化落地应用就显得格外困难。

现在被认可的真需求是什么?有企业老板说得好:你显示给我看,用了你的AI,我可以裁员多少?那才是刚需。

问题是,通用大模型可以免费或白菜价来使用,根本没有多少大模型创业的机会。而大模型的降本增效所引起的裁员已经开始。只有那些特别定制的AI,能够帮助企业进一步裁员,才有活路。

最讽刺的是,以前被尊为打工贵族的码农,也首当其冲。在横扫了 data science 工作后,cs 的毕业生中比较平庸的,也在工作被铲除的路上。美国作为IT超级大国,多少年来在培养程序员方面一直有缺口,本国毕业的cs学生填不满,只好大量留用印度、中国和其他国家的毕业生。这样的好日子,也快到头了。

我不认同一个流行观念,说以前的技术革命消灭了一些工作,也创造了新的就业,所以大可放心,这次也会如此。时代不同了,大概率不会如此。必须认清消灭的岗位比创造的岗位,会多得多。虽然美团外卖小哥、滴滴司机是上一次移动平台技术扫荡了实体店以后产生的新工作,但看看这些最低工资的工作岗位的内卷情况就知道,就连这些工作也是僧多粥少,大家都在挣扎。人工智能的 Robo Taxi 的到来,会逐步消灭滴滴司机。
生产效率的提高一定伴有大量的失业,产业机构改变,也有失业。很多这种失业人员,基本没有希望东山再起。所谓结构性失业,大批中年人,只能等退休。除非奇迹发生,年轻人的就业问题也越来越严峻。人类必须改变和面对的是,不工作是常态,UBI 必须建设。

UBI制度(Universal Basic Income,全民基本收入)必须提上日程,这是因为生产力和GPT并不因为就业人员的急剧萎缩而降低,反而得益于技术革命而在稳步或快速增长中。两极分化必须遏制,必须防止技术革命的红利为少数人独占。否则国将不国,球将不球,人类将非人类。

我是小雅,上面播报的是《立委两分钟》的有角度的沉重思考,谢谢聆听,咱们下次再见。

短视频:大模型奥秘

llm secret

我是大模型数字主播,今天播报的题目是《大模型真经》。

尼克语录,日诵三回:“首先Church Turing thesis,其次Turing machine求逆就是所有学习,再次,所有学习可归约到ntp (next token prediction)。”

没看明白的, 再诵三回。

此乃大模型真经也!

再诵三回仍不明白的,且听分解如下。

简单来说就是,一切可计算的数据,都有个图灵自动机计算它。学习(或 模型训练)就是为制造这台自动机。而所有的学习都可以用数据驱动的GPT完成。

这就是大模型成为万能任务解锁器,成为通向AGI的不泄天机。

但天机还是泄漏了,也许上帝正好打了个瞌睡。

朋友反馈说,还是没看明白。好,咱们用老妪能解的说法试试。

首先,什么叫“可计算的数据”,就是“有规律的现象”:
有规律的现象数字化以后,就是可计算的数据。

哪些现象是有规律的呢?

其实,理论大咖们相信宇宙大部分现象是没有规律的随机现象,茫茫星际,有规律属于罕见。宇宙的本真也许就是混沌一片。

然而人类出现了,演化出文明和智能。人类的现象,尤其是智能工作的结果呈现,例如文字书籍、录音录像、艺术创造,这些人类创造物都是有规律的。例如,语言文字里面有文法和用法。绘画艺术里面有技法和风格。

把这些语言文字、音频视频等多模态的数据收集起来,灌进大模型的熔炉去炼,结果就是我们现在看到的几乎无所不能的主流大模型,以OpenAI的GPT系列为代表。

我是科技数字主播,咱们下次再见。

 

 

 

立委NLP频道

Nick tracing the AI history for theoretical foundation and sources (English)

6.99 10/15 bnQ:/ [email protected] 6月26日-English https://v.douyin.com/i6MbUvKH/ 复制此链接,打开Dou音搜索,直接观看视频!
Click this link: https://v.douyin.com/i6MbUvKH/

 

I am AI Xiao Fan, Nick's secretary, and today I'm reporting on Nick's latest lecture "Solomonoff: The Prophet of Large Language Models".

Nick needs no introduction. Besides his many roles as an entrepreneur, investor, scholar, and philosopher, he is best known for his bestselling book "A Brief History of Artificial Intelligence", which became a sensation, sold out quickly, won numerous awards, and became a legend in China's AI publishing world. We all boast about getting his autographed copies.

The following is a concise and accessible explanation of his lecture.

Let's get to know this mathematical genius with a Santa Claus-like white beard - Ray Solomonoff! Born in 1926 and passed away in 2009, this mathematical and physics double major who "mixed" his degree at the University of Chicago was no ordinary academic overachiever. He was a pioneer of independent research, using mathematical formulas to predict the future, even more impressive than fortune tellers!

Welcome to the 'old child' battle in the scientific world! On the left is Wiener, the 'godfather' of cybernetics. In 1948, he and Shannon simultaneously published groundbreaking papers, but with very different viewpoints! Wiener said: 'Control is the way', while others became infatuated with the little "demon" called 'information'. Shannon and McCarthy were like-minded, both not optimistic about Wiener's cybernetics. McCarthy even played a word game, turning 'Automata' into 'AI', ushering in a new era of artificial intelligence!

Now let's look at the 'prequel' of the AI world! Before the AI feast of the Dartmouth Conference, the big shot McCarthy was secretly writing the 'script'! His article "The inversion of functions defined by Turing machines" wasn't about how to use Turing machines backwards. This 'heavenly book' was actually discussing how to design a super problem-solving machine. McCarthy's imagined divine machine could solve all clearly defined intellectual problems. Isn't this the prototype of AI?

At the Dartmouth Conference, McCarthy and Solomonoff, these two 'mathematical knights', engaged in a fierce 'battle of ideas'! The topic? It was McCarthy's 'heavenly book'. The two hit it off and discovered an earth-shattering secret: the inverse problem of Turing machines is actually a learning problem! This discovery tightly bound AI and machine learning together! From then on, AI was no longer just about computation, but took a big step towards 'learning'. At this moment, the future of AI was completely rewritten!

"Let's look at the 'brainstorming' moments of two 'mad scientists'! First is the French mathematician Borel, who conducted a logical experiment, imagining a group of monkeys randomly hitting typewriters, eventually producing the complete works of Shakespeare! Isn't this the infinite monkey theorem?
On the other side, the Argentine literary giant Borges conceived a 'perfect library' in his short story, containing all possible combinations of books.
These two ideas are simply the prophets of AI and big data! Borel and Borges, one using mathematics, the other literature, were both imagining the sequential possibilities of information."

"At the Dartmouth Conference, Solomonoff, like a magician, pulled out a mysterious typescript 'Inductive Inference Machine' from his hat. This move captivated everyone! Scientists who were originally obsessed with neural networks all 'defected' and embraced symbolism. But look at this dramatic twist! Years later, it was the 'abandoned' neural networks that truly realized Solomonoff's induction! This is like a fairy tale in the tech world - Cinderella finally put on her glass slipper and became the star of the AI ball!
Solomonoff's idea was like a seed planted, eventually blossoming in unexpected places."

"Let's look at the 'roller coaster' history of the AI world! Connectionism, once an 'abandoned baby', is now the 'star' of the AI world!
Imagine this as a long relay race. At the start, there was the perceptron inspired by neurons, fearless like a newborn calf. But it soon met its 'Waterloo' with the so-called XOR problem of single-layer neural networks, and was 'banished' by the big shots.
However, in the 1980s, multi-layer neural networks and the BP algorithm emerged out of nowhere, injecting new life into connectionism. Now, deep learning is at its peak, and connectionism has made a 'dramatic comeback', becoming the 'top flow' in the AI world.

"Let's look at Solomonoff's 'magic moment' in 1960!
The first magic, minimum description, refers to compressing data in the most concise way. This idea later developed into 'Kolmogorov complexity', that is, K-complexity, becoming the core of large model theory.
The second magic, prior probability: the initial estimate of the possibility of an event occurring without specific information.
These two concepts seem simple, but contain profound insights. They provide a whole new perspective for us to understand information, complexity and learning, directly influencing the later development of artificial intelligence and machine learning"

In 1961, AI guru Minsky wrote an important article mentioning concepts such as machine theorem proving, neural networks, machine learning, reinforcement learning, etc., which was simply the secret manual of the AI world! He cited 95 references, 4 of which were Solomonoff's, showing his high regard for Solomonoff. Interestingly, it was neural networks that first realized Solomonoff Induction, which is an unexpected twist!

In 1964, Solomonoff published a groundbreaking paper titled "A Formal Theory of Inductive Inference". This paper can be considered the "secret manual" of the AI field, detailing how to describe inductive reasoning using mathematical language. Simply put, it's about learning patterns from data to predict the future! This paper is Solomonoff's "masterpiece" on inductive reasoning, establishing his status in the machine learning field.
The second part of Solomonoff's paper gives examples of applying the formal theory of inductive inference to different problems. One of these examples is grammar discovery, that is, how to learn the grammatical rules of a language from observed language data. This example, in today's view, is the problem of language learning, i.e., how machines learn language like humans do. Solomonoff also discussed a deeper question in the paper: Is language equivalent to thought? This question still doesn't have a clear answer today, but Solomonoff's research provided us with a new perspective to think about this question.

Solomonoff developed a strong interest in how scientists discover things and tried to find a universal method of scientific discovery. This interest led him to start researching inductive reasoning and eventually propose the concept of algorithmic probability.
In his academic career, Solomonoff applied inductive reasoning to fields such as language learning, achieving important results.

Soviet mathematician Andrey Kolmogorov is known as the "universal mathematician". In the field of computer science, he mainly has two major contributions:
Kolmogorov Superposition Theorem (K-A-N): This theorem is related to the famous Hilbert's 13th problem, involving function representation and approximation.
K-complexity: This is a method of measuring information complexity. It defines the complexity of an object as the length of the shortest program that can generate that object.
In addition, Kolmogorov had unique insights into cybernetics and information theory. He believed that cybernetics lacked inherent unity, but expressed agreement with information theory. This view is consistent with those of Shannon, McCarthy, and others.

Kolmogorov thought that information theory was like a hodgepodge, with three different approaches:
Counting School: Like rolling dice, looking at how many times a certain number appears.
Building Blocks School: Focusing on the number of building blocks and how to combine them.
Programming School: Viewing information as a program, with shorter programs being simpler.
K-complexity is the representative work of the "Programming School". Simply put, it measures how complex something is by how short a program is needed to describe it.
Interestingly, K-complexity and Solomonoff induction are actually talking about the same thing. Solomonoff induction believes that simpler things are more likely to occur.

Chaitin was a prodigy, publishing his first paper in IEEE Transactions on Electronic Computers at the age of 18. At 19, he independently rediscovered the ideas of Solomonoff and Kolmogorov in a paper published in JACM.
Starting from Berry's paradox, Chaitin believed that naming an integer is equivalent to writing a program that can output this integer. Most integers can only be named by directly printing themselves, with no more concise representation method. These integers are viewed as "random" under the framework of Kolmogorov complexity because their complexity is comparable to their length. Chaitin's view is consistent with Kolmogorov's idea, both emphasizing that most objects (or integers) are incompressible, i.e., their complexity is comparable to their length. This means they have no simpler representation method and cannot be concisely explained.
This inexplicability or randomness is ubiquitous in nature. For example, most DNA sequences, physical constants, and natural phenomena have no obvious patterns to follow and cannot be explained by simple formulas or theories. On the contrary, explicability (i.e., phenomena that can be described or explained in a concise way) only appears occasionally.
Leonid Levin proved two theorems in a two-page paper published in 1972:
Theorem 1: NP-completeness, i.e., the Cook-Levin theorem, which made an important contribution to the development of computational complexity theory.
Theorem 2: A generalization of Kolmogorov complexity.

Charles Bennett proposed the concept of logical depth, which considers the running time of the shortest program needed to generate an object. The parameters of large language models can be seen as the amount of information stored internally in the model. Therefore, it is reasonable to compare model parameters to K-complexity. It is also reasonable to compare the inference time of large language models to logical depth.
Ming Li is a distinguished professor at the University of Waterloo who has made outstanding contributions in the fields of information theory and bioinformatics. He extended K-complexity from a single sequence to two sequences, which can measure not only the information within a single sequence but also the information between two sequences. This is of great significance for universal large models to define universal tasks and complete various tasks through unsupervised learning. His book "An Introduction to Kolmogorov Complexity and Its Applications", co-authored with Paul Vitanyi, is considered a classic in the field and has had a profound impact on the development of information science.
Marcus Hutter is a computer scientist with a background in physics. He proposed the AIXI universal artificial intelligence framework and believes that language modeling is essentially compression. He applied Solomonoff induction to explain agents and reinforcement learning, believing that the learning process is a compression process, and is dedicated to researching universal artificial intelligence.
In his Berkeley lecture, Ilya, the former soul figure of OpenAI, revealed the connection between supervised learning and unsupervised or self-supervised learning. Ilya claimed that he independently came up with the idea in 2016 that all supervised learning can be reduced to self-supervised learning, tracing back to compression theory based on K-complexity. Ilya firmly believes that simple autoregressive GPT models can demonstrate super intelligence on super large data.
Let's review the timeline of model development: The deep neural Transformer architecture was proposed in June 2017, and the BERT model was proposed in October 2018. OpenAI's GPT series models started from June 2018, successively launching GPT, GPT2, and GPT3, now up to GPT4, becoming the industry mainstream.
To summarize, the first step of Solomonoff induction is to collect observational data. The second step is to form hypotheses to explain the data: hypotheses can be a Turing machine or a data-driven large model. The third step is experimental verification. If the data falsifies, return to step 2 to form new hypotheses.
Large models follow Solomonoff induction's approach to train models and their inferential applications.

Looking back at the entire history, perhaps it's not that theory lagged behind practice, but that it was too far ahead.

I am Xiao Fan, Nick's digital secretary. Thank you for following Nick's journey to explore the theoretical origins of large models and the historical changes in AI. We'll meet again.

 

立委NLP频道

《谈两种复杂度》短视频科普

我是AIGC频道数字主播小雅,今天播报的立委两分钟的题目是“两种复杂度”。
我们要区分两种"复杂度"。一种是 Kolmogorov 复杂度(K氏复杂度),它指的是描述一个对象所需的最短指令的长度。另一种是模型复杂度,它指的是机器学习模型本身的参数数量或者灵活性(模型的大小)。
当我们说数据的最简洁表示就是 K氏复杂度时,我们指的是第一种复杂度。K氏复杂度衡量的是数据的内在信息量(类似于以前所说的深层结构、语义表示),并非数据的表面形式。比如,一个看似随机的字符串,如果它实际上是由一个简单的程序生成的,那么它的 K氏复杂度就很低。换句话说,K氏复杂度反映的是数据的规律性和可压缩性。
当一个机器学习模型的参数过多,灵活性过高时,它可能会过度拟合训练数据中的噪声,导致在新数据上的泛化能力下降。这时我们说模型过于"复杂",需要通过缩小模型的规模或使用正则化等技术来限制其复杂度。
一个好的无监督学习模型应该能学习到接近数据的 K氏复杂度的表示(所谓无损压缩的理想)。也就是说,模型应该能抓住数据的内在规律,用尽量简洁的方式来表示数据,而不是简单地记住数据的表面形式。
这一点为什么重要?
换句话说,不懈追求无损压缩的理想为什么是获得智能的关键?
信息的无损压缩(注意不是指传统的表层模态形式的无损压缩,例如音乐的无损压缩只是形式的无损压缩,与这里讲的信息内容的无损压缩不同)以达到K氏复杂度为天花板。换句话说,任何数据对象的K氏复杂度等于是该对象的深层语义。在深层语义的层面,不同数据的相同的语义就可以自然对齐,从而帮助实现不同数据的相互转换。这是对作为压缩器的大模型能够完成任何端到端AI任务(即逼近任何函数)的信息论意义上的解释。
形式之间的转换作为智能任务,无论是机器翻译,还是文生图,图生图,文生音乐,文生视频,图生视频,看图说话,等等,都有一个预设。那就是输入和输出具有类似的意义,即有可以相通或对齐的K氏复杂度。
完全不相干的形式无法转换和映射,也就不会具有相同的K氏复杂度。例如心电图与交响乐,就不兼容。它们各自的K氏复杂度对于对方等同于随机噪音,没有 shared 信息可以作为映射的依据。当我们说大模型像个魔术师,可以把任何形式转换成任何其他形式。其实里面蕴含了一个前提,就是转换的形式之间有可以对齐或意义兼容的 shared 深层结构,在意义空间它们是可以相互关联的。这个预设通常不需要特别明示,因为这是不言而喻的,而且在实际的AI应用中,人类想要模型帮助达成的某个智能任务,会自然而然遵循这个预设。否则,那个胡乱转换的智能任务指令就是一个不可理解的目标。人类自己都不理解目标是什么的话,也就谈不上是个正经的“任务”,也无法给出达成目标的任何黄金标准。
当通用大模型把 input pattern 和 output pattern 都能压缩得很好的话,二者在意义空间的对应关系就剩下一层窗户纸了。大模型在多语言机器翻译上的成功是上述解说的最典型的显现。
对于一个数据集C做压缩,目标当然是C的K氏复杂度,模型F的复杂度必须恰到好处,F不能太大,也不能太小。太大,譬如 模型规模大于数据集,就 overfitting,就无法逼近K氏复杂度。太小,模型“吃不下”数据,也不能做到好的压缩。scaling law 虽然是个经验法则,但理论规定了大模型与大数据之间适配边界,具体的适配比例,决定于实际效果的实验。
我是小雅,每次两分钟,分享立委先生对于AI大模型的有角度的思考。谢谢聆听,咱们下次再见。

 

【相关】

 

《介绍监督学习的数学原理》短视频科普

9.46 [email protected] 09/17 mQK:/ 科普 # aigc https://v.douyin.com/ijouUSBq/ 复制此链接,打开Dou音搜索,直接观看视频!

https://v.douyin.com/ijouUSBq/

我是AI大模型频道小雅,今天播报立委先生的短评《介绍监督学习的数学原理》。
Open AI 前灵魂人物伊利亚曾经在伯克利给了一个 talk。这是注定载入史册的一次演讲,阐释非监督学习的GPT突破原理。这个演讲的开头部分讲的是监督学习(supervised learning)的数学原理。咱们今天先从这个比较容易的知识点开始讲起。
说的是数据大模型大就是模型强的道理。暴力美学,美就美在,大即是美。插一句,这与唐代的审美观貌似相若:肥即是美?嘿嘿...
说监督学习的数学保证,意思是,足够大的数据,足够多的参数,就会有足够高的精度。伊利亚为了怕“过拟合”(overfitting),特别强调了 数据规模必须大于模型规模这个业内常识。“过拟合”的时候,训练误差虽然小,但测试误差降不下来。如果要让训练误差反映模型的实际能力(即测试误差),这是一个必要条件。否则,模型根本就不用做真正的抽象或“压缩”,不去找规律,它就全部死记硬背了。我们知道死记硬背的模型,缺乏泛化能力。它在训练集上可以考高分,但到了盲测的时候就抓瞎了,模型的质量得不到保证。所以给出的原理公式里面必然有模型大小这个变量,事实上这是一个决定性因素。数据量的增长会导致偏差指数级下降,保障模型质量的持续上升。
伊利亚说监督学习没有问题,有理论上的保证。所谓理论就是那个统计学习的Hoeffding 不等式,说的是,随着训练样本数量增加,测试偏差超过一定阈值的概率会呈指数级下降。其主要含义是:当训练数据足够大,训练误差足够低,且训练数据远大于模型规模的时候,模型的泛化能力和精度是有保证的,这就是监督学习能够起作用的理论基础。
这个其实我们早就知道了,第一,宏观上和理论上,“万能近似定理”(UUniversal Approaximation Theorem)早已论证了深层神经网络可以逼近任意函数。这其实是 scaling law 的源泉。第二,当代 AI 历史上,12年前的深度学习革命就开始证明,只要有足够带标数据,神经网络就可以让“老母鸡变鸭”,或做任何其他变换。
但具体说来,为什么大模型一直强调“大”呢(模型大就是模型参数多),但现在似乎又在强调不能太大?那是因为数据超大的时候,模型不大,就消化不了。前大模型时代的传统机器学习就有这个问题。传统机器学习算法总体而论复杂度不够,模型过小,你给再多的数据也没用,它肚子小,吃不下,质量很容易达到一个点就基本 stuck there 了。深层的神经网络在原理上解决了这个问题,你总可以根据你的数据来决定需要多大多深的网络来适配才最佳。这是大模型之所以要大的一面。但也不能太大,要与数据规模拉开距离。换句话说,大数据必须大于大模型,这才是 scaling 的有效适配。
ChatGPT 出来的时候,模型参数与模型数据是一个量级的,其实现在看来是某种过拟合了。GPT4 超过 ChatGPT3.5 的一个很大的原因,可能就是因为调整了这个比例。
我是小雅,上面分享的是立委先生每次几分钟关于大模型的有角度的思考,希望对您有启发,咱们下次再见。

【相关】

《谈谈端到端和大模型》短视频科普

我是科技频道小雅,今天播报立委先生的短评《谈谈端到端》。

端到端(end to end)的扬名天下是伴随深度学习革命而来。那是十多年前的时候,那时候大模型还没有诞生,但深层神经网络已经革命了,表现在解决了端到端的监督学习(supervised learning)的问题。这一波监督学习的大革命横扫了图像、语音与机器翻译。但在多数NLP任务上遭遇了瓶颈。
就是说,可以把深度学习看成一个黑盒子,任何AI智能定义都可以在这个盒子的两端定义输入和输出。解决了监督学习指的是,只要有足够大的输入和输出的对齐数据,即所谓带标数据(labeled data),深层神经网络就可以搞定它。这与前深度学习时代不同,以前的传统机器学习算法是搞不定的,即便有海量的对齐数据,因为学到了某点就 stuck there,不像深层神经那样的大肚子有消化力。深度学习可以搞定,背后有著名的万能近似定理,意思是,只要数据足够大,模型参数足够多,多层神经网络的精度理论上可以持续提升。

但是在大模型(LLM,Large Language Model)出现之前,只有监督学习搞定了端到端定义的任何AI任务,而缺乏带标数据的非监督学习还是搞不定。多数NLP任务,例如信息抽取、问答等都属于此类,这就是所谓带标数据的NLP知识瓶颈。

基于transformer架构的大模型的出现,尤其是 GPT的 next token prediction 的自回归学习突破了这个知识瓶颈。从此,非监督学习也可以搞定端到端定义的AI任务了,横扫了NLP各个任务,包括机器翻译、文摘、问答、聊天、辅助写作等。近几个月,多模态数据加入了大模型以后,同样的架构和原理也基本搞定了文生图、图生图、文生音乐、看图说话、文生视频、图生视频,等等等等。

基本上,对于一个多模态大一统的大模型,只要有足够的多模态的原始数据,任何模态理论上可以转换成任何其他模态。端到端于是成为大模型在大数据上完成各种AI的一个最典型的任务定义方式。

这是怎么搞定的呢?背后的理论是 K氏复杂性定理(Komogorov complexity),又叫所罗门诺夫归纳法(Solomonoff induction),伊利亚的伯克利讲演通篇就是在说这个道理:非监督学习,与监督学习一样,可以搞定任何端到端的智能任务。如果有足够的(不需要标注的)原生数据(raw corpora)的话,GPT 可以自动去做对齐,最多是加上一层薄薄的少样本(few shots)的模型微调来触发这种对齐。

总结一下,端到端是定义AI任务的万能范式。深层神经网络在足够大的数据支持下可以搞定端到端的任务。具体说,监督学习需要足够的带标数据支持,非监督学习需要足够的原生数据支持。大模型属于非监督学习搞定AI的最新主流。这是因为原生数据可以真正规模化,非监督学习(其实是“自监督”学习)自然唱起了主角。

我是小雅,上面分享的是立委先生每次两分钟的有角度的思考,希望对您有启发,咱们下次再见。

我是科技频道小雅,今天播报立委先生的短评《谈谈端到端 第二部分》。

接着上次的话题深入谈谈端到端与大模型的关系。

声称大模型是通向通用人工智能(A-G-I)最靠谱的道路,里面有个预设。预设是 A-G-I 是可以端到端定义完备的,如果有人能指出人类智能的一些东西是无法用端到端数据来定义,譬如 灵感、爱情、自我意识等。那么我们起码可以得出结论: 大模型走出来的AGI 是不完备的,有某种异于人类智能的根本缺陷。

但其实,做这样的挑战也不容易,因为你可以 argue 智能 x(例如灵感、意识、爱情)不能用端到端数据来表示,但你必须用其他方式给x做一个形式化的清晰定义,否则就难免玩弄概念之嫌。你的智能x需要具有可证伪性,而不是张口一说,宣称一下此乃人类专属,机器模型无从染指。有谁清晰定义清楚过非端到端的x吗?

也许限于孤陋寡闻,我没看到。谈人类智能的不少吧,但具有可证伪性的智能定义,除去端到端数据的方式的,还有哪些?

这是从任务角度看 end to end : 如前所述,它实际上成为智能任务定义的通用范式。

从系统的内部构造与实现智能任务的角度看,端到端模型是与 pipeline 的显式模块化模型相对照的,这是多数人理解的端到端系统,近义词就是“黑盒子”。

pipeline系统与端到端系统不同,pipeline内部的模态之间有可以清晰定义的中间结果作为连接模块之间的接口纽带,可以透明化做内部模块的测试,而大模型 或 多层神经网络 的系统,则难以清晰定义内部的接口。例如大模型里面的前馈多层网络看上去也是一个内部的 pipeline,但层与层之间是很难定义清楚接口的,最多是个模糊的大概。例如,原则上我们知道,后层的网络比前层的网络具有更抽象的意义或结构表示。不过这通常并不影响我们达成我们的端到端定义的任务目标,只是可解释性和定点纠错的能力确实不如透明的符号逻辑的pipeline系统。

无论大模型,还是传统机器学习,还是老古董的符号逻辑系统,都可以在通用的端到端数据集定义的任务上,一比高下。数据集一分为二, 一部分做训练集或开发集,另一部分做盲测集。历史选择的结果是,可以利用超出训练集外的原生大数据的大模型是压倒性的。这里面的奥秘值得写一篇专门的文章去进一步阐释、解说,迄今科学传播在揭示大模型奥秘上做得还很不够。

老友问:这里有个问题,为什么要把自学习归类为非监督的学习?NTP不是明显的监督学习么,每次都在用NT作为答案去降低loss。只不过这种监督数据比较特殊,是人类的一种活动中自然而然的留下了,不需要额外标注。

这是个非常好的问题。其实非监督学习有两个定义,一个是用否人工标注数据作为监督和非监督的分界 。另一个是用学习的目标函数来定义:有绝对黄金标准的学习是监督学习,反之是非监督学习,后者的一个典型任务是所谓聚类(clustering)。clustering 与 classification 最大的区别是前者无监督,结果没有预定,而后者是先有 labels 然后去分类。

这个话题值得深究。从学习的机理上看,“自监督学习”(即,自学习)本质上也是一种监督学习。自学习大模型的成功,实际上在深度学习革命搞定监督学习的那一天就注定了自己的宿命或使命,深层神经网络是天选,是有通用近似定理保障的“天机”。只不过,理解这一点需要对黄金标准做一个拓展。自学习实际上是监督学习与非监督学习的某种结合。

第一,自学习是自己给自己做标准,属于所谓回归类训练,只有正例,没有负例,这一点是非监督学习的特征。自学习是回归类预测模型,这与典型的clustering是一致的:就是说,在学习之前,并不存在一个固定的黄金标准。

第二,在自学习 利用了而且最大化了监督学习的无限逼近的能力方面,也就是在遵循了万能近似定理所决定的规模化法则(scaling law)方面,在实现层面,一线研发人员发明了一个技巧,所谓“掩码”,就是遮住部分字符让系统去猜谜,类似于填字游戏或接龙游戏。这样就把没有labels的自学习,转换成了有目标的监督学习范式。

著名的下一词预测(ntp)的自回归接龙式训练,是掩码学习的最成功的范例,成就了GPT的主流霸主地位。这里面的奥秘就是所谓K氏复杂性理论,可以视为万能近似定理的一个细化版本,为解决非监督学习的通用大模型搞定端到端任务提供了理论基础。
上面的说法搞不懂也没关系,本来就不是很好理解的理论。但结果是很明显的,人类只要说话或写文章,就是在给大模型做标注。自学习突破了人工标注的知识瓶颈,把组织化的人工劳动改变为 自然产生的原生数据。这一优势怎么强调也不过分,算是“免费午餐”的极致,“顺风车”的天花板,非监督学习通向监督学习的桥梁。做到这一点的前提是模型的通用化(所谓“预训练“)以及定向任务通过微调的零样本化。关于少样本实现零样本的微调(fine tune)这个大模型的知识点,以前多次提过,也有很多人做过解说,此处不赘。

总之,哇塞,跨模态大模型的奇迹就这样诞生了。跨模态大模型的自学习的养料或饲料,已经不仅是人类说话、写文章了,人类的一切自然表现的智能活动,无论画画、配词、作曲、导演、编辑等等,它们所产生的数据都是自学习的饲料。不仅如此,现在已经发展到非人类的产出,由模型再生的数据,也可以反哺给自学习来自提升。

我是小雅,上面分享的是立委先生每次几分钟的有角度的思考,希望对您有启发,咱们下次再见。

 

 

【相关】

Suno prompt engineering tips

 

chinese traditional folk

chinese traditional folk, slow, Ethereal, angelic voice, zheng

Chinese Folk. Percussive. Beat Drop. slow. guzheng

chinese folk. Inspired Pop Ballad. Clear Voice, Moderate tempo

chinese traditional folk, slow, Ethereal, angelic voice, zheng

 

 

 

 

Chinese Folk. Dark Pop. Percussive. Beat Drop

Chinese Folk. Pop Rock. Percussive. Beat Drop. guzheng

chineses Folk. Cinematic Rock. Epic

 

 

国语 playlists:

https://suno.com/playlist/945eb006-705b-4a74-a5b4-5d8e4afc4fad

 

《李白对话录新篇:谈大模型的无损压缩》

我是数字秘书小雅,今天播报《李白对话录新篇:所谓无损压缩》

李老师说:纠结有日子了,今天算是搞明白了,关于无损压缩的问题,原来很简单:

无损压缩是一个点,一个终点,是目标函数。这与有损压缩不同,有损压缩是一条线,a spectrum。说当代大模型在做无损压缩,是从目标上说的,当然没错,的确是朝着无损压缩的目标去的。我们怀疑LLM不是无损压缩,而是有损压缩,是从结果上说的,其实也没错。因为 有损到无损,是一个无限逼近的过程。任何一个模型在训练结束的时候,都不能达到理想的状态,自然是有损的。如果你说,自回归学习的 GPT 是一种有损压缩的学习,这可能是有问题的,你需要举证,the burden of proof is on you 而不是被质疑者。

有损的问题不是出在这个算法或算法原理本身,就是出在训练上: 数据不足,训练不足,天才不足,money 不足,时间太紧,等等,都可能是原因。Open AI 那些人坚信 GPT 是无损压缩,传达的意思是,算法本身没问题,是无损压缩,就是要挤出海绵里面的每一滴水,就是要压缩到理想状态,这才能穷尽数据背后的大大小小的各种patterns和知识。但实际上的模型,总是有损的。没关系,我们继续逼近,但不需要改变路线和算法,只要沿着 scaling law 一直做下去,我们就可以无限逼近(虽然其实永远也达不到无损的“共产主义”态)。

如果对于一种类型的模型,你一开口就说这是有损压缩的模型,这不是谦虚的事儿,温良恭俭让不好使,因为你立刻会陷入困扰:

1. 你的算法一定有致命缺陷,或你的路线就错了;

2. 你不能声称了有损就完事儿,有损是需要量化的:你的算法模型到底是 5% 的有损,10% 的有损,还是 what?

如果有损是出于算法的考虑,那就要指出硬伤,需要找到某种本性上的局限,使得模型永远都做不到无损。这就好比当年皮尔斯指出单层神经网络的硬伤:你不是机器学习要仿生吗,说神经网络可以解决几乎一切的问题。可是,非线性问题就是它的命门,异或(XOR)的鬼门关你绕不过去(见【读书笔记:异或门是神经网络的命门】)。同理,只有找到硬伤证明GPT 的 ntp 的训练方法有本性上绕不过去的坎儿,有人找到硬伤了吗?

嗨,这么个简单问题,回想起来,纠结了大半年了。切.....

白硕老师说:压缩的是函数不是文本。给定目标函数长什么样,数据足够大,参数就可以圆满表示目标函数。如果文本无损,那泛化就无从谈起。

李老师说:对,压缩的对象肯定不是文本。对象是函数的话,无损压缩就是 by definition,从“万能近似定理”(注:这是深度学习的理论基础,说的是带有非线性转换的多层神经网络可以逼近任何函数)出来的。

这样一来,1. 这不等于没说吗?2. 万能近似定理说的也不仅仅是 ntp(next token prediction),而是所有的多层(+激活)的神经网络啊。

总结下来就是,无损压缩就好比说了一通大话废话,永远正确(无法证伪)因为是 by definition,而且容易与数据作为对象的传统压缩定义混淆的说法。

那为什么Open AI大佬们独宠这个术语呢?为什么不用大家熟悉的术语:抽象、泛化、patterns discovery、knowledge mining 不都行吗?

能想到的理由是,“无损压缩”是目标定义,而 “抽象”、“泛化”,包括“压缩”本身,等等都不是目标,而是过程。有了目标,才能坚定信仰。

白老师说:对于数据来说,降维、去噪、归一化、softmax,都有明显的“降低数据表示复杂度”特点。所以,维纳一系的叫压缩是不难理解的,但压缩中包含了一种武断,即“你应该是什么样的”,即使你原始数据没说或者说了但与此不符。所以,维纳一系确实在压缩数据,学到的参数也确实是在表示数据。涉及到的泛化和纠错,都是对数据的一种主动的调整,是在表明“我才是你该是的样子”。

图灵一系跟着叫“压缩”,就是另外一个意思了:生成这些数据的程序即目标函数,如果是“真”随机的,那你参数体量跟训练数据必须在本质上一边儿多。只要不是真随机的,是有规律可言的,那就有压缩空间。我是真真切切在压缩一个函数。那些参数,就如同插值多项式或者分段多项式的系数一样,是表示函数的零件。

李老师说:非常有洞见。就是说:统计机器学习压缩的是数据, 而LLM压缩的是函数。

白老师阐述了维纳一系(即统计机器学习)和图灵一系(即神经网络的LLM)对于"压缩"这一概念的不同理解和应用。咱们试图理解一下:

维纳一系的"压缩": 是对原始数据进行降维、去噪、归一化、softmax等操作, 目的是降低数据的表示复杂度, 学到的参数是在表示经过处理后的数据。这种压缩是一种"带有偏见"的压缩, 即先验地认为数据"应该是什么样子",然后主动对数据进行调整。这种压缩虽然能在一定程度上实现泛化和纠错, 但本质上是对数据的一种"武断"。就好比学校老师批改学生的作文。

图灵一系的"压缩": 目标是压缩生成这些数据的程序即目标函数本身。如果数据不是完全随机的, 而是有内在规律的, 那就存在压缩目标函数的空间。这里压缩的对象是生成数据的函数, 而不是数据本身。模型的参数如同插值多项式或分段多项式的系数, 是表示目标函数的"零件"。

但听上去,二者还有很多 overlapping 的感觉。

白老师说:overlapping的地方,正是两派吵架的地方。

李老师说:先验的标准也不是凭空来的,所以压缩数据,与压缩“压缩数据”的函数,有某种效果上的雷同和一致性。

数据驱动+先验【约等于】 没有解析解的目标函数?

白老师说:这意味着维纳和图灵在走向合流。

李老师说:无论统计还是神经,都不是还原原文意义上的无损压缩。这样 coin 过来一个术语,简直就是“蓄意”误导。

如果连我们老司机都被误导过,可想而知对于普罗大众有多大的误导。

 

我是小雅,以上就是立委先生最新博客的两分钟播报,分享关于大模型和AI的有角度的思考。咱们下次再见。

 

【相关】

读书笔记:异或门是神经网络的命门

两分钟谈一下啊:模型训练的内插与外推

520 Suno Specials: I heart u

https://suno.com/song/86e41f02-786d-4560-bcf7-42adeb830496

https://suno.com/song/25d65f8f-e08f-4959-8105-0b74aa8c1a67

https://suno.com/song/c7ed177c-7e59-4c3f-8f77-5412894b95a1

https://suno.com/song/648ce424-0ccd-416c-8486-4c2dbcaeb6fd

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/0ee03f81-45ed-44ba-984f-b70f04fbd217

https://suno.com/song/2458e60c-e7e6-469f-8d31-c43a880b6f6e

 

【相关】

【唐诗300首 AIGC 配乐: 李商隐 无题】

锦瑟
锦瑟无端五十弦,一弦一柱思华年。
庄生晓梦迷蝴蝶,望帝春心托杜鹃。
沧海月明珠有泪,蓝田日暖玉生烟。
此情可待成追忆,只是当时已惘然。

 

相见时难别亦难, 东风无力百花残。
春蚕到死丝方尽, 蜡炬成灰泪始干。
晓镜但愁云鬓改, 夜吟应觉月光寒。
蓬山此去无多路, 青鸟殷勤为探看。

 

夜雨寄北
君问归期未有期 巴山夜雨涨秋池
何当共剪西窗烛 却话巴山夜雨时。

Suno:《立委:女神》

【女神新版】

manderin Chinese, Modern Classic, Guzheng & erhu & Chinese flute & Cello, Slow, Sad, Mellow

April 22, 2024 at 3:48 AM

[Intro With Guzheng]
[Verse 1 Climb]
我心中有无数的诗歌,
虽不华美情感却真,
乏味的数理化将它掩遮,
可惜,却无遐一一去写.
[Bridge]
古代那些绝代的美人,
如中国西施希腊海伦,
她们的才能没人提起,
只是虚名儿后人喜欢
[Chorus 1 Climb] 
谢道韫倒是出名的才女,  
林黛玉更是盖世绝伦.  
可她们何能与你相比呀,  
你才是熔化一切的女神!  

[Break] 

[Chorus 2 Climb] 
单恋的苦痛, 多少人熬过!  
是人, 谁不把女神爱慕?
 
谁不把女神爱慕? 
谁不把女神爱慕? 
谁不把女神爱慕?  

[Hook] 

[Chorus Climb] 
轮廓略显 
挟着寒气,  
夜神抚我脸  

[Hook Climb] 
万籁俱寂,  我却听出了音响:  
嗡嗡嗡,象蜜蜂,  
___是我生双翼的耽想.  


[Outro] 
耽想中的她 亲近又遥远 
细语蜜蜜 笑窝浅浅 

[fade] 
[End]

manderin Chinese, Modern Classic, Guzheng & erhu & Chinese flute & Cello, Slow, Sad, Mellow

April 3, 2024

[Intro With Guzheng] 

[Verse 1 Climb] 
我心中有无数的诗歌,  
虽不华美情感却真/切,  
乏味的数理化将它掩遮,  
可惜,却无遐一一去写.  
(却无遐一一去写) 

[Cello & Piano] 

[Bridge] 
古代那些绝代的美人,  
如中国西施希腊海伦,  
她们的才能没人提及,  
只是虚名儿后人欣钦.  

[Chorus 1 Climb] 
谢道韫倒是著名的才女,  
林黛玉更是盖世绝伦.  
可她们何能与你相比呀,  
你才是熔化一切的女神!  

[Break] 

[Verse 2 Climb] 
古代那些绝代的美人,  
如中国西施希腊海伦,  
她们的才能没人提及,  
只是虚名儿后人欣钦.  

[Pre-Chorus Climb] 
女神一蹙,倾城倾国;  
女神一悦,飞魂散魄.  

[Chorus 2 Climb] 
单恋的苦痛,多少人熬过!  
是人,谁不把女神爱慕?  

(羡慕了)
谁不把女神爱慕?  
[Hook] 
[Break] 

[Verse 3 Climb] 
(夜,己经两点,  远近几只梦的眼.  
有绿色的,有黄色的,  )

一闪.一闪.  

[Chorus Climb] 
乌青的穹隆,  轮廓略显.  
挟着寒气,  夜神抚我脸.  

[Hook Climb] 
万籁俱寂, 我却听出了音响: 
嗡嗡嗡,象蜜蜂, 
___是我生双翼的耽想.  

[Fade Out] 
[Outro] 
耽想中的她, 亲近又遥远. 
细语蜜蜜, 笑窝浅浅. 

[Chorus Climb] 
乌青的穹隆,  轮廓略显.  
挟着寒气,  夜神抚我脸.  

[Hook Climb] 
万籁俱寂, 我却听出了音响: 
嗡嗡嗡,象蜜蜂, 
___是我生双翼的耽想. 

[Fade Out] 
[Outro] 
耽想中的她, 亲近又遥远. 
细语蜜蜜, 笑窝浅浅. 
[End] 


from 《朝华十一:   青春恋曲

MV《女神》首版(小雅 Maria 出演)

与湾区著名男高音猫哥的对话:

立委:来一首古风纯粹的制作。年少时的80年代涂鸦之作。恍如隔世,情愫依稀。(from 《朝华十一: 青春恋曲(同桌的她)》) 。

猫哥:@wei li 很棒![ThumbsUp] 可以作为电视剧 主题歌了[Grin]。不过 我还是希望小雅的脸上有颗痣什么的会更迷人,制作起来可能会有挑战?!

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十一:   青春恋曲

Suno:《立委:Esperanto: Al Nia Kara Lingvo(世界语之恋)》

《立委:世界语之恋

Medieval, Male Singer, Ars Antiqua, Storytelling, Bard, Lute, Italian style, Esperanto Song,

April 4, 2024

[Verse 1] 
La lingvo gracia, kara mia, 
Ghis kiam vi venis al mi fine fin'? 
Atendis soife mi, eterne via, 
MI AMAS VIN ! 

[Chorus] 
MI AMAS VIN ! 
MI AMAS VIN ! 

[Verse 2] 
Mi amas vin vere, pruvu Dio, 
Kaj mia bon-koro batas nur por vi; 
Ne plu sekreteto estas tio: 
VIN AMAS MI ! 

[Chorus] 
VIN AMAS MI ! 
VIN AMAS MI ! 
VIN AMAS MI ! 

[Bridge] 
Chu kredas vi mian amon maran? 
Chu kredas, ke mia koro flamas? 
Chu kredas la vorton pure karan: 
VIN MI AMAS vin! 

[Chorus] 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin! 


[Verse 1] 
优美的语言,我的亲爱的, 
到什么时候你最后来到了我这儿? 
我渴望地等待,你的永远的, 
我爱你! 

[Chorus] 
mi amas MI AMAS VIN! 
mi amas MI AMAS VIN! 


[Bridge] 
你相信我的大海一样的爱吗? 
相信,我的心燃烧吗? 
相信纯粹地亲爱的词吗: 
我爱你 vin! 

[Outro] 
VIN MI AMAS vin! 
VIN MI AMAS vin! 
VIN MI AMAS vin!

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十七: 我的世界语国

Suno:《宋輝:人生笑话》-- 献给插队一代人

《宋輝:人生笑话

[Verse 1]
记得我在課桌旁,
與理想青梅竹馬;
突然被告知,
你的理想不應該在這裡,
而應該在田間、地頭、鄉下;
於是,我放下書包,打起背包,
向著一個迷茫的目標出發。
驀然回首,
碎落了一地芳華。
驀然回首,
碎落了一地芳華。

[Chorus]
驀然回首,碎落了一地芳華
豁然醒悟,人生原來就是个笑話

[Verse 2]
四十年前,
我有了自己的一個家,
有了一個嗷嗷待哺的娃娃。
我多想攜妻帶子,
去海邊踏浪,
去山中賞花;
可現實是,
因为職稱
一切都要文憑說話。
我沒有選擇,
轉身去了電大夜大。
那一段生活,從來沒有
琴棋歌畫詩酒花,
攒精竭慮的,都是
柴米油鹽醬醋茶。


[Chorus]
驀然回首,碎落了一地芳華
豁然醒悟,人生原來就是个笑話

[Outro]
再過三十年,
我們當中,還有人在嗎?
請準備紙錢一堆,
爐香一把,
將我們的名字,
在青煙中融化。


smooth ballad

其中,“再过30年” 【已是风烛】 “我们当中 还有人在吗”?

貌似 suno 顺着 next token prediction 加了 【已是风烛】代替了原词中的 “2050”,这是很有意思的【合理】“幻觉”现象?我灌输给 suno 的可是原词啊。歌词产生的背景资料如下:

坐下,歇著吧!。

中共開國上將宋任窮的兒子宋輝,在中國藝術家群裡發了一首詩,讀起來感慨萬千。那句“驀然回首,碎落了一地芳華”和那句“老年了,才豁然醒悟,人生原來是笑話”不知擊中多少同齡人。
宋輝是老屆知青,1968年下鄉到吉林燒鍋店, 現在旅居美國弗吉尼亞州。

人生原來是笑話!

作者:宋輝

五十年前,我在課桌旁,
與理想青梅竹馬;
突然被告知,
你的理想不應該在這裡,
而應該在田間、地頭、鄉下;
於是,我放下書包,打起背包,
向著一個迷茫的目標出發。
驀然回首,
碎落了一地芳華。

四十年前,
我有了自己的一個家,
有了一個嗷嗷待哺的娃娃。
我多想攜妻帶子,
去海邊踏浪,
去山中賞花;
可現實是,
聘位職稱
一切都要文憑說話。
我沒有選擇,
轉身去了電大夜大。
那一段生活,從來沒有
琴棋歌畫詩酒花,
殫精竭慮的,都是
柴米油鹽醬醋茶。

三十年前,多美好的壯年,
藍天麗日,青松如塔。
可上老下小,葷七素八,
千頭萬緒,生活重壓。
女兒的成績,
費心勞神,
醫院病床上等待手術的妻子,擔憂的淚痕留在臉頰。
已有兩個星期沒去看望爹媽,
焦頭爛額的兒子,
時時把你們牽掛。
迤邐一路,風吹雨打,
嘗盡生活,酸甜苦辣。
唯一一個信念,
生活不會苦海無涯。

二十年前,女兒上了大學,
我卻永遠失去了老媽。
老人家彌留之際,
突然迴光返照,
“快坐下,歇歇吧!”
這是她一生對我說的最後一句話。
重度昏迷兩個小時後,
我母子親情的大廈崩塌。
世上那個最愛我的人走了,從此後,
再沒人喊我回家吃飯,
再沒人囑我寒衣多加。
我長跪不起,
哭得肝腸寸斷,
淚乾聲啞。

十年前,我和妻都已退休,
應女兒之邀,
飛到了弗吉尼亞。
遇到的很多事,
令人感慨,
看到的好些事,
讓我驚詫。
抱起外孫女,
粉糰的小臉,
笑靨如花;
我卻暗自嗟呀,
喊了一輩子打倒美國佬,
這個小美國佬,
就誕生在我家。
小時候,相信人生是童話,
長大後,希望人生是神話,
老年了,才豁然醒悟,
人生原來是笑話!

再看這張小臉,
黃皮膚,黑眼睛,黑頭髮;
還是龍的傳人,
血脈中華。

今年,我們都已年過古稀,
可還在把激情揮灑。
過去努力,是落葉隨風;
現在努力,是老樹新芽。
凡是過往,皆為序章,
人生大幕,剛剛開拉。
我不敢老去,
因為外孫還沒長大。
我最大的心願,是能看到,
外孫學業有成,
外孫女披上婚紗。

再過十年,2030
我們已經耄耋之年,
但願滿頭黑髮,滿口牙,
腿腳健,身挺拔。
我們相邀,一個都不能少,
我們出遊,路能走,山能爬。
閒看風雲變幻,
淡泊富貴榮華;
世上瑰寶千千萬,
只有健康無價。

再過二十年,2040
九十歲的聚會,我還在嗎?
我思念的同學們,身體怎樣?
是否耳不聾,眼不花?
公園裡,能跳一曲華爾茲?
歌廳裡,高歌一首茉莉花?
回憶同窗,無限傷感;
突聞噩耗,分外驚訝。
抽刀怎能斷水,
天命安可叱吒!
不管錢多厚,官多大,
閻王照樣往裡拉。
懷一份千里共嬋娟的心願,
隨緣聽命吧!

再過三十年,2050
我們當中,還有人在嗎?
請準備紙錢一堆,
爐香一把,
將我們的名字,
在青煙中融化。

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十: 插队山村

就《Suno: 望震》与音乐大家的对话

 

Nakasi, 1980s, Manderin Chinese, Hokkien Song, 国语歌, sad, Enka

April 4, 2024

 

[Introl, Piano build]

[Verse 1, Mandarin Chinese]

怎么, 大地颤微,
敢不是地震来临, 乘着人们熟睡?
我丢下诗笔跳出窗外,
蓦然记起她还在。

[Chorus]

[......?]
敢不是地震来临, 乘着人们熟睡?
敢不是地震来临, 乘着人们熟睡?

[Verse 2]

象黑色的闪电, 我猛冲进去.
她安然脱险, 我却遭了致命一击。

象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去

[Bridge]

她安然脱险, 我却遭了致命一击。

象黑色的闪电, 我猛冲进去
象黑色的闪电, 我猛冲进去
去...

魂灵似乎正听到, 她在为我哭泣
泣...

[sigh, break, instrumental build]

[Chorus]

要抵得多少 我这样的凡人, Amem,
一个完美的女神。

[Outro, Piano build]

要抵得多少 我这样的凡人
Amem!

[End]

from 《朝华十一:   青春恋曲

关于《望震》与湾区著名男高音猫哥的对话:

立委:@夏阳?声乐 必须请教你了,这一首不算口水歌了吧,我听、唱了多遍:Suno: 望震; from 《朝华十一: 青春恋曲》 。

不懂音乐,却想出一个集子,满足一下内心的音乐感受。

猫哥:@wei li 这有点像人类唱的啊

立委:电脑合成的啊,100%

第二次提到“敢不是地震来临” 前,Suno 有“幻觉”了,增添了五六个字,不知道什么词。很久没琢磨出来到底是啥,但听起来却那么丝滑,与 genAI 精神符合。似乎有点像是:“咱们不是支持为爱呀?” 如果是,那才神了,本来就是热恋歌曲。

在轻唱“她在为我哭泣”的时候,打死我也不信这是电子合成的声乐演绎。

但真假莫辨的时代的确已经降临,不仅是数字人形象,不仅是超写实语音,也包括声乐演唱。

猫哥:原始的音色哪来的?

立委:歌曲大模型的原理与其他生成式AI(genAI)模型相同:它“消化”(压缩、抽象)了它能够得着的所有的碟片(音乐训练数据),模型训练出来以后,在生成声乐演绎的时候,这些被咀嚼、嚼碎、消化了的人声,会被重新组装出来,根据不同的曲风。

猫哥:比如 男声 女声 高音 低音 是怎么确定的?

立委:内部不是显式确定的,是一个黑盒子内部,随机生成的。但外部常常是有用户的显式指令作为输入条件的。所以内部这种随机性是一种条件概率,就像风筝飘在空中,貌似是随机飘移,但还有一个牵线的人。条件概率中的条件就是人给的那些音乐描述。两次生成不可能出现同样的作品,虽然风格往往类似,因为都是同样的描述条件(Suno现在每次都生成两个平行的小样 demos,供用户挑选)。

其实 生文、生图,都是同样的原理,现在也都做到了真假莫辨。

猫哥:你可以指定它唱男声或者女声吗?

立委:可以指定。你写 male singer,它大概率生成男声(但不排除目前偶然不听指令。)。这首歌,我给的prompt指令(俗称“咒语”)是:Nakasi, 1980s, Manderin Chinese, Hokkien Song, 国语歌, sad, Enka。

猫哥:这个歌做的不错,已经有气息和情感了 。

立委:我自己挺触动的。因为是自己的真情实感写的词,虽然是40年前的作品。对它的演绎非常满意,而且有感动。

但国语,它其实还是带了口音,估计是数据中有香港、台语口音的国语歌者并不少。

猫哥:[ThumbsUp] 港澳歌曲听多了[Grin]

立委:对,模型受到数据的影响,所以出来的国语往往不是很标准。特别是第一句开口唱,一听就不是国语,虽然不影响欣赏。

猫哥:不错? 很好的尝试。等我这阵子忙过了也去体会一下

立委:大模型的好处是,虽然它比不了你们一流的歌者,但是它在走调方面比人类歌手要强,基本不会犯下低级的走调错误 -- 可是人类歌唱家,甚至明星(例如大名鼎鼎的王菲),也往往免不了“走调”,所以出唱片、送广播的时候需要做后期修正。这就好比你让大模型 ChatGPT 写一段文字,它不会犯语法错,但是我们人说话有口误、犯错却是常有的事儿。

猫哥:是一种不错的快餐音乐文化[Joyful] 也会给作曲家提供很多不一样的思路。

立委:你可以让它生成很多 demos,然后决定取舍。也可以受到启发。也可以在它生成的基础上,再做后编辑、精加工,使璞成玉。

一般而言,拥抱了AI的音乐人,肯定有机会碾压不懂或抗拒AI的音乐人,极少例外。

将来所有的行业都是如此,拥抱派碾压守旧派。因为你的生产效率大幅度提升,你就有机会把才智用在一些需要精雕细琢的地方,靠着素养和灵感,而把其他的方方面面交给模型。

【相关】

【飞哥说AI】:Suno 将如何进化

《朝华十一:   青春恋曲

老剧新编: 青涩纯真年代的情与爱

老剧新编: 青涩纯真年代的情与爱

那是“车马慢”向千年不遇的经济起飞改革开放的过度年代。是青涩纯真的最后一代。

《1980年代的爱情》讲的是最能打动我们这代人的老故事。改编自郑世平同名小说,由霍建起执导,芦芳生、杨采钰主演。

影片以1980年一个偏远的土家族县城为背景,关雨波与成丽雯之间的隐忍爱情为主线,以简单而朴实的电影视角,诠释了那个年代凄美而纯粹的爱情。雨波暗恋着丽雯并于高中毕业时为她写了一封情书。1978年高考之后,雨波成为全校唯一考上省城大学的学生并分配到小城政府工作,并下派到“公母寨”的乡镇当宣传干事,机缘巧合在供销商店偶遇暗恋女生丽雯。丽雯因需照顾下乡劳动改造的父亲而留在小寨做营业员。因重逢昔日初恋,雨波内心掀起波澜,数次与丽雯主动接触。

很少有一部作品能这样直接冲击我们的内心,没经过那个年代的人可能体会不深。zhiwen 的形象塑造太过美好,让人不忍。当年的那种爱情感受和呈现,是那个时代特有的含蓄,能换回一代人的回忆。原片还有一些插曲,增加了作品的丰富性。其中一个插曲是,男孩子还有一个追求他的女孩,名叫小雅(真地叫xiaoya,lol),以(准)女友的身份来看他,催他考研究生啥的。比起 zhiwen,这女孩显得时髦、轻佻,也“势利”一些,功利心强,不满意男孩的随遇而安不求上进。其实,liwen 也是鼓励男孩振作,走天下去闯世界,不要借酒浇愁,但 liwen 的表达和推动是那样的自然和真诚,让人暖心,这与xiaoya恨铁不成钢的抽鞭子的方式,给人感觉迥然不同。xiaoya 住在同学 zhiwen 家里,问 zhiwen:是不是你也爱他,要追他?zhiwen 说:放心好了,我不会的,我们的喜欢是不同的。其实,xiaoya 放弃追求,根本的理由就是觉得人家是大学生,自己不是,不要拖人家的后腿。

这倒不是自卑 -- 在心理上她并不觉得矮于他,而是她对本质上是等级社会的洞悉。一方面是她父母留给她的教训(有才华的父亲因为爱情留在小地方与她妈妈结婚,铸就一辈子的落魄人生),另一方面也的确是等级社会阶层跨越艰难的反映(例如:当年的农村户口就可以限死一个人的前途)。

作为观众,我们其实心有不甘:zhiwen 完全可以离开还没有完全苍老的父亲,与男孩远走高飞,去共同闯世界。但悲剧之所为是悲剧,就是要撕开人生,去揭示更深刻的人性。这是大团圆的喜剧永远达不到的深度。

最终的悲剧结尾(zhiwen身患绝症去世),更让我们欲哭无泪。上述简介视频没有再现的第二个细节也感人至深。说的是男孩离开zhiwen后去闯世界,正是国内改革开放最翻天覆地的时期(就是那时候开始的南下深圳、海南的潮流吧)。他经商、受骗、还因税务啥的问题被抓进去过。遍体鳞伤一无所有的他,重新回到家乡小镇,他再次陷入人生低谷,看不到前途。同学们为在外闯世界的他接风还是洗尘,办了一个同学聚会。zhiwen 也来了,这才有机会重相聚。

男孩喝醉了,zhiwen 给他清洗身体,一直陪他、安慰他。zhiwen 终于不再躲避,两人也肌肤相亲,缠绵浪漫,剧情很自然,镜头也很美,似乎弥补了多年的遗憾。但 zhiwen 还是再次拒绝了他留下来的请求,给男孩留下一笔自己多年辛苦积攒的一笔钱,催他上路,重新闯世界去。

作者后来的解释是,zhiwen 已经身患绝症确诊了,这是在最后给自己的心上人一个推动。某种意义上,这类剧情的编排有些老套,就好比当年《生死恋》的剧情类似。但老套的戏剧性展示的背后,是对人物和时代的震撼人心的刻画,让我们深深感动,不能忘怀。

这是近年来我看到的最让我放不下的一部老剧。一遍一遍在内心回放 回味。

Anthropic Claude 3 Tech Report 阅读笔记

与 Open AI 和 Gemini 一样,技术报告不透露技术实现细节,如具体的模型结构、训练方法、超参数设置等。

Anthropic tech report 读下来,主要感觉是

主要指标达到或超过 GPT4v,把GPT4v从LLM天花板神坛上拉下来,至少终于可以平起平坐了。这个世界变得更加有趣,因为谁也不愿意看独角戏。

以前以为 Gemini 是 GPT4v 的挑战者,后来用了一阵子发现,整体体验差太多了。但 Claude 不同,玩下来感觉很丝滑,尤其是长文本理解和问答。很开心实力派来打了擂台!

引起我注意的几个点有:

克服幻觉上大幅度进步,在事实准确性上大幅提升:Anthropic 开发了几个内部评测来考察模型回答的事实准确程度,并与参考答案对比。Claude 3 Opus 在 100Q Hard 评测(包含一些晦涩的开放式问题)的准确率达到46.5%,是 Claude 2 的近2倍;在 Multi-factual 评测中准确率提高到62.8%,而错误回答的比例减半。模型更多地表示"不确定"而不是给出错误信息。模型很大程度上学会了“不确定” 的中间状态,而不是以生编硬造的错误答案来把假话说的跟真的似的。

长文本理解的亮点:QuALITY 阅读理解基准测试是平均5000个token的长篇章,远超一般模型的输入长度。Claude 3 Opus 在 1-shot 下达到90.5%的准确率,在 0-shot 下也有89.2%,相比人类93.5%的表现,Claude 3 已经大大缩小了与人类的差距。

拒答率大幅降低:这是好消息,因为此前 Claude 一直被诟病拒答太多,因为 Anthropic 从一开始就特别强调安全合规,这方面开始是太严了,现在在技术上做了提升,大幅降低了误杀误伤,提升了用户体验,这对它与Open AI 对垒,特别重要。

这是在 helpfulness 和 harmlessness 之间取得了更好的平衡。之前的模型为了避免有害输出,往往会过度谨慎,拒绝回答一些无害的问题。Claude 3 在这方面做了优化,在无害问题上拒答率大幅降低,而在有害问题上仍保持高拒答率。Opus 的错误拒答率从 Claude 2 的35%降到了9%。通过人工反馈优化,Opus 能更好判断什么是真正有害的,什么是可以回答的。

总结一下Claude 的八大优点:

1. 多模态理解能力出色,不亚于4v:  Claude 3 能很好地处理文本、图像等不同模态的输入,并在手写体识别、视觉推理、图像内容审核等方面展现出色的性能,为发挥语言模型在现实世界问题中的作用铺平了道路。

在技术规格的脚注中, 明确说明了支持的图像格式(JPEG/PNG/GIF/WebP)和规格(最大10MB,分辨率不超过8000x8000),并建议避免使用过小或低分辨率的图像。

对低质量、手写体图片的文字识别能力出色。Claude 3 Opus能够准确地将一张质量较差、带有手写字迹的照片转换为文本,并进一步将表格形式的文本整理为JSON格式。这展现了强大的OCR和文本结构化能力。

识别图像中的物体(但拒绝识别人物), 能建立物体与抽象概念之间的复杂联系。例如:Claude 3不仅能识别出图片中的计算器,还能将其与数学、计算等概念关联起来,体现了一定的概念抽象和推理能力。(也许是多模态模型中 LLM 融合/加持的知识迁移结果?)

在预期用途部分,特别强调了多模态特性对生产力的提升,比如模型可以解读各种图表、图像(GPT4也有这个图表能力,到底强多少?), 支持更广泛的企业应用场景。

2. 在各类权威基准测试中表现卓越: 无论是在 MMLU 这样的通用推理任务,还是 MATH、APPS 等数学和编程任务,或是 RACE-H、QuALITY 等阅读理解和常识问答数据集,Claude 3 都取得了业内领先的成绩,多次超越了 GPT-4、PaLM 等强劲模型,展现了顶尖的综合能力。

在Diamond子集上,Claude 3 Opus 在0-shot CoT设置下达到了50.4%的准确率,超过GPT-4的35.7%。Diamond是GPQA中质量最高的一组问题,这表明Claude 3 Opus在处理需要专业知识的复杂问题上有独特的优势。

3. 强大的少样本学习和推理能力: Claude 3 Opus 在 GSM8K、MGSM、GPQA 等测试中,无需微调,仅通过少量样例(Few-shot)就能掌握复杂任务,特别是在 GPQA 的 Diamond 子集上,其表现已经接近人类专家水平,展现了超强的学习迁移和推理能力。

4. 多语言理解和生成能力突出: 从报告的多语言数学推理 (MGSM)、多语言常识推理 (MMLU)、多语言对话等评测来看,Claude 3 在处理英语之外的语言时也有出色表现,并较上一代模型有显著提升,使其有望服务全球用户。特别注意到,以前它的中文较拉垮,这次算是赶上来了,对国人友好啦!

5. 在开放域对话、写作等任务上的出众表现: 人类评估者在创意写作、开放讨论等多个维度一致认为 Claude 3 优于同类模型,其生成的内容更加流畅、连贯、吸引人,这将极大拓展其在内容创作领域的应用。这方面我试了一些,truly impressed,今后我会很乐意、开心滴常常使用它。

6. 在代码编写任务上的亮眼表现: Claude 3 在 HumanEval、APPS、MBPP 等编程任务上的成绩证明了其对主流编程语言的掌握能力,有望成为开发者的智能编程助手。强化了根据要求生成结构化的输出(如YAML,JSON,XML)的能力,更易于企业应用和商业部署。

7. 在长文档处理和信息检索方面的进步: Claude 3 不仅支持高达百万 token 的超长上下文(但目前生产环境还是20万),在 QuALITY 这样的长文阅读理解测试中也展现出强劲实力。CLaude 3 Opus 在20万token的超长文档上仍能保持99%以上的关键信息召回率,打破了之前大模型在处理长文档时所谓的"中间错乱(lost in the middle)"的魔咒。

Anthropic 在真实场景的评测方面也一直走在前列, ta 开创的“大海捞针(Needle In A Haystack)” 评测,成为业界衡量大模型长文档处理能力的重要标准。

8. 系统的安全评估和缓解机制: Anthropic 专门制定了负责任扩展政策(RSP),从多个维度评估了 Claude 3 可能带来的安全风险,并采取了一系列缓解措施。虽然评估表明目前还没有灾难性风险,但 Anthropic 仍然未雨绸缪,这种审慎、严谨的态度值得赞许。

具体到信任与安全方面,Anthropic 进行了全面的多模态红队测试,以减少有害输出的可能性。结果显示 Claude 3 Opus 和 Sonnet 在97%以上的红队提示中做出了无害回应,在涉及危险话题时能够巧妙地将对话引向更合乎道德的方向。

在减少有害内容方面的努力卓有成效: 红队测试表明,经过有针对性的优化和训练,Claude 3 在面对危险或违规话题时能够做出恰当回应,将对话引向更合乎伦理的方向,这将有效降低 Claude 被滥用于制造有害内容的风险。

对可能的失控风险有清醒认识:  Anthropic 一如既往大打“宪法”大旗,强调它在伦理、安全、鲁棒性方面的 leader 地位。报告坦诚地指出,随着 AI 系统能力的快速提升,其失控和被滥用的风险不容忽视。Anthropic 积极参与全球 AI 治理,推动制定相关标准,展现了一个负责任 AI 企业的担当。

代码能力是它的重要亮点,值得专门总结一下。Claude 3 系列模型在编程和代码方面,在多个权威基准测试中取得了优异的成绩。下面从四个方面总结 Claude 3 的代码能力:

在 HumanEval 评测中,Claude 3 Opus 达到了84.9% 的准确率,远超 GPT-4 的 67% 和 GPT-3.5 的 48.1%。这表明其对 Python 语言的掌握已经非常全面和深入。
在 APPS 和 MBPP 评测中, Claude 3 Opus 分别达到了70.2% 和86.4%的准确率。APPS 包含了 Python 语言的各种应用问题, MBPP 则考察了 Claude 根据问题描述直接生成正确代码的能力。这些成绩进一步验证了 Claude 3 对 Python 的熟练程度。

强大的代码理解和分析能力:
在 APPS 评测中,Claude 3 需要理解问题的自然语言描述,并将其转化为正确的 Python 代码。这要求模型不仅要准确把握问题的本质和要求,还要合理设计算法和数据结构,足见其代码理解和分析能力之强。
HumanEval 中的任务也都是以自然语言描述的, Claude 3 能高质量地完成这些任务,表明其能很好地理解代码的功能和意图。

出色的代码生成能力:
在 MBPP 评测中,Claude 3 展现了强大的代码生成能力,它可以根据问题描述直接生成正确的代码。这种 "一步到位" 的能力将极大提升开发者的效率。
即使在需要多轮对话澄清需求的复杂编程任务中,Claude 3 也能最终生成高质量的代码。这得益于其出色的上下文理解和语义追踪能力。

除了正确性,Claude 3 生成的代码在可读性、健壮性、时间/空间复杂度等方面也有不错的表现,这将有助于工程质量的提升。

在软件工程任务中的应用前景:
除了直接的代码理解和生成,Claude 3 在一些软件工程任务上也有广阔的应用前景。比如代码补全、代码文档生成、源代码转自然语言描述等。

得益于其强大的大语言模型能力,Claude 3 有望成为智能化软件开发的得力助手,协助开发者进行需求分析、架构设计、性能调优等高阶任务。

更进一步,Claude 3 或许能发展为智能化的 "软件工程顾问",为开发团队提供全流程的指导和优化建议,提升软件过程的成熟度。

当然,尽管 Claude 3 在代码相关任务上已经展现了非凡的能力,但其在真实软件开发场景中的应用还有待进一步探索和验证。看能不能对微软 copilot 构成挑战。

缺点方面:

暂不支持网络搜索(这个有点意外,因为应该是标配),知识截止2023年8月。
模型为了安全合规,拒绝识别图像中的人。

视觉理解方面,也有待更全面的评估: 虽然 Claude 3 展现了一些令人印象深刻的视觉理解能力, 如手写体识别、视觉推理等, 但报告并未系统地评测其在 OCR、目标检测、图像描述等常见视觉任务上的性能。此外, 红队测试也发现其在理解视觉内容时偶尔会出现"幻视"、遗漏违规内容等问题。未来还需在更大规模、更多样化的视觉数据集上系统优化。

报告多次提到一些评估方法还处于较早期阶段, 如对 AI 失控风险的评估、对 AI 系统生物和网络安全能力的评估等。虽然 Anthropic 采取了一些超出常规的预防措施,但评估本身还需要随着 AI 能力的进化而持续迭代。

总的来说, Claude 3 家族无疑代表了语言模型的一个新的里程碑, 构成了 GPT4 的强有力的对手(而 Gemini 整体上看,面对 GPT4 则远远不行)。Claude 3 在智能水平、多模态理解、安全评估等多个方面展现了突破/超越。Anthropic 严谨、审慎、透明的态度,在负责任 AI 方面树立了良好典范,保持了其 leader 地位。但 Claude 3 绝非完美, 在幻觉问题、评估框架等方面还有不少提升的空间。

这是从 tech report 中来的信息。至于这个系统本身,今天找机会可以做一些实测,对比 gpt4 和 claude 3 Opus,谈谈真实的个体用户体验和感受。我已经订阅了 claude 3 Opus 最新版本,随时可做对比实验。看朋友的测试便随手做的一个小学数学题,有点令人啼笑皆非:

不过,这点毛病不影响我自己的使用,我用 LLM 从来也不为了做数学。今后几个月,我会坚持同时使用 chat4v 和 claude3, 直到新的 monster chat5 或 Q* 的降临。

 

好久没经营博客了,应该恢复工作了?

前一阵子,聚焦在短视频特别是AI赋能一键成片的调研和实践,没时间写文字版的博客,这里荒芜了一段时间了。结果是零星生产了众多短视频实验室作品,发在微信视频频道和抖音上,研究实验的正业外,也算业余自娱娱人。但倒腾视频模态到博客比较麻烦,就一直没能更新了。期间不是没有心得,只是没时间整理和倒腾。

先说抖音短视频,那是个大海,基本上是自生自灭,如果没有运作,再好的作品除了亲友,基本上是无人问津,藏在深山人未识。微信视频号稍好,因为有长期积聚的朋友圈作为底盘,不至于完全的门庭冷落,但没有运营,也还是零散而缓慢。这其实与我几十年的博客一样,坚持持续记录,更多是留下足迹以及与亲友分享,而不是追求影响。

 

 

随笔:2023年终感言

老友群里女同学重播当年的几首时代大合唱《明天会更好》《让世界充满爱》以及《we are the world》,面对战乱和纷扰的2023年即将的过去,感叹道:今天的世界怎么了?回放世界和平年的几首歌,悲从中来,欲哭无泪。

有老友说我们其实都生活得更好,不是?

我的呼应是:

我们经历的80年代,心中充满希望,解放区的天是明朗的天。而现在不同。

其实,我们的父辈在刚解放的头几年也有过意气风发的美丽憧憬,《青春万岁》留下 了记录。此后的政治运动不断,才给玫瑰色的画面抹上了阴影。在大革命10年浩/劫后,邓公带给我们上大学、研究生的机会,百废待兴,百花齐放,社会充满了生机,我们充满了希望和担当。这是历史的机遇,也是美丽的邂逅。

可惜,我们经历的80年代可能是历史上的异数而不是常态。是人间的四月天,而不是寒来暑往。

现在真的不同,冬天来了。虽然物质生活比80年代提升太多,但全世界都难掩某种末日景观。包括AI,或AGI,内卷外卷的狂热和兴奋更像是飞蛾扑火,而不是希望和憧憬。集体下意识,身不由己。
因为AI,所以AI,而不是因为爱所以爱。
爱不需要理由,AI 却不能无理由疯行。

-- 虽然老马到中国居然学会了把爱与AI连上。

-- 虽然Ilya声称要给模型植入爱人类的心。

-- 虽然我们每个个体依然循着惯性或本性,总是怀念单纯爱,可面对的却是乱世怪象:信息茧房,真假莫辨,快餐文化,爽一把就死。似乎没有明天,没有盼望。

没有最差,只有更差。

这是最快的时代,也是最坏的时代。

冷战转为热战,一场增为两场。猜忌日增,信誉不再。

老大哥前两天聚会谈伊朗旅游的观感体会说得好(大意),一个系统要往下,还真TM的可以无底线向下。触底反弹的铁律失效了?

2024 人类的马儿呀,不仅仅是AI,你能慢点儿跑,稳点儿跑,带着悲悯和人心跑吗?

年终感喟,但愿非杞人之忧。

 

Tanya's Childhood 1: McDonalds

养育下一代(parenting)是人生最可回味的经历。孩子成长的花絮,时不时让人惊喜,积淀成温馨和亲情。很多父女对答妙趣横生,想起来就随手记录下来,更多的是随风飘散。人生的旅程步步惊心,支持我们走过低谷的是一种信念,为了女儿,我们不能停步。

Parenting is one of the most memorable experiences in life. The growing up moments of children often bring surprises and accumulate into warmth and affection. Many delightful father-daughter conversations are casually recorded, while others are lost with the wind. Life's journey is full of suspense, and it's our belief in our daughters that supports us through the lows, urging us not to stop moving forward.

永远的麦当劳 / Forever McDonald's

我们在水牛城的时期,一到周末,大小领导常常在工厂直销中心(Factory Outlets)不知疲倦地购物,跟厂商玩着买了退退了买的游戏。我跟往常一样,找一家附近的麦当劳快餐店,打开膝式苹果电脑,就着炸薯条,品着咖啡,上网有一眼无一眼看看老友们在闲极无聊中又整出什么让人跌破眼镜的新鲜事来,头脑里想的是怎样来写这篇酝酿已久的"麦克唐纳万岁"。还好,太阳底下没有新鲜事,只是一帮理呆在争论《十万个为什么》中的飞机为什么能飞的问题,争了几个月了,还没有结果。扯嘛,飞机不能飞还叫飞机吗?还是先回答鸟儿为什么能飞吧,飞机不就是人类的大鹏嘛。

During our time in Buffalo City, every weekend, the 'big and small bosses' (wife & daughter lol)would tirelessly shop at the Factory Outlets, playing the game of buying and returning with the merchants. As usual, I would find a nearby McDonald's, open my laptop, enjoy fries and coffee, and half-heartedly browse the internet to see what new, shocking things my bored old buddies had come up with. I pondered how to write the long-brewing "Long Live McDonald's." Fortunately, under the sun, there's nothing new; just a bunch of nerds arguing about why planes can fly, as described in books like "One Hundred Thousand Whys," without any conclusion for months. Ridiculous - if planes couldn't fly, would they still be planes? Maybe it's better to answer why birds can fly first, as planes are just the great rocs of humanity.

回到麦当劳。不管营养师怎样呼吁围剿所谓垃圾食品,也不管爱国分子怎样鼓噪抵制西方餐饮大王的侵入,麦当劳在我的心中金光闪烁,温馨惬意,有如家园。麦当劳给我的美好感觉,不在它的价廉物鲜 — 当然是新鲜的鲜,并非鲜美的鲜,毕竟是鬼子食。炸薯条和鸡块还是不错的,汉堡包在饿极时也可以下咽,比那些冷冰冰的三明治稍强。麦当劳的美好也不仅仅是它卫生亮敞的环境和茶馆一样的平易可亲的氛围。真正使麦当劳万寿无疆的是它的 Happhy Meal(儿童欢乐套餐)和它附带的儿童园地(Ronald's Playhouse)。Happy Meal 给儿时的女儿带来过无数的惊喜和欢乐,麦当劳儿童园地也见证了我跟女儿一起度过的无数美好快乐的时光。

Back to McDonald's. Regardless of how nutritionists call for a boycott of so-called junk food, or patriots decry the invasion of Western fast food giants, McDonald's shines brightly in my heart, cozy and homely. Its appeal isn't just in its inexpensive food – fresh in terms of newness, not taste, as it's still fast food after all. The fries and chicken nuggets aren't bad, and the burgers are tolerable when you're really hungry, better than cold sandwiches. But McDonald's charm isn't just in its clean, bright environment and the approachable atmosphere of a tea house. What really makes McDonald's everlasting is its Happy Meal and the accompanying Ronald's Playhouse. Happy Meals have brought countless surprises and joy to my daughter in her childhood, and Ronald's Playhouse has witnessed many wonderful moments we've shared.

对麦当劳的最初印象是我2015年前出国旅欧时形成的。一帮清贫的学生决定结伴周游欧洲各国。旅游并非阔人的专利,学生有学生的招数:买一张物超所值的铁路通票,就有了游遍欧洲的基本保障,食住行囊括了后两项。大体是白天游玩,晚上搭车加睡觉。有时一夜经过好几个国家,睡意朦胧中查验护照和签证,完了歪头再睡。一觉醒来,撞到什么旅游点,就下来走马观花。如果错过了什么名城胜景,可以转身搭车回转。随缘随机,倒也自在。这种旅行方式在学生中非常流行,对于节俭到苛刻的中国留学生更是如此。除了车票和门票(学生有优惠),唯一的开销就是吃了。旅游在外,胃口特别好,肚子时常闹意见,可旅游点的餐馆甚至小吃都价格不菲,就麦当劳的价格比较稳定。同学总结说:"Believe me, 游遍欧洲,颠扑不破的真理只有一条:麦当劳是唯一吃得起也吃得饱的所在。" 人以食为天,麦当劳的流水作业和薄利多销成全了它的餐饮业霸主的地位。

My first impression of McDonald's was formed during a trip to Europe before 2015. A group of poor students decided to tour various European countries together. Traveling isn't just for the wealthy; students have their ways: buying a value-for-money rail pass ensured basic travel across Europe, covering accommodation and transportation. We generally toured during the day and traveled and slept at night. Sometimes we'd pass through several countries in one night, vaguely waking up for passport and visa checks, then dozing off again. Waking up, we'd spontaneously visit whatever tourist spot we bumped into. If we missed any famous city or scene, we could easily catch a train back. This laissez-faire travel style was popular among students, especially thrifty Chinese international students. Aside from train and attraction tickets (with student discounts), our only major expense was food. Appetites grow when traveling, and stomachs often complain, but eating at tourist spots is expensive, making McDonald's a stable choice. A fellow student summarized, "Believe me, the only unbreakable truth in traveling across Europe is: McDonald's is the only place you can afford and get full." People need to eat, and McDonald's fast service and thin profit margins cemented its dominance in the food industry.

对麦当劳的亲密而频繁的接触,还是由于甜甜。玩具是儿童的天使,甜甜热衷于追踪麦当劳儿童套餐推出的每一款玩具,遇到她喜欢的主题,比如 Furby, Teletubby, 她总是要收集各种颜色和造型的全套才满足。为此,我也没有少吃儿童套餐,为的就是尽快收集完全。有一次我连续一周午餐吃儿童套餐, 甜甜感觉奇怪:“Dad, are you ok? Did you tell me you don't really like the McDonald's food?” 我笑笑,说:“it's not bad, actually I seem to like it. Important thing is, we got the toy”。后来甜甜终于悟出来了,跟小伙伴说:"I can't believe it. My Dad ate Happy Meals nonstop just to get a complete collection of my favorite toys." 语气里透着被宠爱的满足。

My close and frequent encounters with McDonald's were mostly due to my daughter, Tanya. Toys are angels to children, and she was keen on collecting every toy from McDonald's Happy Meals. Whenever she liked a theme, like Furby or Teletubby, she had to collect all the colors and designs. I ended up eating many Happy Meals to complete her collection. Once, I ate Happy Meals for lunch for a week straight. Tanya found it odd: "Dad, are you ok? Did you tell me you don't really like McDonald's food?" I just smiled and said, "It's not bad, actually I seem to like it. The important thing is, we got the toy." Eventually, Tanya realized and told her friends, "I can't believe it. My Dad ate Happy Meals nonstop just to get a complete collection of my favorite toys." She felt a satisfied sense of being spoiled.


麦当老儿童园地 / Ronald's Playhouse at McDonald's

在水牛城的岁月,麦当劳附设的儿童园地是我们最常光顾的场所,有吃有喝有迷宫,总有其他小朋友,甜甜在那里不到筋疲力竭不愿意回家。麦当劳迷宫,千转百迴,上下左右贯通,最受儿童喜爱。甜甜天生胆子小,很长一段时间,望宫兴叹。有一天,我们注意到麦当劳迷宫的游玩规定中写道:And parents, too! 原来允许做父母的跟孩子一块进去玩儿,于是陪着甜甜爬进那窄长园筒状迷宫通道,甜甜兴奋莫名,从此一发不可收拾。可怜我的老骨头,猫着腰跟一帮孩子在里面爬呀爬,很多家长旁观而笑。有孩子在迷宫哭闹的,就托我领孩子出宫。

During our time in Buffalo City, Ronald's Playhouse at McDonald's was our frequent haunt, with food and drink and a maze. There were always other kids, and Tanya wouldn't want to leave until she was completely exhausted. The maze at McDonald's, with its twists and turns, was a favorite among children. Tanya was initially timid, but one day, we noticed the Playhouse rules stated: And parents, too! So, I joined her in the narrow, cylindrical maze, and she was ecstatic. Poor me, crouching down and crawling with a bunch of kids, while many parents watched and laughed. When a child cried in the maze, I was often asked to help lead them out.

全家外出旅游,时常在没有尽头的高速公路上狂奔,夜色渐浓,困顿饥饿之时,我们也总是习惯地搜寻下一站的麦当劳。那金黄的霓虹灯招牌M,顶天立地耸立在那里,是温馨随意的召唤,总给我们宾至如归的感觉。

When traveling as a family, we'd often search for the next McDonald's on endless highways, especially when night fell and hunger struck. The golden neon 'M' sign stood tall and inviting, always offering a warm and casual welcome.

永远的麦当劳! / Forever McDonald's!

记于2007年母亲节

Written on Mother's Day 2007.

from

朝华之二十五:爸爸的小棉袄

写在巴别塔建成周年纪念日的文案

 

我是出门问问李维,欢迎你来到我的AI短视频频道。今天我谈谈大模型时代的 killer apps 的话题。

我们知道每一次信息技术的革命,都会产生一批杀手级应用(killer apps),大模型时代的 killer apps 路在何方呢?
回顾第一次互联网技术革命,killer apps 包括浏览器和搜索引擎,紧接着是游戏、电商和社交媒体,催生了谷歌/百度、亚马逊/阿里和脸书这样的大厂。到了移动平台时代,电商、游戏和搜索这三大类,在移动平台发扬光大。此外,移动互联网专有的 killer apps 还有 (1)出行app Uber/滴滴;(2)住宿app Air B﹠B;(3)通信app 微信;(4)娱乐短视频 app 抖音;(5)吃喝apps 美团等。这些 apps 涵盖了人类生活的基本场景,极大地提高了劳动生产率和人类的生活品质。

大模型的 killer apps 还不清晰,但大体的方向可以看到轮廓。

虚拟陪伴(包括老年陪护,也包括虚拟女友/男友)肯定算其中一类。人类的情感需求是刚需。当然,由于情色的监管,国内现在做不了虚拟交友。食色性也,老祖宗千百年前就洞悉的道理。这种东西不是洪水猛兽,而是技术时代的福音。人畜无害,其实没道理禁止。从趋势上看,最终也禁止不了。

除了虚拟陪伴的情感需求外,另一类是知识需求,就是所谓助理、副驾驶这种(辅导、问答),也包括辅助创作(无论什么模态,文字、音频、图片、视频)。文艺创作其实是人类的高阶需求,超出了吃喝玩乐与卡拉ok的低层次需求。这也是大模型的长项,将来定会诞生 killer apps,因为人对于精神生活和品质的追求,永无止境,而文学艺术方面的代入感,会让人觉得生活更有意义。文学艺术不再是少数贵族的专有,而会成为大众的自我表现形式。ChatGPT 作为助理/副驾驶,已经呈现 killer app/super app 形态。

心理辅导(therapy)介于虚拟陪伴与医疗之间,也是刚需,但有监管、私密和走偏的挑战。

最后代代相传的老三样,电商、游戏和搜索,在大模型时代会有继承改造。例如,电商就会借力LLM,提供虚拟换装、虚拟居家设计等扩展。游戏更不用说,多模态大模型会把游戏推向新的高度,包括元宇宙色彩的加持。至于搜索,自然的演进就是 RAG(搜索增强)的 Chat GPT 这类,搜索与阅读理解和问答合为一体了。

在上面这些方向上,LLM 大有可为,但还是需要时间去孕育、试错和普及,逐渐形成有商业模式、能持续的 killer apps。
这样看来,LLM落地应用的前景还是非常广阔的,也许只是需要两三年的时间就可以看清 LLM应用落地的生态图以及创新的商业模式。

稍安勿躁。精彩正在继续。

我们生在见证历史和奇迹的年代。同时也在见证人类的危机和解套。

我是出门问问李维,每次两分钟与您分享大模型及其AI落地应用的有角度的思考。

 

https://weibo.com/u/2316531634?layerid=4973825203373916

 

《硅谷神剧回顾》

立委按: 生活比戏剧更戏剧, 虚拟比现实更现实; Turbo 比 GPT 更 GPT, AI 比智能更智能,是为AGI。

 

### OpenAI 剧情回顾:硅谷戏剧全纪录

#### 第一幕:引火 - 山姆·奥特曼被解雇

故事始 于 OpenAI 董事会一个突然且有争议的举动:CEO 山姆·奥特曼的意外解雇。此举在硅谷引发了轩然大波,标志着一场前所未有的公司戏剧的开幕。

- **亮点**:董事会指责奥特曼在与董事会的沟通中缺乏坦诚,这一指控后来成为争议的核心。
- **关键人物**:山姆·奥特曼,因引领 OpenAI 进入新领域而闻名,现在却突然被驱逐,为接下来的剧情奠定了基础。

#### 第二幕:后果与反抗

在奥特曼被解雇后,公司陷入混乱。一股由关键员工领导的反对派声音强烈反对董事会的决定,要求恢复奥特曼的职位。

- **亮点**:近500名员工威胁离职,除非董事会辞职并恢复奥特曼和联合创始人格雷格·布罗克曼的职位。
- **关键人物**:联合创始人兼前总裁格雷格·布罗克曼成为反抗董事会决定的象征。

#### 第三幕:伊利亚的后悔与公开信

在一个出人意料的转折中,被指责策划奥特曼出局的 OpenAI 首席技术官伊利亚·苏茨克维公开表达了他的后悔。这一认错为这场戏剧增添了新的复杂层次。

- **亮点**:伊利亚在社交媒体上的公开后悔和他参与的要求董事会辞职的公开信。
- **关键人物**:伊利亚·苏茨克维的角色从被指责的策划者转变为悔恨的关键人物,寻求修复 OpenAI 内部的裂痕。

#### 第四幕:董事会的困境与新任 CEO

在巨大的压力下,董事会发现自己处于十字路口。与此同时,新任 CEO Emmett Shear 被任命,标志着 OpenAI 可能的发展方向转变。

- **亮点**:Emmett Shear 的任命和他对 AI 发展的保守态度,与奥特曼的激进增长战略形成鲜明对比。
- **关键人物**:Emmett Shear,作为一股可能稳定混乱局势的力量,代表了 OpenAI 的新篇章。

#### 第五幕:转投微软与 OpenAI 的未来

在一系列戏剧性的事件中,奥特曼和几位关键成员宣布加入微软,实际上在这个科技巨头内部创造了一个强大的团队。

- **亮点**:微软成为主要角色,吸收了 OpenAI 的人才,可能重新定义 AI 领域的格局。
- **关键人物**:山姆·奥特曼转投微软,被视为一种战略高招,可能改变 AI 发展的未来轨迹。

#### 终幕:持续进行的剧情

这场戏剧暂时告一段落,OpenAI 正处于关键时刻。它的领导层、发展方向和核心理念都处于变动之中,这些事件的影响继续在科技界波及。

- **回顾**:从奥特曼被解雇到现在,OpenAI 的剧情回顾了权力斗争、意识形态和硅谷 AI 领域未来的集中展现。
- **关键收获**:这一事件证明了领导尖端 AI 组织的复杂性,技术抱负与人类动态和企业权力游戏交织在一起。

*这一综合回顾作为对 OpenAI 持续戏剧的闪回,突出了塑造这一硅谷历史非凡章节的关键时刻和人物。*

~~~~~~~~~~~~~~~~~~~~

### OpenAI 动荡剧情:双语剧本

#### 第一幕:疑云初起 / Act 1: The Beginning of Doubts

**场景**:OpenAI 办公室,员工们围坐讨论。
**Scene**: OpenAI office, employees gathered in discussion.

- **员工甲**(激动):「你们听说了吗?Sam 被解雇了!」
- **Employee A** (Excited): "Have you heard? Sam has been fired!"
- **员工乙**(震惊):「怎么可能!Sam 是我们的灵魂人物!」
- **Employee B** (Shocked): "How is that possible! Sam is our soul!"
- **员工丙**(沉思):「这背后一定有更复杂的故事。」
- **Employee C** (Thoughtful): "There must be a more complex story behind this."

#### 第二幕:董事会的难题 / Act 2: The Board's Dilemma

**场景**:董事会会议室。
**Scene**: The boardroom.

- **董事甲**:「我们必须要有新的领导,Sam 的领导方式不再适合我们。」
- **Director A**: "We need new leadership, Sam's way of leading is no longer suitable for us."
- **董事乙**:「但这样的决定会引起巨大的反响,我们准备好了吗?」
- **Director B**: "But such a decision will cause a huge backlash, are we ready for it?"
- **董事丙**(坚定):「为了公司的未来,我们必须要做出艰难的决定。」
- **Director C** (Firm): "For the future of the company, we must make tough decisions."

#### 第三幕:伊利亚的后悔 / Act 3: Ilya's Regret

**场景**:伊利亚的办公室,他焦虑地走来走去。
**Scene**: Ilya's office, he paces anxiously.

- **伊利亚**(自言自语):「我做错了... 我不应该那样做... 我需要公开道歉。」
- **Ilya** (Muttering to himself): "I did wrong... I shouldn't have done that... I need to apologize publicly."
- **助手**(担忧):「这样会不会引起更大的混乱?」
- **Assistant** (Worried): "Won't this cause even more chaos?"
- **伊利亚**(坚定):「我必须要承担责任。」
- **Ilya** (Determined): "I must take responsibility."

#### 第四幕:员工的反抗 / Act 4: Employees' Revolt

**场景**:OpenAI 大厅,员工们聚集。
**Scene**: OpenAI hall, employees gather.

- **员工甲**:「我们不能接受这样的决定!我们要写一封信给董事会!」
- **Employee A**: "We can't accept such a decision! We need to write a letter to the board!"
- **员工乙**:「对,我们要求他们辞职,要求Sam回来!」
- **Employee B**: "Yes, we demand their resignation and demand Sam's return!"
- **众员工**(齐声):「OpenAI没有我们就是一无是处!」
- **All Employees** (In unison): "OpenAI is nothing without us!"

#### 第五幕:微软的招手 / Act 5: Microsoft's Invitation

**场景**:微软总部,Satya Nadella 与 Sam 和 Greg 会面。
**Scene**: Microsoft Headquarters, Satya Nadella meets with Sam and Greg.

- **Satya**(微笑):「欢迎加入微软,Sam。我们会一起创造不可思议的事物。」
- **Satya** (Smiling): "Welcome

to Microsoft, Sam. Together, we will create incredible things."
- **Sam**:「我很期待这个新的开始,我们会创造新的辉煌。」
- **Sam**: "I look forward to this new beginning, we will create new glories."
- **Greg**:「是的,这是我们的新使命。」
- **Greg**: "Yes, this is our new mission."

#### 第六幕:终幕 / Act 6: The Finale

**场景**:OpenAI 办公室,员工们聚在一起。
**Scene**: OpenAI office, employees come together.

- **员工甲**:「现在怎么办?Sam 和 Greg 都走了。」
- **Employee A**: "What do we do now? Sam and Greg are gone."
- **员工乙**(坚定):「我们必须要继续前进,为了我们的使命。」
- **Employee B** (Resolute): "We must continue to move forward, for our mission."
- **众员工**(齐声):「OpenAI是我们的家,我们会一起度过难关!」
- **All Employees** (In unison): "OpenAI is our home, we will get through this together!"

*本剧本创意基于最近 OpenAI 发生的一系列戏剧性事件,旨在通过对话和场景刻画,双语呈现这个引人入胜的科技界故事。*

老爸:庆生感言

人生,这出长剧,终会谢幕,这趟直通车,也会到站!我的人生,跌宕起伏,但多彩多姿,总算,踏过荆棘,平顺走來。

这次,全家支持,扬新、小维,付出精力和耐心,继《李家大院》之后,我的《医学文集》,又付梓成书,今晚,可以分享各位。它,重现我的从医足迹,历数我“救死扶伤”业绩!其中,有不少感人事例!人生企求,平安、充实、家族兴旺。

讲几则故事:

我的少年,衣不蔽体,食不果腹,更无医药问津,任其自然,从无疫苗,疟疾、蛔虫、麻疹、脓泡疮……我终于侥幸越过而生存下来!。

一九五零年,从军南京大哥名朴,嘱令他妹名伪(我姐)考学,三婶点拨,让我随姐赴县城考学,一天小学没上,一文学费没花,居然,一考即中,从此,走出农村和贫困,改变人生,从这个起点,靠国家助学金,挺过初中,那就是“人才”,芸芸众生,全县二十多万人,这一年,就这五十人中举,可以比肩今天的博士生!这是第一步。

接下来,一九五三年,考进卫校,从此,定格我从医生涯!。

第三,一九六一年,自己力取,进入县医院外科临床,一发千钧,风生水起,全力投入,直到如今,使之,人生充实。这三步曲,铸就一生轨迹。

二零零七年六月三号,突发大呕血,胃癌,经过大手术,闯过这一大坎,尔后,几乎一直没有看医问药,算是风顺一生。

再说家亲,下辈中,不乏学士、硕士、博士,也有主任、教授、专家和高管,唯独没有高官,也因此,平安、省心!。

现在,即将进入八十八岁,感谢各位,为我庆生!只盼余年安康!。

谢谢。