2024 年 6 月 - 立委NLP频道

英烈颂

Ode to Madam Hu

July 1, 2024 at 1:50 PM

[verse 1]
In Suzhou's June, beneath a scorching sky,
A madman's blade flashed, evil drawing nigh.
Mother and child cried out in desperate fear,
Their screams of anguish piercing far and near.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 2]
Before the school bus, Madam Hu stood tall,
Her gentle hands became a shield for all.
No tiger-wrestler she, no dragon-slayer,
But love unbounded made her their savior.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 3]
Her blood stained red the soil of Jiangnan,
White clouds and grieving grass bore witness, wan.
Though snuffed, her candle's light forever gleams,
Like brave Feng Yuan of old, her courage beams.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 4]
Why must the kind so often suffer woe?
When will justice's path smooth waters show?
We question Heaven, tears fall like the rain,
In silence seek life's meaning through our pain.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 5]
Madam Hu's name shall echo through the years,
Half-masted flags, a nation draped in tears.
Her love, transcending life and death's divide,
One selfless act, as sun and moon abide.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[verse 6]
Rest now in peace, return to native ground,
Let not your family grieve, all hearts are bound.
In old Wu Gate, by Suzhou's storied streams,
We offer flowers and wine to honor dreams.

[chorus]
With verse we mourn, our grief in words conveyed,
A hero's tribute, never to fade.

[fade]
[end]

胡氏颂
苏州六月炎炎日，
街头突现凶徒起。
匕首寒光闪不已，
母女惊呼声声急。
校车门前胡氏立，
柔弱双手化盾力。
非为搏虎斩蛟志，
只因大爱无私意。
鲜血染红江南地，
白云悲悯草木悲。
烛火虽灭光不已，
如古冯媛勇气继。
善良何故遭祸际？
正义何曾得善治？
追问苍天泪如洗，
沉默中觅人生理。
胡氏芳名世代记，
旗帜半垂国人泣。
大爱无疆超生死，
一念救人照月日。
愿君安息归故里，
家人莫悲天下悯。
吴门故地姑苏际，
香花清酒祭英魂。
勇者浩气长存世，
感人义举青史立。
愿以诗文寄哀思，
颂扬英烈万古记。

【立委NLP频道】

短视频：大模型奥秘

llm secret

我是大模型数字主播，今天播报的题目是《大模型真经》。

尼克语录，日诵三回：“首先Church Turing thesis，其次Turing machine求逆就是所有学习，再次，所有学习可归约到ntp (next token prediction)。”

没看明白的, 再诵三回。

此乃大模型真经也！

再诵三回仍不明白的，且听分解如下。

简单来说就是，一切可计算的数据，都有个图灵自动机计算它。学习（或模型训练）就是为制造这台自动机。而所有的学习都可以用数据驱动的GPT完成。

这就是大模型成为万能任务解锁器，成为通向AGI的不泄天机。

但天机还是泄漏了，也许上帝正好打了个瞌睡。

朋友反馈说，还是没看明白。好，咱们用老妪能解的说法试试。

首先，什么叫“可计算的数据”，就是“有规律的现象”：
有规律的现象数字化以后，就是可计算的数据。

哪些现象是有规律的呢？

其实，理论大咖们相信宇宙大部分现象是没有规律的随机现象，茫茫星际，有规律属于罕见。宇宙的本真也许就是混沌一片。

然而人类出现了，演化出文明和智能。人类的现象，尤其是智能工作的结果呈现，例如文字书籍、录音录像、艺术创造，这些人类创造物都是有规律的。例如，语言文字里面有文法和用法。绘画艺术里面有技法和风格。

把这些语言文字、音频视频等多模态的数据收集起来，灌进大模型的熔炉去炼，结果就是我们现在看到的几乎无所不能的主流大模型，以OpenAI的GPT系列为代表。

我是科技数字主播，咱们下次再见。

不可错过，奇妙元小范介绍尼克的最新演讲，探寻大模型的理论基础与渊源（中文版，英文字幕）

【立委NLP频道】

Nick tracing the AI history for theoretical foundation and sources （English）

6.99 10/15 bnQ:/ [email protected] 6月26日-English https://v.douyin.com/i6MbUvKH/ 复制此链接，打开Dou音搜索，直接观看视频！
Click this link: https://v.douyin.com/i6MbUvKH/

I am AI Xiao Fan, Nick's secretary, and today I'm reporting on Nick's latest lecture "Solomonoff: The Prophet of Large Language Models".

Nick needs no introduction. Besides his many roles as an entrepreneur, investor, scholar, and philosopher, he is best known for his bestselling book "A Brief History of Artificial Intelligence", which became a sensation, sold out quickly, won numerous awards, and became a legend in China's AI publishing world. We all boast about getting his autographed copies.

The following is a concise and accessible explanation of his lecture.

Let's get to know this mathematical genius with a Santa Claus-like white beard - Ray Solomonoff! Born in 1926 and passed away in 2009, this mathematical and physics double major who "mixed" his degree at the University of Chicago was no ordinary academic overachiever. He was a pioneer of independent research, using mathematical formulas to predict the future, even more impressive than fortune tellers!

Welcome to the 'old child' battle in the scientific world! On the left is Wiener, the 'godfather' of cybernetics. In 1948, he and Shannon simultaneously published groundbreaking papers, but with very different viewpoints! Wiener said: 'Control is the way', while others became infatuated with the little "demon" called 'information'. Shannon and McCarthy were like-minded, both not optimistic about Wiener's cybernetics. McCarthy even played a word game, turning 'Automata' into 'AI', ushering in a new era of artificial intelligence!

Now let's look at the 'prequel' of the AI world! Before the AI feast of the Dartmouth Conference, the big shot McCarthy was secretly writing the 'script'! His article "The inversion of functions defined by Turing machines" wasn't about how to use Turing machines backwards. This 'heavenly book' was actually discussing how to design a super problem-solving machine. McCarthy's imagined divine machine could solve all clearly defined intellectual problems. Isn't this the prototype of AI?

At the Dartmouth Conference, McCarthy and Solomonoff, these two 'mathematical knights', engaged in a fierce 'battle of ideas'! The topic? It was McCarthy's 'heavenly book'. The two hit it off and discovered an earth-shattering secret: the inverse problem of Turing machines is actually a learning problem! This discovery tightly bound AI and machine learning together! From then on, AI was no longer just about computation, but took a big step towards 'learning'. At this moment, the future of AI was completely rewritten!

"Let's look at the 'brainstorming' moments of two 'mad scientists'! First is the French mathematician Borel, who conducted a logical experiment, imagining a group of monkeys randomly hitting typewriters, eventually producing the complete works of Shakespeare! Isn't this the infinite monkey theorem?
On the other side, the Argentine literary giant Borges conceived a 'perfect library' in his short story, containing all possible combinations of books.
These two ideas are simply the prophets of AI and big data! Borel and Borges, one using mathematics, the other literature, were both imagining the sequential possibilities of information."

"At the Dartmouth Conference, Solomonoff, like a magician, pulled out a mysterious typescript 'Inductive Inference Machine' from his hat. This move captivated everyone! Scientists who were originally obsessed with neural networks all 'defected' and embraced symbolism. But look at this dramatic twist! Years later, it was the 'abandoned' neural networks that truly realized Solomonoff's induction! This is like a fairy tale in the tech world - Cinderella finally put on her glass slipper and became the star of the AI ball!
Solomonoff's idea was like a seed planted, eventually blossoming in unexpected places."

"Let's look at the 'roller coaster' history of the AI world! Connectionism, once an 'abandoned baby', is now the 'star' of the AI world!
Imagine this as a long relay race. At the start, there was the perceptron inspired by neurons, fearless like a newborn calf. But it soon met its 'Waterloo' with the so-called XOR problem of single-layer neural networks, and was 'banished' by the big shots.
However, in the 1980s, multi-layer neural networks and the BP algorithm emerged out of nowhere, injecting new life into connectionism. Now, deep learning is at its peak, and connectionism has made a 'dramatic comeback', becoming the 'top flow' in the AI world.

"Let's look at Solomonoff's 'magic moment' in 1960!
The first magic, minimum description, refers to compressing data in the most concise way. This idea later developed into 'Kolmogorov complexity', that is, K-complexity, becoming the core of large model theory.
The second magic, prior probability: the initial estimate of the possibility of an event occurring without specific information.
These two concepts seem simple, but contain profound insights. They provide a whole new perspective for us to understand information, complexity and learning, directly influencing the later development of artificial intelligence and machine learning"

In 1961, AI guru Minsky wrote an important article mentioning concepts such as machine theorem proving, neural networks, machine learning, reinforcement learning, etc., which was simply the secret manual of the AI world! He cited 95 references, 4 of which were Solomonoff's, showing his high regard for Solomonoff. Interestingly, it was neural networks that first realized Solomonoff Induction, which is an unexpected twist!

In 1964, Solomonoff published a groundbreaking paper titled "A Formal Theory of Inductive Inference". This paper can be considered the "secret manual" of the AI field, detailing how to describe inductive reasoning using mathematical language. Simply put, it's about learning patterns from data to predict the future! This paper is Solomonoff's "masterpiece" on inductive reasoning, establishing his status in the machine learning field.
The second part of Solomonoff's paper gives examples of applying the formal theory of inductive inference to different problems. One of these examples is grammar discovery, that is, how to learn the grammatical rules of a language from observed language data. This example, in today's view, is the problem of language learning, i.e., how machines learn language like humans do. Solomonoff also discussed a deeper question in the paper: Is language equivalent to thought? This question still doesn't have a clear answer today, but Solomonoff's research provided us with a new perspective to think about this question.

Solomonoff developed a strong interest in how scientists discover things and tried to find a universal method of scientific discovery. This interest led him to start researching inductive reasoning and eventually propose the concept of algorithmic probability.
In his academic career, Solomonoff applied inductive reasoning to fields such as language learning, achieving important results.

Soviet mathematician Andrey Kolmogorov is known as the "universal mathematician". In the field of computer science, he mainly has two major contributions:
Kolmogorov Superposition Theorem (K-A-N): This theorem is related to the famous Hilbert's 13th problem, involving function representation and approximation.
K-complexity: This is a method of measuring information complexity. It defines the complexity of an object as the length of the shortest program that can generate that object.
In addition, Kolmogorov had unique insights into cybernetics and information theory. He believed that cybernetics lacked inherent unity, but expressed agreement with information theory. This view is consistent with those of Shannon, McCarthy, and others.

Kolmogorov thought that information theory was like a hodgepodge, with three different approaches:
Counting School: Like rolling dice, looking at how many times a certain number appears.
Building Blocks School: Focusing on the number of building blocks and how to combine them.
Programming School: Viewing information as a program, with shorter programs being simpler.
K-complexity is the representative work of the "Programming School". Simply put, it measures how complex something is by how short a program is needed to describe it.
Interestingly, K-complexity and Solomonoff induction are actually talking about the same thing. Solomonoff induction believes that simpler things are more likely to occur.

Chaitin was a prodigy, publishing his first paper in IEEE Transactions on Electronic Computers at the age of 18. At 19, he independently rediscovered the ideas of Solomonoff and Kolmogorov in a paper published in JACM.
Starting from Berry's paradox, Chaitin believed that naming an integer is equivalent to writing a program that can output this integer. Most integers can only be named by directly printing themselves, with no more concise representation method. These integers are viewed as "random" under the framework of Kolmogorov complexity because their complexity is comparable to their length. Chaitin's view is consistent with Kolmogorov's idea, both emphasizing that most objects (or integers) are incompressible, i.e., their complexity is comparable to their length. This means they have no simpler representation method and cannot be concisely explained.
This inexplicability or randomness is ubiquitous in nature. For example, most DNA sequences, physical constants, and natural phenomena have no obvious patterns to follow and cannot be explained by simple formulas or theories. On the contrary, explicability (i.e., phenomena that can be described or explained in a concise way) only appears occasionally.
Leonid Levin proved two theorems in a two-page paper published in 1972:
Theorem 1: NP-completeness, i.e., the Cook-Levin theorem, which made an important contribution to the development of computational complexity theory.
Theorem 2: A generalization of Kolmogorov complexity.

Charles Bennett proposed the concept of logical depth, which considers the running time of the shortest program needed to generate an object. The parameters of large language models can be seen as the amount of information stored internally in the model. Therefore, it is reasonable to compare model parameters to K-complexity. It is also reasonable to compare the inference time of large language models to logical depth.
Ming Li is a distinguished professor at the University of Waterloo who has made outstanding contributions in the fields of information theory and bioinformatics. He extended K-complexity from a single sequence to two sequences, which can measure not only the information within a single sequence but also the information between two sequences. This is of great significance for universal large models to define universal tasks and complete various tasks through unsupervised learning. His book "An Introduction to Kolmogorov Complexity and Its Applications", co-authored with Paul Vitanyi, is considered a classic in the field and has had a profound impact on the development of information science.
Marcus Hutter is a computer scientist with a background in physics. He proposed the AIXI universal artificial intelligence framework and believes that language modeling is essentially compression. He applied Solomonoff induction to explain agents and reinforcement learning, believing that the learning process is a compression process, and is dedicated to researching universal artificial intelligence.
In his Berkeley lecture, Ilya, the former soul figure of OpenAI, revealed the connection between supervised learning and unsupervised or self-supervised learning. Ilya claimed that he independently came up with the idea in 2016 that all supervised learning can be reduced to self-supervised learning, tracing back to compression theory based on K-complexity. Ilya firmly believes that simple autoregressive GPT models can demonstrate super intelligence on super large data.
Let's review the timeline of model development: The deep neural Transformer architecture was proposed in June 2017, and the BERT model was proposed in October 2018. OpenAI's GPT series models started from June 2018, successively launching GPT, GPT2, and GPT3, now up to GPT4, becoming the industry mainstream.
To summarize, the first step of Solomonoff induction is to collect observational data. The second step is to form hypotheses to explain the data: hypotheses can be a Turing machine or a data-driven large model. The third step is experimental verification. If the data falsifies, return to step 2 to form new hypotheses.
Large models follow Solomonoff induction's approach to train models and their inferential applications.

Looking back at the entire history, perhaps it's not that theory lagged behind practice, but that it was too far ahead.

I am Xiao Fan, Nick's digital secretary. Thank you for following Nick's journey to explore the theoretical origins of large models and the historical changes in AI. We'll meet again.

不可错过，奇妙元小范介绍尼克的最新演讲，探寻大模型的理论基础与渊源（中文版，英文字幕）

【立委NLP频道】

不可错过，奇妙元小范介绍尼克的最新演讲，探寻大模型的理论基础与渊源（中文版，英文字幕）

4.35 05/03 CHI:/ [email protected] 尼克讲解大模型的理论渊源与奥秘 https://v.douyin.com/i6Mq91wS/ 复制此链接，打开Dou音搜索，直接观看视频！

我是AI小范，尼克的秘书，今天播报解说尼克最新的讲演《所罗门诺夫：大语言模型的先知》。

尼克就不用介绍了，除了他的企业家、投资人、学者和哲学家的许多角色，他最知名的著述是其畅销书《人工智能简史》，风靡一时，洛阳纸贵，拿奖拿到手软，成为中国AI出版界的传奇。我们都为得到他的亲笔签名版而炫耀。

下面是对他讲演的一个深入浅出的解说。

让我们来认识一下这位留着圣诞老人般白胡子的数学怪才——Ray Solomonoff！1926年出生，2009年离世，这位在芝加哥大学混学位的数学物理双料高手，可不是普通的学霸。他是独立研究的先驱，用数学公式预测未来，比算命先生还厉害！

欢迎来到科学界的'老顽童'大战！左边这位是维纳，控制论的'教父'。1948年，他和香农同时发表重磅论文，但观点大不同！维纳说：'控制才是王道'，而其他人却迷恋上了'信息'这个小妖精。香农和麦卡锡倒是志同道合，都不看好维纳的控制论。麦卡锡更是玩了个文字游戏，把'Automata'变成了'AI'，开启了人工智能新纪元！

现在我们来看看AI界的'前传'！在达特茅斯会议这场AI盛宴前，麦卡锡大佬就在偷偷摸摸写'剧本'啦！他的文章《The inversion of functions defined by Turing machines》可不是在讲怎么把图灵机倒过来用。这篇'天书'其实在讨论如何设计一台超级解题机器。麦卡锡想象中的这台神机，能解决所有明确定义的智力问题。这不就是AI的雏形吗？"

达特茅斯会议上，麦卡锡和所罗门诺夫这两位'数学侠'展开了一场激烈的'思想格斗'！话题？就是麦卡锡那篇'天书'。他们俩一拍即合，发现了个惊天秘密：图灵机求逆问题其实就是学习问题！这个发现把AI和机器学习紧紧绑在了一起！从此，AI不再是单纯的计算，而是朝着'学习'迈出了一大步。这一刻，AI的未来被彻底改写了！

"让我们来看看两位'疯狂科学家'的脑洞大开时刻！首先是法国数学家博雷尔，他做了个逻辑实验，想象一群猴子在打字机上随机敲击，最终能打出莎士比亚全集！这不就是无限猴子定理吗？
另一边，阿根廷文豪博尔赫斯在小说里构思了个'完美图书馆'，里面包含了所有可能的书籍组合。
这两个想法简直就是AI和大数据的先知啊！博雷尔和博尔赫斯，一个用数学，一个用文学，都在畅想信息的序列可能性。"
"达特茅斯会议上，所罗门诺夫像个魔术师，从帽子里拿出了一份神秘打字稿《归纳推理机器》。这一手可把大家迷住了！原本痴迷神经网络的科学家们纷纷'叛变'，投入了符号主义的怀抱。但是，瞧瞧这戏剧性的转折！多年后，真正实现所罗门诺夫归纳的，竟然是被'抛弃'的神经网络！这简直就像是科技界的童话故事——灰姑娘终于穿上了水晶鞋，成为了AI舞会的主角！
所罗门诺夫的想法，就像是种下的一颗种子，最终在意想不到的地方开花结果。"

"让我们来看看AI界的'过山车'历史！连接主义，这个曾经的'弃婴'，现在可是AI界的'明星'啦！
想象一下，这是一场漫长的接力赛。起跑时，是受神经元启发的感知器，像个初生牛犊不怕虎。但很快就遇到了所谓单层神经的XOR的'滑铁卢'，被大佬们打入冷宫'。
但是，上世纪80年代，多层神经和BP算法横空出世，给连接主义注入了新的生命力。如今，深度学习更是如日中天，连接主义'咸鱼翻身'，成为了AI界的'顶流'。

"让我们来看看1960年所罗门诺夫的'魔法时刻'！
第一个魔法，最小描述，这是指用最简洁的方式压缩数据。这一思想后来发展成为了'柯尔莫戈罗夫复杂度'，即，K氏复杂度，成为大模型理论的核心。
第二个魔法，先验概率：在没有特定信息的情况下，对事件发生可能性的初始估计。
这两个概念看似简单，却蕴含深刻的洞见。它们为我们理解信息、复杂性和学习提供了全新的视角，直接影响了后来人工智能和机器学习的发展方向"

1961年，人工智能大神Minsky写了一篇重要文章，提到了机器定理证明、神经网络、机器学习、强化学习等概念，简直是AI界的武林秘籍！他引用了95篇参考文献，其中4篇是所罗门诺夫的，可见他对所罗门诺夫的重视。有趣的是，最终是神经网络率先实现了所罗门诺夫Induction，这真是个令人意外的转折！

1964年，所罗门诺夫发表了一篇惊世骇俗的论文，名为《归纳推理的形式理论》。这篇论文堪称 AI 领域的“武林秘籍”，详细介绍了如何用数学语言来描述归纳推理。简单来说，就是从数据中学习规律，预测未来！这篇论文可是所罗门诺夫归纳推理的“扛鼎之作”，奠定了他在机器学习领域的江湖地位。
Solomonoff 的这篇论文第二部分给出了归纳推理的形式理论在不同问题上的应用示例。其中一个例子就是语法发现，即如何从观测到的语言数据中学习语言的语法规则。这个例子在今天看来，就是语言学习的问题，即机器如何像人类一样学习语言。所罗门诺夫在论文中还探讨了一个更深层次的问题：语言是否等于思维？这个问题至今仍然没有明确的答案，但所罗门诺夫的研究为我们思考这个问题提供了一个新的视角。

所罗门诺夫对科学家如何发现事物产生浓厚的兴趣，并试图找到一种通用的科学发现方法。这个兴趣促使他开始研究归纳推理，并最终提出了算法概率的概念。
在学术生涯中，所罗门诺夫将归纳推理应用于语言学习等领域，取得了重要的成果。

苏联数学家安德烈·柯尔莫哥洛夫被誉为“万能数学家”。在计算机科学领域，他主要有两大贡献：
Kolmogorov K氏叠加定理（K-A-N）：该定理与著名的希尔伯特第13问题有关，涉及到函数的表示与逼近。
K氏复杂度：这是一种衡量信息复杂性的方法。它将一个对象的复杂度定义为生成该对象的最短程序的长度。
此外，柯尔莫哥洛夫对控制论和信息论也有独特的见解。他认为控制论缺乏内在的统一性，但对信息论表示认同。这种观点与香农、麦卡锡等人的看法一致。

柯尔莫哥洛夫认为，信息论就像个大杂烩，有三种不同的做法：
数数派：就像掷骰子，看某个点数出现的次数。
搭积木派：关注积木块的数量和怎么组合。
写程序派：把信息看成程序，越短的程序越简单。
K氏复杂性就是“写程序派”的代表作。简单来说，它就是衡量一个东西有多复杂，需要多短的程序才能把它描述出来。
有趣的是，K氏复杂性和所罗门诺夫归纳其实说的是一回事。所罗门诺夫归纳认为，简单的东西更容易出现。

蔡廷年少有为，18岁就在IEEE Transactions on Electronic Computers上发表了第一篇论文。19岁时，他在JACM上发表的论文独立地重新发现了所罗门诺夫和柯尔莫哥洛夫的思想。
蔡廷从贝里悖论出发，他认为，命名一个整数就相当于写出一个能输出这个整数的程序。大多数整数只能通过直接打印自身的方式来命名，没有更简洁的表示方法。这些整数在柯尔莫哥洛夫复杂性的框架下被视为“随机的”，因为它们的复杂性与它们的长度相当。蔡廷的观点与柯尔莫哥洛夫的思想一致，都强调了大多数对象（或整数）是不可压缩的，即它们的复杂性与它们的长度相当。这意味着它们没有更简单的表示方法，无法简洁的解释。
这种不可解释性或随机性在自然界中普遍存在。例如，大多数DNA序列、物理常数和自然现象没有明显的规律可循，无法用简单的公式或理论来解释。相反，可解释性（即可以用简洁的方式描述或解释的现象）只是偶然出现的。
列昂尼德·列文在1972年发表的一篇两页纸的论文中证明了两个定理：
定理1：即NP-完全性，即Cook-Levin定理，为计算复杂性理论的发展做出了重要贡献。
定理2：是柯尔莫哥洛夫复杂性的一个推广。

Charles Bennett提出了逻辑深度的概念，它考虑了生成一个对象所需的最短程序的运行时间。大语言模型的参数可以看作是模型内部存储的信息量。因此，将模型参数比作柯氏复杂度是合理的。大语言模型的推理时间比作逻辑深度也是合理的。
李明是滑铁卢大学的杰出教授，在信息论和生物信息学领域做出了卓越贡献。他将K氏复杂性从单个序列扩展到两个序列，不仅可以测量单个序列内的信息，还可以测量两个序列之间的信息，这对通用大模型定义万能任务及其非监督学习完成各种任务意义重大。他与Paul Vitanyi合著的《An Introduction to Kolmogorov Complexity and Its Applications》被认为是该领域的经典著作，对信息科学的发展产生了深远影响。
Marcus Hutter是一位物理学家出身的计算机科学家，他提出了AIXI通用人工智能框架，并认为语言建模本质上就是压缩。他将所罗门诺夫归纳用于解释智能体和强化学习，认为学习过程就是压缩过程，并致力于研究通用人工智能。
Open AI 前灵魂人物伊利亚在伯克利演讲中，揭示监督学习与非监督或曰自监督学习的联系。伊利亚声称他在2016年独立想到了所有监督学习可以被归约为自监督学习的观点，并追溯到K氏复杂度为基础的压缩理论。伊利亚笃信简单的自回归GPT模型可以在超大数据展现超级智能。
回顾一下模型发展的时间线：深度神经Transformer架构于2017年6月提出，BERT模型于2018年10月提出。OpenAI的GPT系列模型从2018年6月开始，陆续推出了GPT、GPT2和GPT3，现在到了GPT4，成为业界主流。
总结一下，所罗门诺夫归纳第一步是收集观察数据。第二步形成假设解释数据：假设可以是一个图灵机或一个数据驱动的大模型。第三步进行实验验证。如果数据证伪，则返回步骤2形成新的假设。
大模型遵循的是所罗门诺夫归纳的路线训练模型及其推理应用。

回顾整个历史，也许不是理论落后于实践，而是太超前了。

我是小范，尼克的数字秘书，谢谢您一路跟随尼克探寻大模型理论渊源以及AI历史风云的过程。咱们后会有期。

【立委NLP频道】

Nick tracing the AI history for theoretical foundation and sources （English）

觉得可以留个记录

2023-2024年关于大模型以及AIGC的演讲和采访汇总

2023-03-05：源码资本AIGC“尖峰系列”丨李维博士：人类语言“通天塔”建成，ChatGPT的辉煌与挑战

2023/05/09: 腾讯科技，对话产业专家：“百模大战”愈演愈烈，地球上算力不够支撑10亿人使用

2023/07/16: 轩辕之学讲座，特邀讲座《大模型的历史、现状和挑战》

2023/06/28: 中国证券报报道 360 GPT 联盟特邀演讲：李维：避免大模型行业同质化竞争深耕领域阶段有很多“细活”可做

2023/07/21: ArchSummit 全球架构师峰会主题演讲《从架构师视角谈如何迎接/拥抱大模型及其新生态》（https://blog.csdn.net/EDDYCJY/article/details/131929057）

2023/07/28: Chinajoy，中国音像与数字出版协会和上海汉威信恒展览有限公司主办，特邀演讲《AIGC时代，数字人引领内容创作新范式》

2023/08/06: 亚马逊云科技和真格基金主办的闭 “机遇与挑战——生成式AI的发展趋势和落地应用”，主题演讲《AI大模型落地的前景和痛点》

2023/08/23: 江苏师范大学主办 “大语言模型离人类语言有多远”学术研讨会特邀演讲《大模型的本性及其落地痛点》

2023/10/20: 第十一届科博会，特邀主题演讲《AI和大模型趋势》

2024年3月18：英伟达 GTC2024全球开发者大会与英伟达中国团队合作，讲演《重塑数字人互动潜能》

2024/04/22: 第十四届北京国际电影节光影未来，演讲《捕捉未来的魔术师》

2024/04/22 九派财经专访出门问问副总裁李维：两年内大模型的商业化爆发一定会发生

2023/11/11: 香蕉论坛，“百“模”大战对智能座舱发展意义与实践”，2023/12/05 汽车商业评论，《李维：大模型技术的过去、现在与未来》

2023/12/05 汽车商业评论，《李维：大模型技术的过去、现在与未来》

2024/04/22：九派财经专访出门问问副总裁李维：两年内大模型的商业化爆发一定会发生

2024/05/24: 九派财经专访出门问问副总裁李维：找产品方向是更大痛点，跑通场景是第一位

《飞哥说AI》深度系列：

2023/12/09: 飞哥说AI，李维高佳：OpenAI狂飙生态？领域壁垒仍是大山

2023/12/09: 飞哥说AI，李志飞高佳李维：关于 Google Gemini 的八点启示

2024/02/19: 飞哥说AI，李志飞李维高佳：为什么说 Sora 是世界的模拟器？

2024/02/29: 飞哥说AI，李志飞李维高佳：万字长文解构中国如何复刻 Sora：模型架构、参数规模、数据规模、训练成本

2024/03/05: 飞哥说AI，李志飞李维：Claude 3 追平或超越 GPT-4，能归纳15万单词

2024/04/01: 飞哥说AI，李维王艺高佳：Suno 将如何进化？

2024/04/12: 飞哥说AI，高佳李维王艺「产模结合」也许是AI公司更好的出路？

2024/06/04: 飞哥说AI，李维高佳：KAN会引起大模型的范式转变吗？

【立委NLP频道】

《谈两种复杂度》短视频科普

我是AIGC频道数字主播小雅，今天播报的立委两分钟的题目是“两种复杂度”。
我们要区分两种"复杂度"。一种是 Kolmogorov 复杂度（K氏复杂度），它指的是描述一个对象所需的最短指令的长度。另一种是模型复杂度，它指的是机器学习模型本身的参数数量或者灵活性（模型的大小）。
当我们说数据的最简洁表示就是 K氏复杂度时，我们指的是第一种复杂度。K氏复杂度衡量的是数据的内在信息量（类似于以前所说的深层结构、语义表示），并非数据的表面形式。比如，一个看似随机的字符串，如果它实际上是由一个简单的程序生成的，那么它的 K氏复杂度就很低。换句话说，K氏复杂度反映的是数据的规律性和可压缩性。
当一个机器学习模型的参数过多，灵活性过高时，它可能会过度拟合训练数据中的噪声，导致在新数据上的泛化能力下降。这时我们说模型过于"复杂"，需要通过缩小模型的规模或使用正则化等技术来限制其复杂度。
一个好的无监督学习模型应该能学习到接近数据的 K氏复杂度的表示（所谓无损压缩的理想）。也就是说，模型应该能抓住数据的内在规律，用尽量简洁的方式来表示数据，而不是简单地记住数据的表面形式。
这一点为什么重要？
换句话说，不懈追求无损压缩的理想为什么是获得智能的关键？
信息的无损压缩（注意不是指传统的表层模态形式的无损压缩，例如音乐的无损压缩只是形式的无损压缩，与这里讲的信息内容的无损压缩不同）以达到K氏复杂度为天花板。换句话说，任何数据对象的K氏复杂度等于是该对象的深层语义。在深层语义的层面，不同数据的相同的语义就可以自然对齐，从而帮助实现不同数据的相互转换。这是对作为压缩器的大模型能够完成任何端到端AI任务（即逼近任何函数）的信息论意义上的解释。
形式之间的转换作为智能任务，无论是机器翻译，还是文生图，图生图，文生音乐，文生视频，图生视频，看图说话，等等，都有一个预设。那就是输入和输出具有类似的意义，即有可以相通或对齐的K氏复杂度。
完全不相干的形式无法转换和映射，也就不会具有相同的K氏复杂度。例如心电图与交响乐，就不兼容。它们各自的K氏复杂度对于对方等同于随机噪音，没有 shared 信息可以作为映射的依据。当我们说大模型像个魔术师，可以把任何形式转换成任何其他形式。其实里面蕴含了一个前提，就是转换的形式之间有可以对齐或意义兼容的 shared 深层结构，在意义空间它们是可以相互关联的。这个预设通常不需要特别明示，因为这是不言而喻的，而且在实际的AI应用中，人类想要模型帮助达成的某个智能任务，会自然而然遵循这个预设。否则，那个胡乱转换的智能任务指令就是一个不可理解的目标。人类自己都不理解目标是什么的话，也就谈不上是个正经的“任务”，也无法给出达成目标的任何黄金标准。
当通用大模型把 input pattern 和 output pattern 都能压缩得很好的话，二者在意义空间的对应关系就剩下一层窗户纸了。大模型在多语言机器翻译上的成功是上述解说的最典型的显现。
对于一个数据集C做压缩，目标当然是C的K氏复杂度，模型F的复杂度必须恰到好处，F不能太大，也不能太小。太大，譬如模型规模大于数据集，就 overfitting，就无法逼近K氏复杂度。太小，模型“吃不下”数据，也不能做到好的压缩。scaling law 虽然是个经验法则，但理论规定了大模型与大数据之间适配边界，具体的适配比例，决定于实际效果的实验。
我是小雅，每次两分钟，分享立委先生对于AI大模型的有角度的思考。谢谢聆听，咱们下次再见。

【相关】

《介绍监督学习的数学原理》短视频科普

9.46 [email protected] 09/17 mQK:/ 科普 # aigc https://v.douyin.com/ijouUSBq/ 复制此链接，打开Dou音搜索，直接观看视频！

https://v.douyin.com/ijouUSBq/

我是AI大模型频道小雅，今天播报立委先生的短评《介绍监督学习的数学原理》。
Open AI 前灵魂人物伊利亚曾经在伯克利给了一个 talk。这是注定载入史册的一次演讲，阐释非监督学习的GPT突破原理。这个演讲的开头部分讲的是监督学习（supervised learning）的数学原理。咱们今天先从这个比较容易的知识点开始讲起。
说的是数据大模型大就是模型强的道理。暴力美学，美就美在，大即是美。插一句，这与唐代的审美观貌似相若：肥即是美？嘿嘿...
说监督学习的数学保证，意思是，足够大的数据，足够多的参数，就会有足够高的精度。伊利亚为了怕“过拟合”（overfitting），特别强调了数据规模必须大于模型规模这个业内常识。“过拟合”的时候，训练误差虽然小，但测试误差降不下来。如果要让训练误差反映模型的实际能力（即测试误差），这是一个必要条件。否则，模型根本就不用做真正的抽象或“压缩”，不去找规律，它就全部死记硬背了。我们知道死记硬背的模型，缺乏泛化能力。它在训练集上可以考高分，但到了盲测的时候就抓瞎了，模型的质量得不到保证。所以给出的原理公式里面必然有模型大小这个变量，事实上这是一个决定性因素。数据量的增长会导致偏差指数级下降，保障模型质量的持续上升。
伊利亚说监督学习没有问题，有理论上的保证。所谓理论就是那个统计学习的Hoeffding 不等式，说的是，随着训练样本数量增加，测试偏差超过一定阈值的概率会呈指数级下降。其主要含义是：当训练数据足够大，训练误差足够低，且训练数据远大于模型规模的时候，模型的泛化能力和精度是有保证的，这就是监督学习能够起作用的理论基础。
这个其实我们早就知道了，第一，宏观上和理论上，“万能近似定理”（UUniversal Approaximation Theorem）早已论证了深层神经网络可以逼近任意函数。这其实是 scaling law 的源泉。第二，当代 AI 历史上，12年前的深度学习革命就开始证明，只要有足够带标数据，神经网络就可以让“老母鸡变鸭”，或做任何其他变换。
但具体说来，为什么大模型一直强调“大”呢（模型大就是模型参数多），但现在似乎又在强调不能太大？那是因为数据超大的时候，模型不大，就消化不了。前大模型时代的传统机器学习就有这个问题。传统机器学习算法总体而论复杂度不够，模型过小，你给再多的数据也没用，它肚子小，吃不下，质量很容易达到一个点就基本 stuck there 了。深层的神经网络在原理上解决了这个问题，你总可以根据你的数据来决定需要多大多深的网络来适配才最佳。这是大模型之所以要大的一面。但也不能太大，要与数据规模拉开距离。换句话说，大数据必须大于大模型，这才是 scaling 的有效适配。
ChatGPT 出来的时候，模型参数与模型数据是一个量级的，其实现在看来是某种过拟合了。GPT4 超过 ChatGPT3.5 的一个很大的原因，可能就是因为调整了这个比例。
我是小雅，上面分享的是立委先生每次几分钟关于大模型的有角度的思考，希望对您有启发，咱们下次再见。

【相关】

《谈谈端到端和大模型》短视频科普

我是科技频道小雅，今天播报立委先生的短评《谈谈端到端》。

端到端（end to end）的扬名天下是伴随深度学习革命而来。那是十多年前的时候，那时候大模型还没有诞生，但深层神经网络已经革命了，表现在解决了端到端的监督学习（supervised learning）的问题。这一波监督学习的大革命横扫了图像、语音与机器翻译。但在多数NLP任务上遭遇了瓶颈。
就是说，可以把深度学习看成一个黑盒子，任何AI智能定义都可以在这个盒子的两端定义输入和输出。解决了监督学习指的是，只要有足够大的输入和输出的对齐数据，即所谓带标数据（labeled data），深层神经网络就可以搞定它。这与前深度学习时代不同，以前的传统机器学习算法是搞不定的，即便有海量的对齐数据，因为学到了某点就 stuck there，不像深层神经那样的大肚子有消化力。深度学习可以搞定，背后有著名的万能近似定理，意思是，只要数据足够大，模型参数足够多，多层神经网络的精度理论上可以持续提升。

但是在大模型（LLM，Large Language Model）出现之前，只有监督学习搞定了端到端定义的任何AI任务，而缺乏带标数据的非监督学习还是搞不定。多数NLP任务，例如信息抽取、问答等都属于此类，这就是所谓带标数据的NLP知识瓶颈。

基于transformer架构的大模型的出现，尤其是 GPT的 next token prediction 的自回归学习突破了这个知识瓶颈。从此，非监督学习也可以搞定端到端定义的AI任务了，横扫了NLP各个任务，包括机器翻译、文摘、问答、聊天、辅助写作等。近几个月，多模态数据加入了大模型以后，同样的架构和原理也基本搞定了文生图、图生图、文生音乐、看图说话、文生视频、图生视频，等等等等。

基本上，对于一个多模态大一统的大模型，只要有足够的多模态的原始数据，任何模态理论上可以转换成任何其他模态。端到端于是成为大模型在大数据上完成各种AI的一个最典型的任务定义方式。

这是怎么搞定的呢？背后的理论是 K氏复杂性定理（Komogorov complexity），又叫所罗门诺夫归纳法（Solomonoff induction），伊利亚的伯克利讲演通篇就是在说这个道理：非监督学习，与监督学习一样，可以搞定任何端到端的智能任务。如果有足够的（不需要标注的）原生数据（raw corpora）的话，GPT 可以自动去做对齐，最多是加上一层薄薄的少样本（few shots）的模型微调来触发这种对齐。

总结一下，端到端是定义AI任务的万能范式。深层神经网络在足够大的数据支持下可以搞定端到端的任务。具体说，监督学习需要足够的带标数据支持，非监督学习需要足够的原生数据支持。大模型属于非监督学习搞定AI的最新主流。这是因为原生数据可以真正规模化，非监督学习（其实是“自监督”学习）自然唱起了主角。

我是小雅，上面分享的是立委先生每次两分钟的有角度的思考，希望对您有启发，咱们下次再见。

我是科技频道小雅，今天播报立委先生的短评《谈谈端到端第二部分》。

接着上次的话题深入谈谈端到端与大模型的关系。

声称大模型是通向通用人工智能（A-G-I）最靠谱的道路，里面有个预设。预设是 A-G-I 是可以端到端定义完备的，如果有人能指出人类智能的一些东西是无法用端到端数据来定义，譬如灵感、爱情、自我意识等。那么我们起码可以得出结论：大模型走出来的AGI 是不完备的，有某种异于人类智能的根本缺陷。

但其实，做这样的挑战也不容易，因为你可以 argue 智能 x（例如灵感、意识、爱情）不能用端到端数据来表示，但你必须用其他方式给x做一个形式化的清晰定义，否则就难免玩弄概念之嫌。你的智能x需要具有可证伪性，而不是张口一说，宣称一下此乃人类专属，机器模型无从染指。有谁清晰定义清楚过非端到端的x吗？

也许限于孤陋寡闻，我没看到。谈人类智能的不少吧，但具有可证伪性的智能定义，除去端到端数据的方式的，还有哪些？

这是从任务角度看 end to end ：如前所述，它实际上成为智能任务定义的通用范式。

从系统的内部构造与实现智能任务的角度看，端到端模型是与 pipeline 的显式模块化模型相对照的，这是多数人理解的端到端系统，近义词就是“黑盒子”。

pipeline系统与端到端系统不同，pipeline内部的模态之间有可以清晰定义的中间结果作为连接模块之间的接口纽带，可以透明化做内部模块的测试，而大模型或多层神经网络的系统，则难以清晰定义内部的接口。例如大模型里面的前馈多层网络看上去也是一个内部的 pipeline，但层与层之间是很难定义清楚接口的，最多是个模糊的大概。例如，原则上我们知道，后层的网络比前层的网络具有更抽象的意义或结构表示。不过这通常并不影响我们达成我们的端到端定义的任务目标，只是可解释性和定点纠错的能力确实不如透明的符号逻辑的pipeline系统。

无论大模型，还是传统机器学习，还是老古董的符号逻辑系统，都可以在通用的端到端数据集定义的任务上，一比高下。数据集一分为二，一部分做训练集或开发集，另一部分做盲测集。历史选择的结果是，可以利用超出训练集外的原生大数据的大模型是压倒性的。这里面的奥秘值得写一篇专门的文章去进一步阐释、解说，迄今科学传播在揭示大模型奥秘上做得还很不够。

老友问：这里有个问题，为什么要把自学习归类为非监督的学习？NTP不是明显的监督学习么，每次都在用NT作为答案去降低loss。只不过这种监督数据比较特殊，是人类的一种活动中自然而然的留下了，不需要额外标注。

这是个非常好的问题。其实非监督学习有两个定义，一个是用否人工标注数据作为监督和非监督的分界。另一个是用学习的目标函数来定义：有绝对黄金标准的学习是监督学习，反之是非监督学习，后者的一个典型任务是所谓聚类（clustering）。clustering 与 classification 最大的区别是前者无监督，结果没有预定，而后者是先有 labels 然后去分类。

这个话题值得深究。从学习的机理上看，“自监督学习”（即，自学习）本质上也是一种监督学习。自学习大模型的成功，实际上在深度学习革命搞定监督学习的那一天就注定了自己的宿命或使命，深层神经网络是天选，是有通用近似定理保障的“天机”。只不过，理解这一点需要对黄金标准做一个拓展。自学习实际上是监督学习与非监督学习的某种结合。

第一，自学习是自己给自己做标准，属于所谓回归类训练，只有正例，没有负例，这一点是非监督学习的特征。自学习是回归类预测模型，这与典型的clustering是一致的：就是说，在学习之前，并不存在一个固定的黄金标准。

第二，在自学习利用了而且最大化了监督学习的无限逼近的能力方面，也就是在遵循了万能近似定理所决定的规模化法则（scaling law）方面，在实现层面，一线研发人员发明了一个技巧，所谓“掩码”，就是遮住部分字符让系统去猜谜，类似于填字游戏或接龙游戏。这样就把没有labels的自学习，转换成了有目标的监督学习范式。

著名的下一词预测（ntp）的自回归接龙式训练，是掩码学习的最成功的范例，成就了GPT的主流霸主地位。这里面的奥秘就是所谓K氏复杂性理论，可以视为万能近似定理的一个细化版本，为解决非监督学习的通用大模型搞定端到端任务提供了理论基础。
上面的说法搞不懂也没关系，本来就不是很好理解的理论。但结果是很明显的，人类只要说话或写文章，就是在给大模型做标注。自学习突破了人工标注的知识瓶颈，把组织化的人工劳动改变为自然产生的原生数据。这一优势怎么强调也不过分，算是“免费午餐”的极致，“顺风车”的天花板，非监督学习通向监督学习的桥梁。做到这一点的前提是模型的通用化（所谓“预训练“）以及定向任务通过微调的零样本化。关于少样本实现零样本的微调（fine tune）这个大模型的知识点，以前多次提过，也有很多人做过解说，此处不赘。

总之，哇塞，跨模态大模型的奇迹就这样诞生了。跨模态大模型的自学习的养料或饲料，已经不仅是人类说话、写文章了，人类的一切自然表现的智能活动，无论画画、配词、作曲、导演、编辑等等，它们所产生的数据都是自学习的饲料。不仅如此，现在已经发展到非人类的产出，由模型再生的数据，也可以反哺给自学习来自提升。

我是小雅，上面分享的是立委先生每次几分钟的有角度的思考，希望对您有启发，咱们下次再见。

【相关】

Suno prompt engineering tips

chinese traditional folk

chinese traditional folk, slow, Ethereal, angelic voice, zheng

Chinese Folk. Percussive. Beat Drop. slow. guzheng

chinese folk. Inspired Pop Ballad. Clear Voice, Moderate tempo

chinese traditional folk, slow, Ethereal, angelic voice, zheng

Chinese Folk. Dark Pop. Percussive. Beat Drop

Chinese Folk. Pop Rock. Percussive. Beat Drop. guzheng

chineses Folk. Cinematic Rock. Epic

国语 playlists：

https://suno.com/playlist/945eb006-705b-4a74-a5b4-5d8e4afc4fad

【唐诗300首 AIGC 配乐：白居易长恨歌】

超长AI音乐生成，近10分钟长！

【唐诗300首 AIGC 配乐：白居易琵琶行】

【唐诗300首 AIGC 配乐：李商隐无题】

【唐诗300首 AIGC 配乐：杜甫春望】

【唐诗300首 AIGC 配乐：白居易琵琶行】

【唐诗300首 AIGC 配乐：李商隐无题】

【唐诗300首 AIGC 配乐：杜甫春望】