立委按:一辈子从事NLP/AI工作,已经习惯于在自己的博客频道持续写笔记,记下一路走来的观察和体会。所写貌似科普,但实际上不是为了迎合大众或普惠天下,根本动因还是为自己留下足迹,其次才是与亲友、同人、后学分享。大模型爆发是个分水岭。爆发前的博客集中在NLP的方方面面,大多是符号逻辑路线在自然语言文法方面的挣扎与进展。爆发后也没闲着,在这个有如寒武纪生物大爆发一样的让人眼花缭乱的世界,兴奋与刺激大于焦虑和恐怖,于是一路紧随,只问耕耘。现不揣拙陋,结集于此,定时更新,留下这个时代一位老兵的视界。
【立委NLP频道】
The Chain Rule: The Mathematical Guarantee Behind Backpropagation
Backpropagation: The Key to Deep Neural Networks
Multimodal tokens and the Case for Unified Modeling
Neural Codec: Key Audio Techniques in the LLM Era
Breakthroughs in Speech Technology in the Era of Large Models: Ultra-Realism and Full Duplex
Attention Collapse: The Misunderstood Truth About “Rank”
Is the World Material or Informational?
Is Thinking Equal to Language?
Demystifying the misconception of "Lossless Compression as Intelligence"
GPT and the Art of Compression
Efficiency vs. Reliability: The Compression Tightrope
Arithmetic Coding for GPT’s Compression Engine
Navigating the Probability Universe with GPT
Is GPT Compression Lossless or Lossy? The Truth Revealed
GPT as a Cosmic Librarian: Unlocking Lossless Compression
Yann LeCun 所鼓吹的「世界模型」与GPT+Diffusion有什么不同
Gemini Deep Research:用“Logits Lens”洞察神经网络的奥秘
万字长文解析 LLM-native Agent 及其混合计算方式
o3 deep research: LLM 驱动的 Agent 综述
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
DeepSeek爆火真相:不靠“人盯”, 让AI自己学会慢思考
创业邦深圳会议演讲笔记:推动AIGC商业落地,出门问问的「产模结合」实践
告诉李雪琴一个激发写段子灵感的秘诀:找deepseek R1
介绍尼克的最新演讲,探寻大模型的理论基础与渊源(中文版,英文字幕)
《飞哥说AI》深度系列
2023/12/09: 李维 高佳:OpenAI狂飙生态? 领域壁垒仍是大山
2023/12/09: 李志飞 高佳 李维:关于 Google Gemini 的八点启示
2024/02/19: 李志飞 李维 高佳:为什么说 Sora 是世界的模拟器?
2024/02/29: 李志飞 李维 高佳:万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
2024/03/05: 李志飞 李维:Claude 3 追平或超越 GPT-4,能归纳15万单词
2024/04/01: 李维 王艺 高佳:Suno 将如何进化?
2024/04/12: 高佳 李维 王艺「产模结合」也许是AI公司更好的出路?
2024/06/04: 李维 高佳:KAN会引起大模型的范式转变吗?
2024/07/18:李维 高佳:“安全智能”的背后,Ilya 究竟看到了什么?
2023-2024关于大模型及AIGC的演讲/采访
2023-03-05:源码资本AIGC“尖峰系列”,李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战
2023/05/09: 腾讯科技,对话产业专家:“百模大战”愈演愈烈,地球上算力不够支撑10亿人使用
2023/07/16: 轩辕之学讲座,特邀讲座《大模型的历史、现状和挑战》
2023/06/28: 中国证券报报道 360 GPT 联盟特邀演讲:李维:避免大模型行业同质化竞争 深耕领域阶段有很多“细活”可做
2023/07/21: ArchSummit 全球架构师峰会主题演讲《从架构师视角谈如何迎接/拥抱大模型及其新生态》(https://blog.csdn.net/EDDYCJY/article/details/131929057)
2023/07/28: Chinajoy,中国音像与数字出版协会和上海汉威信恒展览有限公司主办,特邀演讲《AIGC时代,数字人引领内容创作新范式》
2023/08/06: 亚马逊云科技和真格基金主办的闭 “机遇与挑战——生成式AI的发展趋势和落地应用”,主题演讲《AI大模型落地的前景和痛点》
2023/08/23: 江苏师范大学主办 “大语言模型离人类语言有多远”学术研讨会特邀演讲《大模型的本性及其落地痛点》
2023/10/20: 第十一届科博会,特邀主题演讲《AI和大模型趋势》
2024年3月18:英伟达 GTC2024全球开发者大会 与英伟达中国团队合作,讲演《重塑数字人互动潜能》
2024/04/22: 第十四届北京国际电影节光影未来,演讲《捕捉未来的魔术师》
2024/04/22 九派财经专访出门问问副总裁李维:两年内大模型的商业化爆发一定会发生
2023/11/11: 香蕉论坛,“百“模”大战对智能座舱发展意义与实践”,2023/12/05 汽车商业评论,《李维:大模型技术的过去、现在与未来》
2023/12/05 汽车商业评论,《李维:大模型技术的过去、现在与未来》
2024/04/22:九派财经专访出门问问副总裁李维:两年内大模型的商业化爆发一定会发生
2024/05/24: 九派财经专访出门问问副总裁李维:找产品方向是更大痛点,跑通场景是第一位
《AI浪潮博客目录:白模大战早期》
《AI浪潮:zero shot 抽取、摘要、吟诗、阅读理解》
《李白126:神经 attention 机制搞定代词指代的案例》
《AI潮流:与 ChatGPT4 聊“买房送老公”背后的语言学》
《AI潮流:跟Andrew学如何调用 ChatGPT 做自己的服务前台》
【AI 浪潮:大模型推理的细节编造是 feature,不是 bug】
AIGC 作品
立委微信视频号
大模型科普系列1
系列2 知识蒸馏
系列3 自回归和扩散模型
系列4 视频生成
https://weixin.qq.com/sph/A523fBxLQ
https://weixin.qq.com/sph/Aw5lAfSoV
https://weixin.qq.com/sph/Af5j09VbP
https://weixin.qq.com/sph/AsK0Dk54l
https://weixin.qq.com/sph/AIanE0ocM
https://weixin.qq.com/sph/AbxoSWedA
https://weixin.qq.com/sph/AA6fqzTkO
English
How GPT Works: A Shakespearean Text Generator
MCP: From Flashy Boom to Real Usability — A Technical Deep Dive
03 deep research: Challenges and Prospects of Advanced Reasoning LLMs
Does the New Reasoning Paradigm (Query+CoT+Answer) Support a New Scaling Law?
Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism in Production
DeepSeek's R1 Paper: A Storm in AI LLM Circle
The Turbulent Second Chapter of Large Language Models: Has Scaling Stalled?
Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation
Introduction to Transformer and Its Attention Mechanism
Has Symbolism Been Sidelined for Too Long? Could Neural LLM terminate AI?
What did Ilya see? -- secret behind success of LLMs
Nick tracing the AI history for theoretical foundation and sources (English)
Unified Models Surpass Single-modal Models (Gemini Notes 2/8)
Cross-modal Knowledge Transfer of Large Models Proven (Gemini Notes 1/8)
Decoding the New EMPO Reasoning Paradigm
A Comparative Review of Autoregressive and Diffusion Models for Video Generation
Unveiling the Two "Superpowers" Behind AI Video Creation
Decoding LLM-native Agents: Bridging Compilation and Interpretation in AI
The Three-Stage Scaling Laws Large Language Models
Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism in Production
Professor Ma Claims to Have Fully Unveiled the Mysteries of Neural Networks
Decoupling to Resolve: Issue of Character Consistency in Video Generation
Llama 3 Notes and Llama MV with Llama 3.1 Legend
The ChatGPT Tsunami and Its Impact on IT Landscape and New Ecosystem
《科学网》博客
从0实现并理解GPT 2025-06-04
大模型科普:探秘莎翁风格的诞生之旅(无代码版) 2025-06-03
- LLM的后训练强化学习是怎么工作的 2025-06-02
- EMPO强化学习项目复现Claude4学习总结 2025-05-27
- 解读EMPO全程无监督推理新范式 2025-05-27
- Decoding the New EMPO Reasoning Paradigm 2025-05-27
- MeanFlow: AI图像生成的降维打击 2025-05-22
- 生成式AI的两条视频生成路线 2025-05-02
- 非量化自回归视频生成模型NOVA的技术路线 2025-05-02
- 立委科普:揭秘AI创作视频的两种“神功” 2025-05-02
- Silicon Valley Night: A Foxy Encounter 2025-04-23
- 《硅谷夜记:艳遇》 2025-04-23
- 中文分词的前世今生 2025-03-30
- 2025年肯尼迪遇刺案档案解密 (审核未通过)
- 2025年肯尼迪遇刺档案解密揭示的惊人真相 (审核未通过)
- Suno:《宋輝:人生笑话》-- 献给插队一代人 (审核未通过)
- 《AI浪潮:打造中国的 ChatGPT,挑战与机会并存》 (审核未通过)