立委按:一辈子从事NLP/AI工作,已经习惯于在自己的博客频道持续写笔记,记下一路走来的观察和体会。所写貌似科普,但实际上不是为了迎合大众或普惠天下,根本动因还是为自己留下足迹,其次才是与亲友、同人、后学分享。大模型爆发是个分水岭。爆发前的博客集中在NLP的方方面面,大多是符号逻辑路线在自然语言文法方面的挣扎与进展。爆发后也没闲着,在这个有如寒武纪生物大爆发一样的让人眼花缭乱的世界,兴奋与刺激大于焦虑和恐怖,于是一路紧随,只问耕耘。现不揣拙陋,结集于此,定时更新,留下这个时代一位老兵的视界。
【立委NLP频道】
Yann LeCun 所鼓吹的「世界模型」与GPT+Diffusion有什么不同
Gemini Deep Research:用“Logits Lens”洞察神经网络的奥秘
万字长文解析 LLM-native Agent 及其混合计算方式
o3 deep research: LLM 驱动的 Agent 综述
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
DeepSeek爆火真相:不靠“人盯”, 让AI自己学会慢思考
创业邦深圳会议演讲笔记:推动AIGC商业落地,出门问问的「产模结合」实践
告诉李雪琴一个激发写段子灵感的秘诀:找deepseek R1
介绍尼克的最新演讲,探寻大模型的理论基础与渊源(中文版,英文字幕)
《飞哥说AI》深度系列
2023/12/09: 李维 高佳:OpenAI狂飙生态? 领域壁垒仍是大山
2023/12/09: 李志飞 高佳 李维:关于 Google Gemini 的八点启示
2024/02/19: 李志飞 李维 高佳:为什么说 Sora 是世界的模拟器?
2024/02/29: 李志飞 李维 高佳:万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
2024/03/05: 李志飞 李维:Claude 3 追平或超越 GPT-4,能归纳15万单词
2024/04/01: 李维 王艺 高佳:Suno 将如何进化?
2024/04/12: 高佳 李维 王艺「产模结合」也许是AI公司更好的出路?
2024/06/04: 李维 高佳:KAN会引起大模型的范式转变吗?
2024/07/18:李维 高佳:“安全智能”的背后,Ilya 究竟看到了什么?
2023-2024关于大模型及AIGC的演讲/采访
2023-03-05:源码资本AIGC“尖峰系列”,李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战
2023/05/09: 腾讯科技,对话产业专家:“百模大战”愈演愈烈,地球上算力不够支撑10亿人使用
2023/07/16: 轩辕之学讲座,特邀讲座《大模型的历史、现状和挑战》
2023/06/28: 中国证券报报道 360 GPT 联盟特邀演讲:李维:避免大模型行业同质化竞争 深耕领域阶段有很多“细活”可做
2023/07/21: ArchSummit 全球架构师峰会主题演讲《从架构师视角谈如何迎接/拥抱大模型及其新生态》(https://blog.csdn.net/EDDYCJY/article/details/131929057)
2023/07/28: Chinajoy,中国音像与数字出版协会和上海汉威信恒展览有限公司主办,特邀演讲《AIGC时代,数字人引领内容创作新范式》
2023/08/06: 亚马逊云科技和真格基金主办的闭 “机遇与挑战——生成式AI的发展趋势和落地应用”,主题演讲《AI大模型落地的前景和痛点》
2023/08/23: 江苏师范大学主办 “大语言模型离人类语言有多远”学术研讨会特邀演讲《大模型的本性及其落地痛点》
2023/10/20: 第十一届科博会,特邀主题演讲《AI和大模型趋势》
2024年3月18:英伟达 GTC2024全球开发者大会 与英伟达中国团队合作,讲演《重塑数字人互动潜能》
2024/04/22: 第十四届北京国际电影节光影未来,演讲《捕捉未来的魔术师》
2024/04/22 九派财经专访出门问问副总裁李维:两年内大模型的商业化爆发一定会发生
2023/11/11: 香蕉论坛,“百“模”大战对智能座舱发展意义与实践”,2023/12/05 汽车商业评论,《李维:大模型技术的过去、现在与未来》
2023/12/05 汽车商业评论,《李维:大模型技术的过去、现在与未来》
2024/04/22:九派财经专访出门问问副总裁李维:两年内大模型的商业化爆发一定会发生
2024/05/24: 九派财经专访出门问问副总裁李维:找产品方向是更大痛点,跑通场景是第一位
《AI浪潮博客目录:白模大战早期》
《AI浪潮:zero shot 抽取、摘要、吟诗、阅读理解》
《李白126:神经 attention 机制搞定代词指代的案例》
《AI潮流:与 ChatGPT4 聊“买房送老公”背后的语言学》
《AI潮流:跟Andrew学如何调用 ChatGPT 做自己的服务前台》
【AI 浪潮:大模型推理的细节编造是 feature,不是 bug】
AIGC 作品
立委微信视频号
大模型科普系列1
系列2 知识蒸馏
系列3 自回归和扩散模型
系列4 视频生成
https://weixin.qq.com/sph/A523fBxLQ
https://weixin.qq.com/sph/Aw5lAfSoV
https://weixin.qq.com/sph/Af5j09VbP
https://weixin.qq.com/sph/AsK0Dk54l
https://weixin.qq.com/sph/AIanE0ocM
https://weixin.qq.com/sph/AbxoSWedA
https://weixin.qq.com/sph/AA6fqzTkO
English
How GPT Works: A Shakespearean Text Generator
MCP: From Flashy Boom to Real Usability — A Technical Deep Dive
03 deep research: Challenges and Prospects of Advanced Reasoning LLMs
Does the New Reasoning Paradigm (Query+CoT+Answer) Support a New Scaling Law?
Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism in Production
DeepSeek's R1 Paper: A Storm in AI LLM Circle
The Turbulent Second Chapter of Large Language Models: Has Scaling Stalled?
Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation
Introduction to Transformer and Its Attention Mechanism
Has Symbolism Been Sidelined for Too Long? Could Neural LLM terminate AI?
What did Ilya see? -- secret behind success of LLMs
Nick tracing the AI history for theoretical foundation and sources (English)
Unified Models Surpass Single-modal Models (Gemini Notes 2/8)
Cross-modal Knowledge Transfer of Large Models Proven (Gemini Notes 1/8)
Decoding the New EMPO Reasoning Paradigm
A Comparative Review of Autoregressive and Diffusion Models for Video Generation
Unveiling the Two "Superpowers" Behind AI Video Creation
Decoding LLM-native Agents: Bridging Compilation and Interpretation in AI
The Three-Stage Scaling Laws Large Language Models
Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism in Production
Professor Ma Claims to Have Fully Unveiled the Mysteries of Neural Networks
Decoupling to Resolve: Issue of Character Consistency in Video Generation
Llama 3 Notes and Llama MV with Llama 3.1 Legend
The ChatGPT Tsunami and Its Impact on IT Landscape and New Ecosystem
《科学网》博客
从0实现并理解GPT 2025-06-04
大模型科普:探秘莎翁风格的诞生之旅(无代码版) 2025-06-03
- LLM的后训练强化学习是怎么工作的 2025-06-02
- EMPO强化学习项目复现Claude4学习总结 2025-05-27
- 解读EMPO全程无监督推理新范式 2025-05-27
- Decoding the New EMPO Reasoning Paradigm 2025-05-27
- MeanFlow: AI图像生成的降维打击 2025-05-22
- 生成式AI的两条视频生成路线 2025-05-02
- 非量化自回归视频生成模型NOVA的技术路线 2025-05-02
- 立委科普:揭秘AI创作视频的两种“神功” 2025-05-02
- Silicon Valley Night: A Foxy Encounter 2025-04-23
- 《硅谷夜记:艳遇》 2025-04-23
- 中文分词的前世今生 2025-03-30
- 2025年肯尼迪遇刺案档案解密 (审核未通过)
- 2025年肯尼迪遇刺档案解密揭示的惊人真相 (审核未通过)
- Suno:《宋輝:人生笑话》-- 献给插队一代人 (审核未通过)
- 《AI浪潮:打造中国的 ChatGPT,挑战与机会并存》 (审核未通过)