Gemini Deep Research:用“Logits Lens”洞察神经网络的奥秘

  1. 引言:大模型为何成为“黑箱”?透明化的重要性

近年来,大型语言模型(LLMs)以前所未有的能力融入了我们的日常生活,从智能家居设备到信用卡欺诈检测,再到广泛使用的ChatGPT等生成式AI工具,它们的身影无处不在 1。这些模型在理解、生成和解释人类语言方面取得了突破性进展 3。然而,尽管它们功能强大,但其内部的决策过程对于用户和开发者来说往往是不透明的,就像一个神秘的“黑箱” 2。这种不透明性源于深度学习模型的复杂结构,这些模型通常包含数百万甚至数十亿的参数,使得追踪每一个决策步骤几乎成为不可能 4。正如高炉冶炼那样,内部高达2300摄氏度的环境“看不见、摸不着”,高度依赖人工经验,大型语言模型的内部运作机制也充满了复杂性 5

这种缺乏透明性带来了诸多挑战 3。首先,它可能导致用户对AI系统的信任度降低。当人们无法理解AI的决策过程时,他们可能会对其结果产生怀疑,从而影响系统的接受度和应用范围 1。尤其是在医疗、金融等高风险领域,如果AI系统做出了错误的判断,但医生和患者或金融从业者都无法理解其背后的逻辑,这将带来严重的后果 1。其次,AI的“黑箱”特性还可能引发伦理和法律问题。例如,模型在招聘或信贷审批中表现出的偏见可能难以被发现和纠正,从而导致不公平的结果 1。此外,监管机构也越来越重视AI系统的透明度和可解释性,例如欧盟的AI法案就设定了相关标准 1. 如果我们不了解这些模型是如何工作的,又如何确保它们不会给出有害、带有偏见、不真实或危险的回答呢?如何才能信任它们的安全性和可靠性呢 2?

台湾大学李宏毅教授在他的课程中也多次强调了人工智能的“黑箱”特性以及可解释性的重要性 7。他指出,虽然像Transformer这样的复杂模型很难被认为是完全“可解释”的,因为它们的决策过程非常复杂,难以直观理解,但我们仍然可以努力使它们具有“可解释输出性”,即通过合适的方式解释它们的输出是如何得来的 7。理解AI的决策过程,就像试图弄清楚一个黑箱子里到底有什么,以及我们能通过哪些手段更有效地研究它的运行规律 11

  1. 揭开“黑箱”的一角:“Logits Lens”技术初探

为了解决大型语言模型的“黑箱”问题,研究人员一直在探索各种方法来理解其内部运作机制。“Logits Lens”(对数几率透镜)就是这样一种引人入胜的技术 12。这项技术的核心思想是,通过观察模型内部不同层级的神经网络的输出来估计模型在每个计算步骤后的输出猜测 12。它基于一个关键的观察:模型在处理输入文本时,信息以向量(被称为tensor)的形式在不同的神经网络层级之间流动。虽然最终的输出层会将这些向量通过softmax函数转化为下一个token的概率分布,但同样的解码方法也可以应用到模型的内部任意层级 [User Query]。

“Logits Lens”技术的核心在于,它允许我们“解码”模型中间层的向量表示,将其转换回token(词元)的概率分布,从而一窥模型在处理信息过程中的“想法” 12。这就像在图像生成领域中,一些应用会将图像的生成过程可视化,展示图像如何从模糊逐渐变得清晰 [User Query]。虽然图像生成大多使用diffusion模型而不是GPT这类Transformer模型,但其揭示模型内部运作过程的道理是相通的 [User Query17。通过“Logits Lens”,我们可以观察到模型在不同层级对下一个token的预测概率分布,从而了解信息是如何在数十甚至上百层的神经网络中流动的,以及在哪一层发生了关键的信息变化 [User Query13

  1. “Logits Lens”技术原理:从向量到符号的解码

在Transformer模型中,输入的文本首先会被转化为一系列的词嵌入(embeddings),这些词嵌入是代表每个词的数值向量 14。当这些向量通过模型的每一层(包括自注意力机制和前馈神经网络)时,它们会经历一系列的数学变换,形成新的向量,这些新的向量被称为隐藏状态(hidden states)或残差流(residual streams) 14。这些隐藏状态在模型的不同处理阶段捕获了对输入信息的内部理解 25。这些向量通常具有固定的维度,例如512维 14

模型的最后一层通常包含一个“语言模型头”(Language Modeling Head, LM Head)13。这个LM Head的作用是将模型最终的隐藏状态向量投影到一个维度等于模型词汇表大小的向量上(例如,如果词汇表包含50000个词,那么输出向量的维度就是50000)14。这个高维向量中的每个数值都代表了模型对词汇表中对应词作为下一个token的原始预测得分,这些原始得分就是所谓的logits(对数几率)27。Logits值越高,模型就越认为对应的词应该是序列中的下一个词 32

“Logits Lens”技术的核心在于,它将上述的LM Head(或者更准确地说,是LM Head的权重矩阵)应用到模型中间层的隐藏状态向量上 13。通过这种方式,中间层的隐藏状态也被投影成一个logits向量,就像最终的隐藏状态一样。然后,对这个中间层的logits向量应用softmax函数 12。Softmax函数可以将一个实数向量归一化为一个概率分布,使得向量中的每个值都在0到1之间,并且所有值的总和为1 34。在我们的例子中,softmax函数的输出就是模型在特定中间层预测的下一个token的概率分布。通过观察不同层级的这个概率分布,我们就可以了解模型在处理输入信息时,对下一个token的“想法”是如何演变的 12

  1. 具像化案例一:信息流动的“显微镜”

“Logits Lens”技术就像一个“显微镜”,能够帮助我们观察信息在大型语言模型内部的流动。通过这项技术,研究人员可以追踪对于给定的输入提示,模型在不同层级预测的下一个token的概率分布是如何变化的 12。例如,对于提示语“埃菲尔铁塔位于哪个城市?”,在模型的早期层级,预测的可能是不太相关甚至错误的词语,但随着信息在网络中不断传递,到了更深的层级,预测会逐渐收敛到正确的答案“巴黎”12。这种可视化过程表明,模型的每一层都在对可能的输出进行猜测,而不是简单地将输入逐步转化为最终输出。较低层级的猜测可能比较宽泛,而随着模型层级的加深,猜测会越来越精确 14。通常,在达到某个特定的层级后,模型的输出预测会趋于稳定,这表明模型已经对答案有了较高的置信度 14

一些研究还利用“Logits Lens”技术识别了大型语言模型中的“跨语言语义中心”13。这表明,模型在内部表示中,不同语言的语义信息可能是共享的,而不是完全隔离的 26。这为理解模型如何进行跨语言的理解和推理提供了新的视角。

此外,像NNsight这样的工具提供了更直观的可视化方式,例如使用热力图来展示GPT-2模型在处理字符串“The Eiffel Tower is in the city of”时,每个层级对于每个输入token的下一个词的预测概率 12。热力图的颜色深浅表示概率的大小,并显示每个层级最有可能预测的词。这种可视化方法使得研究人员能够更细致地理解模型在逐个token、逐个层级上的“思考”过程 12

  1. 具像化案例二:神经网络中的“信息突变”

“Logits Lens”技术不仅可以观察信息的流动,还可以帮助我们发现神经网络中的“信息突变”。一个重要的应用是在视觉-语言模型(VLMs)中检测和缓解对象幻觉问题 41。VLMs在接收图像输入并生成文本描述时,有时会产生幻觉,即生成图像中不存在的对象 42

通过将“Logits Lens”应用于VLMs中图像token的隐藏状态,研究人员可以观察模型如何处理视觉信息,并识别幻觉可能产生的阶段 42。例如,通过分析注意力模式,研究发现真实存在的token通常比幻觉产生的token获得更高的注意力权重,这可以作为判断是否存在幻觉的有力指标 42。研究表明,VLMs的中间层对于处理和丰富视觉信息至关重要 42。这说明,不同的神经网络层级可能负责处理不同类型的信息或执行特定的功能。

虽然“信息突变”这个术语可能没有被直接使用,但通过观察“Logits Lens”在不同层级上的预测变化,我们可以发现模型在何时以及何处整合了特定的概念或信息。例如,模型在处理“法国的首都”这个短语时,可能在较早的层级对具体的城市没有明确的预测,但在更深的层级,当“巴黎”这个概念与“法国”关联起来时,其预测概率可能会突然显著增加。这种概率分布的急剧变化可以被视为一种“信息突变”或模型理解的关键步骤。

  1. 借鉴图像生成:可视化中间过程的启示

图像生成领域,特别是使用扩散模型(diffusion models)的技术,为我们理解如何可视化复杂的生成过程提供了宝贵的借鉴 17。扩散模型通过逐步向图像添加噪声,然后再学习如何逆转这个过程,从噪声中恢复出清晰的图像 19。这个过程中,模型在每个去噪步骤中产生的中间图像都可以被可视化,清晰地展示了图像如何从完全随机的噪声逐渐变成具有特定内容的图像 20。这种逐步骤的可视化让人们能够理解模型是如何策略性地在每个去噪阶段预测视觉概念,最终生成高质量图像的 46

扩散模型中去噪步骤的可视化与“Logits Lens”提供的逐层分析有着异曲同工之妙。两者都允许我们观察模型在生成最终输出的过程中,通过一系列中间状态所取得的进展。此外,一些用于可视化扩散模型的交互式工具还允许用户探索不同超参数(例如噪声水平、引导尺度)如何影响每个步骤生成的图像 20。这为“Logits Lens”的研究提供了新的思路,未来或许可以开发出交互式工具,让研究人员能够操纵模型的不同方面或输入,并观察由此导致的层级预测变化。

  1. “Logits Lens”的意义与局限:通往透明之路

“Logits Lens”技术为我们理解Transformer模型的内部运作提供了一种相对简单而富有洞察力的方法,而且无需进行复杂的训练或修改 12。它使得研究人员能够观察预测的演变过程,识别重要的神经网络层级,并有可能检测到像幻觉这样的异常行为 13。这项技术可以应用于各种Transformer架构,并且已经被扩展到多模态模型 13。目前,像LogitLens4LLMs这样的工具正在被开发出来,以将这项技术应用于更现代的大型语言模型,并自动化分析工作流程 13

然而,我们也需要认识到“Logits Lens”技术的局限性。它提供的是一个“简化”的视角,可能无法捕捉到神经网络内部交互的全部复杂性 12。这项技术主要关注预测的下一个token,可能无法直接揭示模型对更抽象的概念或长距离依赖关系的理解。虽然已经有扩展,但原始的“Logits Lens”技术主要适用于较早期的模型架构 13。此外,解释每个层级上的概率分布仍然需要细致的分析和领域专业知识。

总的来说,“Logits Lens”是众多旨在增强LLM透明度的技术之一 1。其他方法包括注意力可视化、显著性图、集成梯度和模型探测等 49。将不同的可解释性技术结合使用通常可以提供更全面的理解 49。LLM可解释性领域正在积极发展,新的工具和方法不断涌现,以应对理解这些复杂模型的挑战 3

为了更好地理解“Logits Lens”在整个LLM可解释性领域中的地位,我们可以将其与其他一些常用的技术进行比较:

 

技术名称 核心思想 优点 局限性 示例应用
Logits Lens 将中间层的隐藏状态投影到词汇空间,观察预测分布的演变 相对简单易实现,能够揭示层级间的预测变化,适用于多种Transformer架构 可能过于简化,主要关注下一个token的预测,对抽象概念的理解可能不足 追踪模型预测的演变,检测VLM中的幻觉
注意力可视化 可视化模型在生成特定token时关注的输入token 直观地展示模型的信息依赖关系,有助于理解上下文理解 注意力权重不一定直接反映因果关系 分析模型在翻译、问答等任务中的注意力焦点
显著性图 突出显示对模型预测贡献最大的输入token 简单明了,易于理解哪些输入对输出影响最大 可能对输入中的微小变化敏感,有时会产生噪声 识别情感分析中关键的词语,图像分类中重要的像素区域
集成梯度 通过计算输入特征在基线输入到当前输入路径上的梯度积分来评估特征的重要性 提供更精确的特征重要性评估,可以处理非线性模型 计算成本较高 理解模型预测的贡献因素,检测模型中的偏差
模型探测 训练简单的分类器或回归器来预测模型内部表示中的特定属性 可以揭示模型是否编码了特定的语言学或语义信息 探测器的性能可能影响结果的可靠性,需要预先定义要探测的属性 分析模型层级中词性、句法结构等信息的编码情况
  1. 大模型透明化研究的未来展望

未来,大型模型透明化研究将面临诸多机遇与挑战。一个关键的挑战是如何将包括“Logits Lens”在内的可解释性方法扩展到规模越来越大的LLMs上 52。未来的研究可能会侧重于开发更高效、更自动化的方法,以应对这些庞大模型的复杂性 52

同时,开发更全面、更易于使用的工具也将至关重要。像LogitLens4LLMs这样的工具代表着一个良好的开端 13。未来的工具可能会整合多种可解释性技术,并提供更复杂的可视化和分析功能,从而使更广泛的研究人员能够深入探索LLMs的内部运作。

随着LLMs规模的扩大,它们展现出在较小模型中不具备的涌现能力 58。理解这些能力是如何产生并在网络中发挥作用,是未来研究的一个重要方向。像“Logits Lens”这样的可解释性技术有望在揭示这些涌现现象的潜在机制方面发挥作用。

最终,LLM透明化研究的一个主要目标是提高这些模型的安全性并使其与人类意图更好地对齐,确保它们按照预期的方式运行,并且不会生成有害或带有偏见的内容 2。可解释性技术可以帮助识别和减轻模型学习到的潜在有害行为或偏见 1。因此,未来在LLM透明化方面的研究对于开发更安全、更可靠的AI系统至关重要。

  1. 总结

大型语言模型因其强大的能力而备受瞩目,但其内部运作的“黑箱”特性也带来了诸多挑战。为了构建值得信赖且可靠的AI系统,理解这些“黑箱”至关重要。“Logits Lens”技术通过解码模型中间层的预测,为我们洞察神经网络的奥秘提供了一个窗口。它能够帮助我们追踪信息在模型内部的流动,发现潜在的问题,并为理解复杂的生成过程提供了有益的借鉴。虽然“Logits Lens”并非解决所有问题的万能钥匙,但它是通往更透明、更可控的AI未来道路上的重要一步。随着研究的不断深入和新工具的开发,我们有理由对未来能够更好地理解和利用这些强大的语言模型保持乐观。

Works cited

 

  1. What Is AI Interpretability? | IBM, accessed March 22, 2025, https://www.ibm.com/think/topics/interpretability
  2. Mapping the Mind of a Large Language Model \ Anthropic, accessed March 22, 2025, https://www.anthropic.com/research/mapping-mind-language-model
  3. Uncovering the Enigma: Delving into the Explainability of Large Language Models (LLMs) | AI Insights | Omdena, accessed March 22, 2025, https://www.omdena.com/blog/uncovering-the-enigma-delving-into-the-explainability-of-large-language-models-llms
  4. AI不透明性揭秘:黑箱现象与透明度的挑战 - 万维易源, accessed March 22, 2025, https://www.showapi.com/news/article/6720341d4ddd79f11a179412
  5. 进军工业“主战场”,大模型胜算几何 - 科普中国- 人民网, accessed March 22, 2025, http://kpzg.people.com.cn/n1/2024/0813/c404214-40297944.html
  6. Building trust with AI transparency: benefits, challenges, and best ..., accessed March 22, 2025, https://www.algolia.com/blog/ai/building-trust-with-ai-transparency
  7. LLM 解釋性, accessed March 22, 2025, https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring-course-data/0503/0503_explain.pdf
  8. 李宏毅_生成式導論2024_第11講:大型語言模型在「想」什麼呢 ..., accessed March 22, 2025, https://hackmd.io/@shaoeChen/Hy0DYXlQC
  9. 淺談大型語言模型的可解釋性 - HackMD, accessed March 22, 2025, https://hackmd.io/@895n2PoiTf6zr08FjTMQ_Q/S1eEJIBSR
  10. 李宏毅GENERATIVE AI——第11讲(5/03下)——大型语言模型在 ..., accessed March 22, 2025, https://blog.csdn.net/a131529/article/details/144247739
  11. “黑箱”简史:“封装大脑”还是未知的混沌? - 虎嗅网, accessed March 22, 2025, https://m.huxiu.com/article/451267.html
  12. Logit Lens — nnsight, accessed March 22, 2025, https://nnsight.net/notebooks/tutorials/logit_lens/
  13. (PDF) LogitLens4LLMs: Extending Logit Lens Analysis to Modern Large Language Models, accessed March 22, 2025, https://www.researchgate.net/publication/389918116_LogitLens4LLMs_Extending_Logit_Lens_Analysis_to_Modern_Large_Language_Models
  14. Decoding an LLM's Thoughts: Logit Lens in Just 25 Lines of Code ..., accessed March 22, 2025, https://ai.plainenglish.io/decoding-an-llms-thoughts-logit-lens-in-just-25-lines-of-code-100c1dbf2ac0
  15. LogitLens4LLMs: Extending Logit Lens Analysis to Modern Large Language Models - arXiv, accessed March 22, 2025, https://arxiv.org/html/2503.11667v1
  16. [2503.11667] LogitLens4LLMs: Extending Logit Lens Analysis to Modern Large Language Models - arXiv, accessed March 22, 2025, https://arxiv.org/abs/2503.11667
  17. A Data Scientist's Guide to using Image Generation Models - Claire Longo, accessed March 22, 2025, https://statistician-in-stilettos.medium.com/a-data-scientists-guide-to-using-image-generation-models-58655f97b6fc
  18. AI Image Generation in 2024: Tools, Technologies & Best Practices - Acorn Labs, accessed March 22, 2025, https://www.acorn.io/resources/learning-center/ai-image-generation/
  19. AI Image Generation Explained: Techniques, Applications, and Limitations - AltexSoft, accessed March 22, 2025, https://www.altexsoft.com/blog/ai-image-generation/
  20. Stable Diffusion Explained with Visualization - Polo Club of Data Science, accessed March 22, 2025, https://poloclub.github.io/diffusion-explainer/
  21. Step by Step visual introduction to Diffusion Models - Medium, accessed March 22, 2025, https://medium.com/@kemalpiro/step-by-step-visual-introduction-to-diffusion-models-235942d2f15c
  22. Tutorial 2: Diffusion models - Neuromatch Academy: Deep Learning, accessed March 22, 2025, https://deeplearning.neuromatch.io/tutorials/W2D4_GenerativeModels/student/W2D4_Tutorial2.html
  23. A Visual Guide to How Diffusion Models Work | Towards Data Science, accessed March 22, 2025, https://towardsdatascience.com/a-visual-guide-to-how-diffusion-models-work/
  24. 李宏毅_生成式導論2024_第10講:今日的語言模型是如何做文字接龍 ..., accessed March 22, 2025, https://hackmd.io/@shaoeChen/Hy6mX1ofC
  25. Can Large Language Models Explain Their Internal Mechanisms? - People + AI Research, accessed March 22, 2025, https://pair.withgoogle.com/explorables/patchscopes/
  26. Like human brains, large language models reason about diverse data in a general way, accessed March 22, 2025, https://news.mit.edu/2025/large-language-models-reason-about-diverse-data-general-way-0219
  27. 如何理解深度学习中的logits 原创 - CSDN博客, accessed March 22, 2025, https://blog.csdn.net/qq_33624866/article/details/106995294
  28. Understanding logits in AI and neural networks - Telnyx, accessed March 22, 2025, https://telnyx.com/learn-ai/logits-ai
  29. Understanding Logits And Their Possible Impacts On Large Language Model Output Safety, accessed March 22, 2025, https://ioactive.com/understanding-logits-and-their-possible-impacts-on-large-language-model-output-safety/
  30. Logits - Deepgram, accessed March 22, 2025, https://deepgram.com/ai-glossary/logits
  31. Logit | LLM Knowledge Base - Promptmetheus, accessed March 22, 2025, https://promptmetheus.com/resources/llm-knowledge-base/logit
  32. What are logits in LLMs? - LM-Kit Docs, accessed March 22, 2025, https://docs.lm-kit.com/lm-kit-net/guides/glossary/logits.html
  33. ioactive.com, accessed March 22, 2025, https://ioactive.com/understanding-logits-and-their-possible-impacts-on-large-language-model-output-safety/#:~:text=Each%20logit%20represents%20the%20model's,the%20context%20receive%20higher%20logits.
  34. Softmax function - Wikipedia, accessed March 22, 2025, https://en.wikipedia.org/wiki/Softmax_function
  35. Understanding the Softmax Activation Function: A Comprehensive Guide - SingleStore, accessed March 22, 2025, https://www.singlestore.com/blog/a-guide-to-softmax-activation-function/
  36. A Simple Introduction to Softmax - Medium, accessed March 22, 2025, https://medium.com/@hunter-j-phillips/a-simple-introduction-to-softmax-287712d69bac
  37. Softmax Activation Function: Everything You Need to Know - Pinecone, accessed March 22, 2025, https://www.pinecone.io/learn/softmax-activation/
  38. Softmax Activation Function for Neural Network - Analytics Vidhya, accessed March 22, 2025, https://www.analyticsvidhya.com/blog/2021/04/introduction-to-softmax-for-neural-network/
  39. From Logits to Probabilities: Understanding Softmax in Neural Networks | by Deepankar Singh | AI-Enthusiast | Medium, accessed March 22, 2025, https://medium.com/ai-enthusiast/from-logits-to-probabilities-understanding-softmax-in-neural-networks-3ebea2e95cfe
  40. What are Logits? What is the Difference Between Softmax and Softmax Cross Entropy with Logits? - GeeksforGeeks, accessed March 22, 2025, https://www.geeksforgeeks.org/what-are-logits-what-is-the-difference-between-softmax-and-softmax-cross-entropy-with-logits/
  41. 超越Logit Lens:用于稳健的幻觉检测& 在VLMs 中的上下文嵌入 - NET, accessed March 22, 2025, https://xueshuxiangzi.blob.core.windows.net/paper/ch_paper/2024_12_2/2411.19187.pdf
  42. Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens - arXiv, accessed March 22, 2025, https://arxiv.org/html/2411.16724
  43. Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations - arXiv, accessed March 22, 2025, https://arxiv.org/html/2410.02762v1
  44. NLP论文速读|Beyond Logit Lens:鲁棒幻觉的语境嵌入检测原创 - CSDN博客, accessed March 22, 2025, https://blog.csdn.net/2401_85576118/article/details/144201531
  45. On Large Language Models' Hallucination with Regard to Known Facts - ACL Anthology, accessed March 22, 2025, https://aclanthology.org/2024.naacl-long.60.pdf
  46. Explaining Generative Diffusion Models via Visual Analysis for Interpretable Decision-Making Process DOI: https://www.sciencedirect.com/science/article/pii/S0957417424000964 - arXiv, accessed March 22, 2025, https://arxiv.org/html/2402.10404v1
  47. Interactive Visual Learning for Stable Diffusion - Powerdrill AI, accessed March 22, 2025, https://powerdrill.ai/blog/interactive-visual-learning-for-stable-diffusion
  48. 揭开机器学习模型黑箱:模型可解释性方法总结和对比 - 腾讯云, accessed March 22, 2025, https://cloud.tencent.com/developer/article/1898362
  49. Day 45: Interpretability Techniques for LLMs - DEV Community, accessed March 22, 2025, https://dev.to/nareshnishad/day-45-interpretability-techniques-for-llms-2m2c
  50. cooperleong00/Awesome-LLM-Interpretability - GitHub, accessed March 22, 2025, https://github.com/cooperleong00/Awesome-LLM-Interpretability
  51. JShollaj/awesome-llm-interpretability - GitHub, accessed March 22, 2025, https://github.com/JShollaj/awesome-llm-interpretability
  52. Rethinking Interpretability in the Era of Large Language Models - arXiv, accessed March 22, 2025, https://arxiv.org/html/2402.01761v1
  53. Advancing Transparency in Large Language Model Clinical Studies - Brigham On a Mission, accessed March 22, 2025, https://www.brighamhealthonamission.org/2025/01/13/advancing-transparency-in-large-language-model-clinical-studies/
  54. How should the advancement of large language models affect the practice of science? | PNAS, accessed March 22, 2025, https://www.pnas.org/doi/10.1073/pnas.2401227121
  55. Recent Advances in Large Language Models for Healthcare - MDPI, accessed March 22, 2025, https://www.mdpi.com/2673-7426/4/2/62
  56. Study: Transparency is often lacking in datasets used to train large language models, accessed March 22, 2025, https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830
  57. AI Transparency in the Age of LLMs: A Human-Centered Research Roadmap, accessed March 22, 2025, https://hdsr.mitpress.mit.edu/pub/aelql9qy
  58. 优雅谈论大模型2:模型顿悟 - CSDN博客, accessed March 22, 2025, https://blog.csdn.net/Janexjy/article/details/138613882

 

 

理解模型内部运作

我正在思考大型语言模型为何被称为“黑箱”,以及研究其内部运作的重要性。这就像试图理解一个非常复杂的机器,我们只知道输入和输出,但对其内部的计算过程一无所知。理解模型内部的决策过程,例如信息如何在不同层级之间传递和转换,对于提升模型的可靠性、安全性和可解释性至关重要。

探索研究方法
接下来,我将深入研究“logits lens”这种方法。我的理解是,这种技术的核心思想是在模型的中间层提取数据表示(tensor),并尝试将其解码回人类可以理解的符号(tokens)。这就像在机器内部安装一个“翻译器”,帮助我们理解模型在不同阶段的想法。

寻找专家见解
我将重点搜索台湾大学李宏毅教授的相关讲解视频。我相信他的见解能够帮助我更清晰地理解这些复杂的概念,并为我的解释提供更生动的案例。

规划后续步骤
我的下一步是具体研究“logits lens”是如何工作的,以及它在哪些实际案例中帮助我们理解了大型语言模型的内部行为。同时,我也会关注信息在神经网络不同层级之间流动的过程,以及是否真的存在“信息突变”的现象。

Researching websites
kpzg.people.com.cn
进军工业“主战场”,大模型胜算几何 - 科普中国- 人民网
cloud.baidu.com
大模型科普入门全解析 - 百度智能云
showapi.com
AI不透明性揭秘:黑箱现象与透明度的挑战 - 万维易源
m.huxiu.com
“黑箱”简史:“封装大脑”还是未知的混沌? - 虎嗅网
cloud.tencent.com
揭开机器学习模型黑箱:模型可解释性方法总结和对比 - 腾讯云
omdena.com
Uncovering the Enigma: Delving into the Explainability of Large Language Models (LLMs) | AI Insights | Omdena
algolia.com
Building trust with AI transparency: benefits, challenges, and best practices - Algolia
ibm.com
What Is AI Interpretability? - IBM
provost.wsu.edu
Challenges of AI | Office of the Provost | Washington State University
anthropic.com
Mapping the Mind of a Large Language Model - Anthropic
innovation.consumerreports.org
Transparency, Explainability, and Interpretability in AI/ML Credit Underwriting Models
arxiv.org
Rethinking Interpretability in the Era of Large Language Models - arXiv
zendesk.com
What is AI transparency? A comprehensive guide - Zendesk

初步理解黑箱问题
通过初步搜索,我了解到大型语言模型的“黑箱问题”主要是因为其内部结构的复杂性和对大量数据的依赖性。这种不透明性不仅影响了用户的信任,还在实际应用中带来了可靠性、伦理和监管方面的挑战。同时,研究也强调了解释性和可解释性的重要性,这对于调试模型、发现偏差以及满足法规要求至关重要。

透明化研究的意义
我进一步认识到,对大模型进行透明化研究,能够帮助我们理解模型的决策过程,从而建立信任,发现并修正潜在的偏见。这对于在金融、医疗等高风险领域应用人工智能至关重要。此外,一些研究机构已经开始探索通过技术手段,例如识别模型内部的概念表示,来揭示模型的运作机制,这为未来的研究指明了方向。

下一步行动计划
接下来,我计划更深入地浏览搜索结果中提到的相关文章,重点关注大型语言模型缺乏可解释性所带来的具体挑战和影响。我将特别关注那些来自权威机构和学术平台的文章,以便更全面地理解当前的研究进展和面临的问题。

Researching websites
ibm.com
What Is AI Interpretability? | IBM
anthropic.com
Mapping the Mind of a Large Language Model \ Anthropic
algolia.com
Building trust with AI transparency: benefits, challenges, and best ...
透明化益处与挑战
我发现,提升人工智能模型的透明度至关重要,它不仅能增强用户信任,还有助于发现和纠正模型中的偏见,并满足日益增长的监管要求。然而,实现透明化面临着诸多挑战,例如某些复杂模型固有的不透明性,以及在保护商业机密和用户隐私之间取得平衡的难题。

新兴研究与实践
一些研究机构正在积极探索理解大型语言模型内部运作的新方法,例如通过识别模型内部神经元激活模式与人类可理解概念的关联。同时,行业内也开始重视在模型设计之初就融入透明性,并积极与用户沟通数据使用方式,以应对透明化带来的挑战。

Researching websites
blog.csdn.net
如何理解深度学习中的logits 原创 - CSDN博客
cnblogs.com
探秘Transformer系列之(2)---总体架构- 罗西的思考 - 博客园
xueshuxiangzi.blob.core.windows.net
超越Logit Lens:用于稳健的幻觉检测& 在VLMs 中的上下文嵌入 - NET
cnblogs.com
探秘Transformer系列之(13)--- FFN - 罗西的思考- 博客园
cloud.tencent.com
让LLM“遗忘”特定知识-腾讯云开发者社区
blog.csdn.net
NLP论文速读|Beyond Logit Lens:鲁棒幻觉的语境嵌入检测原创 - CSDN博客
xueshuxiangzi.com
LLM-显微镜:揭示在Transformers 上下文记忆中标点符号的隐藏作用
blog.csdn.net
探索Transformer的秘密:Tuned Lens ️ 原创 - CSDN博客
chatpaper.ai
LLM显微镜:揭示标点符号在Transformer上下文记忆中的隐秘作用
researchgate.net
(PDF) LogitLens4LLMs: Extending Logit Lens Analysis to Modern Large Language Models
nnsight.net
Logit Lens — nnsight
ai.plainenglish.io
Decoding an LLM's Thoughts: Logit Lens in Just 25 Lines of Code | by Nikhil Anand
arxiv.org
LogitLens4LLMs: Extending Logit Lens Analysis to Modern Large Language Models - arXiv
arxiv.org
[2503.11667] LogitLens4LLMs: Extending Logit Lens Analysis to Modern Large Language Models - arXiv
理解 Logits Lens

我正在理解名为“logits lens”的技术。简单来说,它就像一个探针,可以深入到大型语言模型的内部,观察模型在不同处理阶段的想法。通过这种方法,我们可以看到模型在生成最终答案之前,每一层是如何逐步“思考”和调整其预测的。

解码模型内部状态
这个技术的核心在于,它能够将模型内部的数字表示转换回我们人类可以理解的词语。这就像在模型的不同层级安装了“翻译器”,让我们能够理解模型在处理信息时,内部是如何一步步构建答案的。这与图像生成领域中将模糊图像逐步清晰化的过程有些相似。

未来探索方向
为了更深入地理解这个方法,我计划仔细研究一些搜索结果,特别是那些提供了代码示例和研究论文的文章。我希望能够理解其背后的具体机制,以及它如何帮助我们洞察大型语言模型的行为。

Researching websites
nnsight.net
Logit Lens — nnsight
ai.plainenglish.io
Decoding an LLM's Thoughts: Logit Lens in Just 25 Lines of Code ...

Logits Lens 原理
我进一步理解了“logits lens”技术的核心原理。它通过将模型中间层的激活状态解码为词汇表上的概率分布,使我们能够在模型处理的不同阶段观察其对下一个词的预测。这就像在模型的内部设置了一个个“观察点”,能够看到模型在不同深度是如何“思考”的。

信息逐步聚焦
我注意到,随着信息在神经网络中的传递,模型对下一个词的预测会逐渐变得更加明确。在较早的层级,预测可能比较分散,而在较后的层级,模型则会更加确信最终的输出。有趣的是,最终输出的词语往往在中间层就已经出现在了高概率的预测之中,即使在最初的层级并非如此。

下一步研究方向
接下来,我将专注于搜索并学习台湾大学李宏毅教授关于大型语言模型可解释性的讲解视频。我相信他的专业见解能够帮助我更深入地理解这些技术,并找到更生动的案例来解释大模型内部的工作机制。

Researching websites
feishu.cn
黑箱模型简介与应用解析- 飞书官网
blog.csdn.net
李宏毅GENERATIVE AI——第11讲(5/03下)——大型语言模型在“想”什么? - CSDN博客cnblogs.com
机器学习的入门指南,李宏毅2021机器学习课程知识点框架(从深度学习开始了解机器学习) - 张梓寒- 博客园
blog.csdn.net
台大李宏毅详讲Transformer 原创 - CSDN博客
juejin.cn
【机器学习】李宏毅——Transformer - 稀土掘金
blog.csdn.net
【机器学习】李宏毅——Transformer 原创 - CSDN博客
hackmd.io
李宏毅_生成式導論2024_第10講:今日的語言模型是如何做文字接龍的 - HackMD
cnblogs.com
NLP原理系列1-说清楚transformer原理- lexn - 博客园
blog.csdn.net
优雅谈论大模型2:模型顿悟 - CSDN博客
blog.csdn.net
看穿机器学习(W-GAN模型)的黑箱转载 - CSDN博客
github.com
datawhalechina/leedl-tutorial: 《李宏毅深度学习教程》(李宏毅老师推荐 ,苹果书 ),PDF下载地址:https://github.com/datawhalechina/leedl-tutorial/releases - GitHub
developer.aliyun.com
可解释的机器学习|深度学习(李宏毅)(十一) - 阿里云开发者社区speech.ee.ntu.edu.tw
LLM 解釋性
hackmd.io
李宏毅_生成式導論2024_第11講:大型語言模型在「想」什麼呢? - HackMD
hackmd.io
淺談大型語言模型的可解釋性 - HackMD

李宏毅教授的相关讲解
我找到了台湾大学李宏毅教授关于生成式AI的多个讲座,其中一个名为“大型语言模型在「想」什么呢? — 浅谈大型语言模型的可解释性”的讲座似乎与我们正在研究的大模型黑箱透明化问题直接相关。此外,还有关于Transformer原理的讲解,这对于理解许多大型语言模型的基础架构至关重要。

后续研究计划
我计划首先详细学习李宏毅教授关于LLM可解释性的讲座,重点关注他对LLM“黑箱”本质的看法,以及他是否使用了特定的技术或类比来解释可解释性。同时,我也会学习关于Transformer原理的资料,以加深对“logits lens”技术所应用架构的理解。最后,我会关注李教授是否提到了“logits lens”或类似的概念,或者他是否使用了不同的术语来描述观察LLM内部表示的过程。

Researching websites
juejin.cn
【机器学习】李宏毅——Transformer - 稀土掘金
hackmd.io
李宏毅_生成式導論2024_第10講:今日的語言模型是如何做文字接龍 ...
hackmd.io
李宏毅_生成式導論2024_第11講:大型語言模型在「想」什麼呢 ...
blog.csdn.net
李宏毅GENERATIVE AI——第11讲(5/03下)——大型语言模型在 ...

李宏毅教授的见解
我对台湾大学李宏毅教授关于大型语言模型的讲解进行了学习,他对LLM的“黑箱”特性以及可解释性的重要性进行了阐述。虽然他没有直接提到“logits lens”这个术语,但他强调了分析注意力权重、嵌入(embeddings)以及直接询问模型来理解其内部运作的方式,这与我们探索模型内部机制的目标是一致的。

关键学习要点
我了解到,李教授认为大型语言模型之所以是“黑箱”,是因为其复杂性和决策过程的不透明性。他指出,可解释性的研究旨在理解模型是如何做出决策的,而解释性则侧重于为模型的输出提供理由。他还介绍了通过分析注意力权重来判断哪些输入对输出影响最大,以及通过研究嵌入来理解模型在不同层级学习和存储的信息。

下一步行动
接下来,我将继续深入研究第四个研究点,即搜索使用“logits lens”技术分析大型语言模型内部信息流动的具体案例。我将寻找该技术如何帮助观察特定概念或信息在不同层级中出现和变化的具体实例。

Researching websites
arxiv.org
Understanding and Patching Compositional Reasoning in LLMs - arXiv
arxiv.org
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations - arXiv
nnsight.net
Logit Lens — nnsight
arxiv.org
Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens - arXiv
openreview.net
Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism - OpenReview
belinkov.com
VISIT: Visualizing and Interpreting the Semantic Information Flow of Transformers - Yonatan Belinkov
lesswrong.com
Understanding SAE Features with the Logit Lens - LessWrong
aclanthology.org
MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model - ACL Anthology
alignmentforum.org
Understanding SAE Features with the Logit Lens - AI Alignment Forum
telnyx.com
Understanding logits in AI and neural networks - Telnyx
github.com
SullivanCastro/Logit-Lens - GitHub
aclanthology.org
On Large Language Models' Hallucination with Regard to Known Facts - ACL Anthology
arxiv.org
VISIT: Visualizing and Interpreting the Semantic Information Flow of Transformers - arXiv
arxiv.org
How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric Learning - arXiv

案例研究的发现
我查阅了一些使用“logits lens”技术的案例研究,发现它主要应用于视觉语言模型(VLMs)的信息流分析和幻觉检测。研究表明,模型的中间层在处理视觉信息方面起着关键作用。通过观察模型内部的预测,研究人员能够检测到模型何时产生了与实际不符的内容。

技术应用场景
这项技术也被用于理解多模态大型语言模型如何处理来自不同领域的信息,以及分析模型内部特定神经元的功能。此外,通过观察模型在不同层级的预测变化,研究人员能够监测模型的置信度,并分析模型是如何逐步做出最终决策的。甚至有研究利用它来理解大型语言模型是如何进行上下文学习和进行复杂推理的。

寻找更生动的例子
虽然这些案例研究提供了有价值的见解,但它们偏向技术性,更侧重于研究应用。为了使科普文章更具吸引力且易于理解,我需要寻找更具象化的案例,能够清晰地展示“logits lens”的工作原理以及它如何揭示大型语言模型内部的运作方式,最好能与最初提到的图像生成过程进行类比。

Researching websites
arxiv.org
On the Use of Large Language Models in Mutation Testing - arXiv
atcold.github.io
Visualization of neural networks parameter transformation and fundamental concepts of convolution · Deep Learning
pnnl.gov
Understanding the Inner-Workings of Language Models Through Representation Dissimilarity | Conference Paper | PNNL
llm-mutate.cs.columbia.edu
Evolving Interpretable Visual Classifiers with Large Language Models - Columbia University
pair.withgoogle.com
Can Large Language Models Explain Their Internal Mechanisms? - People + AI Research
arxiv.org
An Exploratory Study on Using Large Language Models for Mutation Testing - arXiv
iphome.hhi.de
10 Layer-Wise Relevance Propagation: An Overview - Fraunhofer Heinrich-Hertz-Institut
2024.issta.org
Large Language Models for Equivalent Mutant Detection: How Far Are We? - ISSTA 2024
neurips.cc
NeurIPS Poster A Layer-Wise Natural Gradient Optimizer for Training Deep Neural Networks
openreview.net
MutaPLM: Protein Language Modeling for Mutation Explanation and Engineering
news.mit.edu
Like human brains, large language models reason about diverse data in a general way
stackoverflow.com
How is position wise feed forward neural network implemented for transformers?
clioapp.ai
ReFT: Representation Finetuning for Language Models - Clio AI
frontiersin.org
Layer-Wise Relevance Propagation for Explaining Deep Neural Network Decisions in MRI-Based Alzheimer's Disease Classification - Frontiers
amazon.science
Updating large language models by directly editing network layers - Amazon Science

信息层层递进
我发现,语言模型在处理信息时,会通过不同的层级逐步提炼。最初的层级可能关注基本的语法结构,而随后的层级则会捕捉更深层次的语义和抽象概念。有趣的是,模型似乎在中间层形成了一个“语义中心”,将不同类型的信息(例如文本、图像、音频)都基于其含义进行统一表示。

内部知识存储
研究还表明,模型内部的多层感知器(MLP)可能扮演着知识存储的角色。此外,早期层级在识别和解析输入提示中提到的实体方面也发挥着作用。一些高级技术,如“Patchscopes”和“Representation Finetuning (ReFT)”,能够让我们在不同层级操纵模型的内部表示,从而理解它们对模型行为的具体影响。

类比图像生成
虽然“信息突变”这个术语在大型语言模型的可解释性研究中不常用,但信息在模型层级间的转换和优化是其核心运作方式。我计划在科普文章中,将这种层层递进的信息处理过程类比于图像生成中图像从模糊到清晰的演变,以此来帮助读者理解

Researching websites
deeplearning.neuromatch.io
Tutorial 2: Diffusion models - Neuromatch Academy: Deep Learning
arxiv.org
Explaining Generative Diffusion Models via Visual Analysis for Interpretable Decision-Making Process DOI: https://www.sciencedirect.com/science/article/pii/S0957417424000964 - arXiv
poloclub.github.io
Stable Diffusion Explained with Visualization - Polo Club of Data Science
statistician-in-stilettos.medium.com
A Data Scientist's Guide to using Image Generation Models - Claire Longo
magicstudio.com
The Evolution of AI Images: From Pixels to Perfection - Magic Studio
huggingface.co
Images Interpolation with Stable Diffusion - Hugging Face Open-Source AI Cookbook
towardsdatascience.com
A Visual Guide to How Diffusion Models Work | Towards Data Science
rathi-ankit.medium.com
Evolution of Generative AI: A Journey for Data Professionals | by Ankit Rathi | Medium
medium.com
Breaking Down Stable Diffusion - Medium
cgdream.ai
CGDream: Free AI image generator to visualize your ideas
restack.io
Timeline Of Advancements In Ai Image Generation - Restack
powerdrill.ai
Interactive Visual Learning for Stable Diffusion - Powerdrill AI
acorn.io
AI Image Generation in 2024: Tools, Technologies & Best Practices - Acorn Labs
brandxr.io
The Future of AI Image Creation - BrandXR
medium.com
Step by Step visual introduction to Diffusion Models - Medium
altexsoft.com
AI Image Generation Explained: Techniques, Applications, and Limitations - AltexSoft
proxet.com
The Technology Behind AI Image Generation - Proxet

扩散模型的可视化
我查阅了关于图像生成过程可视化的信息,特别是扩散模型。我了解到,这些模型通过逐步去噪的方式生成图像,这个过程可以被可视化为一系列从模糊到清晰的图像。这为我理解语言模型的内部工作原理提供了一个很好的类比。

类比 Logits Lens
我计划将扩散模型生成图像的中间步骤,类比于通过“logits lens”在语言模型不同层级获得的token概率分布。就像扩散模型从噪声逐渐生成图像一样,语言模型也从初始状态逐步生成最终的文本输出。中间的图像可以看作是模型生成过程中的“思考”片段,而中间层的token概率分布则显示了模型在不同阶段对下一个词的预测。

下一步行动
现在,我将着手研究第七个要点:科普解释“logits”的定义和作用,以及它们是如何通过Softmax函数转化为token概率分布的。这将帮助我以更简单的方式解释“logits lens”的技术细节。

Researching websites
medium.com
From Logits to Probabilities: Understanding Softmax in Neural Networks | by Deepankar Singh | AI-Enthusiast | Medium
geeksforgeeks.org
What are Logits? What is the Difference Between Softmax and Softmax Cross Entropy with Logits? - GeeksforGeeks
ioactive.com
ioactive.com
promptmetheus.com
Logit | LLM Knowledge Base - Promptmetheus
huggingface.co
Controlling Language Model Generation with NVIDIA's LogitsProcessorZoo - Hugging Face
telnyx.com
Understanding logits in AI and neural networks - Telnyx
docs.lm-kit.com
What are logits in LLMs? - LM-Kit Docs
en.wikipedia.org
Softmax function - Wikipedia
telnyx.com
Understanding logits confidence in machine learning - Telnyx
singlestore.com
Understanding the Softmax Activation Function: A Comprehensive Guide - SingleStore
ioactive.com
Understanding Logits And Their Possible Impacts On Large Language Model Output Safety
medium.com
A Simple Introduction to Softmax - Medium
wandb.ai
Understanding Logits, Sigmoid, Softmax, and Cross-Entropy Loss in Deep Learning | Written-Reports – Weights & Biases - Wandb
pinecone.io
Softmax Activation Function: Everything You Need to Know - Pinecone
analyticsvidhya.com
Softmax Activation Function for Neural Network - Analytics Vidhya
deepgram.com
Logits - Deepgram

Logits 的本质
我正在思考如何向用户解释“logits”这个概念。简单来说,logits 是模型在输出最终结果之前产生的原始数值。它们代表了模型对每个可能输出选项的“偏好”程度。数值越高,模型就越倾向于选择对应的选项。

Softmax 的作用
为了将这些原始的 logits 值转化为我们可以理解的概率分布,模型会使用一个叫做 Softmax 的函数。这个函数可以将logits转换成介于0和1之间的数值,表示每个输出选项的可能性。所有选项的概率加起来等于1,这样我们就知道模型认为哪个选项最有可能出现。

下一步探索
接下来,我将继续研究最后一个要点,即搜索大型语言模型透明化研究领域最近的重要进展和方法。我想了解除了“logits lens”之外,还有哪些新的技术和发现能够帮助我们更好地理解这些复杂的模型。

Researching websites
brighamhealthonamission.org
Advancing Transparency in Large Language Model Clinical Studies - Brigham On a Mission
dev.to
Day 45: Interpretability Techniques for LLMs - DEV Community
pnas.org
How should the advancement of large language models affect the practice of science? | PNAS
pmc.ncbi.nlm.nih.gov
AI-Based Modeling: Techniques, Applications and Research Issues Towards Automation, Intelligent and Smart Systems - PMC
mdpi.com
Recent Advances in Large Language Models for Healthcare - MDPI
github.com
cooperleong00/Awesome-LLM-Interpretability - GitHub
news.mit.edu
Study: Transparency is often lacking in datasets used to train large language models
emeritus.org
5 Tools and Techniques to Help You Understand and Interpret AI Models - Emeritus
hdsr.mitpress.mit.edu
AI Transparency in the Age of LLMs: A Human-Centered Research Roadmap
github.com
JShollaj/awesome-llm-interpretability - GitHub
keymakr.com
Advanced AI Model Training Techniques Explained - Keymakr
arxiv.org
Rethinking Interpretability in the Era of Large Language Models - arXiv
visualsp.com
Understanding AI Modeling: A Comprehensive Guide - VisualSP
en.wikipedia.org
Large language model - Wikipedia
openxcell.com
Understanding AI Models: A Beginner's Guide - Openxcell

研究达到饱和
我已经完成了对大模型黑箱透明化研究的各个方面,包括“logits lens”技术、李宏毅教授的讲解以及相关的案例研究。我对这个领域有了全面的理解,可以开始撰写科普文章了。

准备撰写报告
我确信我已经收集到了足够的信息,能够以既有技术含量又有趣生动的方式,并结合具象化的案例,向用户科普大模型黑箱透明化的研究进展。现在,我将进入报告撰写阶段。

 

【相关】

 

发布者

立委

立委博士,出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理