Q&A on NLP: Chapter I Natural Language and Linguistic Form

Guo: Professor Li, to ease into the discussion, let us begin with some foundational concepts. What exactly do we mean by natural language? What falls under the scope of the field, and where does it sit within the broader discipline of Artificial Intelligence (AI)?

Li: Natural language refers to the everyday languages we humans speak—English, Russian, Japanese, Chinese, and so on; in other words, human language writ large. It is distinct from computer languages. Because human conversation is rife with ellipsis and ambiguity, processing natural language on a computer poses formidable challenges.

Within AI, natural language is defined both as a problem domain and as the object we wish to manipulate. Natural Language Processing (NLP) is an essential branch of AI, and parsing is its core technology—the crucial gateway to Natural Language Understanding (NLU). Parsing will therefore recur throughout this book.

Computational linguistics is the interdisciplinary field at the intersection of computer science and linguistics. One might say that computational linguistics supplies the scientific foundations, whereas NLP represents the applied layer.

AI is often divided into perceptual intelligence and cognitive intelligence. The former includes image recognition and speech processing. Breakthroughs in big data and deep learning have allowed perceptual intelligence to reach—and in some cases surpass—human‑expert performance. Cognitive intelligence, whose core is natural language understanding, is widely regarded as the crown jewel of AI. Bridging the gap from perception to cognition is the greatest challenge—and opportunity—facing the field today.

The rationalist tradition formalises expert knowledge using symbolic logic to simulate human intellectual tasks. In NLP, the classical counterpart to machine‑learning models comprises linguist‑crafted grammar rules, collectively called a computational grammar. A system built atop such grammars is known as a rule‑based system. The grammar school decomposes linguistic phenomena with surgical precision, aiming at a deep structural analysis. Rule‑based parsing is transparent and interpretable—much like the diagramming exercises once taught in a language school.

Figure 1‑1 sketches the architecture of a natural‑language parser core engine. Without dwelling on minutiae, note that every major module—from shallow parsing through deep parsing—can, in principle, be realised via interpretable symbolic logic encoded as a computational grammar. Through successive passes, the bewildering diversity of natural language is reduced first to syntactic relations and then to logical‑semantic structure. Since Chomsky’s distinction between surface structure and deep structure in late 50s, this layered view has become an orthodoxy within linguistics.

Guo: These days everyone venerates neural networks and deep learning. Does the grammar school still have room to live? Rationalism seems almost voiceless in current NLP scholarship. How should we interpret this history and the present trend?

Li: Roughly thirty years ago, the empiricist school of machine learning began its ascent, fuelled by abundant data and ever‑cheaper computation. In recent years, deep neural networks have achieved spectacular success across many AI tasks. Their triumph reflects not only algorithmic innovation but also today’s unprecedented volumes of data and compute.

By contrast, the rationalist programme of symbolic logic has waned. After a brief renaissance twenty years ago—centred on unification‑based phrase‑structure grammars (PSGs)—computational grammar gradually retreated from the mainstream. Many factors contributed; among them, Noam Chomsky’s prolonged negative impact warrants sober reflection.

History reveals a pendulum swing between empiricism and rationalism. Kenneth Church famously illustrated the motion in his article A Pendulum Swung Too Far (Figure 1-2).

For three decades, the pendulum has tilted toward empiricism (black dots in Figure 1‑2); deep learning still commands the spotlight. Rationalism, though innovating quietly, is not yet strong enough to compete head‑to‑head. When one paradigm dominates, the other naturally fades from view.

Guo: I sense some conceptual confusion both inside and outside the field. Deep learning, originally just one empiricist technique, has become synonymous with AI and NLP for many observers. If its revolution sweeps every corner of AI, will we still see a rationalist comeback at all? As Professor Church warns, the pendulum may already have swung too far.

Li: These are two distinct philosophies with complementary strengths and weaknesses; neither can obliterate the other.

While the current empiricist monoculture has understandable causes, it is unhealthy in the long run. The two schools both compete and synergise. Veterans like Church continue to caution against over‑reliance on empiricism, and new scholars are probing deep integrations of the two methodologies to crack the hardest problems in NLU.

Make no mistake: today’s AI boom largely rests on deep‑learning breakthroughs, especially in image recognition, speech, and machine translation. Yet deep learning inherits a fundamental limitation of the statistical school—its dependence on large volumes of labelled data. In many niche domains—for instance, minority languages or e‑commerce translation—such corpora are simply unavailable. This knowledge bottleneck severely constrains empiricist approaches to cognitive NLP tasks. Without data, machine learning is a bread‑maker without flour; deep learning’s appetite as we all know is insatiable.

Guo: So deep learning is no panacea, and rationalism deserves a seat at the table. Since each paradigm has its merits and deficits, could you summarise the comparison?

Li: A concise inventory helps us borrow strengths and shore up weaknesses.

Advantages of machine learning

1. Requires no domain experts (but does require vast labelled data).
2. Excels at coarse‑grained tasks such as classification.
3. High recall.
4. Robust and fast to develop.

Advantages of the grammar school

1. Requires no labelled data (but does require expert rule writing).
2. Excels at fine‑grained tasks such as parsing and reasoning.
3. High precision.
4. Easy to localise errors; inherently interpretable.

Li: Rule‑based systems shine at granular, line‑by‑line dissection, whereas learned statistical models are naturally strong at global inference. Put bluntly, machine learning often "sees the forest but misses the trees," while computational grammars "see each tree yet risk losing the forest." Although data‑driven models boast robustness and high recall, they may hit a precision ceiling on fine‑grained tasks. Robustness is the key to surviving anomalies and edge cases. Expert‑coded grammars, by contrast, attain high precision, but boosting recall can require many rounds of iterative rule writing. Whether a rule‑based system is robust depends largely on its architectural design. Its symbolic substrate renders each inference step transparent and traceable, enabling targeted debugging—precisely the two pain‑points of machine learning, whose opaque decisions erode user trust and hamper defect localisation. Finally, a learning system scales effortlessly to vast datasets and its breakthroughs tend to ripple across an entire industry. Rule‑based quality, by contrast, hinges on the individual craftsmanship of experts—akin to Chinese cuisine, where identical ingredients may yield dishes of very different calibre depending on the chef.

Both routes confront knowledge bottlenecks. One relies on mass unskilled labour (annotators), the other on a few skilled artisans (grammar experts). For machine learning, the bottleneck is the supply of domain‑specific labelled data. The rationalist route simulates human cognition and thus avoids surface‑level mimicry of datasets, but cannot escape the low efficiency of manual coding. Annotation is tedious yet teachable to junior workers; crafting and debugging rules is a costly skill to train and hard to scale. Talent gaps exacerbate the issue—three decades of empiricist dominance have left the grammar school with a thinning pipeline.

Guo: Professor Li, a basic question: grammar rules are grounded in linguistic form. If semantics is derived from that form, then what exactly is linguistic form?

Li: This strikes at the heart of formalising natural language. All grammar rules rest on linguistic form, yet not every practitioner—even within the grammar camp—has a crisp definition at hand.

In essence, natural language as a symbolic system expresses meaning through form. Different utterances of an idea vary only in form; their underlying semantics and logic must coincide, else communication—and translation—would be impossible. The intuition is commonplace, but pinning down "form" propels us into computational linguistics.

Token & Order — The First‑Level Abstraction
At first glance a sentence is merely a string of symbols—phonemes or morphemes. True, but that answer is too coarse. Every string is segmented into units called tokens (words or morphemes). A morpheme is the smallest pairing unit of sound and meaning. Thus our first abstraction decomposes linguistic form into a sequence of tokens plus their word order. Grammar rules define patterns that match such sequences. The simplest pattern, a linear pattern, consists of token constraints plus ordering constraints.

Guo: Word order seems straightforward, but tokens and morphemes hide much complexity.

Li: Indeed. Because tokens anchor the entire enterprise, machine‑readable dictionaries become foundational resources. (Here "dictionary" means an electronic lexicon.)

If natural language were a closed set—say only ten thousand fixed sentences—formal grammar would be trivial: store them all, and each complete string would serve as an explicit pattern. But language is open, generating unbounded sentences. How can a finite rule set parse an infinite language?

The first step is tokenisation—dictionary lookup that maps character strings to lexicon words or morphemes. Unlimited sentences decompose into a finite vocabulary plus occasional out‑of‑dictionary items. Together they form a token list, the initial data structure for parsing.

We then enter classic linguistic sub‑fields. Morphology analyses the internal structure of multi‑morphemic words. Some languages exhibit rich morphology—noun declension, verb conjugation—e.g., Russian and Latin; others, such as English and Chinese, are comparatively poor. Note, however, that Chinese lacks inflection but excels at compounding. Compounds sit at the interface of morphology and syntax; many scholars treat them as part of "little syntax" rather than morphology proper.

Guo: Typologists speak of a spectrum—from isolating languages such as Classical Chinese (no morphology) to polysynthetic languages like certain Native American tongues (heavy morphology). Most languages fall between, with Modern Chinese and English leaning toward the isolating side: minimal morphology, rich syntax. Correct?

Li: Exactly. Setting aside the ratio of morphology to syntax, our first distinction is between function words/affixes versus content words. Function words (prepositions, pronouns, particles, conjunctions, original adverbs, interrogatives, interjections) and affixes (prefixes, suffixes, endings) form a small, closed set.

Content words—nouns, verbs, adjectives, etc.—form an open set forever producing neologisms; a fixed dictionary can hardly keep up.

Because function words and affixes are frequent yet limited, they can be enumerated as literals in pattern matching. Hence we have at least three grain‑sizes of linguistic form suitable for rule conditions: (i) word order; (ii) function‑word literals or affix literals; (iii) features.

Features — The Implicit Form
Explicit tokens are visible in the string, but parsers also rely on implicit features—category labels. Features encode part‑of‑speech, gender, number, case, tense, etc. They enter pattern matching as hidden conditions. Summarising: automatic parsing rests on (i) order, (ii) literals, (iii) features—two explicit, one implicit. Every language weaves these three in different proportions; grammar is but their descriptive calculus.

Guo: By this metric, can we say European languages are more rigorous than Chinese?

Li: From the standpoint of explicit form, yes. European tongues vary internally—German and French more rigorous than English—but all possess ample explicit markers that curb ambiguity. Chinese offers fewer markers, increasing parsing difficulty.

Inflectional morphology supplies visible agreement cues—gender‑number‑case for nouns, tense‑aspect‑voice for verbs. Chinese lacks these. Languages with rich morphology enjoy freer word order (e.g., Russian). Esperanto’s sentence "Mi amas vin" (I love you) can permute into six orders because the object case ‑n never changes.

Chinese, conversely, evolved along the isolating path, leveraging word order and particles. Even so, morphology provides tighter agreement than particles. Hence morphology‑rich languages are structurally stringent, reducing reliance on implicit semantics.

Guo: People call Chinese a "paratactic" language—lacking hard grammar, leaning on meaning. Does that equate to your notion of implicit form?

Li: Precisely. Parataxis corresponds to semantic cohesion—especially collocational knowledge within predicate structures. For example, the predicate "eat" expects an object in the food category. Such commonsense often lives in a lexical ontology like HowNet (founded by the late Professor Dong Zhendong).

Consider how plurality is expressed. In Chinese, "brother" is a noun whose category is lexically stored. Esperanto appends ‑o for nouns and ‑j for plural: frato vs. fratoj. Chinese may add the particle 们 (‑men), but this marker is optional and forbidden after numerals: "三个兄弟" (three brothers) not "*三个兄弟们". Here plurality is implicit, inferred from the numeral phrase.

Guo: Lacking morphology indeed complicates Chinese. Some even claim Chinese has no grammar.

Li: That is hyperbole. All languages have grammar; Chinese simply relies more on implicit forms. Overt devices—morphology, particles, word order—are fewer or more flexible.

Take omission of particles as an illustration. Chinese frequently drops prepositions and conjunctions. Compare:

1. 1. 对于这件事, 依我的看法, 我们应该听其自然。
    As for this matter, in my opinion, we should let nature take its course.
  2. 这件事我的看法应该听其自然。
    * this matter my opinion should let nature take its course.
    (Unacceptable as a word‑for‑word English rendering.)

Example 2 is ubiquitous in spoken Chinese but would be ungrammatical in English. Systematic omission of function words exacerbates NLP difficulty.

Guo: What about word order? Isolation theory says morphology‑poor languages have fixed order—Chinese is labelled SVO.

Li: Alas, reality defies the stereotype. Despite lacking morphology and often omitting particles, Chinese exhibits remarkable word‑order flexibility. Consider the six theoretical permutations of S, V, and O. Esperanto, with a single object case marker ‑n, allows all six without altering semantics. Compare English (no case distinction for nouns, but marking subject pronouns from obect cases) and Chinese (no case at all):

Order	Esperanto	English	Chinese
SVO	Mi manĝis fiŝon	I ate fish	我吃了鱼
SOV	Mi fiŝon manĝis	* I fish ate	我鱼吃了
VOS	Manĝis fiŝon mi	* Ate fish I	？吃了鱼我
VSO	Manĝis mi fiŝon	* Ate I fish	* 吃了我鱼
OVS	Fiŝon manĝis mi	* Fish ate I	？鱼吃了我
OSV	Fiŝon mi manĝis	Fish I ate	鱼我吃了

Chinese sanctions three orders outright, two marginally (marked “?”), and forbids one (“*”). English allows only two. Thus Chinese word order is about twice as free as English, even though English possesses case distinction on pronouns. Hence morphology richness does not always guarantee order freedom.

Real corpora confirm that Chinese is more permissive than many assume. Greater flexibility inflates the rule count in sequence‑pattern grammars: every additional order multiplies pattern variants. Non‑sequential constraints can be encoded inside a single rule; order itself cannot.

A classic example is the elastic placement of argument roles around "哭肿" (cry‑swollen):

张三眼睛哭肿了。
眼睛张三哭肿了。
哭肿张三眼睛了。
张三哭肿眼睛了。
哭得张三眼睛肿了。
张三哭得眼睛肿了。
…and so on.

Such data belie the notion of a rigid SVO Chinese. Heavy reliance on implicit form complicates automatic parsing. Were word order fixed, a few sequence patterns would suffice; flexibility forces exponential rule growth.

壹　自然语言与语言形式

郭: 李老师, 由浅入深, 我们还是从一些基本概念开始谈起吧。什么是自然语言? 自然语言领域包括哪些内容? 它在人工智能里面的定位是怎样的呢?

李: 自然语言 (natural language) 指的是我们日常使用的语言, 英语、俄语、日语、汉语等, 它与人类语言是同义词。自然语言有别于计算机语言。人脑处理的自然语言常有省略和歧义, 这给电脑 (计算机) 的处理提出了挑战。

在人工智能界, 自然语言是作为问题领域和处理对象提出来的。自然语言处理是人工智能的重要分支, 自然语言解析是其核心技术和通向自然语言理解的关键。语言解析是我们接下来要探讨的、贯穿全书始终的话题。

计算语言学是计算机科学与语言学的交叉学科. 计算语言学和自然语言处理是同一个专业领域的两个剖面. 可以说, 计算语言学是自然语言处理的科学基础, 自然语言处理是计算语言学的应用层面。

人工智能主要有感知智能 (perceptual intelligence) 和认知智能 (cognitive intelligence) 两大块. 前者包括图像识别 (image recognition) 和语音处理 (speech processing)。随着大数据和深度学习 (deep learning) 算法的突破性进展, 感知智能很多方面已经达到甚至超过人类专家的水平。认知智能的核心是自然语言理解, 被一致认为是人工智能的皇冠。从感知跃升到认知是当前人工智能所面临的最大挑战和机遇。

理性主义直接把领域专家的经验形式化, 利用符号逻辑来模拟人的智能任务。在自然语言处理领域, 与机器学习模型平行的传统方法是语言学家手工编码的语言规则。这些规则的集合称为计算文法。由计算文法支撑的系统叫作规则系统 (rule system)。文法学派把语言学家总结出来的语言规则形式化, 从而对语言现象条分缕析, 达到对自然语言深层次的结构解析. 规则系统试图模拟人的语言分析理解过程。规则系统解析自然语言是透明的、可解释 (interpretable) 的。这个过程很像是外语文法老师在课堂上教给学生的句子分析方法。

图１—１是一张自然语言解析器 (parser) 核心引擎 (core engine) 的架构图。不必深究细节, 值得说明的是, 从浅层解析 (shallow parsing) 到深层解析 (deep parsing) 里面的各主要模块, 都可以用可解释的符号逻辑 (symbolic logic) 以计算文法的形式实现。千变万化的自然语言表达, 就这样一步一步地从句法关系 (syntactic relation) 的解析, 进而求解其深层的逻辑语义 (logic semantics) 关系。这个道理早在1957年乔姆斯基 (Chomsky) 语言学革命中提出表层结构 (surface structure) 到深层结构 (deep structure) 的转换之后, 就逐渐成为语言学界的共识了。

郭: 现在大家都在推崇神经网络 (neural network) 深度学习, 文法学派还有生存空间吗? 理性主义在自然语言领域已经听不到什么声音了。怎样看待这段历史与趋向呢?

李: 大约从30年前开始到现在, 经验主义机器学习这一派, 随着数据和计算资源的发展, 天时地利, 一直在向上走。尤其是近年来深层神经网络的实践, 深度学习在不少人工智能任务上取得了突破性的成功。经验主义的这些成功, 除了神经网络算法的创新, 也得益于今非昔比的大数据和大计算的能力。

与此对照, 理性主义符号逻辑则日趋式微。符号逻辑在自然语言领域表现为计算文法。文法学派在经历了20年前基于合一 (unification) 的短语结构文法 (Phrase Structure Grammar, PSG) 创新的短暂热潮以后, 逐渐退出了学界的主流舞台。形成这一局面的原因有多个, 其中包括乔姆斯基对于文法学派长期的负面影响, 值得认真反思。

回顾人工智能和自然语言领域的历史, 经验主义和理性主义两大学派此消彼长, 呈钟摆式跌宕起伏。肯尼斯丘吉 (Kenneth Church) 在他的「钟摆摆得太远」(A Pendulum Swung Too Far) 一文中, 给出了一个形象的钟摆式跌宕图 (图１—２).

最近30年来, 经验主义钟摆的上扬趋势依然不减 (见图１—２的黑点表示)。目前来看, 深度学习仍在风头上。理性主义积蓄多年, 虽然有其自身的传承和创新, 但还没有到可以与经验主义正面争锋的程度。当一派成为主流时, 另一派自然淡出视野。

郭: 我感觉业内业外有些认知上的混乱。深度学习本来只是经验主义学派的一种方法, 现在似乎在很多人心目中等价于人工智能和自然语言处理了。如果深度学习的革命席卷人工智能的方方面面, 会不会真地要终结理性主义的回摆呢? 正如丘吉教授所言, 经验主义的钟摆已经摆得太远了。

李: 我的答案是否定的。这是两个不同的哲学和方法论, 各自带有其自身的天然优势和劣势, 不存在一派彻底消灭另一派的问题。

当前学界经验主义一面倒的局面虽然事出有因, 但并不是一个健康的状态。其实, 两派既有竞争性, 也有很强的互补性。丘吉这样的老一辈有识之士一直在警示经验主义一边倒的弊端, 也不断有新锐学者在探索两种方法论的深度融合, 以便合力解决理解自然语言的难题。

毫无疑问, 这一波人工智能的热潮很大程度上是建立在深度学习的突破上, 尤其是在图像识别、语音处理和机器翻译方面取得的成就上。但是, 深度学习的方法仍然保留了统计学派的一个根本局限, 就是对海量标注数据 (labeled data) 的依赖。在很多细分领域和任务场景, 譬如, 少数族裔语言的解析、电商数据的机器翻译, 海量标注或领域翻译数据并不存在。这个知识瓶颈严重限制了经验主义方法在自然语言认知任务方面的表现。没有足够的标注数据, 对于机器学习就是无米之炊。深度学习更是如此, 它的胃口比传统机器学习更大。

郭 : 看来深度学习也不是万能的, 理性主义理应有自己的一席之地。说它们各有长处和短板, 您能够给个比较吗?

李: 归纳一下两派各自的优势与短板是很有必要的, 可以取长补短。

机器学习的优势包括:

(１) 不依赖领域专家 (但需要大量标注数据);
(２) 长于粗线条的任务, 如分类 (classification);
(３) 召回 (recall) 好;
(４) 鲁棒 (robust), 开发效率高。

与此对照, 文法学派的优势包括:

(１) 不依赖标注数据 (但需要专家编码);
(２) 长于细线条的任务, 譬如解析和推理;
(３) 精度(precision)好;
(４) 易于定点排错, 可解释。

专家编码的规则系统擅长逐字逐句的条分缕析, 而学习出来的统计模型则天然长于全局结论。如果说机器学习往往是见林不见木的话, 计算文法则是见木不见林。大数据驱动的机器学习虽然带来了鲁棒和召回的长处, 但对细线条的任务较易遭遇精度的天花板。所谓鲁棒, 是robust的音译, 也就是强壮、稳健的意思, 它是在异常和危险情况下系统生存的关键。专家编写规则虽然容易保障精度, 但召回的提升则是一个漫长的迭代过程。鲁棒性则决定于规则系统的架构设计。规则系统的基础是可解释的符号逻辑, 容易追踪到出错的现场, 并做出有针对性的排错。而这两点正是机器学习的短板。机器学习的结果不论是对是错, 都难以解释, 因而影响用户的体验和信赖。难以定点排错更是开发现场的极大困扰, 其原因是学习模型缺乏显性符号与结构表示 (structure representation)。最后, 学习系统能较快地规模化到大数据的应用场景, 成功易于复制, 方法的突破往往可带动整个行业的提升。相对而言, 规则系统的质量很大程度上取决于专家的个体经验。这就好比中餐, 同样的食材, 不同的厨师做出来的菜肴品质常常相差很大。

两条路线各有自身的知识瓶颈。打个比喻, 一个是依赖海量的低级劳动, 另一个是依赖少数专家的高级劳动。对于机器学习, 海量标注是领域化落地 (grounding，即落实到应用) 的知识瓶颈。理性主义路线模拟人的认知过程, 无需依赖海量数据在表层模仿。但难以避免手工编码的低效率。标注工作虽然单调, 可一般学生稍加培训即可上手。而手工编制、调试规则, 培训成本高, 难以规模化。还有, 人才的断层也算是文法学派的一个现实的局限。30年正好是一代人。在过去的30年, 经验主义在主流舞台的一枝独秀, 客观上造成了理性主义阵营人才青黄不接。

郭: 李老师,我有个基本问题: 文法规则依据的是语言形式 (linguistic form)。那么, 通过这个形式解析出语义 (semantics), 到底什么是语言形式呢?

李: 这是自然语言形式化的根本问题。所有的文法规则都建立在语言形式的基础之上, 可并不是每个人, 包括从事文法工作的人, 都能对语言形式有个清晰的认识。

不错, 自然语言作为符号系统, 说到底就是以语言形式来表达语义。话语的不同只是形式的不同, 背后的语义和逻辑一定是相同的, 否则人不可能交流思想, 语言的翻译也会失去根基。这个道理老少咸知, 那什么是语言形式的定义呢? 回答这个问题就进入计算语言学了。

语言形式, 顾名思义, 就是语言的表达手段。乍一看语言, 不就是符号串吗? 语音流也好, 文字串也好, 都可以归结为符号串。所以, 符号串就是语言形式。这个答案不算错, 但失之笼统。这个“串”是有单位的, 其基本单位叫 token (可译作“文本符号”), 也就是单词或语素 (morpheme)。语素, 其定义是音义结合的最小符号单位。因此, 作为第一级抽象, 我们可以把语言形式分解为文本符号及其语序 (word order)。计算文法中的规则都要定义一个条件模式 (pattern), 就是为了与语言符号串做匹配。最基本的条件模式叫线性模式 (linear pattern), 其构成的两个要素就是符号条件和次序条件。

郭 : 好, 语言形式的基本要素是词/语素和语序。语序就是符号的先后顺序, 容易界定; 但词和语素里面感觉有很多学问。

李: 不错, 作为语言符号, 词和语素非常重要, 它们是语言学的起点。收录词和语素的词典因此成为语言解析的基础资源。顺便提一下, 我们在这所说的“词典”是指机器词典, 它是以传统词典为基础的形式化资源。

如果自然语言表达是一个封闭的集合, 譬如, 一共就只有一万句话, 语言形式文法就简单了。建个库把这些语句词串全部收进去, 每个词串等价于一条“词加语序”的模式规则。全词串的集合就是一个完备的文法模型。但是, 自然语言是一个开放集, 无法枚举无穷变化的文句。形式文法是如何依据语言形式形成规则, 并以有限规则完成对无限文句的自动解析呢?

以查词典为基础的分词 (tokenization), 是文句解析的第一步。查词典的结果是“词典词” (lexicon word), 包括语素。无限文句主要靠查词典分解为有限的单位。词典词加上少量超出词典范围的生词, 一起构成词节点序列 (tokenlist)。词节点序列很重要, 它是文句的形式化表示 (formalized representation)。作为初始的数据结构, 词节点序列是自动解析的对象。

接下来就进入语言学的基本分支了, 通常叫词法 (morphology), 目的是解析多语素词 (multi-morphemic word) 的内部结构。对于有些语种, 词法很繁复, 包括名词变格 (declension)、动词变位 (conjugation) 等, 譬如俄语、拉丁语; 有些语种的词法则较贫乏, 譬如英语、汉语。值得注意的是, 词法的繁简只是相对而言。譬如汉语缺乏形态 (inflection), 单词不变形, 但是汉语的多语素复合造词的能力却很强。不过, 语言学里的复合词 (compound word) 历来有争议, 它处于词法与句法 (syntax) 接口的地带, 其复合方式也与句法短语的方式类似。所以, 很多人不把词的复合当成词法, 而是看成句法的前期部分, 或称小句法。

郭: 以前看语言类型方面的文章, 说有一个频谱, 一个极端叫孤立语 (isolating language), 以古汉语为代表。孤立语没有词法, 只有句法。另一个极端好像叫多式综合语 (poly-synthetic language), 以某些印第安语为代表, 基本上只有词法, 没有句法。多数语言处在两个极端之间, 现代汉语和英语更多偏向孤立语这边, 小词法大句法. 是这样吗?

李: 对, 是这样的。撇开词法句法比例的差别, 我们在研究词和语素的时候, 第一眼看到的是它的两大类别: 一类是小词 (function word) 和形态, 是个较小的封闭集合; 一类叫实词 (notional word), 是个开放集合。实词范畴永远存在“生词”, 词典是收不住口的。

小词, 其实只是俗称, 术语应该叫功能词、封闭类词或虚词, 指的是介词、代词、助词、连词、原生副词 (original adverb)、疑问词、感叹词之类。形态包括前缀 (prefix)、后缀 (suffix)、词尾 (ending) 等材料, 也是一个小的集合。小词和形态出现频率高, 但数量有限。作为封闭类语素, 小词和形态需要匹配的时候, 原则上可以直接枚举它们, 软件界称其为匹配直接量 (literal)。至此, 我们至少得到了下面几种语言形式可以作为规则的条件: ①语序; ②小词; ③形态。不同的语言类型对这些形式的倚重和比例不同。例如, 俄语形态丰富, 对于语序和小词的依赖较少; 英语形态贫乏, 语序就相对固定, 小词也比较丰富。

那么实词呢? 实词当然也是语言形式, 也可以尝试在规则模式中作为直接量来枚举。但是, 因为实词是个开放集, 最好给它们分类, 利用类别而不是直接量去匹配实词, 这样做才会有概括性。人脑对于实词也主要靠分类来总结抽象的. 给词分类并在词典中标注分类结果是形式化的基础工作。

形式系统里面, 分类结果通常以特征 (feature) 来表示和标注。特征是系统内部定义的隐性语言形式。隐性形式 (implicit form) 是相对于前面提到的显性形式 (explicit form) 而言。很显然, 无论语序还是语素, 它们都是语言符号串中可以看得见的形式。分类特征则不然, 它们是不能直接感知的。这些特征作为词典查询的结果提供给解析器, 支持模式匹配 (pattern matching) 的形式条件。

总结一下自动解析所依据的语言形式, 主要有三种: ①语序; ②直接量 (尤其是小词和形态); ③特征。前两种是显性形式, 特征是隐性形式。语言形式这么一分, 自然语言一下子就豁然开朗了。管它什么语言, 不外乎这三种形式的交错使用, 搭配的比例和倚重不同而已。所谓文法, 也不外乎用这三种形式形成规则, 对语言现象及其背后的结构做描述而已。

三种语言形式可以嫁接。显性形式的嫁接包括重叠式 (reduplication), 如: “高高兴兴”“走一走”。它是语序与直接量嫁接的模式 (AABB、V 一V), 是中文词法句法中常用的形式手段。显性形式也可以特征化。特征化可以通过词典标注实现, 也可以通过规则模块或子程序赋值得出。例如, “形态特征” (如单数、第三人称、现在时等) 就是通过词法模块得出的特征。形态解析所依据的条件主要是作为直接量的形态词尾 (inflectional ending) 以及词干 (stem) 的类型特征, 例如, 英语词尾“-ly”与形容词词干结合成为副词 (beautiful－ly)。可见, 形态特征也是显性形式与隐性形式的嫁接结果。

郭: 从语言形式的使用看, 可以说欧洲语言比汉语更加严谨吗?

李: 是的。从语言形式的角度来看, 欧洲语言确实比汉语严谨。欧洲语言内部也有不小的区别, 例如, 德语、法语就比英语严谨, 尽管从语言形成的历史上看, 可以说英语是从德语、法语杂交而来的。

这里的所谓“严谨”, 是指这些语言有比较充分的显性形式来表达结构关系, 有助于减少歧义。汉语显性形式不足, 因此增加了汉语解析 (Chinese parsing) 的难度。形态是重要的显性形式, 如名词的“性数格” (gender, number and case), 动词的“时体态”(tense, aspect and voice), 这些词法范畴是以显性的形态词尾来表达的。但是这类形态汉语里没有。形态丰富的语言语序比较自由, 譬如俄语。再如世界语 (Esperanto) 的“我爱你”有三个词, 可以用六种语序任意表达, 排列组合。为什么语序自由呢? 因为有宾格 (object case) 这样的形态形式, 它跑到哪里都逃不出动宾 (verb-object) 关系, 当然就不需要依赖固定的语序了。

汉语在发展过程中, 没有走形态化的道路, 而是利用语序和小词在孤立语的道路上演化. 英语的发展大体也是这个模式。从语言学的高度看, 形态也好, 小词也好, 二者都是可以感知的显性形式。但是, 形态词尾的范畴化, 比起小词 (主要是介词), 要发达得多。动词变位、名词变格等形态手段, 使得有结构联系的语词之间产生一种显性的一致关系 (agreement)。譬如, 主谓 (subject predicate) 在人称和数上的一致关系, 定语与中心词在性数格上的一致关系等。关系有形式标记, 形态语言的结构自然严谨得多, 减少了结构歧义的可能。丰富的形态减低了解析对于隐性形式和知识的依赖。

郭 : 常听人说,中文是“意合”式语言, 缺少硬性的文法规范, 是不是指的就是缺乏形态, 主要靠语义手段来分析理解它?

李: 是的. 从语言形式化的角度看, 语义手段表现为隐性形式。所谓“意合”, 其实就是关联句词之间的语义相谐, 特别是谓词 (predicate word) 结构里面语义之间的搭配 (collocation) 常识。譬如, 谓词“吃”的对象是“食品”。这种常识通常编码在本体知识库 (ontology) 里面。董振东先生创立的“知网 (HowNet)”∗ 就是这样一个本体常识的知识库。

∗ “知网” (HowNet) 是中国自然语言处理前辈董振东先生发明的跨语言的语义机器词典。这套词典为词义的本体概念及其常识编码, 旨在设立一套形式化语义概念网络, 以此作为自然语言处理的基础支持。

再看形态与小词的使用。譬如, “兄弟”在汉语里是名词, 这个词性是在词典标注的。但是世界语的“frato (兄弟)”就不需要词典标注, 因为有名词词尾“-o”。再如复数, 汉语的 “兄弟们”用了小词“们”来表示复数的概念; 世界语呢, 用词尾 “-j”表示, 即“fratoj (兄弟们)”。乍一看, 这不一样么? 都是用有限的语言材料, 做显性的表达。但是, 有“数”这个词法范畴的欧洲语言 (包括世界语), 那个形态是不能省略的。而汉语的复数表达, 有时显性有时隐性,这个“们”不是必需的, 如:

三个兄弟没水喝。

这里的兄弟复数就没有小词“们”。实际上, 汉语文法规定了不允许在数量结构后面加复数的显性形式, 譬如不能说 “三个兄弟们”。换句话说, 中文“(三个)兄弟”里的复数是隐性的,需要前面的数量结构才能确定。

郭: 看来缺乏形态的确是中文的一个挑战。中文学起来难, 自动解析也难。有人甚至说, 中文根本就没有文法。

李: 那是偏激之词了。不存在没有文法的语言。假如语言没有“法”, 那么人在使用时如何把握, 又如何理解呢? 只不过是, 中文的文法更多地依赖隐性形式。

汉语文法的确比较宽松, 宽松表现在较少依赖显性形式。语句的顺畅靠的是上下文语义相谐, 而不是依靠严格的显性文法规则。譬如形态、小词、语序, 显性形式的三个手段, 对于汉语来说, 形态基本上没有, 小词常常省略, 语序也很灵活。

先看小词，譬如, 介词、连词, 虽然英语有的汉语基本都有, 但是汉语省略小词的时候远远多于英语。这是有统计根据的, 也符合我们日常使用的感觉: 中文, 尤其是口语, 能省则省,显得非常自由。对比下列例句, 可见汉语中省略小词是普遍性的:

① 对于这件事, 依我的看法, 我们应该听其自然.
As for this matter, in my opinion, we should leave it to nature．

② 这件事我的看法应该听其自然.
∗ This matter my opinion should leave it to nature．

类似句子②在汉语口语里极为常见, 感觉很自然。如果尝试词对词译成英语, 则完全不合文法。汉语和英语都用介词短语 (prepositional phrase, PP) 做状语, 可是汉语介词常可省略。这种缺少显性形式标记的所谓“意合”式表达, 确实使得中文的自动化处理比英文处理难了很多。

郭: 汉语利用语序的情况如何? 常听人说, 形态丰富的语言语序自由。汉语缺乏形态, 因此是语序固定的语言。中文一般被认为是“主谓宾(SVO)”固定的语言。

李: 可惜啊, 并非如此。按常理来推论, 缺乏形态又常常省掉小词, 那么, 语序总该固定吧? 可实际上, 汉语并不是持孤立语语序固定论者说的那样语序死板, 其语序的自由度常超出一般人的想象。

拿最典型的主谓宾句型的变式来看, SVO 三元素, 排列的极限是六种组合。世界语的形态不算丰富, 论变格只有一个宾格“－n”的词尾, 主格 (subject case) 是零形式。它仍然可以采用六种变式的任意一个语序, 而不改变“SVO”的逻辑语义关系 (logic semantic relation)。比较一下形态贫乏的英语 (名词没有格变, 但是代词有) 和缺乏形态的汉语 (名词代词都没有格变), 是很有意思的。世界语、英语、汉语三种语言 SVO 句型的自由度对比如下:

①SVO:

Mi manĝis fiŝon．
I ate fish．
我吃了鱼。

②SOV:

Mi fiŝon manĝis．
∗ I fish ate．
我鱼吃了。

③VOS:

Manĝis fiŝon mi．
∗ Ate fish I．
? 吃了鱼我。(口语可以)

④VSO:

Manĝis mi fiŝon．
∗ Ate I fish．
∗ 吃了我鱼。(解读不是VSO, 而是“吃了我的鱼”)

⑤OVS:

Fiŝon manĝis mi．
∗ Fish ate I．(不允许, 尽管“I”有主格标记)
? 鱼吃了我。(合法解读是SVO,与OVS正好相反)

⑥OSV:

Fiŝon mi manĝis．
fish I ate．
鱼我吃了。

总结一下, 在六个语序中, 汉语有三个是合法的, 有两个在灰色地带 (前标“? ”, 口语中似可存在), 有一个是非法的 (前标 “∗ ”)，英语呢? 只有两个合法, 其余皆非法。可见, 汉语的语序自由度在最常见的SVO句式中, 比英语要大一倍。虽然英语有代词的格变(I/me), 而汉语没有, 英语的语序灵活性反而不如汉语。可见, 形态的丰富性与语序自由度并非必然呼应。

汉语其实比很多人想象得具有更大的语序自由度和弹性。常常是, 思维里什么概念先出现, 就可以直接蹦出来。再看一组例子:

张三眼睛哭肿了。
眼睛张三哭肿了。
哭肿张三眼睛了。
张三哭肿眼睛了。
哭得张三眼睛肿了。
张三哭得眼睛肿了。
张三眼睛哭得肿了。
张三的眼睛哭肿了。
............

若不研究实际数据的话, 我们很难相信汉语语序如此任性。汉语依赖隐性形式比显性形式更多, 这对自动解析显然不利。我们当然希望语言都是语序固定的, 这该省多少力气啊! 序列模式规则就是由符号加次序构成的, 语序灵活了, 规则数量就得成倍增长。非语序的其他形式约束可以在既定的模式里面调控, 唯有语序是规则编码绕不过去的坎儿。

李维郭进《自然语言处理答问》（商务印书馆 2020）

Preface for "Q&A on NLP"

This modest volume, Questions & Answers on Natural Language Processing, now joins the Chinese Linguistic Knowledge Series alongside titles by Zhu Dexi, Li Rong, He Jiuying, Li Xinkui, Feng Zhiwei, and Xing Fuyi. To be included in such a lineage leaves me both honored and a little awed. In particular, Professor Zhu Dexi’s Q&A on Grammar was one of my earliest inspirations; I have revisited it countless times over the decades, always finding new heights to scale.

Symbolic Linguistic Legacy

Had the series permitted formal dedications, I would have inscribed this book to my mentors—Professors Liu Yongquan and Liu Zhuo—pioneers of machine translation in China. Their legacy impelled me to press on even when the manuscript seemed perpetually “stuck in revision hell.”

The book’s very existence also owes much to Feng Aizhen, my meticulous commissioning editor at The Commercial Press. Over three years of proofs, her insistence on perfection revealed how that venerable imprint earned its reputation for rigor.

Thanks, Colleagues & Friends

Professors Wang Jianjun, Song Rou, Zhang Guiping, Zhou Liuxi, and many industry comrades offered incisive comments. My long‑time engineering partners—Niu Cheng, Lokesh, Li Lei, Tang Tian, Ben, and Martin—translated symbolic NLP designs into scalable products.

Mirror’s Last‑Minute Miracle

Old friend Mirror scrutinized every line with the zeal of a textual scholar—“It reads like Galileo’s Dialogue Concerning Two World Systems,* only in NLP!*” Five days before typesetting, he begged to polish one more draft, and the result was transformative.

A Tale of Two Schools

Beyond theory, this book chronicles the dialectic between rationalist symbolism and empiricist machine learning—a pendulum that has swung since the 1980s. Co‑author Dr. Guo Jin saved the project more than once, re‑anchoring a drifting manuscript.

Family Footnotes

A lifetime craftsman, I never planned to “write a book,” yet my family shared every thrill. My daughter Tian Tian contributed two whimsical illustrations explaining the “dictionary black‑box” joke, adding warmth to these pages.

In Quiet Cupertino

And so, on a July night in Apple Town, with Secret Garden’s Sometimes When It Rains looping through my headphones, I penned the final punctuation. May these symbolic threads—fragile yet unbroken—echo through AI’s recurrent tides. Neural networks are no end of history; when the pendulum swings back, perhaps this book too will be rediscovered.

Cupertino, 15 July 2020 (midnight)

《写在NLP小书出版之时》

这本NLP小书《自然语言处理答问》终于出版了，还是蛮感触的。看商务这个《汉语知识丛书》系列，所选皆中国语言学界前辈，如雷贯耳。大家小书，精华荟萃，忝列其上，不胜惶恐。尤其是朱德熙先生的学术经典《语法答问》，是当年入行的启蒙书之一，几十年来读了不知道多少遍。屡读屡新，高山仰止。

受本书体例所限，未能有题献致谢之处，不无遗憾。回想此书从酝酿到封笔，一波三折，几近难产，其间几十番校改亦似陷入死循环。如今终于付梓，回顾给予各种支持的老师、同事和亲友，心存感念。没有他们的鞭策和推举、合作和指正，便没有本书的面世。

题献还真考虑过，从学术启蒙和传承看，毫无疑问理应献给我的恩师，以示符号逻辑学派在中国的传承和发展。当时的设计是：

首先要感谢的自然是商务印书馆的责任编辑冯爱珍。两年多的策划布局、反复校正，体现的是商务老专家的敬业和严谨。商务在中国出版界的品质和口碑，原来是有这样一批一字不苟、精益求精的编辑精英撑起的。近三年无数的编辑通信往来，终于迎来了她的祝贺：

喜讯：祝贺立委力作即将问世，比肩国内一流语言学家

朱德熙、李荣、何九盈、李新魁、冯志伟、邢福义……大家小书，厚积薄发；尖端知识，深入浅出。

三十多年来，李维博士始终站在自然语言处理的前沿领域，专心从事研究和应用开发工作，不仅有深厚的理论积累，也建立了很好的自然语言处理系统架构。他熟知自然语言处理相关的各种方法，在很多方面具有独到的见解和思辨。本书是他厚积薄发的倾情奉献，讲述自然语言处理相关的理论知识和应用技术，深入浅出，简明实用。从事人工智能、自然语言处理等研究的专业人士，以及在读后学，将受益颇丰。

本书的主要理论与实践源自人工智能的理性主义路线（称为符号逻辑派），与近三十年来的经验主义主流（称为机器学习派）呈对比。其在自然语言处理领域的起点是乔姆斯基的形式语言理论。我有幸师从中国机器翻译之父刘涌泉和刘倬先生多年，又有多次机会亲聆前辈董振东教授教诲，也从前辈冯志伟教授处获得计算语言学的熏陶。去国后有博士导师Paul McFetridge、Fred Popowich 以及给我们讲授HPSG 的语言系主任Nancy教授，带领我进入基于合一的文法领域。那是30年来最后一波符号逻辑的学术热潮了，尽管看似昙花一现。博士以后辗转南下，机缘巧合一头扎进工业界担任语言处理技术带头人二十余年，致力于NLP规模化产品研发。这种独特的经历使我成为本领域计算语言学家中极少数的“幸存者”，有机会在符号路线上深耕，推出独有的理论与实践创新。

合作者郭进博士在关键时刻，高屋建瓴，挽救了此作，不致胎死腹中。郭兄也是近三十年的老相识了。当年他在中文分词领域叱咤风云，是大陆学界第一位在本行顶尖学刊《计算语言学》上发表论文的学者（实际上是这个中文处理基础领域的理论终结者）。二十年前我在 TREC 第一届问答系统得奖的时候，与郭兄在会上不期而遇。他约我彻夜长谈，一定要问我怎么做的系统，表现出的浓厚兴趣令人感动。作为语言学家，我从入行就步入了语言学逐渐从主流舞台出局的国际大势（见《丘吉：钟摆摆得太远》）。科班主流出身的郭兄摈弃门户之见，不耻下问，颇让我意外惊喜。后来我们就NLP两条路线的纠缠有过很多争辩讨论。早在与商务酝酿本书之前，郭兄就力促我著书立说，曰不要断了符号逻辑的香火。开始动手写才发现，要把事情说清楚很不容易。想说的话太多，但头绪繁杂，一团乱麻。写了一章，就陷入泥潭。我内心动摇，说放弃算了。郭兄指出，这是系统工程，不宜用你语言处理的那套自底而上（bottom-up）的归纳式梳理。终于说服郭兄出马，自顶而下（top-down）指挥，宏观掌控，约法三章，不许枝枝蔓蔓。毕竟是工程老将架构大师，布局谋篇如烹小鲜。此一生机，柳暗花明。人生有很多跨越时空的奇妙片刻，连缀成串，让人很难相信没有一种缘分的东西（见附录“零缘起”）。

本书论及的话题都在两个微信群与群主及同行友人有过多次切磋，从中深受教益。一个是《人工智能简史》作者尼克的AI群，一个是白硕老师的语义计算群。本书申报过程中，承蒙清华大学人工智能教授马少平和北京大学中文系詹卫东教授的专业推荐。2017年，詹教授还特邀笔者上北大“博雅语言学”讲座论《洞穿乔姆斯基大院的围墙》。同年，受孙乐研究员邀请，出席中文信息学会2017年学术年会，马教授主持介绍我做了主题演讲《中文自动句法解析的迷思和痛点》。这些演讲为本书相关章节内容的宣讲与接收反馈提供了平台。高博提供服务的【立委NLP频道（liweinlp.com）】也为本书的相关话题及其背景提供了数字平台。

特别需要感谢的是老友米拉（mirror）对本书初稿的谬爱。米拉说：“有些伽利略科学对话的意思，有趣得很”。他反复推敲，细致入微；其科学见识和文字功力使很多审改堪称一字之师。直到最后定版前，死期只剩五天，我说终于从死循环中出来啦，米拉坚持：“我再学习修正一版如何？换了人视点就不一样了。我试试吧，总是要完美些才好。将来是准备推荐夫人做学中文的教材呢。”让人哑然失笑。当年我因为喜欢米拉的文字隽永，为他编辑过《镜子大全》。这是投桃报李，还是惺惺相惜呢。

毛德操先生也是本书的助产婆。特别是关于乔姆斯基批判，我从毛老、尼克和白硕老师处得到的教益最多。毛老是计算机业界著作等身的专家，我跟他说：在您的多次蛊惑和鞭策下，我终于开始“著书立说”了。毛老激励道：“哦，好事情啊！我当然要拜读。说到符号逻辑派，正是现下AI界新秀们的缺门。不说钟摆是否一定会回摆，至少是互补。我觉得你的书会大有可为。你不妨先在中国出版，然后把它译成英文在美国再出一次。”我有些受宠若惊：“英文出版就不提了，美国出版界我两眼全黑，又是非主流的东西。本书价值也许要经潮起潮落的时间积淀后，才会显现。这也是为什么要咬牙写出来的理由。自然语言符号逻辑派本来已经断层。我第一步是想保证内容的学术性，要经得起时间和同行的批评。”毛老的很多建议非常精彩，令人折服，不妨摘要分享给本书的读者。

（1）前面应该有个introduction，要照顾初学者特别是跨行者。自然语言处理本来就是跨度很大，但是人家往往视作畏途，他们连乔姆斯基是谁都不知道。所以得要把门槛降下来。

（2）书的定位，我觉得不妨是：最有学术性的科普，最接近科普的学术。

（3）书的体裁采用问答，当然也是好的。问答的特点是提问方不作陈述，不表达观点，所以我想改成对话也许更好，就像伽利略的《关于两个世界体系的对话》。三方对话也许还要更好，一方是深度学习，一方是符号推理-乔姆斯基，还有一方是符号推理-乔姆斯基批判。

我的老同学王建军教授在学术严谨性与章节安排方面提出了很好的建议。特别感谢宋柔老师、周流溪老师的鼓励和建议。各种鼓励和帮助也来自同行友人周明、李航、裴健、张桂平、施水才、傅爱平、李利鹏、雷晓军、洪涛、王伟、陈利人、唐锡南、黄萱菁、刘群、孙茂松、荀恩东、薛平、姜大昕、牛小川、执正、严永欣、欧阳锋。在成书出版的过程中，笔者受到了公司领导周伯文、何晓冬、胡郁、高煜光、贾岿的支持，一并致谢。

在符号NLP落地应用的过程中，我不同时期的搭档和助手，Lars、牛成、Lokesh、李磊、唐天、林天兵、马丁，帮助实现了产品的规模化，显示了自然语言创新的价值。田越敏、孙雅萱、郭玉婷、侯晓晨、Sophia Guo 等同学仔细阅读了本书的初稿，她们的反馈意见保证了本书对于后学的可理解性。

做了一辈子工匠，著书立说从来没有正式列入我的人生计划。在两年的成书过程中，家人也跟着激动自豪，分享“一本书主义”的喜悦；尤其是老爸和太太的鼓励。最后是女儿甜甜的贡献。讲解词典黑箱原理的时候，觉得可以采纳流行的段子作为插图。为避免无意侵权，只得求甜甜帮忙了。甜欣然应允，于是有了两幅女儿给老爹的书画图，别有趣味。

甜甜说画的就是我，我觉得蛮像，倒是画她自己不怎么像。老相册里找到几张带她小时候游玩的留影可做比照。回首过去20多年，女儿与NLP从来都是生活的两个圆心。女儿的贴心，让坐了一辈子NLP学术冷板凳的积淀压模过程，也飘过丝丝暖意。

这注定是一本小众冷书。但愿所传承创新的符号自然语言学术，丝相连、藕不断。有如人工智能理性主义的潮起潮落，庶几留下一声历史的回响。谁知道呢，五十年河西，“神经”恐非历史的终结。钟摆回摆的时节，历史或被重新发现。

夜阑人静，耳机中飘来秘密花园的名曲，那是新世纪《落雨的时节》（Sometimes when it rains）。余音萦绕，不绝如缕。

记于二零二零年七月十五日夜半苹果镇。

李维郭进《自然语言处理答问》（商务印书馆 2020）

语言创造简史

(见鬼，这一篇旧文居然被kexuewang屏蔽，留存 here)

屏蔽已有 4203 次阅读 2014-12-18 00:36 |个人分类:立委科普|系统分类:科研笔记| NLP, 语言, 编译, 自然语言

设计和实现一个语言是一种非常有趣的事儿，自己做上帝。说起语言王国和上帝的关系，话也长了。自然语言据说是由一群名叫约定俗成的众神团队创制的，缺乏规划，无为而治，词汇和文法的起点均具有很大的随意性，显然不是一神教说的真神所为。然而，语言是何等神器，它是交流的工具，知识的载体和合作的基础。人类一旦掌握了共同语言，齐心造反就容易了，绝不会安于伊甸园里面吃吃果子。真神于是有些怕了，决定搅乱自然语言，使得人类不能顺畅交流，内讧不断。这才有人类世代努力建造通天塔企望大同而不成。直到如今，世界仍不太平，语言依旧混乱，战争和恐怖时有发生。尽管如此，人类还是迎来了电脑革命的新时代。

以前一直不理解计算机这么些年为啥有那么多狂人前仆后继，发明了这么多不同句法和风格的语言，这不是为难人吗。说到底还是，人毕竟不是神，想制定语言王国的条条框框，又要富于表现力，修行不足也。

人类语言繁多是可以理解的，除了前面讲到的神话，也有历史的、地域的和经济的诸原因。可是计算机的硬件和底部机器指令及其背后的逻辑都是基本一致的，完全没有道理人为生出这么多语言来。至少对于高级通用语言，书同文应该是大势所趋。连电脑语言都不统一，何来世界大同？

苹果公司最近设计的mobile平台语言叫啥来着，对，Swift，据说帅呆了。其实，历史上最成功的人造语言不是 BASIC 或 Visual Basic、C 或 C++，不是 Lisp 或 Prolog，也不是 Java 或 Swift 等电脑语言，而是为人类和世界和平而创造的 Esperanto（世界语）。世界语之父柴门霍夫博士才是简约规范与丰富灵活的无与伦比的平衡大师，值得世代景仰。

有意思的是，有时候人会因为创制了一门新语言，就以为该工具针对的问题就已经解决了。人工智能历史上，Lisp 语言以及为其量身定制的 Lisp 机曾经刮起一阵旋风。女儿最近课上接触它，为那些没完没了的括号头疼不已，我说，难道你没看到设计者的匠心？“I can sense that”，美则美矣，太过极端（大意）。

后来 Prolog 的设计和实现，成为日本五代机大跃进的主要依据。一时间极度乐观主义在日本精英阶层流行，人定胜天，似乎制作能说人话、能自主思考的智能机器指日可待了。泡沫破灭，五代机项目是完败，本来日本雄心勃勃要借助五代机项目赶超美国，做软件产业和IT的带头羊。其结果是与美国的距离更远。

不过反过来说，知道解决问题的 knowhow（窍门），可没有合适的专项语言工具来实现，也往往望洋兴叹。通用语言可以书同文，也的确可以看到书同文的大趋势，但通用语言毕竟难以照应众多领域的特殊需求，因此专项语言的创造会不断深入下去。对于很专业的问题领域，没有针对性的专项语言，解决问题往往事倍功半。比如，很难想象用通用语言可以写出有深度的自然语言的 parser 出来。

最近思考这辈子 involved in 的三次 NLP 专用语言的设计和应用，悟出来语言设计的简洁和表达力之间的某种平衡，会对利用这个语言解决问题并维护系统产生很大的影响，哪怕本质上都是相同的 formalism。设计NLP 专用语言的特殊魅力在于其元语言（meta-language）的特性：为了分析（parse）和处理自然语言，我们需要一种元语言（专用的formalism）去描述自然语言，而用元语言编写的程序，其主体是自然语言的形式化文法，本身也是一种语言，也需要被分析（parse）、编译（compile）和运行（running）。这是何等有趣的语言之塔的螺旋上升。

第一次接触是在国内，导师制定的语言标准，简洁到无语，整个语言不允许有 SPACES，虽然基本功能都有了，还是失之于陋，而且天书一样不具有可读性。然而，在上世纪80年代的软硬件的条件下，在中国相对隔绝的环境里，我的导师刘先生创造出了一整套适合MT和NLP的语言（单有绝顶智慧是不够的，主要还是他有前20年机器翻译的经验做底），亲手实现其 parser（专项语言分析器）、 interpreter （解释器），和融合了流程控制的 runner （导师称其为语言处理的控制器），并成功应用于实用机器翻译系统的研发中，这是非常了不起的成就。高山仰止，是我对恩师一辈子的感觉。

第二次在水牛城，与瑞典工程师合作，照猫画虎，跟着欧洲施乐实验室的样子，共同创制的。表达力丰富而规范，但没有风格，也不够专项，NLP 本体要求渗透不足。

第三次是来加州以后与印度工程师合作，NLP 本体工作是做足了，语言功能强大，具有扩展性，远远超出了传统的有限状态 formalism 的框框。但该工程师偏好结构清晰，不惧繁琐，叠床架屋，离简约渐行渐远。一个简单的模式规则，也要写一大篇代码，几乎可以与老老年 COBOL 媲美了。

有了阅历之后，如果有机会重新来过，有时间从容设计，我想创制一款既简约又丰富的专项语言来，使用她会减少出错机会，增强可读性，方便 debug，而且看上去要很美很美，过一把做优秀上帝的瘾。

【相关】

看望导师刘倬先生，中国机器翻译的开山鼻祖之一

【科研笔记：NLP “毛毛虫” 笔记，从一维到二维】

【泥沙龙笔记：NLP 专门语言是规则系统的斧头】

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-851882.html

上一篇：裤子设计的一些观察
下一篇：千古一问：一切目标的制定有何意义呢？

当前推荐数：9 推荐人：武夷山 刘洋 徐晓 文克玲 袁贤讯 鲍得海 陈辉 zdlhsh rosejump

发表评论评论 (4 个评论)

IP: 219.140.217.* 删除回复 |

赞[4]李方和 2014-12-25 09:47

由博主此文顿悟。
历史是语言创造的！由此解决了我多年的困惑。
谁掌握了话语权，谁就能还历史以公正……！

IP: 180.156.186.* 删除回复 |赞[3]icgwang 2014-12-18 14:39

“这是何等有趣的语言之塔的螺旋上升。”——自然进化产生自然语言，机器进化产生机器语言。按照进化生成的理解更顺些，设计／实现的描述模式有点儿人想造人的感觉。房子是先造出来的还是先设计出来的？我看还是理解为先造出来的比较实在！

IP: 61.183.148.* 删除回复 |赞[2]张能立 2014-12-18 14:10

自然语言与现代数学及科学之间的关系（之一） http://blog.sciencenet.cn/blog-39840-852034.html 。不解决语言落后问题，其它问题一切无解。

IP: 130.87.181.* 删除回复 |赞[1]mirrorliwei 2014-12-18 09:27

别开生面。赞一个。

《AI浪潮：LLM 凭什么能“涌现”超级能力？》

鲁为民：“惨痛的教训”和ChatGPT的规模优势，写了这篇短文，希望各位指正。有些想法之前在群里请教过；也借用了白老师的“对接派”和“冷启派”之说。我这个东西只是点到为止。

立委：先提一句，zero-shot/one-shot/few-shot 等，翻译成“零下、一下、几下”不大好理解，主要是 “下” 是个太常用的汉字，感觉不如 “零样例、单样例、多样例”，或“零剂量、单剂量、多剂量”，甚至“零射击、单射击、多射击” 来得贴切。

鲁为民：这个主要觉得与"shot" 同音，将错就错。

立委：

对于貌似无止境的 S阶梯形跃升，所谓“涌现”（emergence），现在大多是观察的归纳总结。为什么会这样，为什么发生超出想象、不可思议的现象和超能力，很多人觉得是个谜。

以前很多年的AI统计模型（以及符号模型）的归纳总结都是，随着数据的增长，模型就会遭遇天花板，趋向于 diminishing returns，也就是说只有一个 S，不存在上图所示的阶梯形多个S状。

单S学习观也似乎符合我们的直觉：毕竟从统计角度看数据，数据量的成倍、甚至成量级的增长，带来的主要是海量的信息冗余，而净增的知识面只会越来越小。所以多快好省的学习模型要适可而止，以防边际效用的锐减。

可这一常规却在可以深度学习不同层次注意力patterns的巨量参数模型中突然被打破了。于是奇迹涌现了。想来想去，个人觉得阶梯式多S型学习其所以创造奇迹、发生涌现，大概归结为下列几个条件和理由：

1. 学习对象必需有足够的可学的内容：自然语言正好满足这个条件。

以前我们做NLP的学习任务，一律是单一的，学习 parsing 也好，抽取信息也好。单一的任务角度，可学的目标是相对有限的，数据量的无限增长不可能带来无限可学的标的，因此学习过程遵循单S趋势，跟爬山似的，快到山顶的时候，再多的力气也很难带来进步。

可是自学习预训练的LLM改变了这一切。LLM没有特定的任务目标，或者说其最终是服务多任务，难以事先确定种种语言任务。这样一来，学习对象本身的知识承载力才是理论上的天花板，而这个天花板简直就是星辰大海，无边无沿：人类文明诞生以来的一切知识的承载，尽在语言中。

LLM 到了 GPT3 的规模，也不过就是划过了知识的冰山一角（以前提过，毛估估也就 20%左右），这学到的百分之二十知识，从ChatGPT的表现看，里面目前涉及几乎全部的语言知识（有词典知识、词法知识、句法知识、篇章知识、修辞知识、风格知识、对话知识、应用文知识、文学知识），外加漂在人类认知上面的基本常识、百科知识、部分逻辑推理知识等。也就是说，从AGI的视角，自然语言本身作为知识/能力的源头和对象，还有很多可以学、但还没学完的内容。仰望星空，一眼望不到天花板。

2. 学习表示必须有足够的容量：单单对象本身有各种层次可学习的内容还不行，学到了必须有足够的空间放得下才行。这个条件也在不断满足中：在一个对应与billion级token数的billion级参数的多维向量空间中，LLM们的表示空间较之深度学习革命以前的模型是大得太多了。

3. 学习过程必须有足够的深度和层次：这个条件也具备了，拜深度学习革命带来的多层网络所赐。尤其是 transformer 框架下的LLM内的注意力机制所赋能的学习和抽象能力，非以前模型可比。

阶梯式学习（超能力“涌现”、奇迹出现），上述三个条件缺一不可。

这一切要落实到实处，要靠海量的计算条件和工程能力。大厂，或由大厂做后盾的团队（例如 Open AI），具备了这样的软硬件能力。

于是，ChatGPT 诞生了。

鲁为民：还有很多东西值得进一步考虑，比如 Transformer 非常神奇。Anthropic 通过分析和实验发现，Transfornmer 的Attention Layer 可以激发 In-Context Learning 能力。而后者是 Prompt-based learning 的关键。

另外，顾老师的几何基础工作，还可能有助于进一步解释为什么高维稀疏的大模型泛化的能力局限。

立委：这里面水深了。谜底要专家们细细研究总结了。

顺便一提：大赞顾老师，虽然细节看不懂，还是一口气看完，欣赏的是横溢的才华和见识。

鲁为民：In-Context learning 需要了解清楚。这个被认为是大模型的 emergence 能力。这个解释也有很多。除了Anthropic 的解释外，还有Stanford 的基于 Bayesian 推理的解释也说得通。

这个in-context learning 也只(碰巧)对人类够用了，它还只是 interpolation, 或者刚好在 extrapolation 的边缘。我感觉顾老师的几何理论接下去可以去解释清楚了。

立委：这是 few shots 的奥秘。

few shots 既然没有线下的微调训练，怎么就凭着几个例子，跟人类一样能举一反三，现场就学到了 open ended 的任务呢？只能说这些能力LLM都已经蕴含其中，few shots 就是把蕴含在内的能力激发出来，并现场调适对齐。这已经足够的神奇和不可思议。可是到了 instructGPT 和 ChatGPT，few shots 的模式和能力却放到一边了，进阶到了 zero shot，完全的概念化。这已经是 “beyond 神奇”了！

当然，这个 zero shot 的奥秘宏观上讲就是所谓人类对齐（RFHF）的功劳。可到底是怎么奏效的，还是雾里看花。读了 instructGPT 的论文n遍，所说的与人类偏好对齐的各种操作虽然设计精巧细致，但毕竟对齐工作的数据只是原大数据的一滴水而已，居然有点石成金之效，让人惊掉下巴。

鲁为民：这个我还是欣赏John Shulman，他真将离线 RL 用活了。

立委：本来以为他们会沿着 few shots 的路线，把革命进行到底呢。毕竟 few shots 已经把需要大数据标注的知识瓶颈给“解围”了，prompt engineering 也符合低代码的大趋势，前景足够诱人。比起传统的监督学习不知道要高明多少。谁料想他们一转弯即刻就瞄准了 zero shot 去吊打自然语言以及NLP，爽快利落搞定了人机接口，这个弯转的，简直是神来之笔。

如果坚持 few shots 虽然也还算很大的创新，但绝不会引起ChatGPT这样的核弹效应。也不会让无数人浮想联翩，让大佬如比尔盖茨对其几乎无限拔高，说堪比电脑发明和互联网问世。

鲁为民：这个是不是 Open AI 首先(在GPT-3 paper)明确提出这个？这个提法应该不trivial

立委：不知道谁发明的，但肯定是 GPT3 （playground）与 DALL-E 2 以后才广为人知的。prompt engineering 成为热词，形成小圈子的热潮也主要是 Open AI 的功劳。

给我们科普一下学习中的 interpolation VS extrapolation 机制吧。举例说明

为民：简单说，interpolation (插值) 是预测的点在样本空间里。extrapolation 则在外。足以让人沮丧的是: LeCun 和他的博士后证明，对于高维空间预测问题(大模型属于这个)，几乎都是extrapolation 问题。高维问题很难直观解释。

立委：

希望这是靠谱的，没有参杂胡说。

鲁为民：赞。但这两个词不是机器学习专有的概念吧。是不是统计或数值分析的概念

立委：隐隐觉得这个可能开始有胡说的侵染了吧？

鲁为民：好像你怎么问，它就怎么圆，lol

我觉得interpolation 和extrapolation 的概念在DL里只是 (或LeCun这里) 被借用并扩展（https://arxiv.org/abs/2110.09485）：

白硕：数学上早就有。

梁焰：内插法外插法是数值分析里的方法。80年代末学《数值分析》的时候就学这个。它有点像在已有的框架结构内部外推。

宇宙学里的 “大爆炸”模型，也是外插出来的。所有数据都表明，宇宙婴儿期有一次空间的急剧膨胀。

白硕：统计也是啊，已知满足正态分布，在此前提下估计参数。

鲁为民：是的。如果要说真正的 emergence, 那就得外推(插) 。这个问题不解决，通用人工智能（AGI）不可能。所以人类可能无望自己实现。AGI 要靠 ··· AI 自己进化实现。在这之前，人类可能会不断(前仆后继地)宣布实现 AGI 了。

白硕：向量可以肆无忌惮地内插外插，符号不行。符号泛化，遵从归纳法。这也是符号的劣势之一。要想在符号的世界任意泛化，需要有理论上的突破。

立委：我的体会那是符号泛化（generalization）操作的前提或公理。分层分级的各种generalizations 都是放宽不同条件，它是有来路、可追踪、可解释和完全可控的。

鲁为民：是的，要逃出如来佛的手掌才能外推。

梁焰：是的，泛化需要理论突破。

鲁为民：机器学习的名词千姿百态，很多都是借用其它领域。@白硕 @梁焰

机器学习的外插就是一种 Overfitting, 可能会很离谱，所以外插也不能肆无忌惮啊。

邬霄云：有一个细微的区别，符号 in interface or in implementation? 感觉@白硕老师说的是 in implementation, 因为界面、输入、输出依然是符号，只是在计算输出的过程给向量化了。人的处理是不是有时候也这样， deduction and induction r just 符号化过程，以方便解释给别人。

有的人是可以知道结果，但是过程解释不出来。少，但是见过。chain of thought is related here ，感觉。

白硕：不一样，因为泛化确实是在欧氏空间里进行的，不是在符号空间里进行的。

霄云：sure. Implementations are in vector space, but projected back to symbols.或者说，我们要逼近的函数是在符号空间里有定义的，我们的入口在符号空间里。

梁焰：如果输出在符号空间中没有定义，那我们就为它定义一个新符号，新的概念也许就这么出来了。

邬霄云：exactly. If it is useful eventually it will be accepted into common.

只是它的implementation is done by mapping to vector space and back. And the behavior of that implementation in vector space does suggest some sort of generalization in symbolic space.

白硕：这个说法存疑，既然谈逼近，就要定义邻域。在符号函数上并不能成功地定义邻域，要转到欧氏空间定义。也就是说，并不是符号空间有一个靶子，欧氏空间只是命中了那个靶子；而是，那个靶子在符号空间根本就不存在。

欧氏空间说啥就是啥。

邬霄云：同意这个view不是很数学严谨。我的 function 是软件开发里的概念, space 是 loosely used，to make a point about there is a mapping

But for sure the mapping is not one to one , and there are points in vector shape that don’t have direct mapping in symbolic space. So compute is in vector space thus the thing we coined as generalization is implementation in there

立委：如果符号没有足够的空间表示思想，我们如何知道。原则上总是可以一一映射，至少对于成体系的思想。

邬霄云：I actually suspect one day that compute can be symbolized , using methods like chain of thought. Language is universal, so it is conceivable that we can ask it to compute following a path that can be symbolically described.

We don’t until we do. Language is not a fixed thing. It is a result of our spending efforts doing something together. It evolves all the time. Just slow enough so it feels constant.

Brain exists before symbol.

立委：那是显然的，低等动物也有brain，但没有（用）符号。

感知跃升到认知的时侯，符号就与brain纠缠不清了。很难分清先有鸡还是先有蛋。但符号世界的离散特性决定了它总是抓大放小。

梁焰：yes, 符号有一个选择，和“去选择(de-select)”的过程，不断反复地这么做。符号思维，大概是人发明的一种高效省力的思维，但不应该僵化。

邬霄云：思维是什么？计算？计算 in symbolic space? Or compute that can be mapped to some symbolic space ?

梁焰：万物皆算。思维就是在计算。

邬霄云：我记得 Hinton 说过 neural networks is the compute device

但是，结果是跟大多数什么意见没有关系的，我们需要这种人。我记得我们都去做支持向量机的时候，他可真的没有咋追风。

立委：语言符号（除了数学语言和公式）通常漏得跟筛子似的，可是它还是胜任了知识的传承。靠的就是冗余么？车轱辘话其实每一遍都有一点新意，或不同视角或约束。凑在一起，也一样维持了知识体系的逻辑稳定性，很让人诧异的现象。

道理上，LLM 是一种费力而无法完备的路线，看上去就是死路，可是却杀出来迄今最亮眼的认知智能来。这违反我们的直觉，理论上也不好说明。当我们明明积累了浓缩的结构化知识（例如各种知识图谱和数据库），却硬要弃之如履另起炉灶，从粗糙的、重复的、充满了噪音的线性语言大数据用序列训练去学习认知。正常人应该觉得这是一种疯狂和偏执，妥妥的缘木求鱼、南辕北辙，但现在却似乎是走在正道上，有点侮辱人类智能的感觉。

邬霄云：对于大多数人来说，哪种计算管用是最真实的，然后我们去解释就好了。我们比较幸运的是我们有感知的领域在发生 paradigm shifting ，so we get to watch at front seat. Feeling lucky 我们就偷着乐吧。

前几天看到那个核聚变的 news ，compare to this one , 想想有些行当可能许久没有什么fireworks ，有感而发。这个我们可以 go in meaningful discussions or even think how we can make use of it，核聚变就没有办法了。

立委：当然现在还没有到笑到最好的时刻。也不知道往后的AI认知路上会不会遭遇瓶颈来阻拦多S形的学习曲线的前行。毕竟LLM只搞定了语言，撬动了认知漂在上面的一个小部分。这样来看AI 的话，乔姆斯基理性主义对于大数据经验主义的经典批判论，似乎仍然有站得住的成分。

Minke：

Why people are fascinated about AI?

General public like it, because they think it’s magic;
Software engineers like it, because they think it’s computer science;
Computer Scientists like it because they think it’s linguistics or/and mathematics;
Linguists like it, because they think it‘s cognitive science;
Cognitive researchers like it, because they think it’s philosophy;
Philosophers don't like it, because there is no it.

Meanwhile, Mathematicians like it, because they think it’s mathematics.

立委：fun. And largely true 2.

在隔行如隔山的人类认知环境中每一个专家都有自己的视角，就像我们难免在与机器打交道的时候，常常忍不住高估了机器，读出了AIGC 本身并不具有的意义。我们在与其他领域专家打交道的时侯，也难免看高或看低了人家。

AGI 迷思与反思

这两天在琢磨一件事儿。从AIGC（AI Generated Content）琢磨AGI（所谓 Artificial General Intelligence）。

其实直到一两年前，对于 AGI 一直有点嗤之以鼻。主要是这所谓的通用人工智能，其实没有个像样的定义。我就觉得是扯淡，是科技界的乌托邦大饼。当然小编和媒体是从不缺席的，各种鼓吹从来不缺乏，但感觉从业人员如果心心念念 AGI，有招摇撞骗之嫌。

准确地说是自从开始玩GPT-3，逐渐反思这事儿，觉得 AGI 并不是不可以论，至少比乌托邦靠谱得多。

空洞谈实现通用人工智能，有点宣判人类智能终结的味道，感觉大逆不道；而且也永远没有尽头，因为没有验收指标。但是沿着那个思路走，再回头看自从预训练大模型（BERT/GPT等）横空出世以来的AI表现，AI 的确是在通向越来越通用的金光大道上。

回顾历史，AI 过去的成功几乎全部是专项的成功。最早的源头是特定的机器翻译和极窄的专家系统。到了统计年代，也是场景味道特别浓厚，虽然算法有共用的部分，但系统和模型都是专项的，因为数据都是场景的，领域越受限，AI效果越好。这也从AI社区的任务划分上看得出来。拿 NLP 来说，翻译、问答、聊天、摘要、阅读理解、辅助写作等等，都是各自一个门类。岂止是NLP应用的各种任务的分类， NLP 内部的很多事儿，也都各自有自己的任务和社区、竞赛等等：named entity, relation extraction, event extraction, text classification, parsing, generation, sentiment analysis, topic analysis, etc. 这种情形一直持续很久，以至于第一线做实际工作的人，一听说AGI高调，就很不屑。

现在看大模型，这些东西差不多全部统一进去了。如果说这不是通用，或在通用的路上，什么叫通用呢？

通用不仅仅表现在 NLP 天下归一，更表现在多模态AI的飞速发展，同样的基础模型+下游的机理，类似的 transformer架构，在所有的信号任务上，无论是文字、声音/音乐还是图片/美术、视屏，也都能通用了。

预训练以前的时代，AI 深度神经革命（10年前）是从图片刮到了音频再到文字，根本解决了带标大数据的监督训练通用问题。但很多很多场景，带标大数据是匮乏的，这个知识瓶颈扼杀了很多领域应用的可能性。第二波的预训练自学习创新的浪潮是从文字（LLM+NLP迁移学习）开始突破（大约五年前），回头辐射到了视频和音频。以ChatGPT为代表的这第三波通用AI旋风（几个月前），以 zero shot 为标志，以机器学会了“人话”、根本解决人机接口为突破口，也是从NLP开始。

NLP 终于成了 AI 的实实在在的明星和皇冠上的明珠。道理就在 NL 上，自然语言无论有多少不完美，它是难以替代的人类信息的表示方式，没有 NL 在人机对话上的突破，一切AI活动都是精英的玩物。现在好了，门槛无限低，是人都可以玩出大模型的花样和“神迹”出来。

说老实话，AI领域的“AGI风”，是一步一个脚印显示给人看的，完全不是空中楼阁，不服不行。大模型的表现超出了所有人的想象，甚至超出了那些设计者和DL先驱者本人的想象。Open AI 谈 AGI 谈得最多，但这一点也不奇怪，这是因为他们走在前头，他们是在看得到摸得着的表现中被激励、被震撼，谈论AGI远景的，这与投资界的 AI bubble 或小编以及科幻作家笔下的AI神话，具有不同的性质。

这就是这段时间我一直在想的 AGI 迷思破解。

几个月后老友再论涌现

斯坦福最新研究警告：别太迷信大模型涌现能力，那是度量选择的结果。

鲁为民：涌现确实是需要进一步研究。涌现可能更多的是一个定性的概念。不过实验方法有其局限，比如没有观察到的东西，不能证明不存在。1) 涌现确实与模型架构和指标(损失函数等)相关，不同的模型可能不会在类似的规模时呈现，不同模型的涌现出现也有迟早。2) 涌现与测试数据分布相关。3) 涌现不仅仅体现在性能(指标)上，更多的可能体现在其它呈现的特殊能力，包括模型适用于其它很多事先没有训练的任务。4) 涌现与模型执行的任务有关，不是一个模型对所有任务都会在类似的规模时呈现, 不同的任务涌现能力出现可能有早有晚。

梁焰：“涌现”这个词，我看到的最好的翻译是 “层展” ，一层一层（在眼前）展开。涌现，也不是某新鲜事物自己涌现出来了，它有一个 observer. 所以有两个 arguments： what 涌现, who is the observer. （套用坑理论）

立委：关于“涌现”的感觉，现在看来主要是因为以前的稀疏数据，在超大模型里面实际上不再是小数据。因此，超大模型就表现出来以前的小模型看不到或由于数据稀疏而总结不出来的很多能力。而很多NLP任务都具有稀疏数据（sparse data）的特点。所以以前很难搞定。但数据大了，模型大了，就搞定了。这个不难理解。

为什么语言能力最先搞定，并不需要超大模型，而只需要10-100亿参数模型足矣。这是因为语言本身不是 sparse data。语言能力里面，句法大规则最容易，词汇搭配随后。篇章和对话最后。

机器翻译就是一个最好的案例。前LLM时代必须特别收集翻译对齐语料才能做，因为在随机语料中，翻译绝对是稀疏数据。但到了超大模型时代，各种翻译，起码是主要语言的翻译材料，虽然是整个语料海洋的零头，但也足够大到克服了稀疏数据的毛病。于是我们突然发现，LLM “涌现”了人类语言互译的能力，虽然它根本就不是为了翻译设计的。无奈它看到的实在太多，“无师自通” 了。自动摘要的能力也是如此。发现LLM摘要真心碾压以前的各种专门的摘要系统，它抓大放小的能力，早已超过我们人类。这一点，我反复试验过，不得不叹服。

白硕：所以这就是我说的，语言能力大家都会“到顶”，知识能力拼的是插件（外挂），跟大模型关系不大。

冯志伟：为什么会涌现？

立委：因为大。数据大，参数大。数据大，结果以前的小数据（子集）不再稀疏。参数大，它就有足够的表示能力来“涌现”不同层面的能力。

詹卫东：大应该是必要条件，但不是充分条件吧。涌现，可能找不到充分必要条件，如果找到了，智能就被解释清楚了。理解能力，可以简单的看作是“状态区别”能力。

白硕：不是全部智能，只是支撑语言能力的那部分智能。形式的接续、本体、事理关联。这个要大到长尾也不稀疏，是大致可以测算的。就是说所有长尾组合的概率都要有冲破阈值的可能。

冯志伟：人脑神经元有860亿！

Xinhua：人脑那么多神经元，大部分并不参与高级的思考活动。人的语言，思维，时空感受，都集中在几个区域。当然，这些区域可能接受大脑很多地方的投射。比如有人小中风后失去说话能力，但能写字，不影响思考和理解语言。

立委：人的脑瓜，神经元虽然天文数字，但记忆力可怜，运行效率也低，当然耗能也低。耗能低，是相对于 LLM 而言。从生物自身角度，据说脑袋耗能相对来说很大，以至于很长时期成为高级动物的一个负担，不得不需要更多的进食和营养，才能维持。

【相关】

鲁为民：“惨痛的教训”和ChatGPT的规模优势

老顾谈几何：奇点降临？

《朝华午拾》电子版

李维郭进《自然语言处理答问》（商务印书馆 2020）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

chatGPT 网址：https://chat.openai.com/chat（需要注册）

《AI浪潮：漫谈LLM与领域对齐》

白硕：ChatGPT的进阶思考：金融行业落地要解决哪三大问题？

立委：谢谢白老师分享。

这一期主要是提出了问题，就LLM与领域对接提出了要求，也强调了紧迫性。最大的一点就是领域积累沉淀很多年的浓缩的结构化领域知识/图谱，到底如何拥抱LLM的普适能力，从而为领域落地开辟新局面呢？

较小的领域先放下，金融是一大块、医疗是一大块、法律也是一大块，教育当然更是一大块。想来最容易被同化的大领域可能就是教育板块了，感觉上，教育这块的领域壁垒没有那么高。而且教育 by definiition 与语言以及语言受众最密切相关，应该是最先被革命的领地。现在高校面对 ChatGPT 怪物的惊恐和震撼算是一个本能的反应。

前面提到的这几大领域，其实数据量都很惊人。现在不清楚的是，如果用领域大数据做LLM，是不是就比普适的LLM，如 GPT3，甚至即将到来的 GPT4 就一定更容易落地领域，立竿见影呢？

理论上，与其给超大模型 GPT3/4 做“减法”来做领域模型，不如直接在数据端做工，只跑领域大数据，这样的大模型是不是就好用了呢。不知道，因为这些事还是进行中。

白硕：不看好。

立委：例如《自然》有一个 article 报道了纯粹利用脱敏的美国电子诊疗记录数据做出来一个 billion 参数的 LLM（A large language model for electronic health records），在8项已有社区标准的医疗NLP任务上都达到或超过了 state of art，大约好了一个百分点左右，不知道落地是不是有感。

另外，前两天注意到微软研究也出了一个医疗 LLM 叫 BioGPT，数据比电子医疗记录要广得多，基本上把医疗卫生的公共数据一网打尽。这些工作刚出来，所用的技术都是LLM积淀下来的框架和路数，对领域落地的影响需要一些时间才能看出来。问题是，这些领域 LLM 本性上还是与领域的图谱和结构化的浓缩资源井水不犯河水。目前还看不到两个冤家如何融合和协作。

白硕：以NL2SQL为例，元数据结构是企业、行业的事情，但query中的词语带出来的二级、三级的trigger，实际上通用大模型都知道。不真大面积跑，根本不知道一刀砍下来会误伤到谁。

立委：是的。领域数据纯化了，NL 这端，尤其是口语，可能就受影响了。

白硕：等你从猿变人，人家做得好的不知道领先多远了。而且行业用户一个个牛得很，谁愿意给你做那么大量的标注和陪练？

立委：人家指的是领域这边的能人，还是指的是 AGI 那边的疯子，例如 GPT10？

行业用户再牛，也要面对这个现实：行业里管用的东西基本上处于手工业时代，与 LLM 时代岂止恍如隔世，这种对比和反差太强烈了，简直让人不忍直视，无法忍受。

白硕：“人家”是对接派，“你”是冷启动派。

立委：嗯，明白了，人家就是隔壁瓦教授。行业用户的牛也明白了，因为它是上帝，有钱，它才不在乎谁对接，谁服务呢。他只要结果，只为结果买单。

广义的对接派包括我们所有不只是玩 LLM，还要用 NLP 来讨好客户的群体，是这个群体最终帮助搞明白落地形态。从大厂的 LLM 角度看去，所有人都是他家下游无数场景的 practitioners。

白硕：以后恐怕除了大厂和带路党，不存在第三种形态了。

立委：这一期与@白硕老师上次提到的演讲笔记是同一件事吧？这一期算是铿锵三人行。

白硕：不完全一样。上一次有学术内容，这一次基本没有。

立委：哦，所以还有个期待。这一期提供了很好的背景。现在趋同的舆论太多，白老师的洞见肯定有耳目一新的角度。

鲁为民：这个值得期待。

白硕：预训练的价值就在一个预字。如果搞成原生数据的训练，所有NLP的已知能力都得从头学起，而且行业客户提供的数据质量和数量都无法与公共域里的数据相比，私域部署的大模型最后出来的东西，肯定是东施效颦。而且还没人说你好话。

立委：东施效颦的顾虑是真的，首先水平就不在一个段位，虽然道理上科学无国界和任何其他界限，但落实和部署肯定要看资质。但数据端做拣选、清洗或其他过滤，这却是正道，也应该有效。

很多行业，例如医疗，领域数据量已经大到了形成“小社会”了。甚至口语，在医疗大数据中，也有属于医疗板块的社会媒体（例如 reddits 以及医疗问答之类）的存在，应该是并不缺乏数据的覆盖性。主要短板还是团队与团队不同，产出质量可能就不一样。

例如《自然》那个医疗LLM的工作，就做得很辛苦，是由佛罗里达大学的教授和研究生，联合硬件厂商Nvidia，做出来的。从描述看，中规中矩，没有任何科学创新，只是数据端input不同，以及输出端在NLP多项任务的微调验证。这样的产出是不是能够看好、有效，促进攻克领域壁垒，现在不好说，都需要时间和实践去消化。

宋柔：语义计算不仅要服务于应用，还应该有理论价值。以GPT及其各种后继发展的大模型，仅是生成模型，并没有通过分析而理解。这种大模型不会是NLP的终结模型，应该还有革命性的变化。

立委：分析大模型也有，BERT 就是，只不过风头现在被 GPT 碾压了而已。BERT 的微调曾经很风行，医学界也有一些经过微调的 BERT 模型在公域，可是效果不太好。

另外，我们理解的分析和生成也可能跟不上时代了，表面上看 next token 作为基石或原理的所谓自回归训练的生成模型，道理上在分析任务上应该不适应，或至少不能与分析模型争锋：语言分析任务包括问句意图理解、阅读理解还有诗词创造（诗词创作不是生成任务，而是更加依仗全局的理解和布局）等。但事实上，当一个所谓的“生成”模型在建模的时候可以记住足够长的 precontext 的时候，模型本身的分析能力，就与上下文两边都看的模型，没有实质性的差距了。

总之，实践和效果把生成模型推到了现在的高度，而且貌似成为迄今最接近 AGI 的一扇门。当然，谈“终结”还太早。

白硕：我们的专家说非人类理解人类语言的巅峰，不过分吧。

立委：不过分，跟我说的天花板一个意思。

ChatGPT 虽然不好说终结了AI或NLP，但基本终结了聊天和对话。此前甚至以后的一切人机交互，要突破这个天花板是很难了。因为从语言层面几乎到了无可挑剔的程度，虽然从个体的不同偏好来看，还有可以挑刺的地方。就自然语言交互接口而言，ChatGPT至少是没留下足够的余地，使得后来者可以给人更大的惊喜。

最大的问题是胡说。但胡说其实是语言能力强的一个指针，而不是相反，可以专论。

宋柔：无论是“巅峰”还是“天花板”，离人的语言认知峰顶还差的远呢。

立委：从一个角度看，“语言-认知”其实可以分开来看，语言已经搞定了，认知搞定了多少？我说过，认知根本没搞定，也就是 20% 的认知能力吧，但给人的印象却远远不止 20%。多数时候给人的感觉（或错觉）是，貌似它也搞定了认知，只是偶尔露怯而已。可是人类露怯也不是特别罕见的事儿呀。

宋柔：是的。人也会露怯。通过更大量的学习，人和机器都可以纠正过去的错误。但是，人能创造，人的创造能力不是靠学习数量的增大就能获得的。

立委：其实我对所谓创造性的人类独有论越来越持有怀疑。人类肯定有某种机器没有的东西，但创造性（的大部）感觉不在这个神圣的圈或点内。很多以前认为的创造性譬如艺术创作其实是比较容易被模仿甚至超越的了。现在看到大模型的生成物（AIGC），常常可以看到创造的火花。当然，我们总是可以 argue，所看到的AIGC 的创造性其实是我们的误读，或过度解读，是所谓 Eliza effect，读出了对象本身不具有的意义和美感来。这个 argument 自然不错，但还是无助于界定“创造”的人机边界。例如 AIGC 刚刚“创造”的这幅命题作品：水彩画爱情。

我一眼看上去就很有感。一股浪漫气息扑面而来，带着水彩画的飘逸和玫瑰梦幻色。如果是我女儿画的，我一定会称赞她有天才，可能会后悔没有送她去美术学院深造。

宋柔：艺术创造没有客观标准，与科学创造不一样。最简单的，由自然数到负数，由整数到有理数，由有理数到实数，这种跨越就不是增加学习量就能达到的。

立委：对，这个是LLM目前的短板。

回看一下人类如何学到这些知识吧：经过小学5-6年，中学5-6年，大学4年，研究生5-10年，最后是不是研究学问的料还不知道。但除了这样漫长和精心设计的教育体系，人类还想不出任何其他更加多快好省的知识传承和突破的办法来。有些学问的点滴突破，已经到了需要一个人穷尽一辈子去消化前人的认知，才能站在历史的肩膀上在某一个点上，可能做出某种突破，来延伸科学知识的前进。而做出突破的都是幸运儿，因为一将功成万骨枯，他的脚下不知道有多少无法达到彼岸的半途而废者。拿这样的知识体系作为人类最后的神圣领地也许很有道理，因为掌握它是太难了。但隐隐觉得 AI 在这个过程中，可能也有希望有所颠覆。颠覆不是 AI alone 而是 AI assist，原有的教育体系使得科学进步的 overhead 越来越大，大到了人类寿命与之不相称的程度。最终还是要诉诸 AI 来缩短这个过程。这个方向（叫 AI for science）也是值得关注的（例如，大模型在生物工程方面据说就开始扮演一个加速器的角色了）。至于这个方向的进展对于人类科学的神圣性有什么影响，目前还不好说。也许科学的神圣和严谨也不是铁板一块的。

宋柔：现在的AI只是死读书，不会联想、类比，进而归纳而抽象出新概念新方法、有时候你感觉它在联想、类比，但实际上是它学过了这个特定的联想、类比的实例。它无论如何不可能归纳、抽象出一个从未学到的概念。

AI解决不了新冠病毒变异的预测。

立委：人也解决不了吧？

即便天气预报，人貌似搞定了，但也还是不得不借助类似于 LLM 的大模型大计算才搞定的。预测模型所做的事情，与人类所做的预测有什么根本区别吗？硬要看区别，可能主要还是人不如模型，人拍脑袋做决策与（借助）模型做决策，差距只会越来越大，因为人太容易只见树木不见林了。人类掌控全局的能力其实是一个很大的短板。

詹卫东：

白硕：这还差得远。

立委：鸡同鸭讲啊。必需精分 bipolar 才好。

进一步说明了形式和内容可以分离，分离了也可以随机融合，融合了不 make sense ，但看上去却很雄辩。以前也见到人类胡说，如此反差密集的胡说还是让人开眼。

刘群：对ChatGPT要求太高了，lol

詹卫东：LLM为什么能“看起来像是”从符号序列中发现了知识？包括“语言（学）知识”和“世界知识”？很神奇。可惜我的数学功力不足，难以参透。

刘群：没有什么神秘的，纯粹就是基于大数据的统计所作出的预测。大家感到意外，只是对大数据统计的威力认识不足。但统计本身并不能发现更复杂的规律，这点ChatGPT并没有表现出特别之处。

詹卫东：我只是觉得（没有根据）：无论给多少长的符号序列，也不可能学到真正的知识。

白硕：这个不好说。

数学上展开讨论，有一些理论上的天花板，但不是永远不会，而是会了也不可能自我认知会了。

詹卫东：其实是不是胡说倒很难判断。比如有人告诉我地心说的理论，我就很难知道地心说是不是在胡说。

立委：胡说的判定因人而异，对人的背景有要求。而语言的判定，只要 native 基本就行。

詹卫东：要验证知识的可靠性，是非常昂贵的。所以，从汪洋大海的符号序列中，学习到“知识”，难以想象。

立委：定义不清楚：什么叫知识？什么叫学到？什么叫“真正学到”？判定的标准是什么？如果标准是他的体温、脉搏和肾上腺素的分泌，是不是呼应了他的知识，那肯定是没学到。

白硕：都可以在数学意义上讨论和论证。

詹卫东：以围棋为例，可以认为机器学习到了围棋的“知识”。因为这类知识可以有函数表达形式。知识应该可以归结为不同粒度的分类能力吧，这是最基础的。

立委：这个能力已经是漫山遍野了呀。知识从概念化起步，概念化的模型表现已经是笃定的了。zero shot 的本义就在于此：你用概念 instruct 模型，模型可以从概念的“理解”，返回给你实例。

卫东：

我也是主观认为ChatGPT没有“特别之处”。比如“中秋月如钩”它也搞不定。但是，ChatGPT表现出的“语言能力”确实令人震撼。我就非常奇怪，仅仅靠预测字符，就能预测出这么流畅（前后呼应）的句子？

从“流畅的句子”（语言能力）到“真正的知识”，是不是存在鸿沟（是否可以逾越）呢？对人类而言，很多“知识”，载体就是“流畅的句子”。所以，给人一种错觉：流畅的句子 = 知识。我觉得这是ChatGPT给一般人的错觉。

有知识 → 能说流畅的句子（这个合理）
能说流畅的句子 → 有知识（这个存疑）

白硕：知识是嵌入好还是外挂好，我觉得这不是理论问题而是工程问题。

尼克：可能各有各的用处，有时理性需要经验，有时经验需要理性。

白硕：比如，理论上，一个实数就可以包含世界上所有的知识。但是工程上，还是要用一千多亿个参数。

尼克：变哲学问题了。

詹卫东：一个实数 > 一千多亿个参数？

白硕：数学上它们一一对应。N维空间的点可以和一条直线的点一一对应。我真的没开玩笑。

尼克：连续统。

詹卫东：这些知识，怎么能从“符号序列”中“学出来”呢？哲学问题是“知识是创造的，还是记忆的“？

立委：很多降维操作不就是要压平知识表示吗？

某种意义上，序列符号形式的语言，就是上帝赐予的压平知识的天然工具。其结果是无限的冗余、啰嗦、重复。LLM 就是在这些冗余中学到了“知识”，重新表示/复原到多维空间去。到了生成阶段，又不得不再次降维，压平成串，照顾人类的感官（眼睛读/耳朵听）。

宋柔：我想问ChatGPT一个问题，但我没有ChatGPT，也不会翻墙，不知哪位有兴趣问一下：
我国的长度计量单位过去曾用公里、公尺、公寸、公分，后来改用千米、米、分米、厘米，为什么米、分米、厘米已经通用了。但该用千米的场合往往还是用公里？如某人身高1米7，不说1公尺7；但高铁的速度每小时300公里，不说每小时300千米。

就是说，长度单位该用千米，不用公里，但为什么高铁速度说每小时300公里，不说每小时300千米？

立委：

好像也还说千米的，至少有一些小众社区是这个习惯。

詹卫东：

立委：习惯的问题（约定俗成）好像没有什么道理，感觉是偶然促成。

马少平：宋老师：发论文的时候似乎要用千米不能用公里，新闻什么的可能没有这么严格。

宋柔：正确的答复应该是：口语中，1千米和1000米读音相同，但1千米和1000米表示的精确度不同。前者精确到千米，后者精确到米。这种混淆导致“千米”这种单位不好用。
由于语料中没有这种论述，ChatGPT自然答不出来。

詹卫东：千米这个单位在小学数学题中广为使用，是把小学生绕晕的不二法器。我家娃数学能力不行，深受其害。

宋柔：为什么说“歪鼻子斜眼”，不说“斜鼻子歪眼”？

如果老外问中国人这种问题，多数中国人就说“我们就是这么说的，没有为什么。”

立委：

从一本正经的胡说，到一本正经的废话，到一本正经的信息量较低营养不高的话，再到一本正经的具有信息量的话，最后到一本正经的绝妙好辞。这就是一个频谱。

上面的回答，我的感觉是属于一本正经的信息量较低营养不高的话。有信息量的部分就是提到了“习惯”。他无心，我有意，这些习惯表达法，不就是约定俗成的习惯吗。符号绑定的用法，社区约定，本源上就不需要讲什么道理。

不变的是“一本正经”：就是说，它学会了人话。

白硕：但是真有泛化。我是说儿化规则。可能就是很复杂的决策森林啊。人说不清，但说的时候拎得清。

立委：风格都能模仿，学会儿化不奇怪了。都是鸡零狗碎的东西，不是没有规则，而是规则太多，人总结不过来。

白硕：不妨试试。

立委：

貌似还没学会。哈，没有这个知识，就好比它目前写中国诗没有学会押韵一样。但是英文诗是押韵的呀，也许就是一个阶段问题，还没进阶到那个段位：也许是等中国的大模型赶上来吧。

具体到这个儿化，是软约束，的确不好学，尤其是写到书面上，很多时候“儿”字就省掉了，让它如何抽象？如果是语音作为学习材料还差不多。

宋柔：这些例子说明，ChatGPT只会照猫画虎，不会从大量实例的类比中归纳出规律。

立委：照猫画虎其实已经开始抽象规律了，否则就是照猫画猫。

宋柔：比如，人可以从大量实例中归纳：“矮”说的是某物的顶面到底面距离短，“低”说的是某平面在心目中标准平面的下面。说“歪”的前提是预设了正确方向，是偏离了这个正确方向，说“斜”的前提是预设了正对的方向（无所谓正确不正确），是不同的另一个方向。ChatGPT虽然学了大量语料，大部分情况下能照猫画虎差不离地说对话，但不能抽象出相关的概念，从而讲不出道理。

ChatGPT不能抽取出相关的特征，从而不能归纳出规律。

立委：感觉还是不好说。

讲道理也许不行，抽象能力不可小看它。没抽象出来，更大可能是时间和数据问题。今天没抽象出来，1年后可能就可以了。近义词的细微区分是有数据依据的。

白硕：抽象这个东西不好说清楚，但是特征是能说清楚的。也许是多少层卷积之后才能出现的特征，数据不足时特征无法分化出来。

立委：以前符号AI那边的常识推理名家 cyc 老打比方，说：去年我们是10岁孩子的常识推理能力，今年的目标是12岁。

类似的，LLM 的抽象能力它现在也许达到了大学生的能力，但还不到研究生的水平。就更谈不上达到专家教授的高度抽象能力。但它走在万能教授的路上

【相关】

ChatGPT的进阶思考：金融行业落地要解决哪三大问题？

A large language model for electronic health records

BioGPT: A Domain-Specific Generative Transformer Language Model Pre-Trained on Large-Scale Biomedical Literature

chatGPT 网址：https://chat.openai.com/chat（需要注册）

《朝华午拾》电子版

李维郭进《自然语言处理答问》（商务印书馆 2020）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《AI浪潮：人工智能当代简史》

立委：人工智能当代史 outline：

10年前的第一次AI深度神经革命，解决了感知AI的图像识别（包括人脸识别）、语音识别以及机器翻译三大难题，靠的是带标大数据的有监督训练。

5年前的第二次AI深度革命以NLP为发端，“劳碌命”（LLM：large language model， BERT/GPT）为旗帜，辐射多模态，实现了AI从感知到认知的跃迁，靠的是原生大数据的自监督学习，无需标注却继承了有监督训练的巨大能力。

几个月前的第三次AI创新（或革命）搞定了自然语言的理解和生成难题，以 chatGPT 发布为里程碑，开辟了人机自然交流的新纪元。

通用人工智能（AGI：Artificial General Intelligence）因此从空想变为可以逼近的工程目标。

有个声称有百万多日本用户的新闻门户约了要采访我，问老司机关于“劳碌命”的现状和展望，尤其是 ChatGPT 对于社会的冲击力。有什么特别要给公众传达的？想了一下，以上的 outline 算是我信口开河前的主线，尽量做到天马行空不逾矩吧。

鲁为民：很赞赏这种乐观[Grin]

白硕：生成离彻底搞定比较近了，理解还远。

立委：从 chat 的客户端感受，理解已经很给力了：其实我个人觉得，chatGPT 的理解能力比其生成能力更让我 impressed，也许是生成模型的生成表现在预料之中，而语言理解此前一直是一个让人头疼的坎儿。从终端用户角度，你不管以什么方式说话，不管说的是哪一门语言或哪几门外语，貌似它都能听懂，给出的回应很到位，没有违和感。

关于AGI 以前与@马少平老师等谈过n次，当时我们都认为是不靠谱的东西，乌托邦。可是最近一年来，我的立场动摇了，不知道马老师现在如何评价？

马少平：我也开始动摇了[Grin]

立委：? 哈，heroes 所见略同，同步进退 lol

鲁为民：接过群主的乐观，今后可能用自然语言直接给计算机编程了。目前计算机语言用什么语言应该不重要了[Grin]

邬霄云：真正的no code

郭进：要说清楚，还是要形式语言。法律文件，专利诉求这些也是。自然语言，为了效率，也为了社会性，有意无意地留下了太多的歧义。

鲁为民：计算机语言可能也会就像法律语言一样，作为人类自然语言的一个分支 ··· ChatGPT 开了一个头，试图统一服务接口: 基于自然语言的接口。

陈利人：是不是概率才是大脑真正的思维方式。

立委：理解上的突破还是很明显的。如果我们回顾功能对话（Siri，Alexa，Google Assistant，出门问问等）的问句理解，语言理解面的对比还是很强烈。Siri 类是 brute force，貌似理解了，人工斧痕明显，无法与大模型 “涌现” 出来的理解能力比，无论自然性、广度还是鲁棒。当然，以前提过，功能对话的助理有很强的功利性和数据库的接口性，目前LLM在这方面如何对接还有挑战，但就理解谈理解，就对话谈对话，这种段位的差别还是非常有感的。功能助理是个机器，而chat已经进阶到类人实体了。

邬霄云：但是，这个理解是人infer的，并没有接口可以用和检测。换句话说如果它一个坏的理解和一个配套坏的生产，我们并不知道。我们知道只有end to end。

立委：客户的体验是可以粗略度量的。可以计算多少次失望是因为“感觉”它没听懂。这个感觉，用过的人心里是有一本账的。chat 绝对优等。

尼克有何高见？前面勾画的是“人工智能当代简史”。从范式转变的角度，十年内一大革命（深度神经），两大创新（transformer-based LLM，chatGPT）。考虑到 LLM 实质上还是有监督的学习（虽然由于其不需要带标数据常常号称是无监督），其有效和成功还是植根于深度神经网络的范式，所以也可以把第二次革命（LLM）降格为创新。但是，如果从第二次的感知飞跃到认知的角度，从第三次人类对齐（human alignment）赋能搞定人机接口、摘取自然语言这颗人工智能的皇冠明珠的角度，三次革命论也站得住。也就是说AI最近10年间发生了三大技术革命，明显有加速度的态势，让人眼花缭乱。

这种发展速度已经酝酿了危机，因为人类实际上没有准备好应对以假乱真真假莫辨的信息时代。AI 可以缓行，这并不是杞人忧天，可是，实际上谁也阻挡不住它的脚步和洗礼。

举两个例子。

这叫真假莫辨。懂行的朋友说里面九成为真，一成胡说。

这说明假新闻现在可以零成本活灵活现编造出来。

人类社会如何应对 misinfo 的泛滥，目前还是个问号。

尼克：那天白老师的分享挺好。我在琢磨，1）如何看待现在。需要一套话语来总结chatGPT现在的功能，或者说科普，现在很多人说的都不太准确。2)同时也要理解ta的局限,有些局限可能可以从计算理论角度说明，做GPT的人也需要了解。3）chatGPT可以外挂别的功能，别的模块也可以外挂chatGPT当oracle来用。4）哲学上，chatGPT帮助更加接近清晰定义“理解”，我现在对Chinese Room，维特根斯坦后期哲学和老乔的立场又有些新思路。我在等GPT4.0出来在决定是否增补个《人工智能简史》第三版。

马少平：@Nick Zhang（尼克）期待

白硕：互为外挂，精彩的点评。

尼克：哈哈，Schimdhuber对没给他发图灵奖很不满。前一阵写过一个很长的啰里啰唆的人工智能历史回顾。人工智能300年！这个是改写的中文版，原文在这里。

鲁为民：这些可能说明人工智能是工程应用学科，没人管自己重新发明的工程技巧之前是否别人做过，谁最接近应用成功，Credit 就是谁的[Grin]

尼克：深度学习那次图灵奖，Hinton确实是值得的，但另外俩小孩确实有点那个啥。Schmidhuber可能想：我资历不必他们浅呐。。。总的来说，Hinton吃过苦，其他人都是赶上了。

马少平：我在写开篇时犹豫半天是否写Schmidhuber，最后还是加上了，从文字上看感觉前后不是太连贯，因为这段是后来增加的。

尼克：估计Schmidhuber以后再也没机会得大奖了，本着同情弱者的立场，还是应该写哈。

马少平：@Nick Zhang（尼克）那个神经网络先驱奖如何？以前不太知道，这次写东西查资料才看到。

尼克：那奖还不错，我印象那奖原来是Neural Networks Society的，后来不知为啥转到IEEE名下了。2010年前的得奖人，我都八过。基本是个安慰奖。刚设立时恰逢Hopfield革命。

刚看了下，第一届的得奖人中有Grossberg，《AI简史》第二版中给他留了一页篇幅。他1969年在MIT副教授后居然没有tenure，后来去了BU，他认为是Minsky在迫害他。

立委： @Nick Zhang（尼克）无论gpt老四是个什么怪物你的简史都必须更新版本，才跟得上时代。

尼克：“史”得稍微有点距离，要不成journalist了。

白硕：如果已经知道了独尊儒术，对诸子百家就是另一种写法了。

尼克：可不，历史就是 in between焚书坑儒 and 独尊儒术。

立委：那也是。

过去10年的黄金时代让人眼花缭乱但有些事可以盖棺论定的感觉。

尚未搞定的短板自然还在路上。我戏言过的 AI 裁为三截一截馈符号一截赠领域一截还科学。

没有自然语言符号的原生数据这源源不断的燃料，llm 如何练成，成为多模态认知引擎。领域这一关必须过，看各路神仙今后五年吧。至于科学，不是说AI都是摸着石头过河，模型创新走马灯似的，有人说多是撞了狗屎运，以至于搞出的东西自己都没想到怎么那么牛。想不通又解释不了，就说“涌现”，上升到量变质变的玄学高度。

反正上帝这几年有些老糊涂了，动不动就泄露点天机，让知其然不知其所以然。天机之一就是自然语言并不是以前想象中的泰山压顶，不过就是认知海洋的一层波浪，模型一大就搞定了。搞定了语言，不过是间接搞定认知的20%左右吧，但却貌似可以对付80%的日常场景，让神迹尽意彰显。至于20%的笑话，也恰到好处，成为调料和谈资，既娱乐了大众，又鞭笞了工匠和科学家：继续内卷。

最近浏览多模态的一些工作，说音频视频方面的基础大模型正在重复 llm 的成功，说明 llm 的多任务零样本路线是ai的有普适意义的突破性方向。做音频视频的人，特别嫉妒自然语言的特性，觉得自然语言的 llm 条件太好了，不怪这场革命五年前首先发生在 nlp。第一是自然语言词汇符号的离散性和有限性，边界清晰，是嵌入向量的理想对象。第二是自然语言的结构性，以前被认为是线性模型的拦路虎，但在装备了多头注意力机制的深层llm中，也变成了理想的建模对象。于是 llm 轻松搞定了有限的词汇表示无穷的变体这门人类绝活。

如果是上帝垂怜人类，为人类创造了语言符号系统作为交流工具和知识 containers，同样应该感谢上帝的语言符号创造，为AI的llm认知革命提供了理想的原材料或燃料。而音频视频这些连续模态，没法与 text 比出身，根不红苗不正，起点不一样，既不离散也没有语言那样的结构化。尽管如此，过去一两年他们还是在基础模型方面克服困难，进步很大。因为从数据学习概念，是铁律。

【相关】

chatGPT 网址：https://chat.openai.com/chat（需要注册）

《朝华午拾》电子版

李维郭进《自然语言处理答问》（商务印书馆 2020）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《AI浪潮：玩不死的 chatGPT》

语言学家也玩不死语言大模型吗？

做一只小白鼠，咱们开玩。ChatGPT，看你有多牛？气有多长？掉不掉链子。一切从我熟悉的主题开始，也是语言学的化石级理论基础：计算语言学。

虽然它的发挥有些偏离了我的原意，但夸夸其谈的教授风度还在。这个起点不错。改成英文：

嗯，中规中矩，似是不非，虽然比较空洞。从对话角度看，这一切算是奠定了基础内容的主题和背景。我们看看从这儿，可以玩出什么语言的花样出来。

这个有点意思，至少把空洞的“文科”理论阐述转变为看上去很“理工”的形式流程，而且还增加了公式。好，在流程化方面，咱们再推一推它：

wei.li1@
给一个NLP任务的实例，例如，自动文摘，来说明利用上述模型落地这个任务的具体过程。务必用具体案例，显示整个任务完成的每一个步骤和细节，并加以详尽说明。



下面是使用上述模型来解决自动文摘任务的具体过程：

准备数据：首先，需要准备训练和测试数据。这些数据应该包括文章和对应的摘要，并且应该按照一定的比例划分为训练集和测试集。

清洗数据：然后，需要对文章和摘要进行清洗，去除无用的信息，例如HTML标签和空格符。

预处理数据：接下来，需要对文章和摘要进行预处理，例如分词、词干提取、词性标注等。这些步骤可以帮助模型更好地理解文本的结构和语义。

建立模型：然后，需要建立自动文摘模型，并初始化模型的参数。这可以通过使用神经网络来实现，并使用上述模型的形式模型来表示。

训练模型：接着，需要使用训练数据来训练模型。这可以通过不断地调整模型的参数来实现，以使损失函数的值越来越小。

评估模型：最后，需要使用测试数据来评估模型的性能。这可以通过计算模型在测试数据上的准确率、召回率等指标来实现。

使用模型：一旦模型训练完成，就可以使用模型来生成文章的摘要。这可以通过对新的文章输入模型，并得到输出的摘要来实现。

在使用模型的过程中，还可以考虑一些优化措施。例如，可以使用贪心算法来选择摘要中的重要句子，或者使用同义词替换来使摘要更加简洁。此外，还可以考虑使用数据增强技术来扩充训练数据，进一步提升模型的性能。

总的来说，利用上述模型来解决自动文摘任务的具体过程包括准备数据、清洗数据、预处理数据、建立模型、训练模型、评估模型和使用模型等步骤。这些步骤的具体细节可以根据实际情况进行调整，以便在解决自动文摘任务时取得最佳效果。

事已至此，也许可以写专利了？

嗯，看上去还真像回事儿。再接再厉，写篇学术论文吧：

全文如下：

Title: A Neural Network Approach to Automatic Text Summarization

Abstract:

Automatic text summarization is a challenging task in natural language processing (NLP) that involves generating a concise and coherent summary of a given text. In this paper, we present a neural network-based approach to this problem. Our model is inspired by classic theories of linguistics, such as the Chomskyan notion of universal grammar, and combines them with the latest ideas in self-supervised pre-training of large neural networks. We argue that a universal grammar can be perfectly captured by a massive model, and that grammar and semantics can be separated. One key aspect of our approach is the use of a high-dimensional vector space to represent the meaning of language, and another is the use of multiple layers of neural networks to perfectly capture the phenomena of language. Finally, we demonstrate that our theory overcomes the limitations of massive models, such as "hand-wavy" speculations, by providing a clear direction for future research.

Introduction:

Automatic text summarization is a crucial task in NLP that has numerous real-world applications, such as news aggregation, document summarization, and social media analysis. The goal of text summarization is to generate a concise and coherent summary of agiven text that preserves its main points and convey its meaning. However, this task is challenging due to the complexity and diversity of natural language, as well as the potential differences between the summary and the original text in terms of length, structure, and content.

There have been many approaches to text summarization in the past, ranging from rule-based methods to machine learning-based approaches. In recent years, deep learning-based methods have shown great promise in this domain, due to their ability to capture the rich and hierarchical structure of language. In this paper, we propose a neural network-based approach to text summarization that is inspired by classic theories of linguistics, such as the Chomskyan notion of universal grammar, and combines them with the latest ideas in self-supervised pre-training of large neural networks.

Methodology:

Our model is based on the idea that a universal grammar can be perfectly captured by a massive model, and that grammar and semantics can be separated. To this end, we use a high-dimensional vector space to represent the meaning of language, and multiple layers of neural networks to capture the phenomena of language.

One key aspect of our approach is the use of a high-dimensional vector space to represent the meaning of language. We argue that this is the optimal carrier for language meaning, as it allows us to capture the subtle nuances and relationships between words and concepts. To construct the vector space, we use a variety of techniques, including word embeddings, co-occurrence matrices, and distributed representations.

Another important aspect of our approach is the use of multiple layers of neural networks to capture the phenomena of language. We use a combination of feedforward and recurrent layers, as well as attention mechanisms, to capture the complex and dynamic nature of language. These layers are trained using a self-supervised pre-training approach, which allows us to learn rich and meaningful representations of language from large amounts of unannotated data.

Results and Discussion:

We evaluated our model on a number of benchmarks for text summarization, including the DUC and TAC datasets. Our results show that our model performs significantly better than previous state-of-the-art approaches, both in terms of ROUGE scores and human evaluation.

One interesting finding is that our model is able to capture the key points and meaning of the original text while still maintaining a concise and coherent summary. This is in contrast to previous models that
often generated summaries that were either too long or too short, or that contained irrelevant or redundant information.

One limitation of our model is its reliance on a massive model, which can be computationally expensive to train and deploy. However, we believe that the benefits of such a model outweigh the costs, as it allows us to capture a much richer and more nuanced understanding of language.

Conclusion:

In this paper, we presented a neural network-based approach to text summarization that combines classic theories of linguistics with the latest ideas in self-supervised pre-training of large neural networks. Our results show that our model is able to generate concise and coherent summaries of text while preserving its key points and meaning. Our approach has the potential to greatly improve the efficiency and effectiveness of various NLP tasks that involve text summarization.

可惜，没有 references，发不了 ACL，至少格式上就过不了关。

wei.li1@
add references in the proper places of this paper and add the list of references at end in the proper format as defined by top academic conferences:

Sure, I'd be happy to help you add references to your paper and create a list of references at the end. Here is an updated version of your paper with references added in APA style:

Title: A Neural Network Approach to Automatic Text Summarization

Abstract:

Automatic text summarization is a challenging task in natural language processing (NLP) that involves generating a concise and coherent summary of a given text (Sun et al., 2019). In this paper, we present a neural network-based approach to this problem. Our model is inspired by classic theories of linguistics, such as the Chomskyan notion ofuniversal grammar (Chomsky, 1957), and combines them with the latest ideas in self-supervised pre-training of large neural networks (GPT-3, 2021). We argue that a universal grammar can be perfectly captured by a massive model (Yang et al., 2020), and that grammar and semantics can be separated (Firth, 1957). One key aspect of our approach is the use of a high-dimensional vector space to represent the meaning of language (Mikolov et al., 2013), and another is the use of multiple layers of neural networks to perfectly capture the phenomena of language (Hochreiter & Schmidhuber, 1997). Finally, we demonstrate that our theory overcomes the limitations of massive models, such as "hand-wavy" speculations (Lee et al., 2020), by providing a clear direction for future research.

Introduction:

Automatic text summarizationis a crucial task in NLP that has numerous real-world applications, such as news aggregation, document summarization, and social media analysis (El-Kishky et al., 2020). The goal of text summarization is to generate a concise and coherent summary of a given text that preserve its main points and convey its meaning (Nenkova & McKeown, 2012). However, this task is challenging due to the complexity and diversity of natural language (Brown et al., 1993), as well as the potential differences between the summary and the original text in terms of length, structure, and content (Li et al., 2010).

There have been many approaches to text summarization in the past, ranging from rule-based methods (Mani & Maybury, 1999) to machine learning-based approaches (McDonald & Pereira, 2006). In recent years, deep learning-based methods have shown great promise in this domain (Huang et al., 2015), due to their ability to capture the rich and hierarchical structure of language (Zhou et al., 2016). In this paper, we propose a neural network-based approach to text summarization that is inspired by classic theories of linguistics, such as the Chomskyan notion of universal grammar (Chomsky, 1957), and combines them with the latest ideasin self-supervised pre-training of large neural networks (GPT-3, 2021).

Methodology:

Our model is based on the idea that a universal grammar can be perfectly captured by a massive model (Yang et al., 2020), and that grammar and semantics can be separated (Firth, 1957). To this end, we use a high-dimensional vector space to represent the meaning of language (Mikolov et al., 2013), and multiple layers of neural networks to capture the phenomena of language (Hochreiter & Schmidhuber, 1997).

One key aspect of our approach is the use of a high-dimensional vector space to represent the meaning of language. We argue that this is the optimal carrier for language meaning, as it allows us to capture the subtle nuances and relationships between words and concepts (Mikolov et al., 2013). To construct the vector space, we use a variety of techniques, including word embeddings (Mikolov et al., 2013), co-occurrence matrices (Pennington et al., 2014), and distributed representations (Hinton et al., 1986).

Another important aspect of our approach is the use of multiple layers of neural networks to capture the phenomena of language. We use a combination of feedforward and recurrent layers (Bengio et al., 1994), as well as attention mechanisms (Bahdanau et al., 2014), to capture the complex and dynamic nature of language. These layers are trained using a self-supervised pre-training approach (GPT-3, 2021), which allows us to learn rich and meaningful representations of language from large amounts of unannotated data (Devlin et al., 2018).

Results and Discussion:

We evaluated our model on a number of benchmarks for text summarization, including the DUC (DUC, 2002) and TAC (TAC, 2011) datasets. Our results show that our model performs significantly better than previous state-of-the-art approaches (e.g., Chen et al., 2018), both in terms of ROUGE scores (Lin, 2004) and human evaluation (Zhang et al., 2019).

One interesting finding is that our model is able to capture the key points and meaning of the original text while still maintaining a concise and coherent summary. This is in contrast to previous models that often generated summaries that were either too long or too short, or that contained irrelevant or redundant information (El-Kishky et al., 2020).

One limitation of our model is its reliance on a massive amount of data for training. While this allows us to learn rich and meaningful representations of language, it also means that our model may not be practical for use in resource-limited settings (Yang et al., 2020). Another limitation is that our approach is still limited by the quality and diversity of the training data (Bengio et al., 2013).

Conclusion:

In this paper, we have presented a neural network-based approach to automatic text summarization that is inspired by classic theories of linguistics and combines them with the latest ideas in self-supervised pre-training of large neural networks. Our results show that our model is able to generate concise and coherent summaries that accurately capture the key points and meaning of the original text. While our approach has some limitations, it provides a promising direction for future research in this field.

References:

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.

Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (1994). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137-1155.

Brown, P. F., Pietra, V. J. D., Pietra, S. A. D., & Mercer, R. L. (1993). The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, 19(2), 263-311.

Chen, Z., Zong, C., & Xiong, D. (2018). Fast abstractive summarization with reinforce-selected sentence rewriting. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (pp. 1659-1669).

Chomsky, N. (1957). Syntactic structures. The Hague: Mouton.

Devlin, J, Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

DUC (2002). DUC 2002 overview. In M. Palmer, D. Gildea, & P. Kingsbury (Eds.), The second message understanding conference: A bridging event (pp. 1-19).

El-Kishky, A., Zhang, H., Wang, H., & Zong, C. (2020). Multi-view attention for abstractive summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 4237-4247).

Firth, J. R. (1957). A synopsis of linguistic theory 1930-1955. In F. Smith & G. K. Zipf (Eds.), Current trends in linguistics (Vol. 1, pp. 181-258). The Hague: Mouton.

GPT-3 (2021). GPT-3: The third generation of the general purpose transformer. OpenAI.

Hinton, G. E., McClelland, J. L., & Rumelhart, D. E. (1986). Distributed representations. In D. E. Rumelhart & J. L. McClelland (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 1, pp. 77-109). Cambridge, MA: MIT Press.

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780.

Huang, P., Chen, D., & Liu, B. (2015). An overview of text summarization techniques. In D. D. Liu (Ed.), Encyclopedia of big data (pp. 1-9). Berlin: Springer.

Li, J., Liu, Y., & McKeown, K. R. (2010). The role of structure in text summarization. In A. F. Smeaton & P. Over (Eds.), Advances in information retrieval (pp. 1-18). Berlin: Springer.

Lin, C. Y. (2004). ROUGE: A package for automatic evaluation of summaries. In Text summarization branches out: Proceedings of the ACL-04 workshop (pp. 74-81). Stroudsburg, PA: Association for Computational Linguistics.

Mani, I., & Maybury, M. T. (1999). Advances in automatic text summarization. Cambridge, MA: MITPress.

McDonald, R., & Pereira, F. (2006). Online learning of approximations to context-free grammars for natural language processing. Machine Learning, 65(1), 71-110.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119).

Nenkova, A., & McKeown, K. R. (2012). An overview of automated text summarization. In Handbook of natural language processing (2nd ed., pp. 687-705). Boca Raton, FL: CRC Press.

Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (pp. 1532-1543).

Sun, X., Yu, M., & Duan, N. (2019). A survey on neural abstractive text summarization. arXiv preprint arXiv:1906.04165.

TAC (2011). TAC 2011 overview. In D. Vilar, J. E. Gonzalez-Brenes, & R. Prasad (Eds.), Text analysis conference (pp. 1-14).

Yang, Y., Le, Q. V., Salakhutdinov, R. R., & Xiong, C. (2020). The pre-training of deep bidirectional transformers for language understanding. In M. Botschen, A. Zündorf, & B. König-Ries (Eds.), Advances in artificial intelligence (pp. 11-19). Berlin: Springer.

Zhang, H., El-Kishky, A., Wang, H., & Zong, C. (2019). Improving abstractive summarization by data augmentation and fine-tuning. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 3382-3392).

Zhou, G., Liu, Y., & Cheng, X. (2016). A review of methods for text summarization. In Y. Liu & M. T. Maybury (Eds.), Advances in text summarization (pp. 1-18). Cambridge, MA: MIT Press.

不错，screening 这一关估计没问题了。接着练。

这个，这个，完全可以拿来就用啊，可以省了律师费500大洋？

多语言再推一推：

有些语言反正也看不懂，也懒得去求证了，但相信它这个万国通诚不我欺也吧，不至于胡编滥造。语言对它是小菜。内容都在神经向量里了，语言不过就是一层皮，解码输出层映射一下而已。

wei.li1@
write a poem about it:

In the realm of computational linguistics,
Our team has made a great achievement.
A neural network-based approach
To automatic text summarization.

We've blended the old with the new,
Linguistic theories and self-supervised pre-training,
To create summaries that are clear and true,
Preserving the essence and the feeling.

This breakthrough will bring great rewards
To our company and all our supporters,
Improving efficiency and effectiveness
In language tasks that require text summarization.
We're filled with excitement and ambition
For this pioneering technology
To push the boundaries and bring new solutions
To the world of computational linguistics.

作为诗歌不上档次，但拿它当作初创公司老总在公司聚会上的即兴感言，感觉还是基本合体的。

嗯，有那个味道。我n多年前在课上学过莎士比亚的。古典文体可以，很烂的洋泾浜如何？

“烂”得也不错，看来还真是上得厅堂，也下得厨房。试一下最八股的法律文书吧。

也试试它的科幻创造力如何。

wei.li1@
make it into a science fiction story or movie:


Sure! Here is a revised version of the science fiction story with added details and characters:

In the distant future, humanity had finally succeeded in creating a neural network capable of automatic text summarization. Our team of scientists, led by the brilliant Dr. Ava Park, had spent years studying the ancient art of linguistic theory, carefully blending it with the latest self-supervised pre-training techniques.

The result was a breakthrough that would change the world. Summaries that were clear and true, yet still preserved the essence and feeling of the original text. It was a technological marvel that promised to bring great rewards to our company, Transcendent Technologies, and all our supporters.

But we were not content to rest on our laurels. We knew that this was only the beginning. With excitement and ambition, we pushed the boundaries of this pioneering technology, bringing new solutions to the field of computational linguistics. The possibilities were endless, and we were determined to explore them all.

As we continued to make progress, we drew the attention of other tech companies and even governments. Many sought to acquire our revolutionary technology, but Dr. Park and the rest of the team were determined to keep it in the hands of Transcendent Technologies.

However, not everyone saw the potential for good in our work. A shadowy organization, known only as the Syndicate, began to threaten our team and attempt to steal our technology. It was a dangerous game, but we were determined to protect our breakthrough and use it for the betterment of humanity.

With the help of a skilled security team and some unexpected allies, we fought to keep the Syndicate at bay and continue our work. And as the years passed, we knew that our neural network would change the world in ways we could never have imagined.

wei.li1@
into Chinese and add more detailsincluding Chinese scientists, technology and traditional oriental wisdom into the story, with background in a Forbidden City command center:

Certainly! Here is a revised version of the science fiction story set in China and incorporating Chinese scientists, technology, and traditional oriental wisdom:

在人类历史的最后几千年中，中国科学家们在禁宫指挥中心努力工作，试图找到一种方法来拯救地球。在他们的努力下，他们最终成功地开发了一种神经网络，能够自动摘要任何文本，并保留其本质和感觉。

这是一项科技奇迹，它有望彻底改变人类沟通方式，并为我们的公司和所有支持者带来巨大的回报。但是，我们并不知道，我们的发现还将在人类自身的生存中发挥关键作用。

随着地球接近旅程的尽头，与木星相撞的威胁越来越近，我们的团队受到了政府的紧急请求。他们需要一种快速有效地处理来自木星系的大量信息的方法，以便制定一项拯救地球的计划。

在我们的神经网络的帮助下，我们能够破译数据并提供一种解决方案，避免灾难。但是，通往安全的道路充满危险，而那些企图不择手段地获取我们技术的黑影组织也在不断阻碍我们的努力。

通过勇气和决心，我们成功击败了黑影组织，并利用我们的技术将地球指引到了其新家——阿尔法·千人系。这是一段漫长而危险的旅程，但最终，我们的发现拯救了人类免于灭亡。

好了，总结一下这次漫长的玩模型的旅程：起点是给一个科技发明的主题，然后就开始以此来考验 chatGPT 各种语言能力。测试点包括：1. 多语言能力（10种语言，外加洋泾浜）；2. 多风格能力（学术论文、专利、法律文书、新闻、故事、莎士比亚文体等）；3. 内容扩展能力（科幻）。

满分100分，得分95，另加意外惊喜奖励分20，它取得的总成绩是115。扣除的5分是它诗歌方面差强人意。意外惊喜包括：（i）科幻的创造能力（融汇背景指令、原科技内容与地球流浪并不生硬），(ii) 论文、专利和法律文书的格式几乎不加修改即可利用，如果增加一些实质内容即可交付；(iii) 多语言能力无缝转接。

我这么刁钻的语言学家，也还没玩死它。感觉它评二级教授有些委屈了，应该做个语言学的讲席教授。

【相关】

chatGPT 网址：https://chat.openai.com/chat（需要注册）

《AI浪潮：玩不死的 chatGPT (之一)》

《朝华午拾》电子版

李维郭进《自然语言处理答问》（商务印书馆 2020）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《李白宋梁130：从短语结构的词序基础约束到大模型向量空间的天马行空》

李：网上看到一句话，所谓 legalese（法律语言），语言学上有点意思：

研究人员不曾因、不因、也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。

格式是：

不曾因、不因、也将不会因NP而VP

语义是：

过去不、现在不、将来也不（因NP而）VP

本来时态助词（“曾/将”）、情态动词“会”与否定副词“不”，都是跟着动词跑的，现在由于介词并列，闹得似乎是必须跟着介词 “因”，先构成介词短语，然后才去挂靠动词。

研究人员 PP<【不曾因、不因、也将不会因】NP<本报告中的具体推荐意见或观点>> 而 VP <直接或间接 V收到 NP<任何形式的补偿>>。

而不是（如果没有介词并列）：

研究人员不曾 PP<因 NP<本报告中的具体推荐意见或观点>> 而 VP <直接或间接 V收到 NP<任何形式的补偿>>。

白：就是三个括号么

李：假如没有介词并列的话，"不曾" 与 "因" 通常不先绑定的。

参照一下英文句法对等物：

“did not VP due to X "
" does not VP due to X"
"will not VP due to X

白：可以用龟息大法，给这个绑定留半口气，别的实在走不通，可以走这个，前提是有顿号。

“我可以不向也不代他人向你提出任何要求。”

这个就彻底死了。代他人，这是要连谓的节奏，怎么知道什么时候要并列。

这边等着动词，还不赶紧把介词吞了，那边介词要并列，找不到同类。

太妖了……

李：好例子！要害是汉语的介词是从动词退化而来的，所谓副动词。时不时动词性可以还魂。

白：

“谓略”增出来S坑，由“提任何要求”来填坑，性质是“共指”。就是说，我介词不仅省略了介词宾语，还省略了中心谓语。这个中心谓语我暂且填一个虚的，应付合并的差事。有朝一日大家的辖域统一了，再从里面找到共指的实的中心谓语。当然，省略的介词宾语也一起找了回来。

有否定词和情态词的情况下，介词并列是不合逻辑的。我们索性不走这条路，而是走把省略的中心谓词假装补出来，用否定词和情态词跟假装的中心谓词发生关系，同时，眼睛瞄着真正的中心谓词，用一条共指边来化假为真。这个“谓略”操作是“升格”操作的细化。还是在关联语法的大框架里面。

所以，介词并列只是一个假象。介词所修饰的谓词并列才是本尊。虽然它们有的比较羞涩，躲起来了，但是被否定词/模态词强制发生关系的语言环境还在，所以有现成的照妖镜把它们揪出来晒在光天化日之下。这样，种种看似不合理的现象、种种跑不下去的分析就都迎刃而解了。

李：这个问题的根子还是出在“短语结构”解析法（乔老爷的 phrase structures）。它把词序带入过程性，作为一切解析的基础。每个词（概念）被词序牢牢定住，你没有办法自由飞线，“a b c” 串的a要想跳过b与c暧昧，必须 a 先拉拢 b 或让b去投靠c。

白：没错。允许非树，允许把一处子树整体复用到另一处填坑，就不是问题了。

实际上关联有两种：合并辖域的和不合并辖域的。合并辖域的既要关联，又要相邻。不合并辖域的关联即可，无需相邻。于是就有了飞线。有了拖油瓶的坑。

李：深度学习的进展在这方面给人以启发。一开始深度模型都怕自然语言，因为自然语言与神经最先爆发的图像不一样，最大的不同是词序，也就是时序性。CNN 不能很好反映这一点，于是搞出来一个 RNN，本质上就是想贯彻短语结构的基础性约束。后来 RNN 基本被搁置了，出来了以 attention 为核心的 transformer，其实就是把词序的基础地位动摇了，允许任何节点与任何节点发生影响，“飞线”全覆盖、全连接。全覆盖的早期顾虑是组合爆炸。

白：飞线也是有形式演算的，什么位置之间可以拉，一点都不爆炸。

李：现如今，计算本身提升了，也不怎么怕爆炸了。初期可以爆炸，只要后期有办法收敛就行。

想一想思维与语言的关系，感觉思维的时候，特别容易天马行空，就是说不受时序基础约束。到了需要表达的时候，硬是走了“窄门”，变成了 list（语音流、字符串）。这原本应该是器官的物理约束：语音只能一个一个发，字只能一个一个写，后来反作用于思维增加了严谨性，成为文明和知识沉淀、积累和传承的形式保障。现在的大模型貌似冲破了这种形式约束，回归到天马行空的混沌状态（所谓多维度向量空间）。

这种回归本来应该是不可收拾的，没有规矩，难成方圆。但奇就奇在人们找到了收敛的方式（backprop？）。

有一得必有一失。获得了自由，肯定带来严谨性（逻辑性、层次性）的硬伤。只不过在数据主义的大潮中，这种硬伤被统计性掩盖了，越来越难揭示。

白：如果人家本来就是各种因素角力，无所谓严谨性呢？

严谨性体现于“演算”，灵活性体现于演算中的“选择”。选择是多因素角力的结果，要角力就必须统一度量衡，所以要用深度学习来“称重”。

分场景。真跟数据库打交道，不行的立马露馅儿。

梁：人，一开始是局限于自己眼睛能看见的，脚能走到的，感觉器官。后来局限于自然语言，别人创造的语言。后来人有了抽象思维能力，发展出了数学，觉得数学语言更严谨，精美。自然语言太粗糙了，太局限了。

李：这也是一点。但人类文明和知识积淀中，肯定有一些部分是必须在严谨性基础上才可以传承和发扬的。但确实有很多东西，对严谨性没有那么强的依赖。

缺乏严谨性造成的硬伤越来越难揭示，原因之一是：每一个硬伤反映到数据上，可以看成是一个数据（主要是稀疏数据带来）的 bug 而已，只要被人发现，迟早会被局部解决。

梁：局部解决，总不如全局解决，从根本上解决好。

李：局部解决的积累，就从统计上保证了硬伤变得越来越罕见。

梁：数据稀疏，不是 bug，是 feature. [Grin]

李：对于数据工作者，二者基本不分。

说到深度学习的大模型，今天看到文字转图片模型 DALLE-2 的进展，值得推荐：

AI绘图到底是天才画手，还是潘多拉魔盒？：
https://www.wenxuecity.com/news/2022/08/15/11768877.html

不知道国内不翻墙可以看否？总之，长期以来人类视为人类智能的精华的所谓灵感、想象力、艺术性、风格等反映人类的独特创造性的元素，在大数据大模型条件下，已经不仅仅被 AI 模仿，而且被 AI 超越。很多时候，甚至可以说不是贫穷限制了（普通）人类的想象力，而是一般人大脑所能吸收存贮的数据量限制了人类的想象力。当然，总可以 argue 说，所有这些 AI 的诡异和非凡的想象力和创造力都源自于首先有无数的艺术家产生了无数的作品，并有有心人对这些作品做了文字标记或说明。的确如此。然而，人类艺术家不也是如此吗？一个人从娘胎出来并不立即成为艺术家的，艺术家总是在观摩其他艺术家的作品，在漫长的勤学苦练中，凭着自己的天才特长，站在艺术家先人的肩膀上成就的。在“AI艺术”流行的必然趋势和大潮中，有一点可以肯定：少数顶尖的一流艺术家也许还可以继续自己的魅力和发挥自己的影响，二流三流的艺术家已经没有自身艺术的出路了，他们或者被取代，或者与电脑合作成为电脑作品的后期编辑者、鉴赏者或挑选者。一些例子非常有意思，注意AI艺术生成的输入文字：1 input：金毛寻回犬小狗坐在小餐馆里喝咖啡，看起来很忧郁 - Edward Hopper风格”； 2. input：“日出时狐狸坐在田野上的画作，莫奈风格”； 3. input：半人半机器版达利（注：达利是超现实主义画家，AI 艺术大模型的命名 DALL-E 就源于他）

宋：研究工作包括：发现问题，提出问题，分析问题，解决问题。现在的AI在解决问题方面，在很多领域做得确实不错，但是分析问题方面就差了，表现在对于解决的问题不能提供有说服力的解释。至于提出问题和发现问题，好像还没有什么表现。
与此相似，在艺术方面，AI可以做一些命题艺术品，即给出一个题目，AI也许可以完成得不错。但是，真正的艺术品是作者创作前和创作中对外部世界和内心世界的全部感性和理性认知积累的外在表现，这是AI做不到的，因为AI没有这种积累，除非将来某一天AI具有了独立的人格。

李：艺术只是一个粘接剂，它把艺术家与艺术消费者联系起来。宋老师的上述视点是从艺术家的角度。当然，艺术家与AI模型是两回事儿，前者有“灵性/自我意识”，后者没有，当然有根本区别。要害在消费者的视角：AI模型的生成与艺术家的作品，消费者越来越无法区分（图灵测试的精髓）。上面的几例如果来自人类，很多人会认为作品充满灵性。

咱们可以推向极端来看这事儿。有没有天才的艺术家，他不被任何人认可，没有消费者？理论上是有的，实践中也可以找到一些痕迹：例如某超时代的大师身前无人问津，身后被推崇。这样的极端案例可以凸显艺术家与模型的本质区别。

梁：有的人被动地反映，有的人主动地创造，质的不同。

白：乌合之众是很容易被带节奏的，有几个有独立艺术判断力的。

梁：spread out, 你走你的阳关道，我走我的独木桥。

李：模型一定是追逐大数据的，因此不可能特异独行到没有任何认可。但绝大多数的艺术，都已经归顺市场化的规则，必须有人认可才能鉴定。因此离开消费者的视角谈艺术家的高明，没有太多现实的意义。

白：每个时代都有每个时代的有色眼镜

李：说 “真正的艺术品” 只能出自人类艺术家，不可能出自AI模型。这句话是真理。但听上去属于没有多少现实意义的真理。

实际上，绝大多数的人类艺术家也在迎合大众或小众，这是他们赖以生存的基础。

白：是说让AI做超越时代的判断无意义。就如同用毕加索以前的画作当样本，训练出一个毕加索来。

李：计算风格学提出很久了，在大模型出现之前一直没有突破，如今出现井喷式爆发。这是因为构成风格的要素大多是细节，而细节的掌控，没有比大模型更擅长的了。

还是整理了一下笔记，觉得有些对话语境中的“绝妙好辞”不整理成篇，就散佚了，有点可惜。此前也有过一些值得汇编的片段，有时候懒或心境不定，就随风而去了。集腋成裘，已经130期了。

白：好啊，稀稀拉拉也五六年了。

宋：谢谢@wei ！我前段时间主要做标点句之间话头话身关系的考察，现在也开始做标点句内这类关系的考察（标点句内的主语从句、宾语从句、反向定语从句、补语从句、状语从句、同位语从句）的考察，会更加关注这类现象。

李：以前打了多年的成分分析法和结构分析法，从来没有离去。绝大多数的时候二者的相互映射没有问题，问题出在二者拧巴的时候。让人怀疑人生。可是人生本来就不总是黑白分明的，量子纠缠似乎不是微观世界的专属。

白：很多问题出在定义不严谨。比如主语，只要多问一句“谁的主语”就能澄清很多误解，可惜谁也不这样问。

“象鼻子长”就是这么个例子。“鼻子”是“长”的主语，“象”是“鼻子长”的主语，“象”是“鼻子”的领属语。偏偏都混在一起说。

宋：英语的主谓关系多数情况下有形式标记，汉语没有。那么汉语中如何判断主谓关系？最终只能从语用功能上看，即是对象与陈述的关系。

李：问题是对象（例如话题/Topic）与陈述（例如小句）的关系，与结构分析法中的依存关系性质不同，不在一个层面，不是同一个关系参照系。

dependency 的严谨性反映在一种对于终结节点（head token）的执着上。dependency 与 phrase structure 不同，根本就不承认“小句”作为落脚点。这种执着自然也带来自己的局限/麻烦，这也是引起争论的原因。并不仅仅是因为传统语法学家都对词节点的依存缺乏感知。他们觉得语言分析和理解还有另外的层面。所以矛盾和争论更主要是源自所谓层次纠缠。成分分析与结构分析不总是在一个层面，一旦纠缠，就成了量子了，公婆各有理。

以动词而不是小句作为落脚点，话题就不再是主语-述语那种并驾齐驱的关系了，而是变成了或直接（话题状语，类似英文的“as for TOPIC”）或间接（领属关系，修饰其后的主语名词）的从属性的成分。

白：词对词、词对块、块对块的句法关系各有不同标签。即使中心词也不能完全代表所在块与外部的句法关系。具体地说，中心词只能继承分子的句法属性，不能继承分母的句法属性。而句法的变化多端，更多体现在分母上。

【外一则】

白：“生死人肉白骨”，这个分词好凌乱。

意思是医术出神入化，能让死人复活，白骨长肉。正确的分词应该是“生/死人/肉/白骨”，“生”是不及物动词的使动用法，“肉”是名词的动词化用法。

李：哦，还以为属于 “枯藤老树昏鸦” 的句式：

生死/人肉/白骨 阴阳/鬼魂/黑血，
一片乌漆 魑魅魍魉炼狱

【相关】

李维郭进《自然语言处理答问》（商务印书馆 2020）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

密码保护：【立委科普：NLP 的现状与前景】

从人类认知谈AI融合之不易

听了一些深度学习的大神们的各路演讲，有些感触。

他们的科普类演讲大多有个共性，就是哲学味道很浓，有上帝视野，或干脆自己做上帝状。这是可以理解的情绪和姿态，也是一种自然的表现。在AI寒冬走过来的这些人，面壁N多年，终于迎来了扬眉吐气的深度网络横扫AI的各种奇迹和荣誉，不俯视天下反而是不可能的。

面对新闻记者的采访，有时候会给人一种自己被自己的成就吓倒了的极端自豪感，很有趣也很人性的一种表现，这种时候最容易天马行空。记者问，你认为什么时候神经网络可以自主意识呢？回答是，我认为已经自主意识了啊。

不过他们的长篇演讲还是有很多让人启发的思考，他们都在寻找下一个突破口，并不满足于小修小补。小修小补，模型越做越大的渐变式成功，他们认为是年轻人的事儿，水到渠成。他们希望自己能带领AI迎来下一个范式转变或者根本性突破。这种心理非常强烈，也是很自然的。人的本性都是，无论多大的成就，盛筵过后总是要追求下一个更大的辉煌。

其中思考最多的问题之一是，人用小数据就可以高效训练自己的技能，可是深度神经却需要大了好几个数量级的数据才能训练好。图像识别是最典型的例子，儿童开始识别猫啊、狗啊，见过的实例非常有限，但识别率则很高，什么机制？为什么机器只能蛮力去学，不能像人类一样？

在与人的认知机制的比较中，他们出现了两极的表述，很有意思。上面是强调人和机器的不同，思考如何弥合这种不同，或者如何更加逼近人的认知过程来提高机器学习效率。另一个方面说法却是强调深度神经就是人的神经。敢于这么说我觉得主要是因为生物领域的大脑机制研究很多年陷入泥潭。有人说这不怪生物学家，因为人的认知和意识是世界上最难解开的谜，目前人类对它的认知只是冰山一角。既然脑神经系统是怎么工作的留下太多的空白，AI 神经系统的大神们就理直气壮认为深度神经网络就是人脑机理的最完美模型就可以理解了，毕竟这套模型在很多认知任务（语音、图像、翻译等）的表现中已经接近或超过人脑的水平。

AI神经与生物认知这两个领域以前大多处于老死不相往来的状态。有意思的是，由于AI的高亮度，现在越来越多的生物界人士开始关注神经网络系统的进展。听过一些生物学家的看法，认同AI的不少，大概是看到了AI的表现，有点信服的意思。

谈点自己的观感。人脑的认知和决策比较复杂，大概其中有些部分的机制的确很像是各个节点互相连接以不同权重互相影响的神经网路，特别是那些我们称为“本能式反应”的下意识过程（例如遇到紧急路况的驾驶反应，在水中学会的游泳技能等），这些反应人也说不清，有些甚至已经固化到我们的条件反射里面，但这些反应是有效的生存策略。

但是，人的确有非常有逻辑条理和清晰的认知过程存在，包括我们所熟知的语言理解过程，虽然说 native speaker 似乎都可以“本能”学会说话和理解，但是其中绝大多数理解过程细细琢磨是可以找到背后的逻辑脉络的。这种认知通常是符号化（概念化）的，往往非常抽象而高效，不依赖大数据，只需要有限量数据做微调。这方面的理性认知与目前流行的神经网络很不相同。

能够清晰梳理出来的语言理解案例，在白硕老师的语义计算群里有过无数案例、讨论或解说，【语义计算：李白对话录系列】对此有所记录。其特点是：1. 符号化的；2. 多层面的较量；3. 就事论事都可以讲清楚哪个层面哪个因素主导了最终的理解，如果出现歧义，歧义背后的脉络也是清晰可见的。这些层面其实并不多，列举下来：第一是词汇概念及其背后的本体知识（常识），也包括情感分析的因素；第二是形式制约（句法、形态等）；第三是篇章上下文；第四是领域性行业知识；第五是说者和听者的社会关系影响。大概就这几项了。原则都是有限的符号体系可以勾画、模拟和演算的。

符号AI在这方面的尝试已经很多，创新在悄悄发生，虽然听不到太大动静。这一路更像是真实逼近或模拟的高级认知功能。感觉到的痛点不是高度抽象的符号化概念化本身的问题，而是以上各种力量对比在语言理解过程中如何较量的问题。这正是符号化规则的短板，压下葫芦浮起瓢。也正是在这点上，神经系统或统计模型应该可以助力，主要是要找到合适的接口来做对接。这方面白老师也说过多次。我的理解是，符号系统画出骨架，血肉可以让大数据神经/统计模型来填写。

可是这种对接和融合的构想，不是神经系统 leaders 所要的。这也可以理解，每个人有不同角度。他们的角度总是，确立神经的骨架，在神经网络的延长线上，希望其他知识系统用某种方式融入。但迄今为止也大多想不出来如何融入“异质” 的知识资源，毕竟这看上去是不兼容的怪物。不少人不是不想深度融合，但困于不兼容的感觉是普遍的。

宏观上看是两条路线的不兼容，根本就没有起码的共同语言与词汇，只不过恰好面对的问题领域重合了而已。一边是离散的符号，一边是各种向量/参数，怎么交融？这就好比物理学家、化学家和生物学家很多时候不兼容一样，物理面对的是基本粒子，化学玩的是分子，生物研究细胞，不同层次的体系，如何交融。

～～～～～～～

有生物医学老友评论说：

“人用小数据就可以高效训练自己的技能”，不知道这有啥证据。

人从生下来就在学习。把猫狗图像识别用于刚出生的婴儿试一试，估计还不如机器快。

人的认知过程本质是环境输入信号和大脑已有模型的拟合过程，而人脑的已有模型是通过学习建立的。这个模型的建立过程归记忆的机制在研究。很显然目前还不能在分子和细胞水平进行解释。

AI识别和人脑识别最大的不同是AI没有情绪成份。人脑情绪成份的加入会严重影响记忆建模过程，并因此影响模型和环境信号的拟合过程，也就是影响对环境信号的识别。情绪成份是生物上亿年进化出来的东西，和个体生存和种系繁衍有关。情绪的逻辑和AI的数理逻辑差异巨大。

说不准算不算小数据认知。只是感觉认识物体与学习语言类似，并不需要海量样本。

我们教孩子认识一个物体，也就是给有限的几个样本，他们就认识了。后去这些物体的各种变形，基本上一样可以认出来。

类似的过程在学习语言这种复杂的系统中最为明显。所以乔姆斯基认为，人生下来就有一个普遍语法机制在头脑，这个机制有一些参数需要数据去训练，但人在学语言的时候，其实面对的并不是海量数据，也不是完整无误的数据。就是这些片段的有限数据，让最傻的孩子也可以自如学会母语。

可是机器学习不同，最新的深度学习的语言模型的预训练规模是：

GPT-3 is a very large language model (the largest till date) with about 175 billion parameters. It is trained on about 45TB of text data from different datasets

当然，现在的语言模型的语言生成能力包括流畅度和合法性，已经超越普通人的水平。

乔姆斯基批评这种学习是蛮力，没有科学意义，因为不能揭示人类的认知过程。

的确，关于生物演化而来的喜怒哀乐情绪，在人机对比中更具有区别意义。

本来情绪这种东西，看上去是非理性的比较低级的心理过程，因为一些高级动物也会有某些情绪的表现。而理性思维和智能被认为是人类独有的高级认知功能。

但是，现在看来，机器在不断压缩或逼近人类的智能空间，原先以为人类独有的很多智能活动，逐渐被机器学习超越了。反而是情绪这种东西，成为人机的真正鸿沟。

教会机器“谈”恋爱并不难，但是让机器堕入爱河是不可能的。让机器呼天喊地哭鼻子叫苦叫疼也可以做到，但证明他是因为痛苦而哭现在看来是天方夜谭。自主意识和自主感情是科学幻想所热衷的话题，但是至少迄今没有任何可信的迹象表明，生物科技（基因工程）与电脑科技会真正深度融合人机，以至于可以创造出具有情绪的超级机器人。担心自主的机器起来造反或谋杀人类，是相当可笑的。AI如果有灾难，是人自己把自己玩死了，是某种 bugs 没消除就部署造成的意外灾难，这是可能的，但绝不是机器人犯上作乱。

图灵测试不是人机不可逾越的界限，情绪证明才是。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

《语言形式的无中生有：从隐性到显性》

立委按：这篇自选，大概只有对语言或语言学真有兴趣的读者，才能读到底。不过倘若真读下来了，欧洲语言的形态（语法词尾）及其生成的奥秘，也就清楚了哈。语言学真滴好迷人。简单打个比方，中文就是个“裸奔”的语言，头脑里的概念直接变成词往外冒。欧洲语言不同。思想化为语言表达出门前，先要穿戴整齐，西装革履一番。本文讲解的就是这个穿衣服的过程。术语叫“形态生成”。

话说华裔语言学泰斗赵元任先生曾经有过一个游戏名作，通篇只用同一个音，讲了这么个故事，天下人无不叫绝。

《施氏食狮史》
石室诗士施氏，嗜狮，誓食十狮。氏时时适市视狮。十时，适十狮适市。是时，适施氏适市。氏视是十狮，恃矢势，使是十狮逝世。氏拾是十狮尸，适石室。石室湿，氏使侍拭石室。石室拭，氏始试食是十狮尸。食时，始识是十狮尸，实十石狮尸。试释是事。

这是比较浅白的文言文，读起来拗口，看懂这篇并不难。俏皮在通篇只有一个音节 shi，但对应了文言中不同的汉字。文言文汉字基本上就是一个独立语素（有意义的最小单位），属于孤立语，没有形态，虚字也极少用。文句主要就是靠实字概念之间的相谐（所谓“意合”）以及语序来表达内容，使人看得懂。

如果我们假设每个汉字对应一个确定的概念（多义汉字可以假设通过二字组或三字组来消歧），那么通过这些概念在西方语言中的词汇对应物及其组合成句的对比，我们就可以把孤立语与形态语之间的句法区别凸显出来。想来做一下这个练习会很有意思的，因为我们可以揭示语言的奥秘之一：无中生有。

这个对比练习最令人启发和好玩的地方，是做文言文与世界语（Esperanto）的对比，因为世界语实词的形态变化有两大特点：第一是形态词尾不可省略（起码词类词尾对于实词是必须存在的，不允许零形式）；第二所有的形态变化是100%规则化的。这就会凸显形态这种词尾形式和小词这种形式怎么冒出来的。

咱们先建一部双语词典，让相同概念的实词一一对应：

石：ŝton / 室：ĉambr / 诗：poem / 士：ist / 施：Shi / 氏：S-ro / ，嗜：hobi / 狮：leon / ，誓：promes / 食：manĝ / 十：dek / 狮：leon / 。氏：S-ro / 时：temp / 时：temp / 适：ven / 市：merkat / 视：vid / 狮：leon / 。十：dek / 时：hor / ，适：ĝust / 十：dek / 狮：leon / 适：ven / 市：merkat / 。是：tiu / 时：temp /，适：ĝust / 施：Shi / 氏：S-ro / 适：ven / 市：merkat / 。氏：S-ro / 视：vid / 是：tiu / 十：dek / 狮：leon /，恃：fid / 矢：sag / 势：potencial /，使：kauz / 是：tiu / 十：dek / 狮：leon / 逝：forlas / 世：mond / 。氏：S-ro / 拾：kolekt / 是：tiu / 十：dek / 狮：leon / 尸：korp / ，适：ven / 石：ŝton / 室：ĉambr / 。石：ŝton / 室：ĉambr / 湿：malsek /，氏：S-ro / 使：kauz / 侍：servist / 拭：viŝ / 石：ŝton / 室：ĉambr / 。石：ŝton / 室：ĉambr / 拭：viŝ /，氏：S-ro / 始：ek / 试：prov / 食：manĝ / 是：tiu / 十：dek / 狮：leon / 尸：korp /。食：manĝ / 时：temp /，始：ek / 识：kon / 是：tiu / 十：dek / 狮：leon / 尸：korp /，实：fakt / 十：dek / 石：ŝton / 狮：leon / 尸：korp / 。试：prov / 释：klarig / 是：tiu / 事：afer /。

我们做语言对比的目的是考察完全不同类型和语系的语言之间，语言形式的不同是如何体现在组词造句的句法上，来帮助我们表达、理解和翻译的。因此，我们把多义字（词）的问题先放在一边，假定只有一个词义。但实际上不少字是有歧义的，即便在本篇中，也还有几个相同的字，意义不同（从而词类和用法也不同）。不过，这个问题可以用二字组（bigrams）来解决。本篇中需要用到的二字组有5条就够了：

施Shi / 氏S-ro --》S-ro Shi (倒装)
时temp / 时temp --》 tempo-al-tempo；de tempo al tempo
适ven / 市merkat --》 venas merkaton；venas al merkato
十dek / 时hor --》 dek-horon；je la dek horo
逝forlas 世/mond --》 forlasas mondon；forlasas la mondon

Ŝtonoĉambre poemisto S-ro Shi, hobias leonojn, promesas manĝi dek leonojn. S-ro tempo-al-tempe venis merkaton vidi leonojn. Dek horon ĝuste dek leonoj venis merkaton. Tiu-tempe ĝuste S-ro Shi venis merkaton. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kauzis tiujn dek leonojn forlasi mondon. S-ro kolektis tiujn dek leonokorpojn, venis ŝtonoĉambron. Ŝtonoĉambro malsekis, S-ro kauzis serviston viŝi ŝtonoĉambron. Ŝtonoĉambro viŝinte, S-ro ekprovis manĝi tiujn dek leonokorpojn. Manĝtempe, ekkonis tiuj dek leonokorpoj faktis dek ŝtonoleonajn korpojn. Provu klarigi tiun aferon.

实际上等价于：

石o室e 诗-士o 氏o 施/NNP，嗜as 狮ojn，誓as 食i 十/Num 狮ojn。氏o 时时e 适as 市o 视i狮ojn。十/Num 时-on，适-e 十/Num 狮oj 适as 市on。是/DT 时-e，适-e 氏o 施/NNP 适is 市on。氏o 视is 是/DT 十/Num 狮ojn，恃is 矢o势ojn，使is 是/DT 十/Num 狮ojn 逝i 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn，适is 石o室on。石o室o 湿is，氏o 使is 侍on 拭i 石o室on。石o室on 拭inte，氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。食-时e，始-识is 是/DT 十/Num 狮o尸oj，实is 十/Num 石o狮ajn 尸ojn。试u 释i 是/DT 事on。

Ŝton-o-ĉambr-e poem-isto S-ro Shi, hobi-as leon-ojn, promes-as manĝ-i dek leon-ojn. S-ro temp-o-al-temp-e ven-as merkat-on vid-i leon-ojn. Dek hor-on ĝust-e dek leon-oj ven-is merkat-on. Tiu-temp-e ĝust-e S-ro Shi ven-is merkat-on. S-ro vid-is tiu-jn dek leon-ojn, fidis sag-o-potencial-ojn, kauz-is tiu-jn dek leon-ojn forlas-i mond-on. S-ro kolekt-is tiu-jn dek leon-o-korp-ojn, ven-is ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o malsek-is, S-ro kauz-is servist-on viŝ-i ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o viŝ-inte, S-ro ek-prov-is manĝ-i tiu-jn dek leon-o-korp-ojn. Manĝ-temp-e, ek-kon-is tiu-j dek leon-o-korp-oj fakt-is dek ŝton-o-leon-ajn korp-ojn. Prov-u klarig-i tiu-n afer-on.

世界语形态很简单：

o 名词词尾，e 副词词尾，as 谓语现在时，ojn 名词-复数-宾格，i 不定式，on 名词-宾格，is 谓语过去时，inte 副词-主动-完成体，oj 名词-复数-主格，u 谓语命令式

那这些形态是怎么来的呢？

形态原文根本就没有，这是在翻译过程中“无中生有”的，否则就不符合世界语文法，也无法正确表达原文的结构内容。可以问：中文没有这些形态，不也是一样表达吗？凭什么知道它表达的，正好对应上面的形态呢？答案是，中文用的是隐性形式，而世界语的形态是显性形式。在我们用具体例句讲解隐性形式在文法上是如何工作的之前，我们再看看世界语的另外一种形式，所谓分析形式，是如何表达这一篇故事的。前面译文采用的语言形式是所谓综合语言的形态形式，世界语也可以更多依赖小词，采用所谓分析语言形式来表达，结果大致是这样的：

En la ŝtonoĉambro, la poemisto S-ro Shi hobias leonojn, kaj promesas manĝi dek leonojn. S-ro de tempo al tempo venis al merkato por vidi leonojn. Je la dek horo, ĝuste dek leonoj venis al merkato. Je tiu tempo, ĝuste S-ro Shi venis al la merkato. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kaj kauzis tiujn dek leonojn forlasi la mondon. S-ro kolektis tiujn dek leonokorpojn, venis al la ŝtono-ĉambro. La ŝtonoĉambro malsekis, kaj S-ro kauzis serviston viŝi la ŝtonoĉambron. Kiam la ŝtonoĉambro estis viŝinta, S-ro ekmanĝis tiujn dek leonokorpojn. Je la manĝtempo, li ekkonis ke tiuj dek leonokorpoj fakte estas dek ŝtonoleonaj korpoj. Provu klarigi tiun aferon.

En la 石o室o 诗-士o 氏-o 施/NNP，嗜as 狮ojn，kaj 誓as 食i 十/Num 狮ojn。氏o 时时/de tempo al dempo 适is al 市o por 视i 狮ojn。Je 十/Num 时o，适-e 十/Num 狮oj 适is al 市o。Je 是/DT 时o，适e 氏o 施/NNP 适is al la 市o。氏o 视is 是/DT 十/Num 狮ojn，恃is 矢o势ojn，使is 是/DT 十/Num 狮ojn 逝i la 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn，适is al la 石o室o。La 石o室o 湿is，kaj 氏o 使is 侍on 拭i la 石o室on。Kiam la 石o室o estis 拭inta，氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。Je la 食-时o，始-识is ke 是/DT 十/Num 狮o尸oj，实e estas 十/Num 石o狮aj 尸oj。试u 释i 是/DT 事on。

（En la) ŝtono-ĉambro poemisto S-ro Shi hobias leonojn, (kaj) promesas manĝi dek leonojn. S-ro (de) tempo (al) tempo venis (al) merkato (por) vidi leonojn. (Je la) dek horo, ĝuste dek leonoj venis (al) merkato. (Je) tiu tempo, ĝuste S-ro Shi venis (al la) merkato. S-ro vidis tiujn dek leonojn, fidis sago-potencialojn, (kaj) kauzis tiujn dek leonojn forlasi (la) mondon. S-ro kolektis tiujn dek leono-korpojn, venis (al la) ŝtono-ĉambro. (La) ŝtono-ĉambro malsekis, (kaj) S-ro kauzis serviston viŝi ŝtono-ĉambron. (Kiam la) ŝtono-ĉambro (estis) viŝinta, S-ro ek-manĝis tiujn dek leono-korpojn. (Je la) manĝ-tempo, (li) ek-konis (ke) tiuj dek leono-korpoj fakte (estis) dek ŝtono-leono-korpoj. Provu klarigi tiun aferon.

其中用到的世界语小词是：en （in），la（the），kaj（and），de（from/of），al（to），por（for，in order to），je（at/in/about），dek（10），S-ro（Mr/Sir），tiuj（these）, estas (is/am/are), estis(was/were)

我们以第一句为例：“石室诗士施氏，嗜狮，誓食十狮。” 相当于：

（En la) 石-o-室-o 诗-o-士-o 施/Shi 氏/S-ro，嗜-as 狮-ojn, (kaj) 誓-as 食-i 十/Num 狮-ojn.

好玩吧，概念不变，里面多出了很多文法形式和小词。原文没有，为什么要加？怎么加？为什么加了才是对的？

前面说过，文言是孤立语，缺乏显性形式手段，它的文法关系是隐藏在词内部的“隐性形式”，通过揭示这些隐性形式，我们可以知道是什么语法关系，到了目标语，又该用什么显性语言形式。

自动句法解析例示如下，第一张是所谓短语结构句法树（PS tree），第二张是分析更加深入的依存关系结构图（DG graph）：

“石/室/诗/士/施/氏” 这头6个字都是名词 N，虽然没有 -o 这样的形式。怎么知道的，这是词所对应的词义概念决定的。在我们头脑里面是有词典记忆的，如果建立词典的话，N 这样的词类特征就在词典里面了。可见所谓隐性形式，就是词典里面的藏在词背后的东西。词类是一种，更多的词的子类也是隐性形式，也是查词典可以得到的。

下一个问题是，6个名词串在一起，怎么知道它们之间的关系，又怎么知道它们在句子中的角色，从而知道世界语该如何合法组织它们呢？

第一条规则是，单字名词与单字名词在一起，经常是先组织成合成词。（这叫词法双音化倾向，当然有例外，但很多时候是这样。）于是，我们把6个字变成三个合成词：：石室 / 诗士 / 施氏。

到了世界语，N 与 N 怎么联系为合成词呢，通常加 -o- 连。如果后面的N是后缀，或者前面的N是前缀，则不用加 o，而 -ist（者/士）正是后缀。最后两个字有一个小规则，就是：百家姓（这是隐性形式，查词典可得）+ “氏” 组合成人的专有名词，这种组合到了世界语正好要倒过来：

X+氏 --》 S-ro X

为什么两种语言表达人名与称呼的词序不同（词序本身也是语言显性形式）？没有道理，就是两个语言在这方面习惯不同。把它当成语言之间的转换规则记住就好了。

这样一来，这6个字的词法（组合成词）都有了表现的形式：

石-o-室-? 诗-士-? 氏/S-ro 施/Shi

前面两个合成词后面的问号表示世界语还需要确定用什么形态（或小词）来把合成词之间的关系，或合成词在句子中的角色搞清楚。通常名词组合的合成词默认就是 -o，但有例外，这个例外也是隐性形式决定的。

这样讲下去太累了，虽然也不知道如何才能既简单也能讲清楚语言的奥秘。所有在这里讲的过程，都可以在电脑上实现。也就是说，这里的讲的隐性形式最后转换成世界语的合法的形态和小词形式，都是一个完全透明可以一步步机械实现的过程。句法为基础的“经典式”机器翻译当年就是这么做的。（最新的机器翻译不是这样做的，是用所谓神经网络算法，纯粹从大量的平行翻译语料死记硬背模仿出来的，这话先放下。）

好，运用了专有名词组合的小规则以后，我们就有了：

石-o-室-? 诗-士-? 施氏/S-ro Shi

第一个合成词与第二个合成词可以有三种结合方式：一种是第一个修饰第二个（做定语），于是第一个用形容词词尾 -a，第二个用 -o，这是最常见的默认的“定中式”名词组合：

（1）石-o-室-a 诗-士-o 施氏/S-ro Shi

另一种结合方式是，遇到 “地点名词/时间名词”（这是名词的子类，也是词典里面可以记录的隐性形式）在句首的话，我们可以认为它是状语，而不是前面说的默认的定语。状语在世界语有两个形式：一个是用副词词尾 -e表示，一个是用介词 je（或 en ），于是我们有了第二种和第三种译法：

（2）石-o-室-e 诗-士-o 施氏/S-ro Shi

（3）en 石-o-室-o 诗-士-o 施氏/S-ro Shi

把上面三种译法替换成实词对等物，于是我们有了这个片段的世界语：

（1a）ŝton-o-ĉambr-a poemist-o S-ro Shi
（2a） ŝton-o-ĉambr-e poemist-o S-ro Shi
（3a）En ŝton-o-ĉambr-o poem-ist-o S-ro Shi

如果用分析形式（3a），最好适当加上冠词：

（3b）：En la ŝton-o-ĉambr-o la poem-ist-o S-ro Shi

冠词怎么加就不细说了，总之有些微妙，好在是可加可不加的。

这句后面还有几个字：“......, 嗜狮，誓食十狮”。

查了词典，我们知道它们各自的词类：嗜V 狮N ，誓V 食V 十Num 狮N，名词外，也出现动词 V，数词 Num 了。动词后面跟名词，通常就是宾语，要用 -on 或 -ojn；数词（除了1）后面跟名词必须要用复数形式 -ojn。动词本身默认是现在时态 -as（讲故事情节的时候，最好改用过去时态-is）。两个动词连用的时候，后一个动词通常变成不定式 -i（严格地说这是由前一个动词的子类决定的）。于是我们就有了：

嗜-as 狮-ojn ，誓-as 食-i 十Num 狮-ojn

把实词换成世界语的等价概念，于是我们就“无中生有地”生成了合法的世界语翻译：

（1） ŝtonoĉambra poemisto S-ro Shi，hobias lionon, promesas manghi dek leonojn.
（2）ŝtonoĉambre poemisto S-ro Shi，hobias lionon, promesas manghi dek leonojn.
（3）En ŝtonoĉambro poemisto S-ro Shi，hobias lionon, promesas manghi dek leonojn.

后面的句子都可以如法炮制。就是说，词典里面记录的词概念的词类、子类特征越丰富，我们就有了隐性形式的充足依据，拿它作为条件，根据上下文实词的组合，就可以指明世界语需要添加什么形态和小词，就可以用这些貌似无中生有的语言形式，表达隐藏在文言中的句法关系和语义逻辑，从而实现形式不同，但内容一样。

最后说一下，到底是中文文言这样的隐性形式好，还是用形态和小词把关系都挑明了好？当然是后者更胜一筹。小葱拌豆腐，一清二白呀。当然你也可以说，对于中文为母语者，也没觉得利用隐性形式，通过头脑里面看不见的词典记忆，组词造句是个负担。的确如此。但是对于其他语言来学中文的人，这不就要人命吗（语言天才例外）。对于机器分析和理解，也难得多。做一套世界语的电脑解析系统，一个星期妥妥的，做一个文言的解析系统，几年也不一定能做好呢。复杂度天壤之别。

好了，这次分享比开始想象的长多了。希望对于感兴趣的同好们，能有个启发。也在讲故事的过程中了解一下传统机器翻译的背后原理。也顺便普及一下世界语的文法概貌。

【相关】

《语言形式漫谈》

世界语论文钩沉：世界语的语言学特点（2/3）

Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto

《立委：一小时学会世界语语法》

硕士论文: 世界语到汉语和英语的自动翻译试验

立委硕士论文全文（世界语版）

《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》

灵感有如神授，巧夺岂止天工

立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》

立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》

《李白121：关系的语义解密》

李：白老师新作【白硕：闲话语义（7）：事件】最后一段 “5、元关系·关系类型·裸关系” 蛮深奥，但很重要。看我理解对不对。想请教@白硕的是，ontology 里面的概念节点，相当于词典里面的词。这些节点之间的关系都是“裸关系”吗？我一直把本体知识库 ontology 里面的一切关系看成“元关系”，对照于实体之间的“关系”，前者是后者的抽象，是人类世代积累的常识积淀。

ISA 与 “关系-判断”类型（譬如 partOf）不同样是“语义知识体系内部的关系”吗？当然感觉上 ISA 是 ontology 的核心骨架，单列出来也是合理的。作为落地实现工具的知识图谱里的“关系”，是实体知识库，感觉不能与 ontology 混杂。前者是动态的“世界知识”（对于形势、趋势、身边事、国家大事的感知），后者是静态的常识（元知识）。

白：我们的目标，最后是要把与HowNet在表达能力上至少相当、在计算能力上更胜一筹的ontology写在知识图谱里。

李：是的，HowNet 很丰富细腻，但不好用，因为没有图谱的“技术栈”。

首先，实体和本体是分开的吧？怎么建立二者的联系是另一回事儿。作为知识库管理，应该是分开的。本体是封闭的、可以穷尽的知识体系。实体是完全开放的世界知识，而且每时每刻都在演变。

白：这个语义知识库只是应用的一部分。或者说，借助知识图谱的技术栈让语义知识库落地。怎么用，后面还有很多种可能性。

李：partOf 这类“关系-判断”类型的输出是“布尔”即逻辑真值。ISA 不也是吗？

“抽屉”是“橱柜” 的 part：TRUE
“动物” ISA “生物”： TRUE
“橱柜” ISA “生物”：FALSE

白：如果解析句子“他过去是单身汉，现在不是了。”

李：那是实体知识，不是本体知识。

白：本体要提供表示手段。

李：相关的本体知识是：“单身汉”是关于 “男人” 的属性，或一个子集。

白：这是经过一层解析了。单身汉首先是一个节点，他是另一个节点（男人节点的实例）。先要说这两个节点是怎么连的，再说根据单身汉的定义怎么“重写”他的属性。

李：解析是落地到实体，真还是假。本体是说类型合适不合适（相谐否）：“类型”不合适的连真假都谈不上（记得以前的一个名句：his argument is not true，it is not even false，说的就是“不着调”的论辩）。

白：在“怎么连的”这个问题上，我的意思是，不是在“他”和“单身汉”之间连一个标签为ISA的飞线（裸关系），而是把二者都作为输入（一个实例、一个类型），连到一个“属于判断”节点的实例。语义解析不只是判断相谐性，还要构造一系列实例。

有两个“属于判断”事件。二者都是实例，一个指向“单身汉”，另一个排除指向“单身汉”。二者的时间标签不同。第二个事件“刷新”逻辑主语在实体知识库中的婚姻状况属性，但事件本身是log，当我们需要replay或者进行时序有关的查询时，就必须借助之。

李：对，“构造实例”本来就是“信息抽取”的核心目标。语言解析是支持信息抽取的。

张三：前-单身汉；现-已婚。
假设已婚 == ！单身汉（在西方不成立：在美国填有些表可复杂呢：在个人关系栏目里面有一长列关系：同居、异性婚、同性婚、变性婚、单身、丧偶 ........）

实体知识图谱“通常”不收入“非”：排除单身汉的常规不收，除非换个特征名/维度（譬如：从“单身汉”换成“已婚”）。因为定义一个实体，定义是什么，比定义不是什么，边界清晰多了。

白：这个观点，和人机对话系统不支持回答否定句的那件事，互相锁定了现状。

李：回到前面的问题：“属性类型” 说的就是 ISA 元关系吗？

白：属性类型之间可以存在ISA元关系，但那不是给“构建实例节点及其相关的边”用的。

李：的确如此。当然不是“构建实例节点”。本体里面，by definition，根本就没有“实例”。实例是实体知识的范畴。本体里面说的关系，大多是“潜在”的关系。悬在空中没有落地的那种，才叫本体。这是人类把握世界，人脑给世界分类的概念化结果。

关于本体和实体，最有意思的例子可以追溯到“白马非马”论。这个悖论（？）中，“白马” 在理解中是落地到实体的（就是那个说话者和听话者你知我知的那匹白马）；第二个 “马” 则是没落地的本体（概念/类型）。对于朴素唯物主义者来说，任何表达或判断，都必须“唯物”，不落地就无从辨真伪，辨别不了真伪的东西，一律不承认，因此 “（此）白马非（类型）马”。这是把元关系 ISA 也从 ontology 拉出来，非要让它落地。也不能怪他，本来这种关系就是内在的（存在人类共同体的脑瓜中，或集体记忆中），可以认为是一种给定的无需证明的公理，是你知我知的“真理”。把没有信息量的“公理”表述出来，哲学家可以借此反思本体论的形而上特性，表现朴素唯物论的反智。如果我们把“知识”默认为实体的种种（知识就是了解世界发生了什么），“元知识”的本来意义就是悬在空中，没有落地（到实体）的意思。

白：我们在本体里就区分元知识和潜在知识。潜在的关系也不是元关系，比如比较大小：

语义解析不构造元关系的实例，但会构造潜在关系（我们叫关系类型）的实例。

李：不太明白。数量可以比较大小，这不就是元知识、元关系吗？到了实例，就是：

pi > 3 : TRUE
pi > 4: FALSE

这就落地了，成为实体知识（实际上是数学常识）。

白：大于，是关系类型，不是元关系。元关系是我们推理用的，不是理解用的。元关系永远留在本体里，关系类型可以实例化。

李：有点晕了，主要是术语概念先要有个统一的定义。“潜在关系（我们叫关系类型）”，举个例子。

白：刚才说的“大于”就是啊。大于是关系类型。

李：“构造潜在关系（我们叫关系类型）的实例”，上面的 pi > 3 就是。ISA 不也是关系类型？

白：ISA不是。关系类型用节点实现，不用边实现。节点带论元，也就是态射。节点还带属性。关系类型节点可以带时态属性。

李：“节点” 就是 “词/概念”。节点带论元的典型例子是谓词。

白：纯粹的边不带属性。大于，就是谓词。大于，不处理成纯粹的边；ISA，处理成纯粹的边。ISA没必要带时态属性。

李：这是本体的 ISA，确实谈不上时态，是超时间的，恒真。因为概念世界就是这么定义和抽象的。

实体的 ISA 是有时间变化的：人曾经是猴子，很多年以后，人成为政治动物。

白：属于判断，是另外的事情。我们不用跟ISA混淆的表示，而且必须用带论元的节点表示。

李：对，实体判断的 ISA 与本体内部的 ISA 不是一回事。

白：这也不算是实体，只是可落地为实体而已。“人曾经是猴子”。这个“人”，用的既不是全称量词，也不是存在量词。是那个时候活着的人全体。

李：上面的“人”（人类）感觉是“半实体”。显然早已不是纯粹的本体了。

白：不是本体。是“实例化+泛化”。

李：嗯。

<quantity>大于<quantity> 如何在 ontology 里面体现？有什么用处？<quantity> 是一个节点（类型/概念）。

白：两个quantity是输入节点。“大于”是输出节点。它的类型继承路径可以一路走到event/static/boolean……。event再往上，就是thing（root）了。

要说用处，自然是为实例化提供了模板，同时也为相谐性检验提供了门神。一个向左一个向右。

李：就是说，看到 “5 大于 3” 甚至 “3 大于 5” 这样的说法，本体知识“门神”说，对，类型靠谱。看到 “品性大于知识” 的说法，本体知识说：类型不符合，可能是引申或比喻。如果这就是“用处”的话，不能说没用。但也说不出对语言理解有啥真用。

<quantity>大于<quantity> 在以前的谓词句型词典里面是这样的：

大于：Subject：CD；Object：CD

这是所谓 SUBCAT 句型对潜在填坑的萝卜做了限定：是期望一个数词。它与其他及物动词的 SUBCAT 标注是一致的，如：

EAT：Subject：Animate；Object：Edible

白：“5大于这三个数的平均数”

对parsing的作用是逆向选择，对语义解析的作用是顺向构建。

李：我好奇 "<quantity>大于<quantity>" 与 "大于：Subject:CD；Object:CD" 有什么区别？提供了哪些额外的价值？

“平均数” 虽然不是 CD, 但它是可以兼容的类型（CD 的本体类型）。这就好像要求【human】，不仅仅实体 “张三” 合格（合乎预期类型）， “演员” 也合格。

白：“平均数”也是一个态射，输入类型是quantity的集合，输出类型是quantity。这就实现了符合相谐性的“组装”。

李：对，“平均数” 也是某种谓词：

平均数：【Arg1:CD】【Arg2：CD】（......[Argn:CD])

如果用传统 SUBCAT 标注的话，大体如上：它期望至少两个数作为输入。还是不大清楚这种知识在实际语言解析和落地中的价值。有了 SUBCAT，解析感觉就够了。除了要做逻辑推理，譬如，验证某三个数的平均数是不是像语言表述中的那样，是真的还是错的？（这在文档核对、质检的场景似乎有用。）

白：针对类型的检查和针对值的推理/计算不是一回事。关键是，延展到领域知识，只需要做加法，不需要改动顶层设计。通用语义知识和领域知识可以无缝衔接。解析的输出物是自带螺钉螺母并经过装配的义素。领域知识中的实体和事件，也是如此这般地装配，没有其他。

李：“元关系永远留在本体里，关系类型可以实例化。” 这句话好，把 ontology 中两种关系区分开了。

“解析的输出物是自带螺钉螺母并经过装配的义素。” 这就是语言学中的 semantic compositionality。就是把珍珠串成项链。

白：朝着“构成”这个方向看去，应用潜力巨大无比。

李：潜在知识就是为落地的。元知识不需要落地，因为它本来就是从无数历史实例中抽象出来的“真理”。潜在知识虽然也是从历史实例中抽象出来的（“趋势”），但不是恒定的“永真”。“构成”/“组装” 就是 "compositionality"，这是语义学中的最核心的概念了。

白：但是它可以一定程度上超脱于“语”。

李：“类型（type）” 就是超越 “语（词）”，是“概”念之间的东西。所谓本体是“元”知识，也就是说的这种超越，不仅仅超越“语”（这种表达体系），而且超越“实体”（客观世界），构成的是概念世界，是人这种物种所特有的范畴。当然，概念世界是从客观世界抽象来的，不是凭空来的。这些应该算哲学了。

白：不仅如此。语言表述可能比较细粒度，有情报价值或其他应用价值的事件粒度更粗，由細到粗，事件长的样子没变，但是已经脱离了字面意义的解释，进入事件驱动的推理、模拟、重演甚至数字孪生了。一个公司的几项人事变动后面隐藏着的粗粒度事件，可能是清洗。财务指标变动的后面是啥，也都有主儿。

李：有意思。这是从碎片化信息 event instances 推导其背后的情报。不过这种推导、预测或形势判断，开始进入“雷区”。就好比前几天我的公司让我重发当年对特朗普的大数据分析预测（《弘·扬 | 首席科学家李维科普：大数据告诉我们，特朗普如何击败希拉里》），我说，不要提“预测”，那是雷区：

把：“预测了特朗普的胜选” 改为 “大选前夕及时提出警示，各种自动数据分析表明，希拉里选情告急，特朗普胜算大增”。留点余地。当时的确是胶着，任何预测都冒风险。但选情变化之快，没有大数据，很难及时提出预警。主流民调就没有来得及预警，因为他们被信息压倒了。

白：我们的核心思想是，语言解析得到细粒度的事件，细粒度的事件imply粗粒度的事件，粗粒度的事件驱动其他粗粒度的事件或与之互动。对错另说，但事件长什么样不用另起炉灶了。如果粗粒度的事件完全是另一套，两张皮，就是NLP的失败。

李：两张皮怎么讲？以前的NLP怎么到了应用就两张皮了？

白：比如游戏，对命令的解析结果是一种数据结构，执行命令的战争进程是另一种数据结构，这就是两张皮。

李：不懂游戏。不过如果是两种数据结构，应该是一种映射到另一种。这也是常见的做法。譬如我们的 parsing 就是先造树结构，然后映射到图结构。以前也做过直接的图结构，不建树。这么多年实践下来，还是觉得建个树作为桥梁，感觉系统更加模块化，也更加方便。树虽然表达力不够，但作为桥梁是有便利之处的。过河拆桥，树在深度解析中最后基本是废弃了。

白：在金融领域也是这样。如果领域专家理解的事件、事件驱动，跟语言解析得到的事件、事件驱动，有很大的鸿沟，就没法玩了。一定有一个东西是统一的，而且是直接跨过去的。装配可不局限于树。在语义层面，树是没道理的。

李：顺便一提，图有种种好处，但是图规则不直观，难以理解，维护和调试都有挑战。这是因为图增加了维度，丧失或忽略了线性特点，结果就是面对一个图模式（graph pattern），在头脑里需要首先形成一种多维度的“图形”（picture），才感觉直观，才理解在节点之间穿行的模式，到底是干什么的。

本来我曾想尽量把更多的工作从句法树层次转移到语义图层次来做，感觉更加合理，但几年下来发现，句法是精简了，漂亮了，但语义这块越来越看不懂了。可是句法的东西即便是N年前做的，却一看就懂。接地气，容易维护。

再提一点：句法树 --》语义图 --〉实体知识图，这个 pipeline 的确有一个理由在：有情报价值的实体知识图谱与语义图是“同质”的，与句法“树”是不同质的。因此经过语义模块以后再做抽取，显得更加合理，很多时候所谓落地实用不过就是把图里面的“边”改个名称而已（甚至可以让用户配置）。譬如。针对 HIRE 这样的谓词，把 “S”（逻辑主语）这个边改为【雇佣者】，“O” 改为【受雇者】，这就完成了“雇佣/HIRE” 这个 event 的抽取（逻辑语义图到事件图的映射）。这个事件的其他特征，譬如时间、地点、条件等情报，常常可以照搬过来，连改都不用改（改就是映射），直接从图上继承下来即可。这里描述的语言技术的实践，感觉是呼应了白老师说的“无缝连接”。而共同体使用的宾州树（Penn Tree）结构，就很难做到“无缝连接”，由于表示体系的“鸿沟”。

还是回到 ontology 来。

白：前面说的“张三的小说没有散文写得好”，其实有两个“写”事件的实例，逻辑主语都是张三，逻辑宾语一个是小说，一个是散文，两个事件都通过“副作用”把自身的输出类型藏起来，而让各自的逻辑宾语带着其输入类型进入“好”获得quantity类型，再把两个quantity送进“大于”事件。

李：这个非常有意思。哦，“大于”事件不仅局限于数量，也可以是其他度量比较（包括质量）。

白：

这个图大概就是装配的结果。“没有”还有一层否定，在Boolean的右面。“没有”还有一层否定，在Boolean的右面。或者其实应该使用“小于”关系。主要以此说明义素装配出来长啥样。没有装配就没有语义理解。

李：虽然大作最后一段文字也不长，开始感觉是，每个字都认得，每句话都不大认得，LOL：

5、元关系·关系类型·裸关系

在事件的表示中，我们使用了态射。事件有多种类型，其中有一种就是静态事件，它又細分为属性类型和关系-判断类型。这里的“关系-判断”类型的输出是“布尔”即逻辑真值。因此，它构成集合论和数理逻辑含义下的“关系”。这种语义知识体系内部的“关系”和IS-A这样的“元关系”是什么“关系”呢？它们和作为落地实现工具的知识图谱里的“关系”又是什么“关系”呢？我们看到一些语义知识表示框架的相关文献在这个问题上有些含糊。在这里，我们要做一些基本的约定。

把语义表示单元（类型）作为研究对象，探讨它们之间的“关系”，这是元关系。

作为语义表示单元（事件）之一个细分类别的“关系”，这是关系类型。跟元关系不是一回事。“部件（PartOf）”关系就是一种关系类型，而不是元关系。

在知识图谱体系内，无论是元关系，还是关系类型，都可以用知识图谱显性定义的“二元关系”来实现。我们把知识图谱里显性定义的二元关系称为“裸关系”，并约定，元关系在知识图谱里一律直接实现为裸关系，关系类型在知识图谱里一律间接实现为事件节点，哪怕关系类型就是二元关系，也必须通过事件节点来实现。具体来说就是：设事件A有n个输入类型一个输出类型，那么事件A就必须拆分成n个裸关系，其中每一个裸关系的开始节点都是这个事件节点本身，目标节点则是对应的输入类型节点，而边上的标记就是角色名，包含角色名由粗到細、由抽象到具体的整个继承路径。

这样做的好处，就是对元关系和关系类型做出严格区分，既避免了因开发团队个人理解的差异而将本体定义引向歧途，又给类型作为统一的语义知识表示对象留出统一的数据结构模型，便于定义方式的整体把握。举一个明显的例子，无论实体类型还是事件类型，其特征K-V对都是定义在自身节点上的，不会因为事件类型恰巧是二元关系就把它实现为裸关系，因为把一些类型对应的特征K-V对加载到节点上、把另一些类型对应的特征K-V对加载到裸关系上，不仅架构上是很不协调的，而且也给实现带来不必要的难度。

白：这一段憋了我不少天呢。

李：就像吕叔湘先生批评乔姆斯基一样，说他什么都好，就是说话艰涩，不懂得科普。白老师也可能有同样的问题。不知道，这段话有多少人能看明白。当然，肯定比爱因斯坦的相对论要强，据说很长时间，全世界只有三个半人看得懂相对论。

白：这个系列，不是严肃的学术论文，更像是整理阶段性思路的随笔。至于科普写作，还早着呢。

李：不拘一格。没必要用学术论文的那种格式。探寻语义结构和理解认知的奥秘，也是AI的前沿了。无论主流的热潮怎么走来走去。

关于这一小节的最后，你说：

"举一个明显的例子，无论实体类型还是事件类型，其特征K-V对都是定义在自身节点上的，不会因为事件类型恰巧是二元关系就把它实现为裸关系，因为把一些类型对应的特征K-V对加载到节点上、把另一些类型对应的特征K-V对加载到裸关系上，不仅架构上是很不协调的，而且也给实现带来不必要的难度。"

我的问题是：“事件类型恰巧是二元关系就把它实现为裸关系” 这种做法不大可能在 ontology 里面的呀，譬如 HowNet，所有的潜在关系的预示全部是以节点为单位的。我的理解是，只有到了实体知识图谱，才会有实现为裸关系的“边”来表示的（当然也可以不用裸关系来表示）。

白：不限制，就有可能。所以作为一条铁的纪律。

李：顺便提一句：白老师所谓 “特征 K-V 对”，在HPSG这类 constraint based formalisms 中叫做 AVM（Attribute-Value Mattrix）。而且这些 formalisms 中的 AVM 是严格的 typed AVM（typed data structure），每一个AVM图示为一个框，type作为框的下标。AVM 中的 V 可以是原子，也可以是另一个 typed AVM。从表示形式的统一性、操作的单一性（合一）以及逻辑严谨性和丰富性来看，这种formalism 是非常令人印象深刻的。

白：借助数据结构的type和本体的type是一回事？我表示谨慎怀疑。

李：这类系统的根本缺陷不仅仅是繁复，还有就是unification（合一）无法应对“顺杆儿爬”。另一个就是这种formalism提供了使用者相当程度的任意性，你可以把任何一个子结构（sub AVM）用合一（实现的时候叫 structure sharing，实际上就是子图匹配和融合）的手段，放到任何一个 Attribute 里面去。

白：顺杆儿爬是句法适应语义。到了语义哪有顺杆儿爬，都是严格的类型检查。该脑补的都得在前面做掉。

李：“该脑补的都得在前面做掉。” 这个可以商榷。更多也更便利的做法是，脑补留到最后。

白：比如，“张三的小说没有（张三的）散文写得好。” 那个括号里面的东东就是顺杆儿爬出来的。到了语义层面，另一条边就得乖乖地画出来。句法的最后，相对于语义仍然是“前”。最多是内部名字有了，挂什么外部名字留到最后。但是内部名字跟事件的连线，必须有。而且必须符合类型约束。

李：严格的类型检查是一面，检查的另一面是，根据犯规的程度，来决定如何松绑或输出另外的解读或者输出 nonsense 的判断。

关于连线（linking），觉得也可以反过来想。在一个局部环境里（local context，say 5-gram），把默认的不连线，因此必须“做功”（句法解析）才能连线，改为默认就连线，因此找一些条件去不断剪枝。当然这蕴含着组合爆炸。但爆炸不爆炸是随着计算条件的不同，而有不同的抗压力的。如果反过来思维，上面的办法就是把句法、语义和语用等等的约束，全部统一看成是“剪枝”的过程。这个思路我感觉有突破性的潜力。因为实际上所谓的 compoasitionality 其实根本不需要真地去组装每一个原子（义原）部件，而是可以组装“预制件”。local context 都连然后通过词典或其他模块去剪枝，就与预制件的思想比较一致了。

白：这就是我说的统一优先级啊。语义、情感、事理、大数据，都可以给优先级加分或者减分。最后还是调整后的优先级说了算。不调整就相当于按句法default装配。

李：统一优先级的最大问题在怎么统一？

白：回到机器学习啊。加分减分不就是一个待定的参数么。神经做这个最擅长了。

李：这是机器学习里面说的 heterogeneous evidence 如何对付的老问题，这个挑战，学习里面一直困扰了好多年，到深度学习以后也不能说就解决了。譬如特斯拉内部人员透漏的最大难点也是在这上面，说上百个模型弄出那么多东西出来。最后的输出就是 x（速度）和y（方向）两个赋值。面对那么庞大的输入参数，和这么小的输出，老是在 “杂乱的（heterogeneous）” 输入因素之间摆不平。自动驾驶的质量控制因此成为一个非常大的挑战。一不小心就有了 regressions：明明上一个版本在一个急转弯控制得很好，版本更新后，突然就失控了。这种事情，很多用户有反馈。

他们现在还是学 Lidar（激光雷达），把各种 cameras 的感知数据，先整合成统一的三维模型，然后去 feed 给系统。这样来减少“杂乱度”，说这种模拟激光雷达的软件模型解决办法，比以前的系统，好多了。

白：对于NLP错误结果不会那么致命，就是正确的解析早几个回合出来还是晚几个回合出来的事儿

李：谢谢 @白硕老师，大作的最后一段总算看得有些明白了，一开始觉得是天书。期待语义系列的下一篇。

【相关】

【白硕：闲话语义（7）：事件】

【弘·扬 | 首席科学家李维科普：大数据告诉我们，特朗普如何击败希拉里】

《李白112：白老师秘密武器一瞥（1/2）》

立委按：两载设计，三载实现，白老师的自然语言秘密武器日前曝光。十载孕育，如水流年。挑开面纱，犹抱琵琶，先者为快，一睹芳颜。

白：坑之交响曲：

脑补进行时：

李：白老师的符号给个说明啊，L是左 R是右。LMo 是左成分不占坑属于 mod/adjunct，LMa 是左成分，是填坑的萝卜，属于 arg，是不是？

一个及物动词挖了两个坑 2N，左边填坑的叫 LMa 右边填坑的叫 RMa，什么时候确立他们的逻辑主宾呢？

Me 是个什么？条件结果的谓词之间“（如果）选择，（那么）看好”是 Me，动补合成词内部的“哭-肿”也是 Me，所以这是个表示并列或接续的二元关系，不分词法句法也不分短语还是从句。

二元关系图里面层次扁平化结构层次没看见有反映。X-bar 这类层次信息一多半属于语言一小半属于逻辑。属于语言的可以扔掉属于逻辑的应该有个表示。起码 “哭-肿” 的二元关系与两个谓词结构的因果关系在层次上天差地别。对于 dependency graph 表示，如果不允许逻辑交叉的“飞线”，层次信息可以从子树中 derive 出来，短语就是子树的 parent node 所下辖的节点范围。以此反映思维中的复合概念与单纯概念的区分。但是，现在我们允许 dependency 可以交叉，甚至允许循环（dag 丢掉了 acyclic 特性，成了 dg），以此来挖掘语言中隐藏很深的 hidden dependency （譬如 “眼睛” 与 “肿” 的主谓关系）。这虽然使得深度解析更加深入，同时也带来了层次交叉以后的副作用。复合概念的边界和范围模糊了。逻辑概念的层次没得到应有的表示。图中的主次不再分明。

结构（表示）应该是由关系和层次两个要素构成，否则就难以担当语言的模型和思维的模型。其实关于 graph representation，以及利用 graph matching 落地到应用，里面很多机制性的东西，还是没有探索清楚。属于深水区，摸着石头过河会不会不小心淹死，也不好说。

白：树是现成的，只是没有做展现而已。

回顾一下五个操作：Ma代表Match，也就是填坑，除了左右填坑还有中填坑，就是分子向分母上的残坑填坑。Mo代表Modify，也就是修饰。Me代表合并，不仅有S（谓词）的合并，也有N（体词）的合并。谓词的合并在传统句法看来那么多种情况，在我们看来其本质都是分子合二而一，分母尽可能共享，在结合的优先级上也刚巧非常合理地靠在一起。Up和Down是升格降格。在扁平表示中，采用了新增虚拟节点和方式，原节点汇聚入边，新节点汇聚出边，新旧节点间则是单一的升降格边。

这些范畴非常“冷血”，非常地就形式论形式，但不代表不能转换成主谓宾。但是，第一，我不认为主谓宾的叫法在句法上比我更科学；第二，句法标签只是个过渡，对接语义标签时，这套标签不仅不会输给传统标签，反而映射更直接，比如话题、大小主语、总分关系、谓语动词周边非逻辑主宾语的地位尴尬的NP。第三，这套标签不是不分词法句法，而是词法句法的边界在一些地方有异于传统认知，特别是紧定中式名词（如“红太阳、好朋友”等）和动结式动词（如“打伤、哭肿、染红”），由于在我们的体系下微结构和句法（比如动趋式、动介式）并无不同，所以放到句法里并没有违和感，也并不因此多费什么手续，完全是搂草打兔子，顺手的事儿。

这个体系会不会乱？我们用了将近两年的时间建立它的what，接近三年的时间建立它的how，经过了无数的推演、测试和复盘。在这样高强度的打磨下，传统语法书里的绝大部分难句都不是问题，也没有因此把普通句搞得不普通，基本结论是结果（what）可用、过程（how）可控。

解析结果保持歧义的能力也有独特风格，比如“鸡不吃了”是传统歧义句，但在我们的表示框架下，句法无歧义，一个左填坑，一个右修饰，如此而已。歧义是语义层面的，鸡不小心即是Animate又是Food而已。这两个角色在句法上都是左填坑的N，并无区别的必要。

如果落地要的是语义标签，我们可以直接去对接。如果一定要传统标签，我们可以做转换，但这就像高清晰度的视频向低清晰度的视频转换一样，我们并不认为它是一种成就，而是一种无奈。比如“这件事我有意见”里面，“这件事”和“意见”有直接的填坑关系，跟“有”没有一分钱的关系。你让我标注出“这件事”是“有”的什么角色，我当然是很不情愿的。

我们说动结式动词的微结构和松耦合的述补结构在本质上是同一类结构，都是分子合并、分母尽量共享坑，但坑的共享是有相谐性前提的。刚才说到的“哭肿”就没有相谐的坑可以共享，所以只好各填各坑，但是分与合，都是在一个机制下的不同子模块而已，并不是说一个很好把握另一个很难把握，都在可控范围之内。

李：落地要的语义标签是逻辑语义，还是语用的标签？语用标签譬如信息抽取里面的事件角色。

白：公共服务落地是逻辑语义标签，应用落地是语用标签。中间隔一层适配。

李：这个落地模块需要多少额外的知识呢，包括语义相谐。

白：适配具有行业特点，不懂行业没门儿。

李：逻辑语义原则上是行业独立的。

白：也不可能一家公司包打，一定会发展出众多的落地服务商和落地适配包。主打逻辑语义的公共服务，在足够精准的前提下是有独立商业空间的，如果再做几个示范的语用落地，表明生态效应和层次衔接机制work，后续还会有大发展。就好比，逻辑语义提供面粉，应用落地提供面包蛋糕包子馒头。面粉的供应商有自身的商业空间。面粉也需要好的面包蛋糕包子馒头来背书自己的质量。

李：说这些道理上站得住，听起来好遥远。parser 要独立成为生意，感觉很难，NLP component technology 定位的，迄今几乎没有成功案例。不是没人尝试，而是没人成功，除非今后几年有突变发生。（满世界只知道端到端呢，最近加了个普遍看好的预训练，离开符号语言学更遥远了。）

如果句法就3种关系，嫡系 Ma，庶出 Mo，哥们儿 Me，从数目上看这不仅比 100种逻辑语义、也比五六种传统句法关系（“主谓宾定状补”之类）要粗线条。说这个 what 是高清，感觉还不够。

白：这个标签体系显然不是逻辑语义，但它可以直通类似知网的逻辑语义体系。说直通的意思是，拓扑基本上都对，只是需要细化。谁跟谁有关系基本都对，什么关系需要细化。不像有些拓扑都不对的，细化起来遇到的麻烦大得太多。

李：从这个 what 匹配到逻辑语义，是一对n，必然需要更多的知识和做功。

对于短句，标签集很小的时候，凭着词典的预示信息，句法基本不是问题。到了长句可能挑战就来了。短句不是问题就好像过去社交圈小但每个人都必须结婚，谈恋爱就特别容易有结果，因为没得选。很多时候门当户对以后候选只剩下一个那就ta了。

白：结构就是用来拉近距离的。依托结构拉近的距离，比望文生义拉近的距离，更为精准。

李：词典在类别基础上所给的那些subcat预示信息，譬如 S/2N，这类 subcat 也是粗线条。即便原子化平铺开来也没有多少，估计 20 个左右。

白：这不算subcat，只是POS

李：上面的标签 S/2N 传统词典是 vt，属于 V 的 subcat，不过叫什么名字无所谓，总之是预示一个潜在 pattern 的词典标签。这类标签的集合感觉20个可以收住。在 20 个标签以内做句法，结果的关系是 3，这应该还算是粗线条的。

让人眼亮的是这种颗粒度的确是句法最核心的部分，在回答 “谁与谁发生 directed 关系” 的问题上，是一个不错的抽象。

短句容易做粗线条句法是显然的因为没得选，“这件事我有意见”，一共两个潜在萝卜 n1 n2，正好有两个坑空着，“我” 被 “有” 抓走以后，“意见” 的【对象】只剩下 “这件事”，不是它也是它了。

白：还有另一面，明明空着，也不进来。下例中，“今年”，“食堂”，明明是最贴近坑的萝卜，但不是你的坑，打死不填。宁可降格做状语。这就不是那么简单了。还有前面“这碗猪”也不能谈婚论嫁，要等“汤”拉近，这背后有玄机。绝不是一个村里没婚没嫁就可以拉郎配的。

李：这里面玄机如果不论 how 就没法评论了只能说不明觉厉，特别是“食堂” 不填坑，句法上有点天理不容。

白：所以这样的结果，转换成主谓宾，得多憋屈。那是后退。前进一步，就是精准的逻辑语义。拓扑都对了，就差一个相当于知网的基础设施。

李：可是反过来想，“吃” 与 “食堂” 发生了关系是肯定的，这个关系中 “吃” 是老爸也是无疑问的。为什么要把 arg 与 mod 的区分负担，强加给句法，而不是留到语义或语用呢？

“鸡不吃了”里面的主宾歧义句法都可以包容，为什么不可以包容 arg 和 mod。如果句法最好轻装那就听乔姆斯基的，彻底排除语义，现在看来这个 "食堂" 的降格是带入某种语义了。反正 map 到逻辑语义的时候还是要调用语义约束，想不出为什么一定要有选择地把部分语义前置。

白：语义arg无边无际，句法管不过来。我的原则是：标配的语义arg走填坑，非标配的语义arg走修饰。

李：“我吃月亮” 呢? 现在也降格吗?

白：是。

李：感觉是得不偿失。因为不降格做引申意义的宾语情形，应该比降格做状语的现象更加普遍。

白：“这场火”，也降格。月亮可以是处所啊。怎么非常识了？

李：比起传统的svo句法解析，个人感觉这样做是得不偿失。要是我，就宁肯放宽语义约束，得到一个非常识的解析，也比过早实施语义约束合算命中率会更高。这当然只是感觉，还需要数据调查和统计来验证。“把月亮吃了”，就是“非常识”，而非常识的说法语言中也没有那么罕见（“一片乌云飘来，吃了月亮”）。原因是非常识为语词的引申，创造了条件和手段。说话者是用不相谐来倒逼听话的人去联想引申。

白：修饰，只是非标配的语义坑而已，不明属性，并不是语义层不能再入，这个修饰的标签并不给语义分析设置篱笆墙。只是说他非标配，非标配的后续，既可以脑补缺失的非标配格标记，也可以作为修辞手段再入标配格标记。两个可能性都存在。并不存在“失”，只有“得”。

李：设不设篱笆墙，说到底还是句法输出以后，后续工作量是增加了还是减少了。把“食堂”和“月亮” 都降格了，后续工作量感觉是增加了而不是减少了。因为月亮被吃这类的表述比 “吃食堂” 这类表述数量为多，何况吃食堂其实已经词典化了，本来就不该参合进来的。关键在它不应该在歧义区分的雷达上，属于常识例外。词典绑架没商量。

白：工作量不是唯一标准，有利于精准才是最终标准。再入，实际上你可以认为引申受事和常规受事是两个格标记。

即便词典化，微结构仍然是修饰。吃七食堂，吃教工食堂，并不是词典化的，但我们不怕。

李：那种叫成语活用，在词典绑架的延长线上。实现一个成语活用的机制也就可以不来参合了。

白：吃勺园，吃全聚德。吃麦当劳 ... 也不是成语活用，但背后是一个机制。它们如果走了不同路径，反而奇怪。

李：这是真歧义，“吃麦当劳” 作为地点和食品均可。这其实也成语化了真歧义也可以在词典绑架为歧义表述。

白：就算吃食堂是词典绑架，但其词典定义依然是S/2N，并没因为“食堂”的加入而变成S/N，这恰恰证明“食堂”填的确非标配坑。

李：话说回来，只要句法不必调用语义相谐的大数据，而只是使用语义标配的二值判断，那不过是查一下本体，也没什么可批评的。不过就是两种各有利弊的路线择其一而行之。

白：不一定二值啊，可以连续值，折扣么。

李：如果折扣的话，

我吃月亮
我吃石头
我吃土疙瘩
我吃面疙瘩
我吃疙瘩

这些解析结果应该有区别，而不是都降格，或都是宾语。

白：对啊，看你Ontology怎么设计的了。这与分析器无关，取决于Ontology的返回值。

李：返回标配是二值，还是多值，多到什么程度。

白：连续值，看小数点精度。但是0.2和0.3的差别，估计不足以颠覆。能够利用梯度最理想。

李：哈你这一球踢出去倒是轻省了，对了是我的，错了是你的。

就是说，ontology 供应商的相谐颗粒度，不一定是二值但也不要超出太多，多了反正也没有区别，也许三值很搭/较搭/不搭。也许四值。ontology 供应商最好是婚恋交友网站的架构师出身，懂得如何配对。

我还是没理解从设计上为什么句法要在 “嫡系/庶出” 上较真，非要劳动 ontology，而在 “主语/宾语” 上反而不较真。反正提供的是半成品。从逻辑语义角度语义也还是不全的。

白：我觉得这太显然了，这事儿不正是Ontology该做的吗？要站在比它们俩都高的视角看他们俩。句法和本体，我们的方法论是，句法要给出对的拓扑。为此，Ontology、情感、事理都是必要的补充。

李：细节不纠缠逻辑语义可以算是一个唯一可以公认的语义理解的黄金标准了。arg 与 mod 的区分，本来就不是黑白分明的。这个对错不好说。

白：但是构建逻辑语义层的输出，虽然也同样使用Ontology 、情感、事理，但是用得更重。这两个方向的用，不可混为一谈。

李：所以说是双重使用啊，重复劳动。

说起 arg 与 mod 的嫡系和庶出有点意思可以展开简单说说。args 是计划内的婚生子女，主语、宾语、宾语补足语，名正言顺，所以受到父母特别关照。mods 属于计划外的秘密勾当。因此，总是 parent 去找 args，利用 subcat 的计划内指标。到了庶出的 mods 就管不过来了，只好是 mods 去找 parent。千里寻父叫父亲太沉重。

可是这一切的句法区分都是世俗的角度，语义层面嫡系和庶出并没有那么大的鸿沟，都是围坐在天父身边各司其职各有角色。所以说句法费力气区分嫡系庶出为的是服务语义和理解，可是语义那边偏偏对这种区别其实没那么敏感。为啥？因为语义在分配角色的时候，更加看重本人的资质，而不是看重嫡系还是庶出的出身。“有成分，不唯成分论”，重在个人品质。个人的品质，就是你到底离我的本体要求有多远。

白：就是因为庶出的不加标记的情况太稀疏，句法留这么多资源给稀疏的庶出，不值得。

李：反正语义那边还要政审把关，用的也还是ontology 资质审查，为什么句法还要预审？

白：此地预审，方便彼地直通。

李：我是说费力区分 Ma 与 Mo，没多大必要性。如果这种区分不需要劳动各种知识那当然。如果需要费力就不值得了。

白：从基础设施建设的角度，只为一个中间步骤建，当然越轻越好。如果建了既可以为一个中间步骤服务同时更可以为有独立商业价值的最终步骤服务，那就可以建的重一点。即使重，也包办不了落地适配。落地适配是一个既统一规划又独立实施的环节。也就是说，从一个必建的基础资源里顺手提取一些信息就可以搞定正确的拓扑，这算不得什么费力。劳动的方式非常清晰和标准化（相谐度查询），也算不得什么劳动。我们目前的算法也并不是对所有候选邻对都进行相谐度查询。只有当前动态优先级最高的邻对才做相谐性检查。

这个，显示还有点小bug，但是揭示了一个现象，就是嫡出的萝卜出现位置太远，需要许多中间步骤拉近。但一旦拉近，那个位置还是人家的，庶出的没脾气。远近并不构成威胁。把“你”挪到“食堂”后面，也是同样结果。“要是这个时间吃食堂你就只剩下包子了”，用传统句法范畴分析这个“你”，就很莫名其妙，它跟“剩下”是主谓关系吗？但是论坑，一点关系没有。它跟“吃”是主谓关系或者述宾关系吗？论坑是的，但是形式上却完全不在那些位置。甚至跑到了另一个从句的辖域里面，要多尴尬有多尴尬。谐我坑者，虽远必填。

李：好例。改造一下：

“要是这个时间吃食堂你就只剩下二厨了大厨早就自己躲一边吃包子了”

“二厨” 比 “食堂” 如何? “包子”更远但相谐，为什么不能虽远必填?

“要是这个时间吃食堂大厨早就自己躲一边吃包子了。”

白：后面又出现了“吃”，截胡了，“包子” 第一次就近填坑。

李：填 “剩下”，与填 “吃”，不都是劫持了吗？

白：“剩下”的坑，抽象度比较高，万金油。我们的说法是“置换”，就是把首次填的坑从占名额的调整为不占名额的，后续填的坑再视情况决定占不占名额。

李：就是说对于远近两坑，还要做比较计算，来决定截住没有？

“要是这个时间吃食堂你就只剩下二厨了大厨早就做完一屉包子回家休息了”

“做完” 与 “剩下” 差不多，都是万金油 vt，截住没有？

白：这个还真可以有。但前提是，子句之间得有依据是连接的。大厨做完了包子，不一定卖完。

李：人的理解，首选不是包子，而是二厨做的档次较低的食品。大厨做的包子轮不到。

白：如果两个子句只是最低档次的连接（next），还真未必建立坑的共享。但是用连接词连接的，肯定可以共享。

李：有一万个理由否认，因为说话语气是可惜和后悔，想吃大厨的口福你享受不到。谁叫你迟到呢。共享与共产共妻类似，是高危操作。

白：你那里只有空格，没有上句和下句的明确锚点，不在我们的共享白名单里面，不能建立Me，所以坑里的萝卜是带不过来的。跨小句需要白名单制。前提是：1、甲小句不饱和、2、乙小句有供给、3、两小句连接方式在白名单中。

李：嗯，虽远必填限定在句法关系圈内，也是一说。

“要是这个时间吃食堂厨师都出去买海鲜了。”

这个应该是 Me，因为符合 “要是...就...”句型。

白：对。

单从本体看海鲜就是加分的，但是事理是减分的。吃在买前，不符合事理。不符合事理的会减分，就看二者抵消成啥样了。

李：这个事理如何用感觉漫无边际，“先买后吃” 这样的常识事理，何止以万计。

白：但是人就是这么判断的。这是长尾，攻击到本体的概率有限，不到落地肯定不做。

李：所以句法一般不带入事理常识，语义语用才考虑用。

白：句法只是中间产物，又不是产品。加了边还可以砍啊。砍了边再加就不那么简单了。有一万种方法砍。一个公司既做句法也做落地，没必要维护句法的面子。整体可以就OK。句法提供的这些边，送神容易请神难。

李：就是大体了解句法模型，用到几个维度的知识，用到的维度颗粒度如何。之前论过维度多了就是一锅粥。如果符号逻辑最终还是一锅粥，那就不如索性舍弃符号。因为一锅粥最终丧失了符号的优势。可解释性不再清晰，可定点纠偏也丧失了。

白：还是要区分表示和控制。表示是符号的，控制是符号与神经结合的。这没什么不可以。

（未完待续...... 《李白112：白老师秘密武器一瞥（2/2）》）

【相关】

《李白112：白老师秘密武器一瞥（2/2）》

《李白111：范畴细化与语义相谐的知识爆炸》

《李白110：深度解析，曲高和寡，值得吗》
【李白之18：白老师的秘密武器再探】
【李白之15：白老师的秘密武器探幽】
【李白之19：三探白老师的秘密武器】

白硕：人工智能的诗与远方，一文读懂NLP起源、流派和技术

文章来源：https://read01.com/AJGzNQN.html

《语义沙龙：“让机器学习思考的人”》

白：“让机器学习思考的人”

wang：1.让机器学习（思考的人） 2.（让机器学习思考）的人 3. （让机器学习思考）的人

李：你的2是hidden ambiguity，里面其实还有两条hidden路径，“学习”的对象或目标是“思考”，还有一条，“学习-思考” 并列，逻辑上是，“让机器-学习、让机器-思考”。但面对专业术语“机器学习”的紧密性和高频度，那些 hidden ambiguity paths 都被掩埋了 ...... 也应该掩埋，除非遇到必须唤醒的时候。

parse parse 看：

这个 therefore 可能是个 bug，语义模块做因果关系过头了，走火入魔了？深度解析其他该有的关系都在 though。

wait a minute，好像也对，说的是，因为 X 促成了 event，X 是因，event 是果。这就是语义模块本来的因果关系逻辑，落在这句就是，thanks to “人”，（therefore）ML thinks now。这符合 “有多少人工有多少智能，人是一切机器学习的原始发动机” 的因果本质。乍一看有点绕，是因为赶巧这一句不是一个 statement，而是一个定语从句修饰的NP。其结果，这个因果关系虽然不错，但实际上是隐含的因果（hidden causal links）。如果是一个NE，更加容易理解一些“”让机器学习思考的图灵大师“。因为图灵，所以机器思考。我思故我在，图灵在故机器思。

白：“坛坛罐罐走不齐”正好可以借这个例子现身说法。当“机器学习”和“机器/学习”同时进入parser的视野时，下一步优先级最高的动作却不长在“机器学习”和任何其他成分之间，而是长在“学习”和“思考”之间。换句话说，非最佳分词方案在这个局部激活了最佳句法方案，梦游了。

“学习S/NX”和“思考S/N”之间，有三种结合途径：一是填坑，二是合并，三是不作为。各自优先级不同。在外部，“让-机器”、“机器-学习”、“思考-的”、“的-人”也同时参与竞争。最后结果是“学习-思考”合并最优先。就是“并列结构”那一个解读。

“学习”和“思考”能不能组成并列结构，这个事情是有不同做法的，可以白名单制，也可以黑名单制。个人主张白名单制。但是无论黑白名单，我都不主张做成同一层内部的细化规则，而主张把细化规则折合成优先级的调整量（增量或减量），统一纳入一个优先机制处理。也就是说，当条件不满足或不那么满足时，你不应该再赖在原来的优先层级不走，你落草的凤凰就是可能不如鸡，不是高高在鸡上面的“亚凤凰”，而是货真价实的“不如鸡”。

但是如果外部没有“鸡”竞争，落草的凤凰也还有机会折桂。就像colorless ideas，虽然被相谐性打了折扣，依然是四顾茫茫无对手。这个时候，机会还是它的。所谓的“句法自治”和“语义的反作用”在这种“坛坛罐罐走不齐”的策略下完美地统一了起来。不是“亚凤凰”跟“真凤凰”比，而是“亚凤凰”跟“?”比。鸡厉害，鸡就先走一步，坛坛罐罐于是就走不齐了，体现了包容不确定性的差异化前进。不同的解读不等速推进，可能一本道，也可能此起彼伏，明争暗斗，柳暗花明。

梁：@白硕赞同！或许不同解读（歧义）在彼此争斗，此消彼长，最后一种解读胜出（消歧）。

李：多种因素综合决定消歧的理解过程，模型的时候主要有这么几个对策。得出不确定性中间结果就是带着瓶瓶罐罐往下跑。希望在下跑的某些阶段条件成熟可以帮助消歧。这里面又分白老师所谓“走不齐” ，就是说不需要把不确定性结果积聚到最后的消歧模块统一消歧。而是一边下行一边伺机消歧使得雪球不是越滚越大。

其实HPSG这类合一文法就是这么做的，短语结构的任何结合都是在对自然语言建模的数据结构里面“合一”。一旦任何一点合一失败那条路就堵死了。句法的约束语义的约束还有种种其他的 constraints 全部定义在一个为语言符号建模的名字叫做 sign 的复杂特征结果里面，在同一个平面同时起约束作用。这与传统句法先建立句法结构关系然后留到语义模块去过滤减枝的瓶瓶罐罐一路带下去的做法显然不同。但实践证明合一文法的做法并未解决伪歧义泛滥成灾的问题实际上还加剧了这个 PSG 学派所共有的历史难题。原因出在复杂特征结构的设计上。以前论过。

除了完全的非确定性和“走不齐”外，第三种办法就是所谓休眠唤醒。这是确定性路线。原则上不带瓶瓶罐罐跑坚持确定性的中间结果表示。起码是看上去是确定性结果的数据结构，等待后期唤醒、改正。（这个里面还有很多技巧，譬如可以违背逻辑利用确定性数据流承载非确定性结果然后配备一些逻辑清理tricks 来为非逻辑性擦屁股不好看但很管用以后可以细论。）

白：基于合一的消岐，错不在what，而在how，不在带着坛坛罐罐跑，而在“剪枝”。谁说带着坛坛罐罐跑就一定要“剪枝”？难道不可以“生芽”？

李：what？PSG呀，特征结构怎么定义也还是 PSG，大的框框在那儿，复杂特征结构的做法加重了病情。

白：“生芽”的意思是，过河不拆桥，但也无需一下子搭建所有可能的桥。不达到当前最高优先级的渡口，绝不搭桥，但渡口的优先级是随着建起来的桥而动态变化的。这些达到当前最高优先级的渡口，就是“芽”。

渡口和渡口之间不是绝对互斥、你死我活的。一切按照优先级的指挥棒走，优先级要你保留歧义，你就保留；优先级要你梦游，你就梦游。没有谁绝对醒着，大家都有权睡觉，也都有权梦游。但是必须按优先级排队。

李：动态变化决定优先级和成熟度对于多层系统是自然而然的事儿。第10层不愿意勉强的事儿到20层的时候就很坦然了。同样一个句型规则可以化成宽窄不同的变体部署在多层。以前做模块是根据功能做，说是这是 NP，这是 PP，这是VP，这是 Clause。这样表面上清晰，实际上应对不同歧义及其出现的不同情势的能力，降低了。没有多少真正的理据必须把同一种功能放在一起做。这样做的问题是，如果遇到相互依赖的现象，就真没辙了。根据功能做模块，模块排队，这样的pipeline无法应对相互依赖。这是多层经常遭遇的经典批判。无解，还是回到单层吧。

但是，如果同一个功能，可以散开来，譬如VP中的动宾关系，做它一二十层，相互依赖的现象就逐渐消解了。大不了就是冗余。没有冗余，怎么能滴水不漏？

wang：顺便一提，@wei 我对你的海量规则对系统的comment，回复一下写得有点多，发微博上了。

李：很好，拷贝留存如下：

昨晚在一个群里就李老师说的内容提了一些问题，今天看到李老师详细回复，本想简单写写再发回群里，写完一看，这篇幅好像不适合放微信群里了，不如单发微博作为回复。李老师若觉不妥，告知我则立删。

@wei 中午看到李老师的后续回应，现在正好有空这里回复一下。

看了李老师的后续内容，很是详细，而且前前后后已经考虑到很多方面，说明早有备货。大体勾勒一下：虽规则总量数万条，但通过分层（分组），就可以每组千条左右，规则之间的博弈也就在一个组内范围，即便组内的内斗激烈也不会引发组外的群组混战，这的确是“局部战役隔离解决”的最经济策略。另外，既然已经见识了规则系统的越大越不好对付的教训，想必肯定是避开了这个陷阱。一个组内至少再采用了共性+个性的两种及以上分支处理，先个性（词典）规则先前拦截，然后再共性来兜底，这样以来，一个组内可能内斗的程度又减轻不少，从走向来看，基本上是走大词典+小语法的组合路线，词典虽大但有索引方式来保速。如此以来，就把庞大的规则库，通过条块分割，把规则有序执行限制在了一个狭小的隔离河内，维护者在这样一个窄河里“捉鱼”确实容易得多。当然还有若干辅助策略，通过控局堵漏来进行加固。当然也看到“我是县长派来的”和“我是县长蹲点来的”有了不同的解析。这肯定不是一个简单“V”解决的，想必一定是词典策略起了作用。这词当然有丰富的语义信息了，我认为采用合适的语义范畴比词会有更好的覆盖性，尽管采用词准确性更高。

下面说下感受，必须承认之前本人还停留在规则系统教训的层面，另外，就是顾虑要扯入的人工工作量大的问题。若是李老师通过这样的俯瞰语言，化繁为简，调整规则能达到信手拈来，那么在机器学习满天飞的当下，这存量稀少的规则派之花，自有它的春天。如今是个多元的世界，允许各路英雄竞技，只要有独到之处，更何况人工智能皇冠上明珠，尚无人触及，怎下定论都是早。也曾闻工业界很多可靠的规则系统在默默运行，而学术界则只为提高小小百分点而狂堆系统，专挑好的蛋糕数据大把喂上，哪管产业是否能现实中落地。当然对于人工规则系统 VS 机器学习系统，能有怎样的结局，我确实没有定论，要么一方好的东西自然会好的走下去，要么两方都走得不错而难分输赢，或者发现只有结伴相携更能走远，那谁还能拦着么！

百花齐放，百家争鸣，各自在自己的路上，走出自己的精彩就好！世界本身就不是一种颜色，也不是一直就一种颜色

李：很赞。工作量大是所有专家编码、程序员编程的短板，自不必说。在一个好的机制平台架构下，规则应该可以非常容易编写和调试。规则应该看上去简单、透明，而不是需要玩精巧。像集成电路一样，能力不是每个单元的精巧，而是大量单元的组织集成。其实，半个世纪的持续探索，这种类似人海战术的规则海量快速编码迭代的路子是有了端倪了。说到底是数据制导，可以半自动进行，这与机器学习的海量数据训练，理据是相同的。昨天说自然语言是猫矢，应该学猫咪目标导向，反复迭代，不在一时一地的得失，不怕冗余，也不怕零星的中间错误。说的就是要创造一个环境，把小作坊的专家编码，变成可以工业化的规则流水线。以规则量取胜，而不是靠专家的精雕细刻。这条半自动的海量规则路线还在探索之中，但是前景已经相当清晰。

最后，符号规则不必争雄，游兵散勇也无法与正规军打遭遇战，但差异化总是优势与短板并存。寸有所长就是这个意思。大家在同一条路上跑，遇到困境与天花板都是类似的。这时候有人在另一条路上，保不准在最痛的某个部分，突然会有突破。原因无他，因为这力气使得角度不同，世界观不同，设计哲学不同。

据说，NLU是AI皇冠上的明珠，是珠穆朗玛峰。老友周明一直在为NLP鼓与呼，认定今后10年是NLP的黄金10年。AI似乎每天都在翻新，每周都有新闻，每月都有突破，浪头一个赶一个，新的算法、突破的model层出不穷，很多人惊呼“奇点”就要来临。为什么周老师还要提10年，对于AI进步主义者，这听上去简直是宇宙尺度了。为什么？无他，皇冠自有皇冠的难处，登顶珠峰绝非儿戏。唯此，有什么招使什么招吧，武器库还嫌武器多吗？

【相关】

《目标导向的质量保证怎么强调也不过分》

Interview 1/10: Critique of Chomsky's Formal Language Theory

Q: Lao Li, I have been paying close attention to your academic track. I deeply admire you for more than 30 years' in-depth study of symbolic logic in the field of natural language understanding with your unique innovation. On your NLP Channel, I notice that you've been critical of Chomsky. Chomsky is the representative figure of the rationalist school. Like many others, I admire Chomsky. As far as I know, you are also a rationalist. So why do you, as a linguist who practices rationalism, criticize Chomsky?

A: First of all, although I have criticized Chomsky, pointing out his theoretical issues and objective misguidance in the field, these are "criticisms within the school". There is no doubt that Chomsky is the father of computational linguistics and the banner of rationalism in the field of artificial intelligence. His theory of formal language is the cornerstone of computational linguistics. All of us computational grammarians, as practitioners of the symbolic logic of rationalism in language, are his disciples. When we criticize him, we still use his formal mechanism as the frame of reference.

From the perspective of language formalization, Chomsky, who has a deep mathematical background, brings mathematical rigor into the formal study of language. At least in terms of formalism, Chomsky unified human language with computer language to have achieved a highly abstract symbolic system no others could dream of reaching. Without Chomsky's formal language theory, computer science could not develop high-level languages, and all the achievements of the information industry would be unimaginable.

On the other hand, it can be said that Chomsky's negative impact on the field is as big as his revolutionary contribution to linguistics and computer science. His formal language hierarchy is a theory of pure genius, which lays the foundation of language formalization. This formalism has become the theoretical basis of computer high-level languages and their compiling algorithms. It is used at its best to create, parse and compile computer languages as a perfect guide. However, perfection is sometimes only one step from fallacy. Chomsky criticizes the finite state machine as not suitable for modeling natural languages due to a lack of recursion mechanism. Too many people are misguided and fall into the so-called "more powerful" context-free mechanism.

Such an intelligent and powerful figure, if he misleads, can impact an entire generation. The generation that was affected was my direct supervisors and predecessors when I entered this field (in the 1970s and 1980s), their work in natural language understanding was almost exclusively toy system confined to labs, difficult to scale up and demonstrate in practical applications. This directly led to the rebellion of the next generation. This is the piece of history in artificial intelligence, the famous competition between rationalist symbolic school and empirical statistical school, with long struggles between the two paths. The rationalists of the old generation were at a disadvantage in competition and gradually withdrew from the mainstream stage.

All the advance of the statistical school over the last 30 years has been a practical critique of Chomsky because almost all of these models are based on finite state models, which he repeatedly criticized as inappropriate for natural language. The context-free grammar he advocates has achieved limited success in the field of natural language.

Q: Now that everyone is advocating neural networks and machine learning, is there still room for the symbolic rule school? Rationalism has lost its voice and visibility in the natural language community. What do you think of the history and current situation of the two?

A: Well, machine learning has been on the rise in natural language processing since about 30 years ago, with the rapid development of data and computing resources. Especially in recent years, deep neural networks have achieved breakthrough successes in learning. The success of empiricism, in addition to the innovation in neural network algorithms, also benefits from the availability of unimaginably big data and big computing power today. In contrast, the rationalist school of symbolic logic, due to its implacability, gradually withdrew from the mainstream stage of the academia after a brief upsurge of phrase structure grammars with innovation based on unification about 20 years ago. There are several reasons for this situation, including Chomsky's long-term negative influence on computational grammars, which deserves serious reflection.

Looking back at the history of artificial intelligence and natural language, the pendulum of empiricism and rationalism has swung back and forward, but the pendulum of empiricism has been on the rise for the last 30 years (see the red dot in figure 1). In his article "Pendulum Swung Too Far", Professor Church predicted and called for the resurgence of rationalism and presented an illustration below:

At present, due to the breakthrough of deep learning, empiricism is still in the limelight. Although rationalism has been accumulating efforts by itself for many years, it has not yet reached the tipping point where it can compete, head-on, with empiricism. When one school becomes mainstream, the other naturally fades out of sight.

Q: I have a feeling that there is some confusion in the community and outside the community at large. Deep learning, which is a method of empiricism, now seems to be regarded by many people as equivalent to artificial intelligence and natural language processing. If the revolution in deep learning sweeps through all aspects of artificial intelligence, will it end the pendulum swing of rationalism? As professor Church says, the pendulum of empiricism has swung too far, but it looks far from falling back.

A: My definite answer is no. These are two different philosophical bases and methodologies, each with its own natural advantages and disadvantages. Although there are reasons for the status quo of the existing one-sided empiricism in the current academic world, it is not a healthy state. In fact, both schools are competitive on one hand and also highly complementary on the other hand. Some older generation mainstream pioneers like Church have been warning about the disadvantages of one-sidedness in empiricism, and some new scholars in deep learning have been exploring the integration of the two methodologies to solve the problems of natural language.

Yes, much of the current surge in AI is based on breakthrough performance from deep learning, especially in the areas of image recognition, speech processing as well as machine translation, where AI systems have reached or exceeded human quality. This is an unprecedented amazing achievement indeed. However, the fundamental limitation still exists with deep learning, as well as all the other successful empirical methods at present, that is, the dependence on massive annotated data, what we call the knowledge bottleneck. The reality is that in many fields and application scenarios, such as natural language parsing, machine translation of e-commerce data, data of massive annotation or domain translation do not exist. This knowledge bottleneck severely limits the performance of the empiricist school in natural language understanding and other fine-grained cognitive tasks. There is simply not enough annotated data in many sub-fields, and without, it is almost impossible to make bricks without straw for learning. This is especially true for deep learning, which has a much larger appetite, like insatiable, than traditional machine learning.

Q: So it seems that deep learning is not an all cure. Rationalism has its place. You said the two schools have respective strengths and weaknesses. Can you compare and contrast them? Why are they complementary?

A: Let me summarise the merits and demerits of the two for a serious contrast.

The advantages of empirical statistical models include: (1) good at coarse-grained tasks, typically, document classification, for such tasks, statistical learning is naturally better to draw the overall conclusion; (2) robustness; (3) high recall: due to the lack of structures and understanding, many tasks might face a ceiling for accuracy, but recall-wise, learning usually performs well; (4) development efficiency: it can quickly scale to a real application scenario of big data.

The main limitations of the statistical school are: (1) the dependence on massive annotated data: this is the biggest knowledge bottleneck; (2) it is difficult to make targeted debugging: the statistical system is more like a black box, a big defect for maintenance and iterative incremental enhancement of a software system; (3) lack of interpretability: whether the result is right or wrong, it is difficult to explain, which affects the user experience and confidence. The main reason is the lack of explicit structural representation and symbolic logic in the algorithm that people can follow.

The rationalist approach simulates human cognitive processes without relying on massive labeling data to imitate on the surface strings. Rationalism directly formalizes the experience of domain experts and uses the explicit rule system from symbolic logic to simulate human intelligence tasks. In terms of natural language understanding, the grammar school formalizes the rules summarized by linguists so as to parse natural language in detail at all levels and achieve deep syntactic-semantic analysis. In this respect, rationalism has its natural advantages.

To sum up, the advantages of rationalist rule-based school include: (1) good at tasks of fine-grained tasks: very detailed analysis, such as the deep parsing of syntactic semantics with logical reasoning; (2) accuracy: the rule system written by experts is easy to guarantee high accuracy, but the improvement of recall is usually a long iterative process; (3) debuggable in error correction: the basis of the rule system is symbolic logic, which is easier to trace to the root of the error in debugging; (4) interpretable: this also benefits from the understandable symbolic logic basis.

The main defect of the rule school is the low efficiency of manual coding, and the dependence on expert coding is the knowledge bottleneck of the rule school. Supported by the same platform and mechanism, different levels of expertise determine different levels of quality. The two paths have their own knowledge bottlenecks, so to speak. One is to rely on a large quantity of "low-level" labor, labeling, though very monotonous, is work that can be assigned to ordinary students with a little training. The other is to rely on a few experts of "high-level labor", much like software engineering, for coding and debugging rules, the knowledge engineer training costs are high, making it more difficult to scale up to the real world. Finally, the talent gap can also be regarded as a realistic severe limitation of the rationalist school. 30 years is exactly one generation, during which empiricism has occupied the mainstream stage, and attracted almost all newcomers, causing a generation shortage of talents in the rationalist camp.

As for the recall, it cannot be simply concluded that high precision is bound to have a low recall rate for rule systems. The actual situation is that, on the one hand, it is not at all difficult to achieve a balance between precision and recall, by deliberately relaxing rule conditions and sacrificing accuracy. On the other hand, while high precision can also be maintained, the more rules added to the system, the more phenomena will be captured, hence the recall rate will come up naturally and incrementally in the iterations as time moves on. In other words, recall is a function of time and development resources put in, without having to compromise precision.

Q: Since each has its own strengths, as the rationalist pioneer and father of computational linguistics, why doesn't Chomsky exert its due influence in the field of natural language processing? His impact has been waning, and the newcomers to the field hardly hear of him.

A: Indeed it is. Although I am a rationalist, I also see that there is a considerable historical burden from this school that needs to be seriously reflected on from the perspective of formalism architecture.

Chomsky is the founder of modern rationalism, but the theory and practice he developed also involve some misconceptions. We must recognize these so that we can move forward the linguistic rationalism in symbolic logic steadily and deeply for natural language. In fact, after decades of theoretical exploration and practical experiments, the grammar school has seen fairly clearly its own theoretical limitations. Those who stick to the symbolic rule systems have broken through the path of innovation in the inheritance of rationalism, and have made their own breakthrough in deep parsing, the very core of natural language understanding, and in its scale up to big data for real-life information extraction and text mining applications. That's what we're going to focus on in this series of interviews.

Q: I know you have great faith in rationalist symbolic approaches in general. However, you have also seen a number of misconceptions in Chomsky's theories. which are the most critical?

A: On his formal language theory, there are two fallacies to my mind, one I would name Recursion Fallacy and the other Monolayer Fallacy. On his linguistics theories, one of the very basic propositions in his linguistic revolution is "syntactic autonomy" or "self-contained syntax". It involves serious potential consequences in the analysis of certain languages such as Chinese. His phrase structure grammar tree represenation with his X-bar theory in syntax is also worthy of reflection and criticism, especially when it is put in the comparative study with the alternative dependency grammar and its representations for NLU. Let's look at Recursion Fallacy first.

In my view, Chomsky's greatest mislead was to use the so-called recursion nature of natural language to criticize pattern matching in finite states. His cited English examples of center recursion are far-fetched and rare from real life, making it difficult to argue for its being the nature of natural language. Nevertheless, a generation still chose to believe in his theory, taking it for granted that finite states had to be abandoned in order to be able to parse natural language.

Q: Isn't it generally accepted that natural language is recursive? How to say it is a fallacy?

A: Exactly because it is widely accepted, it is of the more misleading nature and consequences, hence requiring more serious critique.

Recursion in natural languages typically comes in two types: (i) right (branching) recursion and (ii) center recursion. Many people don't consciously make that distinction, but in computational theory, they are two very different things. Right recursion is linear by nature while center recursion is nonlinear, a completely different monster, of much more computational complexity. In natural languages, right recursion is fairly common and can at times be as many as seven or eight levels nested, which still reads natural and easily comprehensible. For example, the VP nesting example:

(to request A (to beg B (to ask C (to do something))))

For right branching recursive structures, we usually do not feel a burden in the communication. The reason is that, although the right recursive left boundary is in an uncertain position, they all end at the same poin for the right boundary, like this: (... (... (... (... (...... ))))). Thus, we do not need a "stack" mechanism in memory to deal with it, it remains finite-state.

Chomsky cannot criticize finite-state devices with right recursion, so he needs to base his argument on center-recursion, a rarity in language. The fact is that natural languages have little manifestation of center recursion. Center recursion is much like matching parentheses. You want the parentheses to match each other so you can express and understand the proper nesting structures, like this: { ... [ ... ( ...... ) ... ]... }. After as many as three levels of center recursion, our brain can no longer cope with the pairing complexity, which is why it's hard to fine such phenomena in real life language data.

Q: I remember some examples of center recursion in English:

The man who the woman who had lost all the keys was calling all day finally came...

A: Is this "human" language? Chomsky repeatedly attempt to teach us that not only this is human speech, but it is the very nature of human language, hardly any hypotheses about language as far-fetched as this to my mind.

Q: Let me try to understand what you mean: center recursion does not exist, or does not exist over three levels, so natural language is finite-state?

A: Well, not that it does not exist, it's so rare and far-fetched, and it's never more than three levels deep unless you're pulling a prank. Therefore, it can by no means be the "nature" of natural language.

The very idea of unbounded center recursion in language, far from the observable facts, in effect violates the limits set by the short-term memory following psychology. Where in the world do people talk like that, like, keep opening the doors without closing them behind, in a maze-like complex castle, with nested sub-structures after substructures? A path of 3 doors opened, an average person will get lost in the maze. Even if you're a super linguist, and you can stand it, your audience will be bound to be trapped. Is natural language not to communicate, but deliberately making difficult for people to follow you? This is not in accordance with the consensus that language is born for communication and serves the ultimate purpose of communication.

Using pranks and verbal games as evidence of linguistic competence and the nature of language is one of the most misleading aspects of Chomsky's recursion theory. This recursion trap leads many people to automatically accept that natural language is recursive and therefore we must discard the idea of finite states. The people who believe in him, on the one hand, are influenced by his authority as the father of modern linguistics; on the other hand, they often mis-regard the more common and deeper right recursion for center recursion as evidence in support of Chomsky's recursion hypothesis. Chomsky himself is intelligent and rigorous as not to use readily available right recursion as evidence, he only uses center recursion as an argument. But he's in effect misleading.

Q: I guess this is a typical behavior of mathematicians and philosophers: they pursue formal perfection. As long as it is theoretically impossible to exclude multi-level center recursion, it is required that the formal mechanism must have a built-in recursion mechanism. But practitioners of natural language understanding do not have to be bound by that theory, do they?

A: after all, the foothold of the theory should be based on the real-life natural language object and data, right?

In fact, in the research of corpus linguistics, some scholars have conducted a very extensive survey and found that the so-called center recursion in natural language never exceeds three levels, and the occurrence of three-level recursion is extremely rare [reference]. The phenomenon of natural center recursion beyond three levels is simply not found in a very large running corpus, not a single case found. So why boil a very limited center loop down to what seems like an infinite level of recursion, and furthermore consider it the essence of natural language, and use it as an argument to determine the choice of the formal model for natural languages? This has had serious consequences for computing and NLU going beyond labs for applications.

In order to deal with theoretically infinite center recursion, the human brain, or computer memory, must have a "stack" device and a "backtracking" algorithm. Without going into the technical definitions of these computer terms, computer science studies have demonstrated that stack-based backtracking is expensive for computation. Using it as a basic device for natural language severely impedes language parsing from leaving the laboratory. Specifically, Chomsky's "context-free grammar" with built-in recursive devices is theoretically bound not to have corresponding linear speed algorithms. The absence of linear algorithms means that the computing time is beyond control, so when entering big data out of the lab, this kind of thing is one limiting factor in practice. This is one of its fundamental flaws in his formal language arguments for natural language.

Q: I agree with you: there are only very limited levels, we don't have to stick to recursive grammars. But I still have a question. Short-term memory is a psychological concept, and most of us in computational linguistics believe that psychology has no place in linguistics. Don't you agree?

A: I don't agree. The limitations of psychology have a direct effect on real linguistic phenomena, that is, psychological effects are reflected in linguistic phenomena. Real language phenomena, not imaginary phenomena, are the goal and final foothold of our natural language study. What we're dealing with is a data set with a psychological constraint, and it's obviously not appropriate for us to adopt a mechanism to deal with it based on a hypothesis that disregards psychological constraint.

Q: But even with the addition of psychological restrictions, don't real corpora still have recursion? If yes, without the formal recursion device, such as the finite state machine, how can it handle the actual existence of the center recursive structure as long as it is not a non-existence?

A: Not a problem at all. As long as the recursive structure is bounded, the finite states have no problem in dealing with it. All we need is just cascade a few more finite state machines. Since you have at most three levels of center recursion, then it is 3 machines with 3x time needed, which is still linear. Even 10-level center recursion is not a thing, just add up 10 finite state automata. In our deep parsing practice, we have once applied up to 100 cascaded finite state machines for very deep parsing, in high efficiency. This kind of finite state pipeline systems, often called cascaded FSAs, is essentially the same concept of the pipeline as used in software engineering.

Q: Chomsky Hierarchy, named after Chomsky, is the most famous discovery in Chomsky's formal language theory, which divides grammars into four types, type 0 to type 3, corresponding to different automata. What do you think of his hierarchy?

A: Chomsky's formal language hierarchy is like a hierarchical castle with four enclosing walls safeguarding inner cities. Each formal device is like an internal forbidden city. Here we particularly recommend and quote an insightful study of Chomsky Hierarchy by Prof. Bai, which I call a "caterpillar" theory of natural language (S. Bai: Natural Language Caterpillar Breaks through Chomsky's Castle):

If we agree that everything in parsing should be based on real-life natural language as the starting point and the ultimate landing point, it should be easy to see that the outward limited breakthrough and the inward massive compression should be the two sides of a coin. We want to strive for a formalism that balances both sides. In other words, our ideal natural language parsing formalism should look like a linguistic "caterpillar" breaking through the Chomsky walls in his castle, illustrated below:

Prof. Bai also clearly sees that Chomsky's recursion theory is too far away from linguistic facts, so he puts special emphasis on "real-life natural language". After all, formal systems serve as formalized models for natural language, that is, they need to provide an appropriate framework for what natural language looks like. The common answer shared by Prof. Bai and me is that a suitable natural language model needs to get through the walls inside the Chomsky Castle. Any single device in Chomsky's existing formalisms, when used to model natural language, is either too small to fit, or too large lacking appropriate restrictions. In both theory and practice, it is necessary to penetrate the walls of Chomsky Castle and form an innovative formal system, so as to lay a good foundation for the revival of grammars in natural language modeling. In the formalization process of penetrating the walls, Mr. Bai has his own innovation, and I have mine. My proposition is to extend and overlay the finite-state mechanism, so as to establish a shallow and deep multi-layer rule system for natural language deep parsing and understanding.

Do not look down upon finite state machines, which seem to be a very simple mechanism for pattern matching. When they are added layer by layer in the architecture of a reasonable pipeline system, they can cope with very complicated structures and phenomena and reach the depth of language parsing that is never before made possible by traditional context-free grammars or other devices. Of course, the mechanism itself can be reinvented and recrafted, such as incorporating the unification operation in handling language reduplications, e.g. in Chinese, "看一看": V 一 V (literally look-one-look: "take a look"). There are also rules for pattern matching that can effectively eliminate ambiguities by adding post-context conditions, similar to the "look ahead" effect in backtracking algorithms, to the pattern matching device.

It is worth emphasizing that maintaining the linear nature is the premise of any formalism innovation. No matter how we extend the mechanism of finite-state devices, this one remains an unchanged goal, that it must retain the essential characteristics of finite state to ensure the "line speed". We use a multilayer cascade to bypass the recursion trap, hence eliminating the biggest hidden trouble that hinders linear speed. Since the linear multiplication remains linear, the cascaded finite state system does not change the linear benefit of the system. Computationally, the processing speed required for three-layer recursion is only 3x, which will not affect the scalability potential of the system. In fact, we have deployed multi-layer systems, usually with more than 50 layers. Our Chinese system sometimes cascades up to 100 layers in the architecture, where capturing recursive structures is just a relatively simple task inside.

Q: That's fascinating. And very imaginative, too. It is apparent that you and Prof. Bai have both accumulated years of practice and deep dive into natural language so you two have such insights as summarised above in breaking through the internal walls of the Chomsky Castle. Ok, so the first issue with Chomsky formal language theory is the recursion fallacy, what's the second fallacy?

A: The second major problem with the Chomsky formal language theory is briefly mentioned above, which I call Single-layer Fallacy.

Turn to the chapter on parsing in the computational linguistics textbook, the typical algorithm for parsing, known as chart-parsing, is often introduced on the formalism of a context-free grammar (CFG). CFG contains recursive calls in its rules for covering recursive structures, a point emphasized by Chomsky as the key feature for natural language. The implementation of this rule system is carried out in the same search space on the same plane, thus the so-called chart-parsing can be illustrated on a flat chart. Successful parsing is represented by one or n search paths that cover the entire sentence.

[consider a chart parsing sample.]

The essence of single-layer parsing is like cooking a hodgepodge. Everything in an input string, from morpheme to word, from word to phrase, from phrase to clause, from clause to a complex sentence, all are carried out in the same space.

Q: So Chomsky wants to solve everything at once. Isn't that good?

A: Problem is, there are three main disadvantages. First, there is no linear algorithm. Many people have tried, but they just can't find a linear algorithm, it's a combinatorial explosion.

The second disadvantage is that it is not suitable for modular development, because the surface or shallow level language phenomena and the deep language structures are all mixed on one plane.

The third disadvantage is the so-called "pseudo-ambiguity" issue. "Pseudo ambiguity" is in contrast to true ambiguity. If there is one true ambiguity in the input sentence, the correct identification is for the parser to produce two parses to express the ambiguity. "Pseudo-ambiguity" means that a sentence is not ambiguous in people's understanding, but the parser still outputs several parses, which are all considered to be grammatical.

The problem of pseudo-ambiguity is a recognized challenge in single-layer parsers. Even for a simple sentence, traditional parsers based on context-free grammars often produce dozens or even hundreds of parses. Most of the time, the differences are so subtle that they don't make difference in communication. The consequence is that very few true ambiguities are hidden among many false ambiguities. In effect, the parser loses the ability to parse ambiguity completely. Of course, such a single-layer grammar approach is difficult to be truly deployed in parsing and semantic decoding of big data.

Q: Lao li, I think I have now started understanding the drawbacks of the single-layer parsers you discussed. Could you elaborate on why it is not a feasible model for real-life applications?

A: Too big a search space, and too many parses. In essence, the system makes explicit all possibilities, low probability events as well as high probability events all in the same search space,. The whole idea is that it makes sense in theory, that any small possibility is a possibility, and then from a perfect theoretical model, you can't block any path in advance. This way, you have to save all the search paths until the global path is complete. And this leads to the fact that the space where the resolution is, in fact, a combinatorial explosion space, so there's no efficient corresponding algorithm.

Q: why isn't a single layer suitable for modularity?

A: there is no modularity at all in a single layer. The approach of a single layer means that the whole resolution is a module, and a single layer means non-modularity. Its theoretical basis also has some truth. It says that language phenomena are interdependent, and a complete language analysis scheme cannot completely separate them. As low as participles and as low as the boundaries of basic phrases, these shallow structures are difficult to determine outside the overall structure of the sentence. This is because a locally sound structure can always be overridden in a larger context.

(for instance)

From this interdependent, locally subordinated global perspective, structural analysis, once cut up, creates a chicken-and-egg problem. To deal with this problem of interdependency, theoretically, a single-layer model makes sense. In a single-layer system, all the interdependent phenomena are explored in the same plane according to the global paths as solutions. That forms, of course, an argument against multiple layers, that language phenomena are interrelated, so we can hardly treat them by first cutting them into multiple layers. Interdependency in a modular pipeline is very susceptible to "premature pruning" of branches. To be honest, if we leave aside the pseudo-ambiguity problem and the non-linear speed from the single-layer system design for a moment, it is quite difficult to refute the above argument against the multi-layer system design. However, single-layer is not very feasible in practice. The consequences of a single layer far outweigh the benefits, and the concern on premature pruning in a multi-layer system actually has its own countermeasures.

Q: Your point of view is not quite the same as my understanding of modularity. In my understanding, a module is actually a concept without hierarchy. Just like with bricks, you can build roads, it's like a complete horizontal jigsaw puzzle of bricks. Of course, you can also build a wall in which case bricks are hierarchical. It goes up one level at a time. So, in my understanding, modularity and hierarchy do not have to be correlated. Does it make sense?

A: Yes, you're right. Modules are bricks. They do not have to have layers. If there are layers, like building a wall, then there has to be a sequence architecture of modules. But it is also possible that there is no sequential dependency between the modules and the layers. The modules are defined from an angle beyond layers, which is like paving a road. Road paving does not have to be serial, which can be parallel. In practice, they may as well still be arranged in a uniform pipeline, combining the style of road paving with the style of wall building.

Modularity itself is a seasoned practice that comes from software engineering. That is, when building a complex system, we always attempt to divide tasks into subtasks and sub-subtasks. Modularity makes the development process more tractable and easier to maintain. Natural language is undoubtedly a fairly complex system. Faced with a complex object like language, a good way is to emulate the approach that has worked in engineering for years. That is to say, the task should be reasonably decomposed and cut into modules as far as possible to implement modular development.

Thanks to http://fanyi.youdao.com/ based on which this translation is revised and polished by the author himself. This is the first chapter of our book on NLU which consists of 10 interviews on key topics of AI symbolic logic as used in natural language parsing. Stay tuned.

[References]

S. Bai: Natural Language Caterpillar Breaks through Chomsky's Castle

转载：白硕：关于基于规则方法的反思（2）

关于基于规则方法的反思（2）

【问3】基于规则方法的主流技术路线是什么？它的主要贡献是什么？

【答】追溯历史，可以发现：基于规则方法起源于结构主义语言学派，伴随生成语言学派在语言学界占据主导地位而在计算语言学界达到鼎盛，伴随因特网的兴起而被基于统计的方法逐渐趋于边缘化。因此，谈到基于规则方法的主流技术路线，特别是作为基于统计方法对立面的基于规则方法的主流技术路线，一定是生成语言学派的核心学术思想及其在计算语言学中的实践和发展。在总结基于规则方法的主流技术路线的得失的时候，我们必须不带偏见地肯定它对语言学和计算语言学的主要贡献。

如果以为生成语言学派的主要贡献是搞清楚了哪一门具体语言里有哪些具体规则，那就大错特错了。笔者认为，生成语言学派最大的贡献，在于以一种可证伪的方式告诉我们，表示规则的形式化框架应该是什么。通俗地说，就是告诉我们“规则应该长什么样”。一条具体的规则不好，你可以在这个框架之内废了它。一个具体的规则体系不好，你也可以在这个框架之内另起炉灶。只要在原有表示规则的形式化框架内做有限的改良有成功的希望，一般来说就不要去动这个框架。但是如果表示规则的形式化框架离开语言现实太远，局部的修修补补难以充分适应语言现实，我们就必须考虑废掉这个框架了。看看乔姆斯基的学术轨迹，可以发现，几十年来他一直在对“规则长什么样”进行着调整，在战略上不断用新我否定着旧我，但在战术上，他却很少就一门具体的语言到底该有哪些规则发表看法。即使关于英语说到了一些规则，那也是为了解释他的普适原则和理论而举的例子。

那么，在生成语言学派看来，规则究竟应该长什么样呢？在笔者看来，他们对规则有如下一些基础假设：

1、存在有限个基本的句法范畴作为规则表示的基本单位。它们既包括词类，也包括词组的类。同一句法范畴下的实例，在组句能力（分布）上必须有共性。

2、句法范畴从左到右的线性排列模式，决定对这个模式的“重写（rewrite）”结果。

3、语言的合法成分都是有限次匹配上述从左到右的线性模式、施用重写的产物，依照对重写的限定不同，分为不同的规则体系类型。比较常见的是上下文无关类型的语言及其规则体系。

4、句子是一个特殊的句法范畴，它的实例都是目标语言的合法语句，目标语言的合法语句都是它的实例（all and only）。

很遗憾的是，有些人在用统计方法的优点来批评基于规则方法的缺点的时候，并没有分清楚他们批评的是生成语言学派的规则表示形式化框架本身，还是批评这个形式化框架下构建的某个具体的规则体系。比如，有人说“打扫卫生”不能解释为“把卫生给打扫了”，因此述宾结构不成立，因此规则方法不成立。这样的论证是可笑的。

“规则长什么样”是基于规则方法的最核心问题。如果具体规则错了，可以替换以新的规则；如果关于规则长什么样的假设错了，要调整的则是这种形式化表示框架本身，同时也会连累到许多个基于这种形式化表示框架的具体规则体系。

关于“规则长什么样”的一般性假设一旦确定下来，就有了对其在计算上予以实现的理论和实践。具体说就是相关的形式语言、自动机以及算法理论。这些理论是生成语言学派关于规则长什么样的一般性假设在计算领域的推论，对于基于规则的自然语言处理系统的实现有一定指导意义。

但是，在计算语言学领域，对生成语言学派关于“规则长什么样”的一般性假设，也并非照单全收，你假设，我实现。实际上，为了更加贴近语言实际，在计算语言学领域发生了多次对“规则长什么样”的局部修正。词汇功能语法（LFG）、广义短语结构语法（GPSG）、中心词驱动的短语结构语法（HPSG）、依存语法（DG）、树嫁接语法（TAG）等等，都可以认为是对生成语言学派关于“规则长什么样”的假设的修正案。“次范畴”和“合一”的概念，已经成为基于规则阵营中人尽皆知的概念。“依存”的概念则在一定程度上突破了模式必须是句法范畴从左到右依次排列的假定，允许一定的不连续性。它们到底把生成语言学派关于“规则长什么样”的假设向前推进了多远，也许今天评价还为时尚早。但是，所有这样一些局部性的修正案并没有触动基于规则方法的根本缺陷，应该是许多仁人志士的共识。

转载：白硕：关于基于规则方法的反思【连载1】

【立委按】今天才发现白硕老师的这个很久以前的NLP系列问答，相阅恨晚，叹服其洞见远见，拍案叫绝。一开篇就心有戚戚焉，字字珠玑。

“败的一方是基于规则的方法吗？我认为不是。最多只能说，是基于规则方法当中的某种主流技术路线。但是，这种主流技术路线，不足以概括基于规则方法的全部，也不足以决定基于规则方法的未来。特别是，基于规则方法和理性主义不存在必然的逻辑捆绑。人们对基于规则方法有诸多误解，基于规则方法的主流技术路线也有诸多弱点和缺陷，值得一切尊重语言事实、尊重规则的人进行深入的反思。我们这个问答系列，就是试图在对基于规则方法进行深入反思的基础之上，探索基于规则方法未来发展道路的一个尝试。笔者认为，基于规则方法的处境前所未有地艰难，但也正在孕育着巨大的机会，“抄底”在即。”

特转载学习。

关于基于规则方法的反思【连载1】

【问1】：基于规则方法和基于统计方法，被称为自然语言处理的两大“阵营”，并且上升到理性主义和经验主义“之争”的高度。请问，这个概括是否准确？两大阵营“之争”到目前为止是否已经见分晓？

【答】：确实有两种技术路线之争。从上个世纪九十年代初阵营划分确定以来，从主流杂志、主流文章、主流技术、主流产品等各方面看，其中一种大获全胜。这是一个基本的事实。任何进一步的讨论，都首先要基于这个事实。

进一步追究，胜的一方，确实是基于统计的方法。那么败的一方是基于规则的方法吗？我认为不是。最多只能说，是基于规则方法当中的某种主流技术路线。但是，这种主流技术路线，不足以概括基于规则方法的全部，也不足以决定基于规则方法的未来。特别是，基于规则方法和理性主义不存在必然的逻辑捆绑。人们对基于规则方法有诸多误解，基于规则方法的主流技术路线也有诸多弱点和缺陷，值得一切尊重语言事实、尊重规则的人进行深入的反思。我们这个问答系列，就是试图在对基于规则方法进行深入反思的基础之上，探索基于规则方法未来发展道路的一个尝试。笔者认为，基于规则方法的处境前所未有地艰难，但也正在孕育着巨大的机会，“抄底”在即。

【问2】：那么，语言是有规则的吗？语言是可以用规则来描述的吗？

【答】：语言有多个层次。为简化问题起见，以下“规则”仅指词法和句法规则，更深层的语义语用规则暂不考虑在内。

首先让我们看一看“规则”及其对应的英文术语rule的含义。在英语中，规则（rule）与尺子（ruler）是同根词。在汉语中，“规”是圆规，“矩”是角尺，二者都是依据某种标准产生几何图形的工具，而“则”具有“明示的条文”的含义。英语中Rule还兼有统治的意思。在现代汉语中，作为名词的“规矩”和“规则”同义，但“规矩”比较口语化，“规则”更具书面语风格。“规则”的意思是“对一个社会群体有强制约束力的明示的条文”。

规则的强制约束力来自于两个方面。第一个方面是来自社会的约定。所谓约法三章，所谓社会契约，说的都是有人来制定并遵守规则。不方便拿到台面上但在台面下仍然被讲究和遵守的是“潜规则”。第二个方面是来自自然规律的强制。由人类社会中热衷科学的人士发现自然规律，用人类的概念体系表述出来，在应用科学知识的场合比如工程设计中遵守。规律是客观的，规则是人类用自己的概念对规律作出的表述。囿于人类认知能力所限无法清晰表述但仍在暗中起作用的是“隐规则”。

具体到语言，语言是人们约定俗成并与时俱进的符号交际系统。既然约定俗成，那语言就是靠口耳相传，本质上就不需要什么明示的条文，也不需要人们协商产生，把小孩子放到一个现成的语言环境，小孩子自然就能学会。一些部落只有语言没有文字，一些社会缺乏甚至全无学校教育，但这都不妨碍他们自发地形成和传承语言。既然与时俱进，那语言就确实在社会的发展中改变着自己的模样，一些词死了，另一些词新生出来；一些现象淘汰了，一些现象新冒出来。旧瓶也可能装新酒，老树也可以发新芽。一些网络新词层出不穷，一些语言在经历了不同历史时代后形式上出现了巨大变异。

这样看来，语言是一种不以单个个体的意志为转移的客观存在。作为单个个体只能适应而不能约定，因此语言的规律性有跟自然规律相像的一面；语言又可根据群体行为交互作用“涌现”新要素，因此具有大时间跨度下、大群体流通中产生的人为约定性的一面。在人们对一种语言的认识能力不足之时，拿不出有关这种语言的完整的明示的规则体系，但这不表明不存在暗中起作用的“隐规则”。

因此，语言和规则，从语言诞生之始，就注定存在一对深刻的矛盾。任何所谓的语言规则，都是人（语言学家）总结出来的语言学知识，又要求人（语言使用者）去遵守的。理论上，人不总结这些规则，原则上也不妨碍语言的传承。人不把规则明示出来，这些规则也会隐性地发挥作用。仅仅从这个角度看，人总结的语言规则，确实显得可有可无。但另一方面，语言的相对客观的规定性又持续稳定地发挥着不以人的意志为转移的作用，人类求知好奇的天性总会催生一些语言学家，试图用明示的语言学知识来揭示这种作用的奥秘，而人类跨语言交流、人机交流、机机交流的需要则进一步昭示这种语言学知识的巨大社会价值。

所以，语言有客观的规定性，人类有必要总结语言学知识，语言学知识采用规则的形态，是人类对自身语言规律好奇心发展的需要，也是人类为解决人际和人机之间以语言为媒介进行沟通的需要。至于规则长什么样，完全要根据语言的现实来确定。任何先验确定规则长什么样的行为，都是不足取的。在最广泛的意义上，不仅生成语法的规则是语言规则，统计模型、转移概率、词性标注，也都是语言规则。

from http://blog.sina.com.cn/s/blog_729574a0010134bq.html

《马修·赫松梅：人工智能研究人员声称机器学习是炼金术》

《人工智能研究人员声称机器学习是炼金术》
在领英上分享
马修·赫松梅。2018年5月3日上午3时

梯度下降依赖于试验和误差来优化算法，目标是3D场景中的最小值。亚历山大·阿米尼丹尼拉·鲁斯。麻省理工学院

Ali Rahimi是加州旧金山谷歌人工智能( AI )的研究人员，去年12月，他的研究领域受到了猛烈抨击，并获得了40秒钟的掌声。拉希米在AI会议上说，计算机通过反复试验学习的机器学习算法已经成为一种“炼金术”。他说，研究人员不知道为什么一些算法有效，而另一些算法无效，他们也没有严格的标准来选择一个人工智能体系结构而不是另一个。现在，在4月30日于加拿大温哥华举行的国际学术会议上，拉希米和他的合作者发表了一篇论文，记录了他们所看到的炼金术问题的例子，并提供了加强人工智能严谨性的处方。

拉希米说: “这是一个痛苦的领域。我们中的许多人都觉得我们在使用一种外星技术。”
这一问题与人工智能的再现性问题不同，后者由于实验和出版实践的不一致，研究人员无法相互复制结果。它也不同于机器学习中的“黑盒”或“可解释性”问题: 解释特定人工智能是如何得出结论的困难。正如Rahimi所说，“我试图区分机器学习系统是一个黑盒，而整个领域变成了一个黑盒。"

他说，如果不深入了解构建和培训新算法所需的基本工具，创建AIs的研究人员就像中世纪炼金术士一样，只能依靠道听途说。加州山景城Google的计算机科学家弗朗索瓦·乔莱特补充说: 人们被货物崇拜活动所吸引，依赖于“民间传说和魔法咒语”。例如，他说，他们采用pet方法来调整他们的AIs“学习率”——每次出错后一个算法能自我纠正多少——而不理解为什么一个算法比其他算法更好。在其他情况下，人工智能研究人员训练他们的算法只是在黑暗中跌跌撞撞。例如，它们实现所谓的“随机梯度下降”，以便优化算法的参数，以获得尽可能低的故障率。然而，尽管有数以千计的关于这一主题的学术论文，以及无数应用这一方法的方法，这一过程仍然依赖于反复试验。

rahimi的论文强调了可能导致的浪费精力和次优性能。例如，它指出，当其他研究人员从最先进的语言翻译算法中剔除了大部分复杂性时，它实际上更好、更有效地从英语翻译成德语或法语，这表明它的创造者并没有完全理解这些额外的部分对什么有好处。相反，伦敦Twitter的机器学习研究员费伦茨·胡塞尔说，有时候算法上附加的“铃铛和口哨”是唯一好的部分。他说，在某些情况下，算法的核心在技术上是有缺陷的，这意味着它的好结果“完全归功于应用在上面的其他技巧”。

rahimi为学习哪些算法最有效以及何时工作提供了一些建议。首先，他说，研究人员应该像翻译算法那样进行“消融研究”:一次删除一个算法的一部分，以查看每个组件的功能。他呼吁进行“切片分析”，其中详细分析算法的性能，以了解在某些领域的改进可能会在其他方面产生什么成本。他说，研究人员应该在许多不同的条件和设置下测试他们的算法，并且应该报告所有这些算法的性能。

加州大学伯克利分校的计算机科学家、拉希米炼金术主题演讲的合著者本·雷希特说，人工智能需要借用物理学的知识，在物理学中，研究人员经常把一个问题缩小为一个较小的“玩具问题”。他说:“物理学家在设计简单的实验来找出现象的解释方面很了不起。”。一些人工智能研究人员已经采取了这种方法，在处理大的彩色照片之前，对小的黑白手写字符的图像识别算法进行测试，以更好地理解算法的内在机理。

伦敦DeepMind公司的计算机科学家csaba szepesvari说，这个领域还需要减少对竞争性测试的重视。他说，目前，如果报告的算法超过了某个基准，发表论文的可能性要比论文揭示软件内部工作原理的可能性大。这就是花哨的翻译算法通过同行评审取得成功的原因。“科学的目的是创造知识，” 他说。“你想生产一些其他人可以接受和利用的东西。" "

不是每个人都同意拉希米和雷希特的批评。纽约Facebook首席人工智能科学家yann LeCun担心，把太多的精力从前沿技术转移到核心理解上，可能会减缓创新，阻碍人工智能在现实世界中的应用。“这不是炼金术，而是工程，” 他说。“工程总是凌乱的。"
雷希特认为这是一个有条不紊的冒险研究的地方。“我们都需要，”他说。“我们需要了解故障点在哪里，以便我们能够建立可靠的系统，我们必须开拓前沿，以便我们能够拥有更令人印象深刻的系统。"

张贴于:技术

搜狗MT（https://fanyi.sogou.com）译自（translated from）：
http://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy?utm_source=sciencemagazine&utm_medium=facebook-text&utm_campaign=aialchemy-19247

【AI泥沙龙笔记：热议周教授提出的深度突破的三大条件】

李：
上周，周志华教授作为神秘AI大咖嘉宾，请到京东的AI峰会做了个主题演讲。有意思的是他讲到的三点。他的讲演主题是“满足这三大条件，可以考虑不用深度神经网络”： 1. 有逐层的处理；2 有特征的内部变化； 3. 有足够的模型复杂度。

这就有意思了。我们符号派所说的深度解析（deep parsing）和主流当红的深度学习（deep learning），在这三点上，是英雄所见还是殊途同归？不知道这种“巧合”是不是有些牵强，或者是非主流丑小鸭潜意识对主流白天鹅的“攀附”？总之，fellows大满贯的周教授的这个总结不仅字字珠玑，深入本质，而且非常受用。他是说深度神经的突破，根本原因是由于上面三条。所以，反过来论证说，既然如此，如果有了这三条，其他模型未尝不能突破，或者其他模型可以匹敌或弥补深度神经。

陈：
有了dl，谁还费力想其它的

李：
周教授就是“费力”想其他的人。他指出了深度神经的缺陷：1 调参的困扰；2. 可重复性差；3. 模型复杂度不能随数据自动适应；4. 理论分析难；5. 黑箱；6. 依赖海量标注。由于这些问题的存在，并不是每一个AI任务都合适用深度神经。对于同一个任务，也不是每一个AI团队都可以重复AI大咖的成绩。

毛：
谁说每个AI任务都合适用深度神经了？DL只是补上缺失的一环。

李：
没人明说，无数人这么 assume

毛：
应该说，无数人这么 misunderstand。

李：
哈，我称之为“迷思”：misconception

毛：
反正是mis-something

李：
从我的导师辈就开始的无数探索和实践，最后得出了自然语言的解析和理解必须多层进行的结论。虽然这与教科书，与乔姆斯基相悖。

陈：
小孩好像从不这么理解

李：
以前论过的：鉴于自然语言的结构复杂性，文句的深度解析和理解很难在单层的系统一蹴而就，自浅而深的多层管式系统于是成为一个很有吸引力的策略。多年的实践表明，多层系统有利于模块化开发和维护，为深度解析的工程化和实用化开辟了道路。但多层系统面临一个巨大的挑战，这个挑战来自于语言中的并不鲜见的相互依赖的歧义现象。

多层了以后，很多不可解的问题，变得可解了。论解析的深度和应对复杂现象和结构能力，多层系统与单层系统完全不可同日而语。30多年前，我的导师做的解析系统是四、五层。但是多层的思路已经萌芽，而且方法论得到确认。最近20多年，我自己的摸索和尝试，发现大约是 50-100 层这个区间比较从容和自如。这不是因为语言中表现出来的递归结构需要这么多层，如果只是为了对付真实语言的递归，五六层也足够了。多层的必要性为的是要有足够的厚度及其动态的中间表达，去容纳从词法分析、实体识别、（嵌套）短语分析、单句分析、复句分析乃至跨句分析（篇章分析）以及从形式分析、语义分析到语用分析的全谱。

当然，这么多层能够顺利推展，前提是要找到解决多层系统面临的挑战的有效方法，即：对相互依赖现象的化解之策。如何在多层系统中确保“负负得正”而不是“错误放大”（error propagation）（【立委科普：管式系统是错误放大还是负负得正？】）？如何应对 nondeterministic 结果的多层组合爆炸？如果采用 deterministic 的结果，多层的相互依赖陷阱如何规避？我们论过的“休眠唤醒”的创新就是其中一个对策（【立委科普：结构歧义的休眠唤醒演义】）。

毛：
乔老爷没说不能多层啊。递归与多层不就是一回事？

李：
他的递归是在一层里面 parse 的，CFG chart parsing 是教科书里面的文法学派的经典算法。

毛：
这只是形式和实质的区别。我觉得只是深度优先与宽度优先的区别。

李：
他鼓吹 CFG 的递归特性，正是因为他不懂得或不屑认真对待多层叠加的道路。

后者理论上的确不够漂亮。多少有些“凑”的意思，太多工程的味道，模块化的味道，补丁摞补丁的味道，这不符合乔老爷的口味，但实践中比他的递归论要强得多。CFG 能做到的，叠加和拓展了的 FSAs 全部可以做到，但是叠加的 FSAs 所能达到的深度和能力，CFG 却望尘莫及。递归算个啥事儿嘛，不过是在多层里n次循环调用而已。多层所解决的问题比递归结构的挑战要广得多，包括困扰parsing界很久的“伪歧义”问题（【李白雷梅59：自动句法分析中的伪歧义泥潭】）。

毛：
我倒也是更赞同你说的 FSA，但是认为本质上没有什么不同，不同的只是方法。

李：
这是第一个英雄所见，或殊途同归。深度神经现在几百层了，deep parsing 也 50-100 层了。不是不能超过 100 层，而是确实没有这个必要。迄今还没有发现语言现象复杂到需要超过百层的符号逻辑。

毛：
这两个多层，性质是不一样的。

李：
所以我说这种比对可能“牵强”。但哲学上有诸多相通之处，的确二者都是很 deep 的，有厚度。

那边叫隐藏层，反正我是搞不懂。这边倒是小葱拌豆腐，一清二白的，不说老妪能解吧，但这些个符号逻辑的层次，至少可以对语言学家，领域专家，还有AI哲学家像毛老和群主，还有AI工程大咖利人，可以对你们这些“老人”讲清楚的。这就是我说的，所谓符号逻辑，就是人类自己跟自己玩一个游戏，其中的每一个步骤都是透明的，可解释的。符号派的旗号可以是“模拟”人脑的思维逻辑，其实这个旗号也就是个旗号而已。模拟不摸拟，这一点已经不重要了，关键是效果。何况鬼知道人的语言认知是不是这么乏味、死板、机械，拼拼凑凑，还不如玩家家呢（如果人类思维真的是符号派所模型的那个样子，其实感觉人类蛮可怜的）。

毛：
大多数人的思维可能还没有这么复杂。

李：
但这种游戏般的模拟，在实践中的好处是显然的，它利于开发（自己能跟自己玩的那些游戏规则有助于步骤的梳理，以便各个击破），容易维护和debug（比较容易知道是哪一层的错误，或哪几层有修复的机会及其各自的利弊）.

马：
越是层次的思维越是更容易模拟，符号派模拟的是高层次的。

毛：
对，就是缺了低层次这一环，才需要由DL来补上。

郭：
@毛德操，周志华这次演讲，还特别强调了深度之于广度的核心差异，那就是他的第二条：每层都是在不同特征维度上。

他从两个角度阐明这点。一，至少在1989年，大家就已经知道，在无限逼近任意连续可微函数这件事上，只要宽度足够，单隐含层就好。多层貌似并非必要，或者说多层并没有提高“表达力”。但是，单层系统，从来没能达到同规模多层系统的学习和泛化能力。

二，多层，就可以有结构。譬如resnet，可以在不同层面选取综合不同维度的特征，可以有多信息流。这条，貌似隐含地说了，人的干预还是重要的。

李：
是的，周教授强调的第二点是特征逐层更新。深度学习之前的系统是在同一个静态特征集上work的，包括最像符号逻辑的决策树模型。而深度之所以 deep，之所以有效和powerful，是与特征的变化更新分不开的，这个道理不难理解。深度的系统不可能在静态的特征上发力，或者说，特征静态也就没有深度的必要了。深度系统是一个接力赛的过程，是一浪推一浪的。这一点在我们的实践中是预设的，当成不言而喻的公理。

我们的深度解析，起点就是词典特征和形态特征，随着从浅层到深层的逐层推进，每一步处理都是在更新特征：根据各种角度的上下文条件，不断增加新特征，消除过时的旧特征，或细化已有的特征。后面一层层就这样在越来越优化的特征上，逐步取得对于语言的结构解析和理解。

毛：
深度优先与广度优先，没有绝对的好坏或强弱，要看具体的应用。在NLP中也许是广度优先好一些。乔姆斯基讲的是专门针对 CFG 的，你那个实际上已经越出了这个范畴。

李：
特征是动态的，反映了搜素空间不断缩小，是真理不断逼近的认知过程。很难想象一个系统在一个静态特征的平面可以达到对于复杂语言现象的深度解析。

马：
在某些特殊情况下，已经证明层数少，需要指数级的增加神经元才可以达到层数深的效果。而神经元的增加又加大了计算复杂性，对数据量的要求更大。

毛：
如果上下文相关，那么分层恐怕确实更灵活一些。

李：
这就是我说的乔老爷把“power”这个日常用词术语化以后，实际上给人带来了巨大的误导：他的更 “powerful” 的递归 CFG 比二等公民的 less powerful 的 FSA 所多出来的 “power” 不过就是在单层系统里面可以处理一些递归结构而已。而把一批 FSAs 一叠加，其 power 立马超越 CFG。

总之，特征不断更新是深度解析的题中应有之义。而这一点又恰好与深度神经不谋而合，殊途同归了。

周教授眼毒啊。

教授的第三点，关于深度系统需要足够的模型复杂度，我不大有把握可以做一个合适的比对。直觉上，由于分而治之由浅入深的多层系统对于组合爆炸的天然应对能力，如果我们假想我们有一种超自然的能力能够把一个 50 层的解析系统，完全碾压到一个平面，那将是一个多大的 network，遮天蔽日，大到难以想象！

马：
符号表示的复杂性可以说是无穷大吧？模型的复杂度指表达能力？太复杂又容易过拟合

李：
周说的是，因为不知道多复杂合适，所以得先弄得很复杂，然后再降低复杂度。他把这个说成是深度神经的一个缺陷。

郭：
周志华特别强调，他的“复杂度”，不是指“表达力”(“单层多层同样的表达力，但多层可以复杂的多”)。

他没给定义，但举了resnet作为例子，并且明确提了“特征信息流的数目”，还说了：多层，但特征信息流动单一的，也没有复杂度。

回顾周说的这三条，李维的 deep parser 条条符合！

有逐层的处理 -- 李维的，少说也有50层吧！

有特征的内部变化 -- 李维的，每层都在不同的维度/颗粒度/角度，用不同的特征/属性，产生新的特征/属性

有足够的模型复杂度 -- 李维的，也有明显的“复杂度”(周志华强调，“复杂度”，不是指“表达力”。过度的“表达力”，往往是负面的)。李维的，不仅有传统的 linguistics motivated 概念/特征/属性，也广泛采用“大数据”(基于统计的)。最近也开始利用“AI”(基于分布式表示的)。

还有一点，周志华多次强调(我认为是作为“三条件”必然推论的)，“深度学习，关键是深度，但不一定要 '端到端' ”。他更强调(至少是我的理解)，为了端到端，一味追求可微可导，是本末倒置。深度学习，中间有不可微不可导的特征/存储，应该是允许甚至是必要的。

对这一点，李维的“休眠唤醒”，大概也可算是 remotely related.

白：
拉倒。带前后条件的FSA早已不是纯种的FSA，只是拿FSA说事儿而已，真实的能力早已超过FSA几条街。

毛：
这就对了。其实，自然语言哪里是 CFG 可以套得上的。

李：
我其实不想拿 FSA 或 FSA++ 说事儿，听上去就那么低端小气不上档次。可总得有个名儿吧，白老师帮助起个名字？教给实习生的时候，我说你熟悉 regex 吧，这就好比是个大号的 regex，可实习生一上手说不对呀这比 regex 大太多了。这套 formalism 光 specs，已经厚厚一摞了，的确太超过。要害是剔除了没有线性算法的递归能力。

毛：
记得白老师提过毛毛虫的说法，我还说了句“毛毛虫的长度大于CFG的直径”。（【白硕– 穿越乔家大院寻找“毛毛虫”】）

白：
有cat，有subcat，还拿这些东西的逻辑组合构成前后条件，还有优先级。有相谐性，有远距离雷达，有实例化程度不等带来的优先级设定。哪个FSA有这么全套的装备？

陈：
基于规则，遇到长句子一般必死

李：
非规则的找个不死的瞧瞧。再看看规则的怎么个死法。反正是死。看谁死得优雅。你出一组长句子，找一个学习的 parser，然后咱们可以比较一下死的形态。

白：
先说任务是啥，再说死活。

李：
我是说利人的腔调，极具代表性，那种典型的“成见/偏见”（【W. Li & T. Tang: 主流的傲慢与偏见：规则系统与机器学习】）。

马：
人家DL端到端，不做parser。现在有人做从语音直接到文本的翻译，不过效果还不行，主要可能是数据问题

李：
苹果梨子如何比较死活。

毛：
乔老爷的CFG不应该算入AI，那只是形式语言的解析。

陈：
确实都死。。。但一个死了也没法解释，不要解释。另一个就得思考哪个规则出问题了

毛：
人也好不到哪里，只不过人不死，只是懵了。

李：
? 懵了就是人造死，artificial death

马：
规则的好处是，你说什么不行？我马上可以加一个规则。这就是我前面说的复杂性无穷。? 即表达能力无穷

白：
假设任务是从文本抽取一堆关系，放进知识图谱。

假设任务是根据用户反馈，把错的对话改对，同时对的对话不错。

陈：
抽取这个很重要，很多理解的问题其实是抽取问题。比如，阅读问答题

毛：
我还是相信多层符号会赢。

李：
从文本抽取关系谁更行，需要假设同等资源的投入才好比。我以前一直坚信多层符号，现在有些犹疑了，主要是标注人工太便宜了。到了标注车间，简直就是回到了卓别林的《摩登时代》，生产线上的标注“白领”面对源源不断的数据，马不停蹄地标啊标啊，那真不是人干的活儿啊，重复、单调、乏味，没看见智能，只看见人工，甭管数据有多冗余和灰色。这就是当今主流“人工智能”的依托，让人唏嘘。当然，另一方面看，这是当今AI在取代了很多人工岗位后，难得地给社会创造就业机会呢，将功补过，多多益善，管他什么工作，凡是创造就业机会的，一律应予鼓励。

毛：
@wei 这不正好是训练条件反射吗

陈：
反正智能的事都让机器去做了，人就只好做些低级如标注的活了

白：
问题是啥叫符号？基于字节？字符？基于词已经是符号了吧。是不是要退到茹毛饮血，连词也不分，才算非符号。否则都是站在符号肩膀上

毛：
我认为可以这样来类比: 一个社会经验丰富、老江湖的文盲，跟一个教授，谁能理解更多的语句。我想，除那些江湖切口和黑话，还有些需要“锣鼓听声，说话听音”的暗示以外，一定是教授能理解更多的语句。而且，即使是江湖切口黑话，也能慢慢加到教授的知识库中。

李：
都是站在符号肩膀上。然而，符号系统的实质不是符号，而是显性的可解释的符号逻辑。就是那套自己跟自己玩系统内部能够自圆其说有过程有因果链条的针对符号及其动态特征做处理的算法。相对于建立在符号和特征基础上的不可解释的学习系统，很多时候这些系统被归结为一个分类问题，就是用原子化的类别符号作为语言落地的端对端目标。如果一个落地场景需要10个分类，只要定义清晰界限相对分明，你就找一批大学生甚至 crowd source 给一批在家的家庭妇女标注好了，一个类标它百万千万，然后深度训练。要是需要100个分类，也可以这么办，虽然标注的组织工作和质量控制要艰难得多，好在大唐最不缺的就是人工。可是，如果落地场景需要一千个、一万个不同侧面的分类，标注和学习的路线就难以为继了。

白：
结果是一个集合，已经比较复杂了。结果是关系集合，又更加复杂。让人类标注，好不到哪儿去。标注一个关系集合，等价于标注一个结构。

【相关】

周志华：满足这三大条件，可以考虑不用深度神经网络

周志华最新演讲：深度学习为什么深？

【立委科普：结构歧义的休眠唤醒演义】

【立委科普：歧义parsing的休眠唤醒机制再探】

【白硕– 穿越乔家大院寻找“毛毛虫”】

【科研笔记：NLP “毛毛虫” 笔记，从一维到二维】

【泥沙龙笔记：NLP 专门语言是规则系统的斧头】

【新智元：理论家的围墙和工程师的私货】

乔姆斯基批判

泥沙龙笔记：再聊乔老爷的递归陷阱

泥沙龙笔记：骨灰级砖家一席谈，真伪结构歧义的对策（2/2)

《自然语言是递归的么？》

语言创造简史

【立委科普：管式系统是错误放大还是负负得正？】

【李白雷梅59：自动句法分析中的伪歧义泥潭】

【W. Li & T. Tang: 主流的傲慢与偏见：规则系统与机器学习】

【李白100：Parsing 的休眠唤醒机制】

尼:
十几年前给两个台办主任送过美凤光盘。

李:
主语施事是侬？

这是一个疑问句。

迈:
这是给中纪委举报的分析图吗？

白:
为啥“主任”没当actor？under是“两个台办”，actor是“主任”多好，不用向外借context里的“尼克”了。“台办主任”难道进词典了？N+N结构难道比缺主语还优先？

李:
没进词典，“台办+主任”是rule合成的。为啥主任要做那个actor？“给” here 是个介词，是“送”的 subcat 要求的，作为 dative，不是逻辑主语，就是双宾语句式的 human 对象，光碟才是 undergoer。

白：
说错了，“两个台办”是介宾，“光碟”不变。“主任”单拎出来，做actor。

李:
why？还只是理论上的可能性？有两个台办么？文革中的确有过两个司令部，但那是非常时代。

白:
我是好奇，为啥一个无主的选择会优于一个有主的选择。难道你是推理了没有两个台办才往后走的么？

李:
没有推理，I was kidding。合成词：台办+主任，优于被 determiner 直接修饰。汉语中合成词的构成优先于句法上的chunking；不仅汉语，这是语言学一般原则：合成词处于 morphology 和 syntax 之间。

白:
也就是说，局部的优先关系已经把别的可能性扼杀了？不把其他选择往外传？

李:
这个原则上是对的。

白:
比如“听说发文件的是台办主任吓坏了”，肯定分析不对了？

李:
这个...人理解也有歧义。
不怕献丑了:

白:
不太通

李:
的确不大通。这个 parse 是说，“是台办主任吓坏了”，“听说发文件”是一个诱因。不是完全不可能，但对里面的小词 “de” 和 “是”，parsing 有点走偏了。做这些小词，分寸很难掌握，稍不留心就过火。

白:
“去了趟台办主任更神气了”如何？没有小词了。

李:
白老师不要逼人太甚 :=)
没有小词了，但你为啥不加逗号，不加标点也罢，给个 SPACE 也好。

白:
学意识流。

李:
存心难为 parser：

wrong，as expected

白:
意料之中，构词法一上，木已成舟。

李:

see 你若规矩便是晴天！
一个小小的 space 有那么难么？为啥意识流？ADD 了么？做系统的人都知道，没有没有软肋的。

白:
对。只是好奇。因为之前交流过能带着多种可能性往下跑的事情。

李:
只是分寸火候而已。原则上，合成词前置是合理的，好处远远大于副作用。理论上可以保留哪怕微小的其他可能性，待后处理。实践中，当断不断，终于自乱。哪些带着往下跑，哪些当断则断，也是一个火候的掌控。PP-attachment 这类我们是往下带的。太低的模块，一路带着往下跑，瓶瓶罐罐的，非常难缠。

白:
所以，先休眠再有条件唤醒，也是一策。当然这就要允许逆行。

李:
带着往下跑本质上也是一个组合爆炸问题，除非一边往下跑，一边卸包袱。
休眠唤醒是一个好主意，对于某些现象。我也试验过，用得好是有效的。

白:
段子大都是休眠唤醒模式。

李: 譬如一个 NP，内部的关系难以全部穷尽可能性，那就保留部分关系，然后到最后，可以重新进入这个 NP，根据需要决定重建关系。在这种情形下，问题已经缩小了，重建不难。甚至 PP-attachment 也可以循此道。譬如，一律让 PP 挂最近的 XP，成为 deterministic parse，到了语用和抽取的时候，再去重建其他的 parses，这时候语用的条件进来了，先前被休眠的可能 parse 就可以复活。

白:
武断和文断的区别…… 武断是效率的保证，休眠唤醒是兜底的保证。

李：
段子的休眠唤醒说明，人的大脑认知也是先入为主的，很多时候是武断的，不过是允许反悔罢了。这种反悔有类似以前的 backtracking 的地方，但是实践中并没有那么大的 costs。

白:
看是哪种实践了

李:
因为在语用层面做反悔，基本上是已经聚焦了以后的反悔。这种聚焦最经常的方式是词驱动，因此，需要反悔重建的现象大大缩小。

白:
不同商业模式下，价值取向有差异是正常的。

李:
如果大海一样全部来反悔运动，还不如一开始就全部保留。幸运的是，绝大部分应用，语用与语法是可以分清界限的。

白:
反悔是白名单驱动，武断是标配。

李:
标配就是统计可能性大的，或者是遵循普遍原则的，譬如合成词前于句法。

白:
对

李:
任何原则或 heuristics 都有例外，到了例外，如果有一个反悔机制最好。

白:
给一条反悔的通道，但是慎用。

李:
与此相对应，还有一个例外排除机制，就是先堵住例外，然后做标配。这个办法比反悔更费工。只有在具有类似 Expert Lexicon 的词驱动的例外机制的时候，才好用。

白:
提醒一下，词驱动是取决于双因素的，不仅要看trigger是啥，也要看休眠的是啥。另外休眠的东东即使不参与分析，也可以自己做弥漫式联想（不同进程或线程），类似认知心理学说的阈下啥啥啥。这样trigger就可以提高命中率

李:
弥漫联想再往下就是弗洛伊德了。

白:
对。
词驱动这种“相互性”我举个例子就明白了：我家门前的小河很难过。
“难过”具有长词优势，“难/过”休眠了。但是，“过”弥漫式联想，激活了“过河”，于是开始反悔。直到“难/过”翻案成功。

李:
好例。“过河”与“洗澡”一样是分离式合成词，属于动宾结构。凡是可以词典化的单位，休眠重启不难实现。因为词驱动的可能性都是有限的，而且可能性都可以预先确定。以前提的“睡过”的歧义也是如此。

白:
trigger有外因有内因。外因就是更大整体的句法、或语义、或语用产生不匹配等，内因就是当事的成分自己或静态、或动态地展现出结合的可能性。休眠情况下，静态不可能。动态，相当于休眠的成分梦游了，在梦游中邂逅了。那个“夏洛特烦恼”，也是上下文给了“夏洛”独立成词的某种强化，回过头来唤醒了“特”作为副词的已休眠选项。或许，作为副词的“特”正在梦游。

说了半天，还不是为了尼克

李:
对了，忘了尼克究竟是不是actor了，丫保持缄默，怎么讲？贿赂完三X光碟，在一边偷着乐吗？

（i） "这是我与领导的聊天记录"
（ii）“我与领导的聊天记录得详详细细”

两个休眠唤醒策略：

其一是，“聊天记录”做合成名词，到第二句的某个阶段，把“记录”分离出来做谓语。
其二是，“NP【我与领导的聊天】VP【记录】” 先做成句子（CL：Clause），然后，在第一句解析的某个阶段，再改造这个 CL，成为 NP，主语于是成了修饰语 M：

得字结构无动词谓语可以附着，是 trigger 休眠唤醒的契机。

NP +【得详详细细】：把 NP 内头词的潜在动词性唤醒，分离出来做谓语，非常有道理。新媳妇嫁错人家了，可以抢出来再嫁，没必要嫁狗随狗。

白:
得向左还是向右，是一个问题

李:
虚词而已，左右无所谓，反正是敲门砖，用完了就扔（X）。

2016-1-27 15:46 |首发科学网—《泥沙龙笔记：parsing 的休眠反悔机制》

【相关】

科学网—【立委科普：结构歧义的休眠唤醒演义】

科学网—【立委科普：歧义parsing的休眠唤醒机制再探】

【一日一parsing：休眠唤醒的好例子】

【NLP随笔：词法内部结构休眠，句法可以唤醒】

【李白95：走在路上......】

李:
走在路上，琢磨句法的事儿。

句法任务如果要分解的话，可以这样来看：

1. 谁与谁发生关系？
2. 关系中谁主谁副？
3. 发生关系的次序。
4. 发生什么关系：进一步可分
4a）词法的；4b）句法的；4c）（逻辑）语义的；
4d）话语的（discourse：譬如话题）；4e）领域的（譬如 IE）。

自然，到了领域，其实已经超越了句法范畴，进入语用了。但语用本质上还在句法的延长线上，正如 discourse 关系解构也是句法的延伸一样。逻辑语义通常被认为是句法深度解析的终点。

白:
2可以推出3？被吃掉的就是副的。除非多爹的情况，一副多主。这时出现交叉，画括号也不都管用。没做成主做了副的邻居，会把做主的额度过继给自己的主。

李:
这四点相互关联，但也不妨适当分开，各个击破。

1+3 的任务可以定义为打括号，找分界点。有了 1+3，2 就可以推出来。反之，有了 1+2， 3 也应该可以推出来。

关于1，我们通常的（PSG式）思维定势就是，看哪类词与哪类词发生关系：

S --》 NP VP
NP --》 Det N

之类。这是预设邻居不发生关系，除非发现了关系。可以叫做【兔子不吃窝边草预设】。其实，我们的语感和大量的语料事实告诉我们的，是与语言学家和乔姆斯基相反的一个预设：邻居总是发生关系，除非发现他们老死不相往来。日久生情是人之常理，语词也是如此：远亲不如近邻，做邻居自有做邻居的道理。摩肩擦踵坐怀不乱，是例外，不是常态。这个预设可以叫做【邻里友爱预设】。这个预设的一个强有力的证据就是，即便是所谓语序自由有丰富形态的语言如俄语、世界语，发生直接关系的语词仍然在邻里之间为多，真正的远距离勾搭很少，并不比语序固定的语言相差太多。

根据【邻里友爱预设】这个原则去做 parsing，可以第一步只找例外，也就是找分界点。譬如中文里面的 “也/都/还” 这些词就是：这些词往往是主语谓语的分界标志。它们对左邻居没有丝毫兴趣，总是像个门卫守护着右邻居。比较下面的 minimal pair：

你走好
你走就好。

可见“就”这个小词的分界作用是如此之大。对于“你走好”，可以假设 “你-走” 发生关系，“走-好” 发生关系，这个不需要规则，这是标配，形式化标注可以是下列三种之一，都大同小异：

PSG1：（（你 -- 走）-- 好）
PSG2：（你 --（走 -- 好））
DG：（你 --（走）-- 好）

重申一下【邻里友爱预设】：只要挨着，不分阴阳男女，都会发生关系，除非遇到了 “就” 这样的 outlier：“你走就好”。（你 -- 走） no problemo，*（走 -- 就）就不行了。（就 -- 好）可以发生关系，但前提是 “好” 没有其他可能了：

你走就好运作了。

（你 -- 走），OK；“就” 挡道，跳过。（好 -- 运作）与（运作 -- 了）都可以，对于 DG 无所谓。

（（好 -- 运作）-- 了）
（好 -- （运作 -- 了））

“朋友买的”，的字结构 OR 语气小句？

A：朋友买的
B：朋友买的什么？

小句 desu。等价于 “（这是）朋友买的”。

A：朋友买的 ......
B: 朋友买的难道不好？

搞不清是小句还是名词性的字结构，如果是前者，等价于 “朋友买（这事儿）难道不好？”。如果是后者，说的是 “朋友买的（东西）难道不好？”。虽然说有差别，但人好像不 care，而且也的确多数时候无法区分。所谓变色龙即是如此：CL_or_NP（CL：clause）。

“烤白薯”的故事，以前说过，NP OR VP？

A：我吃了烤白薯。
B：吃了白薯啊，好羡慕。

NP desu，因为“吃”的只能是“物儿”（NP），不能是“事儿”（VP）。

A：我喜欢烤白薯。
B: 你喜欢烤白薯这事儿呢，还是喜欢烤过的白薯这物呢？

这儿的变色龙形式化就是：VP_or_NP。

白：
只在的字结构反填“买”的残坑这个环节有微妙差别，外部没差别。的升格是一样的（自修饰）。填的的坑的萝卜是一样的。

李：
一个是V（事儿）一个是N（物儿），与“烤白薯”有异曲同工之不妙：“喜欢烤白薯”。究竟喜欢烤还是喜欢白薯？关键是 who cares，90% 的时候听到上面的句子，听者不觉得有歧义，也不感觉诧异，只有语言学家逻辑学家这两家，吃饱了喜欢咀文嚼字瞎琢磨，感觉不舒服。

当年玩HPSG的时候，最喜欢 unification 系统的 typed structures 中的一条，就是 unspecified。做老实人，不知道就不知道，也不care。信息 unspecified，等到合适的时机，自然就被补上了。这是信息融合（fusion）的理想世界。太理想了，以至于很难落地，现如今是昨日黄花，无人问津了。

白：
不一样的就在于是不是回填“买”的坑。回填是在第三层了。第三层确实可以不 care。

买的回填买，也有不同解读。“买的是次品”vs“买的不如卖的精”。关键是“买”是双宾动词，标配坑太多了。一个被省略的成分还原回来已经是够脑补的了，再进一步脑补她带不带谓词性的坑，这会伤元气的。烤白薯毕竟真实的坑和模式在，无需脑补。

买的不如卖的精，租的比买的合算，这时是需要care的。

李：
买的（东西）不如卖的（东西）精吗？
买的（人）不如卖的（人）精吗？

买的不如卖的精明。
买的不如卖的精致。

白：
精到底是什么的简称，有标配的。非标配特征必须显性出现才激活。unspecified是保守策略。先标配，有trigger再翻盘是激进策略。难说保守策略就一定好，也难说两种策略就不能在一个系统里和平共处。

李：
unspecified 与 default fillers 可以也应该共处。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【李白92：自然语言漏得筛子似的，未必要补漏】

李:
火车上要注意安全，贵重物品随身带，行李箱放在能看到的地儿哈！贼春节不放假

乍看以为贼是修饰语一愣还有骂春节的呢。要是改成小偷就好了：“小偷春节不放假”。

严格说放假是个复合概念它挖了两个坑：【谁1】给【谁2】放假，就是
【谁1】放【谁2】的假。小偷是谁1 还是谁2 呢？好像既是谁1也是谁2 小偷通常是单干不成组织自己给自己放假。如果是盗窃团伙也许应该是谁2，需要头儿批准才能放假回家过个年。

梁:
“红杉树最便宜的是多少钱一包？ “ 新春快乐！！！

白:
咋不说中南海呢……

“睡觉我喜欢开着空调”“牛肉我喜欢三分熟的”两例中，“睡觉”和“牛肉”的句法功能相同吗？

宋:
什么是句法功能？主谓宾定状补吗？

白:
@宋柔如果是，该怎么定？

李:
句法不如逻辑语义容易有标准答案，因为句法是形式归纳，而形式归纳有不同的形式角度，所以句法学家特别爱吵架历史上甚至著名的语言学家之间也针锋相对，充满了不毛之争。逻辑语义则较少争议：人类趋向于有一把共同的尺子。

从词序的形式角度，从discourse的话题的表达，二者是相同的功能。从逻辑语义角度，则差别很大。

这个句首的 Topic 与句末的“的字结构” 是回指的关系，因为的字结构里面的 AP 与 NP 有逻辑修饰关系。

白:
相同之处都是把被修饰语前移为话题，不同之处是一个体词一个谓词。只画树，难以体现话题跟谁关联。

“那些字帖我只临了王羲之的。” “王羲之的”并不修饰“那些字帖”而只修饰“字帖”。

树藏起来了很多东西，不能作为讨论的基础。

李:
句首谓词比较讨厌，可以说是话题，但具体逻辑语义可以表示条件、时间、伴随情况等。

睡觉的时候，我喜欢开着空调。
睡觉的话，我喜欢开着空调。

白:
关键是，谁睡觉？至于睡觉和开着空调什么关系，在句法层面才真的不重要。二者搭上扣（有关系）即可。但是谁睡觉，过这村就没这店了。

李:
不重要。
甚至谁开空调也不重要。非谓语动词省掉主语是有道理的：我喜欢（我 or 别人为我 or 机器自动）开着空调。

白:
“着”表遗留状态，谁造成状态确实不重要。“门开着”天生就是自足的，不需要额外萝卜。睡觉不同。“墙上挂着画”谁挂的也无关紧要。

李:
一般认为主语可以顺着梯子下：“我喜欢游泳”。

白:
穿透

李:
谁游泳？尽管是个很无聊的 “理解” 问题，大家通常认为是 “我”：我喜欢我洗澡（其实加了“我”逻辑语义是全了，听上去反而别扭，或增加了言外之意：我喜欢自己洗澡，不喜欢人家给我洗澡）。

可是：“我喜欢下雪”。谁下雪？老天、上帝，反正不是“我”。

白:
下雪❄已经针插不进水泼不进了。来个老天也只能是状语。

李:
我喜欢反右。谁反右？其实是组织群众最终是领袖。
md 我其实恨透了反右。自己就是个右派只不过生不逢时没下地狱。

白:
“我恨透了做家务”，好象不是恨别人做家务唉。

李:
如果省掉 “做”呢？“我喜欢家务。”

白:
没有做，就没有穿透的问题。

李:
这个“做”都无关痛痒更崩提“谁做”了。总之语言不像逻辑那样完整自有其道理。逻辑不必分轻重主次讲究的就是完备自洽。而语言漏得筛子一样却有效传达了语用的需求。

白:
各坑有各坑的权重。算术往往比逻辑聪明。应该有相应robust的逻辑联结词，没有是逻辑不尽责。比如我上次说的，超过三分之二的布尔变量取值为真。还应该有不拘泥于语序的符号连接运算。这些都需要改造逻辑、改造形式语言理论。可以有不刻板的逻辑。可以有允许灵活语序和自由省略的形式语言。

李:
自然语言最大特点还不是歧义而是不逻辑常省略含糊其辞。交流的常态就是说者糊里糊涂说听者糊里糊涂听，奇的是二者还不觉得糊涂可以一样谈得热火朝天酒逢知己。

梁:
对，使用语言，是为了有效传达信息。你已经知道的，我就不说了。什么不知道，你问我呀，等会我补上就行了。

李:
除了语言学家和段子手没人在乎细节不 care 语义模糊。正常交流中 90% 的含混之处双方都不感知，只有少数的细节感兴趣了，于是发现含混，要求澄清。

于:
@wei 日常谈话语义并不模糊。@wei 省略并不意味含混

李:
省略和歧义都是含混的缘由。省略了，就有个默认标配。而标配在共同体宏观上有一个约定的填补但在个体之间未必一致。省略在语言学上叫零形式，因为形式为零理论上无法不导致含混，至少是留下了争论的余地。段子当中很多这种例子，捧哏的突然不捧了处处别扭，把所有的标配推翻。

白:
一般是抬杠的余地。对标配不合作，总是可能的。

李:
是啊显性形式就堵塞了这个漏洞没有含糊的余地。法律文书很讲究这个，结果读起来就不像人话。

日常对话：

a 打败了打败了
b 好哇好哇真太开心了

a 你开心啥？
b 不是打败了吗？

a 是啊你们队打败了
b 好哇。对了，打败了谁家？

a 我们队打败了
b 好哇一样值得庆贺

a 你们队败了我们队打败了你们队快快喝一杯
b ……

于:
@wei 省略是因为对方知道。如果把所有信息补齐，就太啰嗦了，对话根本进行不下。

李:
子非鱼啊。你怎么知道对方知道即便你以为对方知道？

于:
@wei 如果对方不知道，大多对话就结束了。当然教育除外

李:
上面的多轮对话互相并不知道也一样没结束

白:
有sentiment，一样可以做出猜测，只不过猜测一直在动态修改。
胜败，与喝彩，的传导路径。谁是哪一头的，可以顺着这个传导路径慢慢明晰。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【李白91：休眠唤醒需要打离婚证】

李:
以前说过，local n元组搞定分词，通常认为n等于5足够（5-gram 平天下，见【李白71：“上交所有不义之财！”】）。今天有个例子，可以看看 bigram trigram and 10+ gram 的各自说法:

这所以自由时尚叛逆和反潮流著称的学校连塔也不得雍容。

Bigrams：这所所以 ……
trigram：这所以 ……
10+ gram：以 …………著称；这所…………学校

毛估估一下这场分词拔河赛的力量对比：“这所” 和 “所以” 单算的话，大概势均力敌，感觉 “所以” 稍微更强一点。到了trigram “这所以” 形势基本明朗了。【这所/以】（or 【【这/所】/以】）远远强过【这/所以】，虽然小概率反例会永远存在。到了 10+ gram，由于框式结构的搭配要求， “以 ……著称”（介词动词搭配）和“这所……学校”（量词名词搭配），【这所/以】的分词及其解析，占绝对优势可以板上钉钉了。

可是谁等得起 10+ 呢？或者我们找到一个投机取巧的算法把搭配距离缩短，或者咱就将就在 ngram （n 小于等于5）里面玩分词。原句（from yours truely today）以及插图（courtesy of yours truely too）是：

“一直觉得作为地标这塔缺了点啥想来是太过苗条。这所以自由时尚叛逆和反潮流著称的学校连塔也不得雍容。”

白:
还有“所……学校”之间的chemistry。强化所/以分离

李:
都是远距离。所以得有个合理的距离缩短机制：

白:
距离拉近时和平分手即可。

李:
和平分手很难有一屁股屎要擦：（i）“所以” 先成了连词后，要保证里面的两个词素仍然看得见这是其一。（ii）尝试分手的时候要一分为二，数据结构凭空要多出一个 token 出来。（iii）一分为二各就各位以后，要重新查词典得到各自全新的特征。（iv）然后才是参与到 parsing 去，该搭配搭配。哪里那么容易分手啊，离婚证也不好领。如此“休眠唤醒”（？？？），对平台很有要求的。

一个方案是，所有的多字词在一开始就把每个字当成 token 进入数据结构，然后把初步的词典为基础的分词当成是合成词的“绑架性”黑箱组词（组字成词，而不是切词），组词以后，由于黑箱原理，立马屏蔽下层的词素使不见天日，让其休眠，以防添乱。这样的话休眠唤醒一分为二的时候就不需要从根基上动土。但这种处理在单字层做了太多的虚功。不是完全不可行，但也没见人真地践行到 real life 系统去。

白:
退一张北京到上海的票，可以卖北京到济南和济南到上海两张票。12306都能搞定的数据结构，很难么？“所/以”这一近距离无优势而有远距离呼应可能性的分词方案，相当于分别挂两个订单，如果这两个都找到买主，我就退票。

所不是量词的情形也有可能：“他所以为荣的那点本事，早就过气了。”

所有认准一条标配的道儿，但不准备走到黑的，都可以挂出反悔订单，外面时机成熟了，立刻造反。

组合订单（多笔交易要么同时成交要么同时撤销）必然引入同步，同步必然损失效率。所以一定是trigger驱动，而不是挂单驱动。无 trigger则无时间开销，至于空间开销，那是毛毛雨。

李:
trigger word driven？以前我主张的休眠唤醒之术，就是trigger词驱动（见【歧义parsing的休眠唤醒机制再探】的“难过”）。

不过，关于时间空间开销其实好像都不是事儿。fact of life is 比起图像比起语音，比起当今有如军备竞赛一样地使用计算资源的那些 monsters，动辄成百上千的GPUs集群，目前的 NLU 太小儿科了简直像过家家。给个 high end pc，就乐颠颠地研发或耍弄 deep parsing。老朋友那天跟我说，现在的问题是给你100万倍的计算资源你能做什么？我懵了打死我我也用不了这多资源。只会螺丝壳里做道场玩具一般。还梦想着建通天之塔探究人类语言最微妙的奥秘。

郭：
机器翻译，用的计算资源也不少。

李：
那天说了神经mt与语音转写同理已经不是 nlu 了：都是鹦鹉学舌离开理解越来越远。看看这篇分析：

The Shallowness of Google Translate

It’s pretty lengthy. Pointing the fact of no understanding in deep learning. We all know it is true. What we did not know was how far a system can go without understanding or parsing on an end to end deep neural network modal. All criticisms here are valid but still MT has never been this impressive and useful in practice unless you make the wrong choice to use it for translating literary works or for translating domain documents where it has no human translation data to learn from.

他说机器不过是处理了符号序列它根本就没有丝毫 reading 的真实能力。reading、 parsing 和 comprehending 及 understanding 在英语都是一个意思。是 Elisa 效应让我们以为它理解了就跟领导在家老跟宠物牛顿说话坚信牛顿能听懂也能表达尤其是肚子饿的时候牛顿表达能力惊人的丰富。牛顿的表达能力虽然只是 meow 的不同变体领导声称可以解码。

“传统” AI 和 NLU 就是理解了吗？也难说因为符号体系内部也是人类自己跟自己玩。好的符号体系更像是好的助记符摆弄出貌似逻辑的推理链条来具有算法过程的透明性如此而已。但起码这看上去还在模仿人类的理解和思维。

理解的根基是举一反三高度概括以有限对无限所以不需要大数据大计算大记忆。建立在三大基础上的深度其实是靠蛮力。不是举一反三而是举一百甚至上千也未见得就能返一。

【相关】

【李白71：“上交所有不义之财！”】

【立委科普：结构歧义的休眠唤醒演义】

【立委科普：歧义parsing的休眠唤醒机制再探】

【一日一parsing：休眠唤醒的好例子】

The Shallowness of Google Translate

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【尼沙龙笔记：宁顺不信，神经机器翻译的成就和短板】

大赞了神经机器翻译的革命性进步以后，提到两个短板其一是不忠：无中生有或化有为无以假乱真指鹿为马胆大包天。其二是依赖领域数据没有数据的领域立马傻眼。

李:
我用有道app里面的口译功能测试了一下字正腔圆的做节目的人，【文昭談古論今】，一边在 youTube 上看他的视频，一边把有道打开做现场口译，几乎完美无缺。

毛:
同声传译，以后是不需要的了。

李:
识别我的口音还是有误：识别我的英文比中文似乎更好一些。上面的那位是自媒体里面的很受欢迎的一位，文科背景，出口成章，比播音员说话还清晰。

语音识别的两个明显错误：neural network 错成了 neutral network，text 成了 tax（税），大概是我的英语发音的确不够好。但总体而言，句子蛮长，一口气说一大段，它也一样即时翻译（通过wifi接云端，立等可取）。

哈，text 与 taxi（出租车）也打起架来：

从这些人类不会犯的错误看，神经 MT 的巨大成功，与语音转写的巨大成功，完全是一个道理，都是在真正的海量数据中模仿，而没有任何“理解”。不合逻辑不合事理的句子会以一种蛮“顺耳”的方式呈现出来。

尽管如此，我们当年还是没想到，在没有解析和理解的前提下，这条路能走这么远。很久以来，我们的信念是，没有理解，无从翻译。鹦鹉学舌，可以学几句零碎的片段，但绝不可能把如此复杂的自然语言，学得如此栩栩如生。但事实上，“鹦鹉学舌”方式，在强大的数据和运算能力支持下，的的确确可以做到在很大的范围几乎可以以假乱真。

短板也是显然的，没有数据的话，再强大的运算也培训不出一只鹦鹉来。譬如，电商场景的机器翻译，由于缺乏汉英对照的大数据，就寸步难行。

下面是我说中文，让有道口译为英文的试验：

“二次大战”先转错为“20大战”，继而又错译为 “20th centuray”。这个错误很值得评论，说明了神经翻译为什么求得了“顺畅”牺牲了“忠实”。我说的是“大约是在二次大战以后”，虽然转写就错了一个字，成为“大约是在20大战以后”，翻译却错得离谱：这不是原来意义上的错误放大（error propagation），而是目前神经翻译“乱译”趋向的一个表现，by design：这种乱译的确在很大程度上克服了上一代统计机器翻译“不顺畅”的致命缺点。

“乱译”（或者“顺畅”）的根子在，目前的机器翻译里面有专门针对目标语的语言模型在，不仅仅是双语对照模型。目标语的模型里面“beginning of 20th century”一定是足够的常见，被记住了，所以尽管原句是“20大战以后”，它也一样无视（“大战”居然摇身一变，成了 century，是为指鹿为马，“以后”弄成了其反面 beginning，这简直是颠倒黑白），如果是前一代统计翻译（statistical MT），或者前前一代的规则翻译（rule-based MT），这种错误绝不会出现，应该是译成 “20 wars later”或 “after 20th war”之类。可是目标语训练数据中根本就没有这个 “20 war” 这样的提法，与其忠实而别扭，不如化有为无或无中生有，甚至指鹿（20 war）为马（20th century），以求“顺畅”。这是目前机器翻译的短板，已经被很多人察觉和批判，研究界也在研究对策。

也就是说，为了“顺畅”，目前的系统可以无视原文中的一些材料。同样为了“顺畅”，译文也可以无中生有加一些材料。这对不懂原文的人可能非常误导：批评者说，找翻译本来就是因为不懂原文，结果你翻译出来，听上去那么顺畅，让我不得不信，可其实你暗度陈仓，居然敢于胡编乱造，这也太搞了吧。

这种批评当然言之成理，信达雅，信是基础，信求不得，达雅何用？无信，达雅反而更加迷惑人，不如不译。你无中生有了一个地方，让我怀疑你整篇都不可信了。这种想当然的胡编乱造真是害死人。

不过，其实了解历史和经历过机器翻译不同阶段的人，会有不同的角度。实际是，前两代机器翻译的译文大都惨不忍睹，在可读性和顺畅上没有根本的解决途径（点滴的积累式进步还是有的），虽然意思也能勉强传达（就是说不会在“信”上胆敢无中生有或化有为无）。这个问题是如此严重，以至于影响了很多人使用机器翻译的意愿，除非是不得已，因为看机器译文实在是太别扭，太难受了。

毛:
能把谎说圆，这不正是逼近了人的智能吗？

李:
@毛德操问题是，鹦鹉学舌，哪里有什么“把谎说圆”。机器不会说谎，正如机器不会说真；同理，潜艇不会游泳。无中生有是真的，但“胡编乱造”不过是个比喻说法。机器没有歹心，正如机器没有良心。因为机器根本就没有心。有的不过是记忆和计算而已。硬要把计算说成智能，硬要把比喻当成真相，那也没辙。乔姆斯基的态度是，不理睬。还好，当年创造的是“人工智能”这个词，脱不开“人工”、“人为”、“模仿”的涵义。如果先驱们当年达特茅斯开会，不小心起个名字是“机器智能”，那可就糟透了。

Nick：
@wei 英国最早的说法就是machine intelligence。大概到七十年代才开始被美国带成人工了。

李：
达特茅斯会上呢？

马：
达特茅斯会上，还有一个词是复杂信息处理，不过最后还是AI占了上风。

李：
先驱们蛮“接地气”啊。其实，“复杂信息处理”很中肯，符合术语命名的严肃性。AI 还是太过“性感”了。

机器翻译更惨，很长时间是 “自动翻译”、“机器翻译” 混用，后来基本统一为机器翻译，因为自动翻译有多种用法什么全自动翻译半自动翻译等等。当然较真的话，自动翻译比机器翻译还不堪。其实应该叫做随大流翻译，或者叫做 NLU-free translation，简称无智翻译，and I was not kidding.

Nick：
自动/机器定理证明。mt就不太好说artificial translation，中文更不能说人工翻译。artificial本来就有点瞎编的意思。

李：
其实还真就是 artificial，本来就是仿造啊。译成汉语是仿人翻译。没有人的翻译样本，大量的样本，当今的MT根本就不可能。

马：
AI翻译

李：
人工智能其实应该翻译为人造智能。人造翻译（或仿人翻译）与人工翻译可大不相同。但取法乎上仅得其中的古训不大灵了，古训忽略了量的概念。被取法者足够大量的时候所得不止于中。AI 代替中庸势在必行。取法乎众可得中上，这是事实。但最好的机器翻译不如最好的人工翻译，这也是事实。因为后者有智能有理解。而前者虽然号称神经了，其实连“人造的理解”（譬如 NLU）都没有。

现如今人工智能好比一个性感女郎，沾点边的都往上面贴。今天跟一位老人工智能学者谈，他说，其实人工智能本性上就是一个悲催的学科，它是一个中继站，有点像博士后流动站。怎么讲？人工智能的本性就是暂时存放那些机理还没弄清楚的东西，一旦机理清楚了，就“非人工智能化”了（硬赖着不走，拉大旗作虎皮搞宣传的，是另一回事儿），独立出去成为一个专门的学科了。飞机上天了，潜艇下水了，曾几何时，这看上去是多么人工智能啊。现在还有做飞机潜艇的人称自己是搞人工智能的吗？他们属于空气动力学，流体动力学，与AI没有一毛钱的关系。同理，自动驾驶现如今还打着AI的招牌，其实已经与AI没啥关系了。飞机早就自动驾驶了，没人说是人工智能，到了汽车就突然智能起来？说不过去啊。总之，人工智能不是一个能 hold 住很多在它旗下的科学，它会送走一批批 misfits，这是好事儿，这是科学的进步。真正属于人工智能的学问，其实是一个很小的圈圈，就好比真正属于人类智能的部分也是很小的圈圈，二者都比我们直感上认为的范围，要小很多很多。我问，什么才是真正的恒定的AI呢？老友笑道，还是回到前辈们的原始定义吧，其中主要一项叫做“general problem solver”（西蒙 1959）。

马：
是这么回事。11年写的一篇博客：人工智能，一个永远没有结果的科学_马少平_新浪博客。

李：
好文。马老师科普起来也这么厉害啊堪比白居易写诗老妪能解。有说服力而且生动。

“11年写的一篇博客”。走火入魔第一眼看这句我无意识把自己变成了神经网络网络里面是这样编码的：“11 years ago 写了一篇博客”，宁顺不信。我的大数据训练我首先排除了 2011 的选项然后无中生有加了个 ago 以求顺畅。摩登时代，忠实值几个钱？忽悠才是摇钱树。

马：
用时11年，?

洪：
人工智能是江湖，八仙过海都威武。武侠人物不绝出，很多虚晃都诈唬。

AI像狗头前置棍，棍拴骨头引狂奔。确实因之人前进，精髓却总不得啃。

李：
洪爷的诗没治了，大AI无疆，无处不诗啊。

回头说宁顺不信。两相比较，平心而论，对于多数人多数场合还是顺畅的权重似乎更大。只是需要记住三点：（1）认真使用前，需要人工核对：机器译文只是提供一个快速浏览，了解个大概的选项，虽然总体的忠实比例其实不差，但任何一个点都可能错得离谱；（2）翻译工作者如果不学会利用机器翻译，与机器合作提高效率（要善于做核对和后编辑），很可能不久会淘汰：实际上翻译的工作市场已经急剧萎缩中，有道本身提供的人工翻译已经快速便宜到不行，可见能够生存下来的少数人工翻译一定是学会人机合作的工作模式的。（3）AI 还在飞速发展中，让我们拭目以待，看今后的系统能不能在信达雅三者之间做更好的平衡。可以想象的一个可能是，将来的系统至少可以让用户在“忠实”和“顺畅”中做权重的选择：根据偏好的不同，系统应该可以做不同的翻译：偏重忠实但生硬一点的选项（就是鲁迅曾经践行过的“硬译”），或者偏重顺畅却可能局部不忠实的选项。

The Shallowness of Google Translate

【相关】

【校长对话录：向有道机器翻译同仁致敬】

人工智能，一个永远没有结果的科学_马少平_新浪博客

【谷歌NMT，见证奇迹的时刻】

The Shallowness of Google Translate

有道的机器翻译（http://fanyi.youdao.com/）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【语义网笔记：本体是名门闺秀，门当户对不容易】

AAAI 2018经典论文获奖者演讲：本体论的昨天和今天

李：
本体（ontologies）作为知识来源和知识基础道理上对于 AI 以及需要知识及其推理的智能系统应该广泛应用。但实际上使用却不多。作者指出了这个我们都意识到的问题并没给出清晰的解释。其实是有说法的。anyway AAAI 表彰这类工作是大好事。

漆:
Natasha这个工作在语义网还是有一定影响力的。她这几篇论文我读过，确实是跟一般做本体的人不一样，不是一个算法或者工具，而是一个工具群，而且还有医疗这块应用支撑。在本体匹配和融合方面的贡献还是很大的。当然，实用性应该也就那样了，毕竟还是大学的产物。

最近几年知识图谱兴起，本体也开始受到更多关注了，特别是palantir把本体用得很好，使得本体工程的实用性得到了更好的验证。但是本体构建的复杂度比较高，需要对业务和本体都有深入理解才能做好，这是本体工程的一个门槛。如何降低这个门槛，就是基于本体的知识工程实用化必须解决的问题。首先需要有一个很好用的工具，其次需要有好的知识工程师，工具演化，工程师的门槛就越来越低，否则工程师门槛比较高。

李:
其实无数系统都在用本体，不过大多是 system internal，临时自己凑的。因为外面来的太厚重往往不接地气不好用或者 learning curve 大。

漆:
以接近需求为驱动做的，丑点无所谓

张:
就像每个人都有自己的世界观和概念体系一样

李:
自己做虽然不系统但不妨根据需要慢慢丰富。用到 features 并对 features 做某种组织的系统基本都在不自觉地用本体，这类系统多如过江之鲫。

张:
就像科班出身和自学成才的区别

李:
外来的为什么不好用，不仅厚重，而且常常歧义太多太细用到的概念关键的节点和链条不多却带过来一屁股屎擦不干净。

张:
总是需要消化吸收

李:
我有切身体会。当年用 WordNet做NLP，先是想改造用了一年发现这屁股永远擦不完。索性横下心删除连洗澡水把那孩子也倒掉拉倒。然后自己从头开始往里面零星凑等于自己做个试管婴儿。清爽多了。

从 NLP 用途看，董老师的 hownet 比 wordnet 强多了。就是这样要以为拿来就能得心应手也会失望。善用和改造一个外来本体需要很多功夫和经验。本体还在积累和探索阶段，还没到知识大爆发其效用的时候。

秦:
对。知识工程学科贡献度太低了，这是不应该的。

李:
人工的本体语义大师们的几十年、一辈子的作品，往往为了逻辑完备性做得太精巧太细线条 hence 太歧义。高大上就不容易接地气不那么好用而且厚重（本体的本性）。机器自动挖来的本体，譬如当年微软NLP根据词典定义挖出来的 MindNet，太粗糙太庞杂或太多 noise，二者对于一个需要做实际系统的人来说都不那么好用。问题是，做实际系统的人面临的是领域问题本身有很多事儿要照顾本体只是其中一环很难兼做本体专家的工作。而本体是厚重的 by nature，也是自己的一滩对于专门家的素养要求很高。两路专家理论上应该精诚合作方成大事实际上却很难。你做的我感觉大炮打蚊子使不上力。我需要的跟你解释不清楚。提供方与需求方不接轨。造成了重复劳动各自为政。这种矛盾太普遍常见了各种对齐标准化都是试图解决它的某种努力但总体而言还没到本体大显神威的时机。

本体就好比一个名门闺秀高不成低不就，应用就好比一个暴发户，看着闺秀流口水，可是没有好招儿娶进门自己土包子吸引力也不够。只好自家养个童养媳，虽然土气点儿不性感也不大拿得出手上不了厅堂不好示人。但下得了厨房好使唤脾性也对路凑合过日子呗。

据说宋庆龄宋美龄这些大家闺秀都遇到过本体同样的困惑和苦恼。幸运的是两个人最后各自找到了一个可以做自己爸爸或者叔叔的盖世英雄。否则难以想象其高不成低不就的困境如何破局。

HowNet，Cyc，还有 FrameNet 都有类似的苦恼。一律是大师所为，曲高和寡，一律没有得到预想中应该得到的广泛应用（参见：《语义三巨人》）。反倒是领域的实体知识图谱，开始显示了巨大的应用价值。背后的本体却不见天日。可不少人还是隐隐觉得本体是蓄势待发。

【相关】

《语义三巨人》

【NLP答问2：实体语义和逻辑语义】

新人:
就是觉得自己的问题有些太外行了，不太好意思随便问

答:
外行内行，都是一个过程，只要有兴趣就好。《李白对话》天马行空，属老人促膝恳谈；也可以来一些答问对话，为缩小代沟做点实事。

嗨，上篇《NLP答问》刚贴到微博不到两小时，就2.4万阅读量了哈。可见答问的话题还是很符合公众兴趣点，人工智能教授马少平老师等有推荐和评论：https://weibo.com/2316531634/profile?topnav=1&wvr=6&is_all=1

你们说得都对//@南大周志华:目标代码吧，不是数据结构 //@马少平THU:用计算机实现不这样还能怎样？//@第五逻辑:所有的场景应用都是转化为计算机可执行的一种数据结构，这就是现阶段所谓的AI
@立委_米拉【NLP答问：关于parsing 和自然语言理解】
立委_米拉
7分钟前来自微博 weibo.com
不争论不争论。小平连大是大非姓社姓资都不争论，咱数据结构和目标代码有啥争论的。重要的是面对冰冷的现实，“这就是现阶段所谓的AI”，与自主机器人或机器智能没有一毛钱的关系，都是人类自己跟自己玩，机器不过就是玩具（或者也是吹牛的道具）而已。没霍金之流吹得那么高大上。

新人:
目标代码和数据结构不是一体的吗？

答:
CS的标准说法是：程序（目标代码）= 数据结构+算法

我们在讨论的时候，侧重点是“理解”的表达形式（representations），就是结构树（tree），或图谱（graph），强调的是数据结构的一面。“理解”作为（智能性）动词，当然有算法的一面。所以周教授说是目标代码，才全面。

新人:
这样啊，受教了

答:
数据本身不一定是可执行的代码。结构树不过是“理解”的一种内部表达，无论是达成这个理解的过程（parsing），还是利用这个理解去落地到应用（semantic grounding to applications），都有一个NL算法的事儿。

前者（parsing）在我这里就是 cascaded FSA++ 的实现算法，后者（落地到信息抽取和数据挖掘场景）就是一个 subtree matching 的算法。这是就关涉算法的机制（formalism）而言，其实利用这个算法机制对系统各个模块以及模块中问题的处理过程，也还有个语言学算法的思路在内，不仅仅是在多层系统里面先做什么后做什么，还有各种数据流接口的设计等，如何防止错误放大，如何协调共性和个性，都与算法有关。

新人:
结构树是“理解”的一种内部表达，这个内部表达中已经包含语义的部分了吗？还是说语义包含在另一种内部表达的形式里，多种结构组成了“理解”的形式？

答:
结构本身就是最重要的语义部分。这是语言学的常识，也是多数计算语言学家的共识：学界术语叫 semantic labeling，在中国的NLP界，由于董振东前辈30年前的创新研究，这个语义被命名和普遍接受为“逻辑语义”。理解了一句话，最关键的就是要搞清楚一句话里面的那些语词概念的逻辑语义角色：【谁】（逻辑主语，施事）【对谁】（对象补足语）【做了】（谓语）【什么】（逻辑宾语，受事），【何时】（时间状语），【何地】（地点状语），【如何】（方式状语），【为什么】（原因状语）等等。

深度解析（deep parsing）所建立的结构树或图，就是要填写这些逻辑语义角色，填写好了也就是达成了语言理解的核心。

新人:
实体语义对于理解一个句子不重要吗？好像绕回了之前说的WSD那篇…（【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】）

答:
什么叫实体语义？实体对应的是NE或NP，在句子中就是一个元素。在知识图谱里面，表达成一个画像（profile），uniquely 对应了真实世界的一个实体。

实体语义的重要是在领域落地的时候，而在领域独立的语句分析阶段，只要知道类别就好了，实体的语义或歧义（如果有歧义的话）可以先绕过去的。譬如，“约翰”这个实体，知道他是一个人名（NE）就够了，至于他究竟指的现实世界哪个实体，对于理解一个里面提到“约翰”的那个句子，并不重要。

但是如果要建立领域的知识图谱，实体语义就重要了，否则描述这个约翰的事件，张冠李戴到另一个约翰头上，语义落地的偏差就会把领域知识图谱（事件场景以及个人画像的语义网络）搞砸。

我这篇【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】）文的本义是说：WSD 一般来说不是 parsing 的瓶颈，而是可以推后到落地的时候去做区分。

新人:
是，想了下，只有在具体场景下，才能讨论实体语义。

答:
换句话说，语言学意义的理解首先看到的是结构和角色（“项链”），然后才是角色里面的每颗“珍珠”。所以说 deep parsing 是自然语言理解的皇冠和核心，是自然语言落地的核武器。

新人:
感觉清晰了很多。终于不纠结实体了…

答:
关键是，实体的歧义通常不影响结构和角色定位（即逻辑语义），而一个语句与其他语句的语义区分，主要就是结构和角色定位。这里面细究的话，逻辑语义结构里面有核心和边缘的区分。核心就是所谓 argument structure，这是以谓词为核心挖的几个“坑”，需要实体参与者（萝卜）来填坑的的结构，表达的是语义主干：【who】 DID 【what】【to whom】这类。边缘的语义主要是可有可无的状语，可分为一二十种，表达的是语义的细节：时间，地点，条件，原因，让步，结果，程度，等等。

新人:
昨天插入语的那个badcase，是不是属于边缘的语义的部分？

答:
插入语当然是边缘语义，非常的边缘，提供某种语气。

新人:
感谢您愿意回答我这些基础的问题。我得赶紧补补课

答:
不必拘束。在你这个年龄段，保持好奇心和兴趣最重要，不要怕吃苦，一头扎进去几年，才能真正体味。我有个n万小时定律（《聊聊 NLP 工业研发的掌故》），虽然夸张了一点，但说的就是必须要有足够历练，才能一览众山小。

【相关】

【NLP答问：关于parsing 和自然语言理解】

【NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【李白洪87：人工智能，真的该让这样的哲学家走开】

李：
白老师在朋友圈转了一篇题目很吸引眼光的《人工智能研究中的“母语意识”刍议》，看了一半看不下去，太经不起推敲了。原来是哲学教授社会科学战线的。难怪。（说这话总有点对不住我社科院母校的感觉。）

白：
量词携带语义标签，与“条”搭配的一般是两维差不多短、一维明显长的物体。所以，苗条品种的狗（狼狗、牧羊犬等）论“条”，臃肿品种的狗（京巴等）论“只”才是地道的。要想挑战远距离相关的量词搭配，必须把干扰项放在合适的句法位置才有意义，文中构造的“条-狗”搭配虽然隔了21字之远，但干扰项“只”却并不处在合适的句法位置，也许正常的词法或句法处理就可以把它消化掉，从而起不到任何干扰作用。

李:
他是假设量词搭配的实现者没有 parser 和合适的分词系统，盲目寻找最近的直接量搭配。哲学教授的这种人工智能评论让人啼笑皆非。文中似是而非漏得像筛子一样的论点还有不少。譬如常识的自然语言偏见，要说常识与文化偏见还有可能有那么一丝丝纠缠的可能的话，说自然语言偏见带入常识就扯太远了。他还举例说计算机语言因为用了英语的一些词汇符号，因此也带入了英语偏见，这真是匪夷所思的论点。计算机语言的本性已经使得其词汇系统对任何自然语言偏见脱敏了。至于借用英语还是借用数字编号，不过就是个助记符的考量而已，与偏见何干？

洪:
@wei 作者徐英瑾复旦哲学教授，最近也写过篇评价尼克ai简史的文章

李：
@洪涛Tao 徐教授怎么评价的？无论臧否，凭他上文那样的见识，忍不住想到的就是，歪评三国。

谈人工智能，还是人工智能专家靠谱。哲学家企业家媒体人士包括名人（霍金等）很多不值得认真对待。最近有：CCCF：周志华 | 关于强人工智能，周教授这篇言简意赅是人工智能专家的科学普及。

洪:
徐英瑾评《人工智能简史》︱人工智能，真的能让哲学走开吗？_上海书评_澎湃新闻-

李:
哈哈， quote：“该书的第九章《哲学家和人工智能》主要就是为了挤对哲学家而写的，特别是为了挤对那些对人工智能有话要说的哲学家。这很大程度上也是基于国内大多数理工研究者对哲学的某种深刻的偏见，即：咱们的地盘，哲学家少插嘴。”

看完了。这个长篇评论蛮好玩，作为拼命要介入AI的哲学家的百般自辩，首先气势上矮了半截。@Nick Zhang 终于惹怒了哲学，而且在哲学界得到了免费marketging的效果。

这样见识的哲学家挤对都多余了。但愿还有其他的哲学家高人在。读到最后，我倒是同病相怜地欣赏他的结句：“一切逆风而行者的坚定，均来自对风向转变的信心。” 但仅此一句而已。

【相关】

【李白86：这是最后的斗争？】

宋:
“严正指出”中，“严正”有歧义；“严正说”中，“严正”无歧义，一定是人名。

李:
宋老师观察真切。这里面有什么说法怎样实现？

“说” 挖了个【human】的坑，人名就跳进去。“指出”也挖了个【human】的坑，所以，“严正”作为可能的人名也可以跳进去，是为歧义。

但作为副词的 “严正” 为什么可以修饰 “指出” 不可以修饰 “说”呢，虽然二者是同一个动词子类。通常的说法是，搭配使然。搭配说的是比类别（包括子类）颗粒度还要细微的词汇之间的语义相谐。“严正” 就是喜欢修饰 “指出”， “指出” 就是喜欢被 “严正” 修饰，对上眼了，之间有化学。这个倒也不罕见也有词驱动的实现方式。难点（或痛点）在为什么 “严正” 不可以修饰 “说”？

相谐的事儿一般认为是软约束，能谐自然好，不能特别谐的话，也可将就着，凑合一辈子的夫妻有的是。难道我们不仅仅要记住搭配，还要记住不搭配？实现的话，就是有无必要，既有搭配的白名单，也要有不搭配的黑名单（谁谁与谁谁就是互相看不上不共戴天）？开了这个黑名单的口子无疑给电脑处理也给人脑记忆增加了负担到底必要性如何？

当然还是大数据好说。如果大数据玩得转容易无缝连接的话，大数据中 “严正指出” 就是个 4 gram 出现频次很高，而 “严正说” 频次很低。但怎么知道前者是歧义后者不歧义？

“严正指出” 频次高因为副动组合出现多，外加少量的主谓组合。“严正说” 频次低是因为副动组合在这里遭遇不搭配陷阱，只剩下少量的主谓组合了。这些东西不是没有统计根据但要理清这些感觉好难。

白:
这里的搭配是词对词的，而不是特征对特征的。比如“老实讲”就没有办法为“严正说”的可接受性做任何贡献。虽然前者在大数据中频次不低。

李:
是搭配说词对词。
词与词搭配背后的关系怎么解？无监督大数据看得见搭配，看不见关系，除非变成有监督让人标注。如果 a 与 b 搭配只有一种可能的关系，当然就无需标注。有两种单看统计就难。

白:
有词典就可以看得见subcat，用不用subcat，（词对subcat或者subcat对subcat）由什么决定。

弹钢琴、弹琵琶、弹三弦、弹吉他、弹曼陀林

李:
打-酱油，吃-亏，...... 这些都是搭配，不用讲道理。

白:
这又离合词了。离合词不需要subcat。但是系统性的词对标签或者标签对标签，不一样。你词典里都有了，就是个拿来用的问题，也不用讲道理。

李:
所有词对词搭配离合不论都是词典绑架，要不要一个不搭配词典？里面全是例外是黑名单。好比两人结婚前请八卦先生算命，看相克不克如果克夫或克妻，坚决不能成婚。

标签对标签就是抽象语法条例。我们都知道那种东西就跟筛子一样到处是眼，但没有它也不行。要鲁棒要召回就要靠它。

白:
不要人来写

李:
于是可以把颗粒度变细，在抽象条例周围，前堵后补。也可以在条例里面做黑名单约束用逻辑与加逻辑非，难看一点但管用。词对标签同理，如果引入黑名单，也可以。这样来看似乎没有必要单单来个词对词的黑名单（不搭配词典）？

白：
否定的统计判断，是排除歧义用的。当没有歧义可以排除，这种东东还应不应该起作用，值得怀疑。

李:
我也怀疑。回到原问题：问题1，是要不要考虑加一个不搭配词典。问题2是，无监督情况下统计上相谐的词如果有歧义统计本身如何消歧？理论上后者也不是非监督就束手无策了。理论上，通过对类似的但不歧义的词与词的统计数据作为参照，可以计算出歧义词的歧义程度和歧义偏向，甚至不排除可以通过某种 propagation 来无监督地消歧。

白：
就算没标记，还可以根据embedding干点啥，还可以协同推荐。

李:
哈正是我想说的。
现如今 embedding 就好像上帝之手，啥事儿都可能，什么戏法都难保变不出来。

今天路上与郭老师还在说这些神奇事儿，翻译如今也不需要平行语料了，就在两个独立的语言语料里面训练，然后把句子一 embedding，二者就相互翻译了。（据说，一个双语的儿童就是这么学会两种语言，并自然切换或翻译两种语言的，儿童并不需要有翻译样板才学会翻译。）

更神奇的是翻译两端也不一定是自然语言， source 可以是语言，target 可以是图片，反之亦然。根据啥？ embedding。这么神奇的媒介语表达难怪人看不懂，人脑只能看懂 symbolic 的东西。

embedding 到底是不是真的这么神奇美妙先放一边，问题是其不可解释性看不懂怎么办怎么掌控怎么纠错。郭说谁让你看懂了？看懂了的东西怎么可能神奇？蚂蚁看得懂人类语言吗？人类读得懂上帝旨意吗？

也许我们天天鼓捣这些看得懂的符号逻辑，算计来算计去，全部是瞎操心，最多也就是过家家儿戏一样。

想想怪悲凉的。

白:
咋改抒情诗了？

李:
30年前入行的时候我们语言所有三拨搞 AI 相关的，每一拨都是中国AI的开山人物（现如今的中国AI史似乎抹去了这一页，其实这些老教授都是让人景仰的大师）：

第一拨是我的导师两位刘先生搞规则mt的，第二拨是范继淹先生的自然语言理解，是传统 AI 那套常识推理的符号逻辑，第三拨是语音合成，吴老先生和杨顺安。当年听马老师同学杨国文学姐介绍范先生小组的那套AI符号逻辑，心里很不以为然，觉得常识和推理很不协调，推理链条又显得太小儿科了，太脆弱（fragile）。无法与我们同属符号逻辑派的mt规则路线比，我们这边不用常识用语言学，接地气多了，而且分析语言也深入多了。那种 AI 果然没成气候几乎绝迹（很长时间 AI 成了一个笑话），规则派苟延残喘算是活下来了，但退一步想我们当年诟病试图利用常识推理的AI符号逻辑，也许就是（或者还不如）50步笑百步呢。符号也许根本就不是必要的手段，更不必谈什么两派大团结大融合。国际歌很悲壮说这是最后的斗争，等价的说法就是这是垂死的挣扎—— 如果世界的本质根本就不是符号的话。

白:
世界本质是波粒二象性

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【李白刘董85：汉字优越吗？】

李：
想到一个事儿，关涉词素这个议题，语言学基础课里面已经说得清清白白。但在大众认知中，甚至在专业人士的讨论中，还是常常概念不清。表现在那些流行的“汉字优越论”的各种演讲中。

汉字优越论因为与文化自信和民族自豪感搅合在一起，天然政治正确，因此无论怎样拔高、夸赞，无论符合不符合语言学基本原理，都容易大行其道深入人心。其中最流行的说法是，几千个汉字可以表达的概念，比几万个英文词汇表达的概念，还要丰富。

这种说法不能说完全没有道理，但本质上似是而非，经不起语言学基本面的推敲。

要害在，这是苹果与梨子在比较。

汉字是语言材料的最小单位，是词素（又叫语素，morphome）。英文词汇表中的词不一定是最小单位，里面也有复合词（compound：black-board），也有派生词（work-er）。如果是词素与词素比较（这才是 apple to apple comparison），语言之间在数量上的差别绝不会如此悬殊。上面的 blackbooard（黑板）和 worker （工人）就不是两个单独的单位，而是跟汉字一样，一一对应，应该分解为四个语素。

正确的符合语言学常识的说法是，几千个常用的汉字对应西方语言几千个词素（词根或词缀），它们可以合成几万个常用词汇，代表了日常语言中所需表达的概念的绝大部分。

这样一来不就是半斤八两了吗。显现不出汉字的优越性，还是心有不甘。

其实，真要深究，还是可以更加合理地为汉字优越找到一些语言学的根据，而不是人云亦云地拿自家的“字典”（词素表）与人家的“词典”做粗暴比较。

虽然世界上演化这么多年到今天的主要语言，无论东方西方，无论汉藏还是印欧，在这个信息飞速流转的地球村，都有足够的语言材料来表达所需要的概念了，但是汉字为词素的中文还是有一些额外的方便。这额外的方便可以算在汉字优越头上，只是要表达清楚这个优越性，需要一些语言学。

比较英语的词素（词根词缀），汉字为词素的中文，其造词法更具有产生性。

换句话说，国人可以更轻易地“造词”。这也可能是缺点，反正语文老师对小学生“生造词”一直是很不以为然的，过犹不及。他们的责任就是约束学生的造词能力，怕学生没必要地造出太多的词出来，行文不规范。但是，原理上说，这是语言的灵活性和适应性的体现，应该算是优越的语言学特点。

今天听中文网络广播，听到一个超出我的词汇范围的词（术语叫OOV，Out of Vocabulary，其边界因人而异，我的OOV词对于我来说就是“生造”词）“区隔”（后来查了万能的互联网，发现是一个被共同体已经接受的词），因为这词于我是第一次听到，我愣了一下，但很快就从汉字及其关联词汇（“区分”、“分隔”）意会到其语义。这说明什么，说明汉字组词有很强的随意性（明明有常用词“区分”，也不妨再造一个几乎完全等价的词来），对于听者和说者的顺畅交流通常不构成障碍。增加的是灵活性、多样性，以及从灵活性而来的新鲜感（谁愿意老“墨守陈词”）和从多样性逐渐带来的细微差别（nuance）。

为什么同为语素，汉字组合成词，比起英语语素组合成词，更加能产呢？

要起床了。先停下，以后再聊（老话说，且听下回分解……）。

刘:
@wei 我对汉字优越论也持怀疑态度。不仅仅是你说的原因。我觉得汉字的表义性对词义的理解有好处也有坏处。好处当然是可以减轻学习新词的负担，看到新词也容易猜测意思（如你所说英语词素也有类似作用）。但从另一方面来说也会带来坏处，就是容易望文生义。有些词义仅从字面解释容易造成误导，另外一个坏处我觉得是带来翻译的困难，这一定程度上阻碍了外语新词的传入。

白:
“电脑”的命名跟汉字的优越性不知道有没有关系。

刘:
前不久还见周志华在微博上吐槽把Robot翻译成机器人使得这个词在中文里面的意思发生了变化

白:
还有，intelligent和smart都翻译成智能，中国凑AI热闹的人群一下子大了好多。

魯:
嗯嗯，Robot建议翻译成“若博”，信达雅.... 哈哈哈哈

白:
“肉薄”貌似也可以。

董:
把翻译中出现的瑕疵或缺陷，都算在汉字的“不优越”头上，欠公平。别人也许会举出“可口可乐”、“出水芙蓉”等来说“优越论”。其实，一种语言都有自己的特点，有好的地方，也会有不足的地方。汉语重义，英语重形。在思考和研究语义时也许可以更多地借重汉语。

姜:
有个机构试图把“Internet”翻译成“因特网”并强力推广，但大家都不认，都觉得叫“互联网”好。“互联网”易于理解，不必另造新词，民间其实也早就一直这么说了。

李:
@刘群很同意，这正是我想要说的。

构词的灵活是很大的优点，也有副作用。不过，正反比较，我还是觉得，好处大于缺点。我这么说，除了源于汉字这个现象的思考，还源于我对世界语构词法的观察和研究。柴门霍夫对于构词法的设计，与汉字构词非常贴近，但更加“优越”。其结果是，学会几千个语素以后的世界语者，都可以随心所欲造词。副作用是，每一个造了新词的人，都留下了争论的空间。

根子在：新词所对应的概念到底是黑色的（必须最终通过词典注册来绑架），白色（透明）的（完全是compositional），还是灰色的（介于二者之间）？

譬如，电脑不叫 komputero，可以临时造一个词叫 kalkul-ilo（calculator），留下的争论空间就是，你到底是指的 “电脑” 还是 “计算器”？

再如筷子不叫 kuaizio，可以生造为 “mangh-ilo”（用餐工具），留下的争论空间就是，到底是 “筷子” 还是 “刀叉” ？

白:
我觉得望文生义出现误差是免不了的。

李:
对啊。
好在在说话的现场，这些误差和副作用会自然消解，所以，富有造词法灵活性的语言譬如汉语和世界语，还是长处大于短处。对于严谨的场合，譬如学科论文专利文书，这种灵活的透明造词法，常常让位于黑箱的新词，所以专业术语最好是音译（等价于生词）或直接用外文，或者起码在透明翻译后面再括号里注明外语的等价物，凸显其黑箱子特性。因为是黑箱子，留下的争论空间没有了。必须先给这个新词做一个定义，杜绝了望文生义的可能性。

白:
临时词就没有是否“地道”一说了。比如“马桶抽子”，是不是一定叫“抽子”不重要了，指出是疏通工具，就够了。

李:
所以，我同意董老师，汉字的表意性，及其汉语的自由度很大的造词法，大面上看是一个很大的长处。不求甚解，一般比两眼一抹黑好，至少对于人这点可怜的脑记忆量。到了电脑，再大的词汇都不是问题了，但词典是要“绑架”才有定义的，这个绑架的工作就不得了。好在最近有个深度神经的好东西，word embedding，有点神奇，可以在定义绑架这件事儿上发力。前提是那些个生词要有足够的大数据垫底。

白:
辅助望文生义的话，战斗机器人叫“肉搏”，对话机器人叫“若博”，那啥机器人………、

李:
需要的不是带标大数据，本质就是 clustering ，非监督的，所以还不真正构成太大的知识瓶颈。原理上属于 propagation，自动从有知推展到无知。

白:
非监督是正解

董:
说到翻译，还有“马桶”。一个不好的翻译例子是“抽水马桶”（flush toilet）--别误解为用来抽水的、像抽水机那样的用具。因为V+Nde结构，多数可以是用来V的N.

白:
往里抽不是往外抽

李:
马桶幸好是常用登录词，每个人的词典都内在绑架了，所以看上去透明的，其实是黑箱子。万一一个老外新学汉语，或者一个儿童第一次接触，就糊涂了，这与马这个词素有什么关系呢？

白:
@wei 跟“扎马步”不知道有多少关系。

李:
马桶为什么不给马用而是给人用呢？好处是半透明，即便老外不懂为什么有马在里面，起码能蒙对这是一个桶一样的物件。

沙发和软椅也是如此。后者黑箱子，必须扩大词汇量。前者不用，但。。。

白:
从“马拉松”到“半马”“全马”“北马”“厦马”，洋词儿变地道的土词儿了。
不是捆绑那么简单，有内生的能产性最恐怖了。

李:
“半马”“全马”“北马”“厦马”等，对于我还是要登录（记忆）捆绑才能理解。大概谁开始说大半马，也许我们不用捆绑也悟出来了。

白:
捆绑+派生+简化.

有了例子，后面就是泛化了。京巴，也有点这个感觉,其实“大巴、中巴、小巴”究其根源也是这种类型。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【李白王董84：再谈POS迷思，兼论 PennTree 的误导】

王:
动词名化确实不好处理的难办事，以前做词性标注，准确辛率不高，就栽在这，n，v，vN上了，还有区别词b。当然现在语法理论，一个小小助词“的“就有管住核心谓词的能力，使之由V变N。

白:
A、“粉红凤凰”，B、“红绿色盲”，C、“真假和尚”。
A、粉修饰红，粉红修饰凤凰。
B、红绿并列，但并不是用本意的叠加修饰“色盲”，而是用不能区分这两种颜色来定义色盲的具体类型。
C、真假并列，通过分配律把共享中心词“和尚”送给二词修饰，表示“真和尚、假和尚”。
修饰成分间的关系很不简单呢。

李:
我对 b 的第一解读是 c 的并列
看了讲解才悟出来也许还有 nuance
感觉差异已经细微微妙到很少需要在意区分的程度了

@wei wang 中文中的所谓动词名物化 nominalization
很大程度上是一个伪问题一个语言学迷思
强加到 POS 模块作为其难点更是一个自找的麻烦
工作学习睡眠吃饭下雨打雷
这些词类别很清晰

王：
@wei，对此我也迷惑

李:
（逻辑）动词万变不离其宗没有 POS 区分的必要性

Wang：
这点我同意李老师。所以，我说现代语法理论，是否需要调整一下？只是不敢妄论。
如果都能走对，倒无妨，就怕转得有对有不对，就确实是问题了

李：
在 POS 先于句法的通常架构里
把句法的不同用场强加到 POS 标签去是真实世界的天下本无事 x人自扰之。
真有好好的路硬是自己挖个坑然后就自己跳进去然后抱怨路不平。

王：
当然，我现在已经跨越POS这个，不使用POS而直接走句法了。不过对别人而言，这词性标注依然存在。即便标注，我也认为动词体征的，就一直动词体征走向去，比较好。

李:
汉语语法学界上世纪50年代的词类大争论，大争论当年没争出结果来，是时代的局限。

王：
我的看法是，也不去争论。

李:
词无定类（“词无定类入句而后定”）走向一个极端，无法服人，但其思想有闪光之处。

王：
而是拿到系统中去跑，能跑得好的，自然就是好的，至少这正是我们所需要的

白:
结构强制在技术上一点不复杂，问题是算句法还是算词法，但这都不是技术问题，是旗号问题。旗号与我何干？

王：
至于语言学方面，那是另外的一回事

李:
对于具有 consistent ambiguity 的词，
本体上就是无定类，但是一说“词无定类”就扩大化了，以为所有词都是必须要句法，要上下文，这就陷入了鸡和蛋的死循环，当然不能服人。
这个迷思从哲学上不难看穿。可是实践中却坑了人太多太久而且还继续在坑人。

王：
@白硕说的是，确实不是技术问题

李:
如果一个东西在有些场景下看着是红色有的场景下看着是黑色
自然的结论就是给个 X 的本体标签，让 X 统辖红黑两个标签，至少这个信息的外延是清晰的，是红黑的区域，不是蓝不是绿不是紫等等，这才符合事实恰如其分。

王：
这是否分两种情况？
1)本来是多义词，兼有多种词性的；2）已经定了就一种（比如纯动词），走着走着，变了，

李：
不说多义词。多义词（细微差别不算）那是两个词，凑巧长得一样了，其归属自然也可能不同。

王：
嗯

李:
只说 2）
2）没有 POS 半毛钱的关系。
汉语中的 POS 任务中纠缠了几十年，原来一开始就把任务定义错了。

王：
请问，那么怎么“ X 统辖红黑两个标签”

李:
对于我们讨论的动词名物化，这个 X 就是 V，可以读成逻辑动词。这个 V 是词典给的，没有歧义，何用区分？

王：
嗯

李:
到了结构里面做了主语或者宾语，它没有改变 V 的本性：词义没变，归属自然也没变。所改变的是句法 role。

王：
同意

白:
没有X统辖那么简单。以“出版”为例，被赋予了动词特有的零碎，比如加“不”，仍然可以再通过“的”强制为名词；但是反过来，已经被名词特有的零碎强制过的，不可能再被强制回动词。
本性是动词，强制为名词，然后就凝固了，不接受变回动词的再次强制。

李:
没问题啊。
这些个细节与标签没大关系，标签还是 X。只要词义不变，标签就没有道理变，这是本体 taxonomy 决定的。词义变了，标签有可能变。在同一个词义下给不同的POS标签，对于汉语这样缺乏形态的语言，是不合理的。

王：
我的看法是，不去改变词性
这本书的出版，----出版依然是动词，---可以看作是一个成句中谓词
这个成句，是一个小句（子句），可以做主语，或宾语，这样，句法上也顺上了，而且，词性也没去改变

李:
换句话说，汉语这样的语言，POS 应该用的是逻辑类

白:
问题是啥叫词义变。“真孙子”里面的“孙子”，我感觉词义变了。

李:
世界上所有的语言的词汇，都有逻辑类。这是语言共性。但是形态语言在逻辑类之上，经常使用形态变换，把逻辑类穿上不同的衣裳。穿得好的话，可以脱离场景做句法。例如俄语，morphology 很大，句法就简单了。极端来说，别说 POS 标签，就是本质上是上下文结构决定的 role，也可以脱离上下文在词上反映：宾格就是宾语 role。

王：
同意@wei 在同一个词义下给不同的POS标签，对于汉语这样缺乏形态的语言，是不合理的。

白:
填坑使用的不应该是逻辑类，应该是角色。比如“这本书的出版怎么没通知我”当中，“这本书的出版”填坑时就是N。“这本书出版怎么没通知我”当中，“这本书出版”填坑时就是S。

王：
这本书的出版----看作一个小句，小句也相当于名词作用。出版--作为一个事件出现
事件--->没通知我。

李:
填坑不外两点：
1. 句法上要的是什么形式（包括标签或子类，或直接量），这是输入条件；2. 语义上是什么 role，这是输出角色，是“理解”的形式化。不能混淆输入和输出。输入条件用逻辑类，没有问题。句法的工作，起点就是词典信息。逻辑类是词典信息的重要方面，是词典本体信息体系里面层级最高的那几个标签。

白:
但，“通知”的内容那个坑，就必须是个X，混儿。见人说人话见鬼说鬼话。

李:
“出版”的坑：
（1）第一个坑
输入条件：publication （本体链条属于逻辑名词）
输出角色：【受事】

（2）第二个坑：
输入条件：human_or_organization
输出角色：【施事】

这才是 “出版” 的真实面貌。至于语言应用中，上述类似 HowNet 定义出来的 subcat pattern，应该如何松绑输入条件来应对鲁棒与活用，那是另一层面的勾当。

王：
就是说，不能因为一个“的”字，把本来清晰骨架，垫走了样。

李:
“通知”的坑：

（1）
输入条件：thing_or_event

(这就是白老师所谓变色龙，其实本体链条上，不过是在逻辑n与逻辑v上，再抽象一个统辖的 n_or_v，thing 就是逻辑名词的通俗表述，event 就是逻辑动词的通俗表述）

输出角色：【content】

（2）第二个坑是施事【谁】
输入条件：human （具体语言还有格、词序、介词类的条件制约）
输出角色：【施事】

（3）第三个坑是对象【向谁】
输入条件：human （具体语言还有介词、格、词序类的条件制约）
输出角色：【对象】

回来总结一下：坑里面使用逻辑类或者逻辑类下辖的子类甚至直接量（等价于具体词义搭配）是天经地义的。至于这些条件的松绑，所谓 preference semantics 那是语言应用中的窍门。为了鲁棒必须松绑，松绑会一步步从具体逻辑子类，向高层的逻辑类去。

王：
同意李老师

李:
HowNet 是独立于语言设计的，它的最上层 top 节点其实就是逻辑类，event 就是 v
thing 就是 n。其实还应该再往上走一步，thing_or_event，但反正有 OR 算符，所以走不走也无所谓了。

白:
可以看成一个lattice，and就低不就高，or就高不就低。

李:
HowNet 其实是两个东西在里面。第一个是本体，董老师对人类认知和常识体系的总结和设计。第二个是语言落地（汉语，英语，......）。这第二步是通过给汉语词汇标注 HowNet 本体标签的方式实现的。这时候的本体已经落地到具体语言了。

白:
修饰语隐含的被修饰语和真实的被修饰语做or

李:
PennTree 在英语NLP中已经很多缺陷，时代的局限，误导了很多人。

白:
总感觉HowNet不完全满足这个架构

李:
PennTree 的那一套标准用到汉语更是误导，不如直接用 HowNet 来作为标准。

白:
想都不要想，肯定不会用PennTree

李:
至于选取 HowNet 顶层或者中上层的哪些标签作为中文 POS 的任务，可以再议。POS 选得细了，就几乎等价于 WSD 任务了（事实上，白老师很多时候在讨论中就是把二者看成同一回事儿，道理很显然，WSD 说的是词义区分，词义的taxonomy 链条就是逻辑词类）。

王：
现在很多评测都是以宾州树库来做基准的。我也想过，就算那个F值即便很高，那么真实应用就是那么高的吗。

李:
HowNet 在语义领域可以独树一帜，能够站得住，相信也能够经受时间，其中原因之一，是由于董老师是中国人，讲的是“裸奔”的汉语。裸奔的汉语与逻辑最贴近，有自然的亲密关系。这对排除语言的干扰，从逻辑的高度审视语义，有天然的好处。如果要讲中国人对世界文明作出自己的独特贡献，HowNet 可以是一个代表。

王：
李老师对其他语义词典是如何评价？

李:
哪些？

王：
比如wordnet ,同义词词林

李:
早就不用 WordNet 了，麻烦比好处多。擦不完的屁股，以至于用了两年后，不得不全部推翻，宁肯自己零敲碎打，不完备，增量积累做语义标签，也不愿意陷入 WordNet 泥坑。

王：
主要是想说直接是树状，而非网状的这类

白:
标签体系必须是DAG

王：
分类体系做得不好，还是后期建设不好，比如冲突出现？

李:
其实 WordNet 是可以改造得好一点的好用一点的，但只听说有人说改造，但没见到有人愿意坐冷板凳去真地改造它。

白:
标签体系的数学基础，一是type theory，一是lattice。lattice解决单类型的上下位问题，type解决复合类型的构造问题。

王：
上下位好理解，这复合类型就不好理解了，请白老师讲解

白:
@wei wang 带坑呗

王：
明白了，我还以为复合类型，穿插把不同上下位的分支。又结成了网

白:
上下位是为不带坑的type准备的，带坑的都是复合type。

王：
@白硕带坑是一个词带n个坑，这几个坑是另外的词

白:
@wei wang 对的

王：
是否有的词，本身就自己萝卜和都带了，这样的词如何分类？比如一些成语

白:
标签也分层。微结构，比如“扫地”，合起来是一个坑，微结构又可析出一个萝卜一个坑。

李:
subcat 既是子类（atomic 的标签），也蕴含了潜在的结构pattern，说 vt 其实是说有这类动词子类挖了个宾语的坑。

白:
地不扫，何以扫天下

王：
@白硕那看成一个整体，仍在统一分类体系，

李:
HowNet 开始用的时候也有问题（有些问题与 WordNet 类似，没那么严重），给董老师反映过。问题的根源在董老师需要一个逻辑完备自足的义元体系，为了这个自足和完备，标注的时候就务求细而全。

HowNet 中的一个个单字的标签特别丰富，特别细，把这个字（词素）各种可能语义都反映了，甚至包括只存在于 idiom或合成词中的词义。这其实给使用带来很多噪音。我一开始是试图删减。后来发现对于单字的标签，删不胜删，最后决定索性单字的标签不用。要用的自己临时增量式加入，宁肯 under labeling，不能 over

王：
@wei “后来发现对于单字的标签，删不胜删，最后决定索性单字的标签不用。”
单字，是义原的核心，就是不用单字最基本的，而直接使用信息能独立的，更有代表性？更便于处理？

李:
不好用啊。很多汉字看上去不过一两个词义，结果里面标了五六个词义，仔细想确实都存在。但是用起来就是眉毛胡子一把抓了。

王：
嗯，我觉得建造体系可以这样建，想怎么用就是应用来选了

李:
如果这五六个词义的确都是自由语素的词义，虽然统计上出现频率不同，但逻辑上这样标注没有问题。但有些词义从来不作为自由语素的语义出现，只存在于合成词中，那就没有理由标注了。这个问题，董老师后期版本有了 config，可以筛选。做了弥补。这个问题在 WordNet 中更严重。

王：
嗯，谢谢李老师，白老师的解答。时间不早，明天上班，我先拜拜。

李：
晚安 @wei wang

王：
晚安！真的我还没聊够的感觉，特别是，语义分到什么类别，很关键，对系统有很大影响，也深有体会

白:
据我的经验，先别说具体类别，先说长什么样，更容易把握。数学上什么样，计算机里什么样。实体、属性、关系、值，这是一个层面。事件是另一个层面。时间空间因果模态，又是一个层面。知网中很先知先觉地引入了“变关系、变属性、变状态”等事件子范畴，相当高明。真的很赞.

董:
讲一个真实的故事。1988年由日本发起的五国机器翻译项目正在进行。在一次饭桌上，日方的项目负责人内田裕士谈起该项目的语义研究落实问题是说："这个项目的语义研究，是不是请中方负责，具有中华文化背景的人对于语义有更高的敏感性。"
只是觉得只要由中方来负责，总归是好事情。我就表示同意了。可是对他的那句有关“中华文化背景”的断语，还真没有完全理解，但饭桌上也不适合讨论下去。后来时隔近20年，内田先生来北京，那次我们只是几个人一起吃饭。我问他：“你还记得20多年前，我们在讨论MMT的语义研究时，你说过一句话。你说'具有中华文化背景的人更适合做语义研究吗？我一直想问你你为什么会这么说呢？'”
他说的很简单："因为是你们有汉字"。那时候我已基本完成了HowNet的研究和开发。HowNet正是以汉字为理念依据的。前两天我跟李维讨论。说到洋人不懂汉语，跟他们讲深了他们不理解。

白:
这些要是落在知识图谱里，不得了。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

壹 自然语言与语言形式

Symbolic Linguistic Legacy

Thanks, Colleagues & Friends

Mirror’s Last‑Minute Miracle

A Tale of Two Schools

Family Footnotes

In Quiet Cupertino

(见鬼，这一篇旧文居然被kexuewang屏蔽，留存 here)

当前推荐数：9 推荐人： 武夷山 刘洋 徐晓 文克玲 袁贤讯 鲍得海 陈辉 zdlhsh rosejump

发表评论评论 (4 个评论)

壹　自然语言与语言形式

当前推荐数：9 推荐人：武夷山刘洋徐晓文克玲袁贤讯鲍得海陈辉 zdlhsh rosejump