【心路历程:当理论遭遇实践、博士走向工业】

这两天翻开我20年前关于汉语短语结构文法的博士论文,重读一遍,有些感慨。

我的博士做得比较辛苦,其中的曲折和坎坷,不足道也。总之是,做实验做了很多现象,舍不得放弃,可博士论文要求有一条主线,讲究的是点入。不知道草稿了多少提纲,一律被导师忽视或枪毙,最后是不断舍弃,不断聚焦,千锤百炼,才打造出这么个棱角全部被磨圆了所谓博士论文。感觉上,多数的博士论文都是这种过分打磨,读起来了无趣味的文字,在下的更是如此。但里面包含多少不眠之夜的挣扎、艰辛和血泪,天知地知也。

其实,所谓PhD哲学博士是一个历史遗留下来的错误称号,当代的博士基本都是专才,一点也不“博”,很少通才。很多年的辛苦研究基本是掘地三尺的劲头,重精不重广,除了自己的一亩三分地,其他领域无知得很,哲学就更谈不上了。北美的博士制度耗费了人一生中最有创造力的时期,长达5-8年,感觉是太超过了。见过很多博士磨圆了锐气,了无成就,面对真实市场手足失措的案例。难怪俗话有说,傻得像博士。这里的得失留给教育学家研究点评吧。

话说我终于一边工作,一边完成了定稿,导师也首肯了。那时甜甜刚四岁。

I should thank my four-year-old daughter, Tian Tian. I feel sorry for not being able to spend more time with her. What has supported me all these years is the idea that some day she will understand that as a first-generation immigrant, her dad has managed to overcome various challenges in order to create a better environment for her to grow.
PhD Thesis Dedication
To my daughter Tian Tian
whose babbling accompanied and inspired the writing of this work

I still remember I was in tears when writing this to give a final touch on this degree thesis

现如在正在做中文 deep parser,已经很有规模了。正好回顾一下,看 20 年前的思路与20年后做法,有何不同。离校后开始工业开发至今,我毫不犹豫就抛弃了博士的自动分析的路线,虽然做博士时说得头头是道。实际是扬弃吧。有抛弃有继承。抛弃的是单层的CFG,继承的是词法句法的无缝连接。这个转变反映的是理论和实践的距离以及学术与工业的关系。

做博士的时候,正是 unification systems 最被热捧的时候。于是跟随导师,在 Prolog平台上用 HPSG 做了一个汉语文法的MT双向实验(同一个汉语文法被用来同时做分析与生成,支持汉语英语的双向机器翻译),做了个 toy。需要写论文了,不得不把做过的各种现象不断缩小,最后集中到汉语的词法(包括切词)和句法的接口上做文章。整篇论文论述的就是一个思想,切词、词法与句法必须一体化,用的是单层 CFG parsing,说得头头是道。

一体化理论上当然是成立的,因为语言现象中的相互依赖,只有在一体化的框架下才好对付。哪怕 90% 的现象不是相互依赖的,是可以摘开的,你总可以用 10% 的现象证明一体化的正确性(理论上不妨碍那 90%)。

20年后呢,去球吧。早抛弃了单层一体化的思路,那是一个死胡同,做 toy 可以,很难 scale up,也做不深入,做不了真实世界的系统。继承的是一体化的通信管道和休眠唤醒似的patching机制。但宁肯修修补补,也不追求语法体系的完美。

对 HPSG 好奇,或感兴趣汉语怎么用HPSG的同学可以看看我整理出来的博士论文,虽然是过气了的 formalism,记得半年前冯志伟老师还系列编译介绍了 HPSG 讲座。有读者问,怎么用到中文呢?其实对于这种涉及一系列理论assumptions和技术细节的所谓 theoretical formalism,不做一遍基本是雾里看花。Unification 和 typed 数据结构逻辑上看上去很美,做起来也觉得好玩,做过后就洗手不干了。玩过 Prolog 的人也许有类似的体会。

决定把当年在博士论文中列举的具有句法分析难点的例子,当作 unit test 都  parse  一遍,看变了设计思想的系统是不是还可以抓住这些语言现象。

0824e

0824d

0824f

0824h

0824g

0824i

0824a

0824b

0824c

0825d

“头羊”(类似案例还有“个人”、“难过”)带有所谓切词的 hidden ambiguity,因为直接违反 longest principle,是中文切词的痛点,也是一体化的有力证据。理论上,任何的切词 ambiguity (不仅仅是 hidden ambiguity)都需要带入整个句子才能最后确认,local context 永远有漏洞,你永远可以营造出一个 context 使得你的 local 决策失效。但实践中还是可以大体把 local 与 全局分开,没必要带着切词的 ambiguity 一路跑到终点。hidden ambiguity 不影响大局者可以休眠,如上例。必要的时候可以用 word-driven 的句法后模块再唤醒它

 

【相关篇什】

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 – 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》

【离皇冠上的明珠只有一步之遥的感觉】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

 

The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar

by

 

Wei Li

B.A., Anqing Normal College, China, 1982

M.A., The Graduate School of Chinese Academy of

Social Sciences, China, 1986

 

 

Thesis submitted in partial fulfillment of

the requirements for the degree of

DOCTOR OF PHILOSOPHY

 

in the Department

of

Linguistics

Morpho-syntactic Interface in a Chinese Phrase Structure Grammar

 

Wei Li 2000

SIMON FRASER UNIVERSITY

November 2000

 

 

All rights reserved. This work may not be reproduced in whole or in part, by photocopy or other means, without permission of the author.

 

Approval

Name:                         Wei Li

Degree:                       Ph.D.

Title of thesis:             THE MORPHO-SYNTACTIC INTERFACE IN

A CHINESE PHRASE STRUCTURE GRAMMAR

 

(Approved January 12, 2001)

 

Abstract

This dissertation examines issues related to the morpho-syntactic interface in Chinese, specifically those issues related to the following long-standing problems in Chinese Natural Language Processing (NLP): (i) disambiguation in Chinese word identification;  (ii) Chinese productive word formation;  (iii) borderline phenomena between morphology and syntax, such as Chinese separable verbs and ‘quasi-affixation’.

All these problems pose challenges to an independent Chinese morphology system or separate word segmenter.  It is argued that there is a need to bring in the syntactic analysis in handling these problems.

To enable syntactic analysis in addition to morphological analysis in an integrated system, it is necessary to develop a Chinese grammar that is capable of representing sufficient information from both morphology and syntax.  The dissertation presents the design of such a Chinese phrase structure grammar, named CPSG95 (for Chinese Phrase Structure Grammar).  The unique feature of CPSG95 is its incorporation of Chinese morphology in the framework of Head-Driven Phrase Structure Grammar.  The interface between morphology and syntax is then defined system internally in CPSG95 and uniformly represented using the underlying grammar formalism used by the Attribute Logic Engine.  For each problem, arguments are presented for the proposed analysis to capture the linguistic generality;  morphological or syntactic solutions are formulated based on the analysis.  This provides a secure approach to solving problems at the interface of Chinese morphology and syntax.


Dedication

To my daughter Tian Tian

whose babbling accompanied and inspired the writing of this work

And to my most devoted friend Dr. Jianjun Wang

whose help and advice encouraged me to complete this work

Acknowledgments

First and foremost, I feel profoundly grateful to Dr. Paul McFetridge, my senior supervisor.  It was his support that brought me to SFU and the beautiful city Vancouver, which changed my life.  Over the years,  he introduced me into the HPSG study, and provided me with his own parser for testing grammar writing.  His mentorship and guidance have influenced my research fundamentally.  He critiqued my research experiments and thesis writing in many facets, from the development of key ideas, selection of topics, methodology, implementation details to writing and presentation style.  I feel guilty for not being able to promptly understand and follow his guidance at times.

I would like to thank Dr. Fred Popowich, my second advisor.  He has given me both general academic guidance on research methodology and numerous specific comments for the thesis revision which have helped shape the present version of the thesis as it is today.

I am also grateful to Dr. Nancy Hedberg from whom I have taken four graduate courses, including the course of HPSG.  I have not only learned a lot from her lectures in the classroom, but have benefited greatly from our numerous discussions on general linguistic topics as well as issues in Chinese linguistics.

Thanks to Davide Turkato, my friend and colleague in the Natural Language Lab.  He is always there whenever I need help.  We have also shared many happy hours in our common circle of Esperanto club in Vancouver.

I would like to thank Dr. Ping Xue, Dr. Zita McRobbie, Dr. Thomas Perry, Dr. Donna Gerdts and Dr. Richard DeArmond for the courses I have taken from them.  These courses were an important part of my linguistic training at SFU.

For various help and encouragement I have got during my graduate studies, I should also thank all the faculty, staff and colleagues of the linguistics department and the Natural Language Lab of SFU, in particular, Rita, Sheilagh, Dr. Ross Saunders, Dr. Wyn Roberts, Dr. Murray Munro and Dr. Olivier Laurens.  I am particularly thankful to Carol Jackson, our Graduate Secretary for her years of help.  She is remarkable, very caring and responsive.

I would like to extend my thanks to all my fellow students and friends in the linguistics department of SFU, in particular, Dr. Trude Heift, Dr. Janine Toole, Susan Russel, Dr. Baoning Fu, Zhongying Lu, Dr. Shuicai Zhou, Jianyi Yu, Jean Wang, Cliff Burgess and Kyoung-Ja Lee.  We have had so much fun together and have had many interesting discussions, both academic and non-academic.  Today, most of us have graduated, some are professors or professionals in different universities or institutions.  Our linguistics department is not big, but it is such a nice department where faculty, staff and the graduate student body form a very sociable community.  I have truly enjoyed my graduate life in this department.

Beyond SFU, I would like to thank Dr. De-Kang Lin for the insightful discussion on the possibilities of integrated Chinese parsing back in 1995.  Thanks to Gerald Penn, one of the authors of ALE, for providing the powerful tool ALE and for giving me instructions on modifying some functions in ALE to accommodate some needs for Chinese parsing during my experiment in implementing a Chinese grammar.

I am also grateful to Dr. Rohini Srihari, my current industry supervisor, for giving me an opportunity to manage NLP projects for real world applications at Cymfony.  This industrial experience has helped me to broaden my NLP knowledge, especially in the area of statistical NLP and the area of shallow parsing using Finite State Transducers.

Thanks to Carrie Pine and Walter Gadz from US Air Force Research Laboratory who have been project managers for the Small Business Innovation Research (SBIR) efforts ‘A Domain Independent Event Extraction Toolkit’ (Phase II), ‘Flexible Information Extraction Learning Algorithm’ (Phase I and Phase II) and ‘Intermediate-Level Event Extraction for Temporal and Spatial Analysis and Visualization’ (Phase I and Phase II).  I have been Principal Investigator for these government funded efforts at Cymfony Inc. and have had frequent and extremely beneficial contact with them.  With these projects, I have had an opportunity to apply the skills and knowledge I have acquired from my Ph.D. program at SFU.

My professional training at SFU was made possible by a grant that Dr. Paul McFetridge and Dr. Nick Cercone applied for.  The work reported in this thesis was supported in the later stage  by a Science Council of B.C. (CANADA) G.R.E.A.T. award.  I am grateful to both my academic advisor Paul McFetridge and my industry advisor John Grayson, CEO of TCC Communications Corporation of Victoria, for assisting me in obtaining this prestigious grant.

I would not have been able to start and continue my research career without many previous helps I got from various sources, agencies and people in the last 15 years, for which I owe a big prayer of thanks.

I owe a great deal to Prof. Zhuo Liu and Prof. Yongquan Liu for leading me into the NLP area and supervising my master program in computational linguistics at CASS (Chinese Academy of Social Sciences, 1983-1986).  Their guidance in both research ideas and implementation details benefited me for life.  I am grateful to my former colleagues Prof. Aiping Fu, Prof. Zhenghui Xiong and Prof. Linding Li at the Institute of Linguistics of CASS for many insightful discussions on issues involving NLP and Chinese grammars.  Thanks also go to Ms. Fang Yang and the machine translation team at Gaoli Software Co. in Beijing for the very constructive and fruitful collaborative research and development work.  Our collaboration ultimately resulted in the commercialization of the GLMT English-to-Chinese machine translation system.

Thanks to Dr. Klaus Schubert, Dr. Dan Maxwell and Dr. Victor Sadler from BSO (Utrecht, The Netherlands) for giving me the project of writing a computational grammar of Chinese dependency syntax in 1988.  They gave me a lot of encouragement and guidance in the course of writing the grammar.  This work enabled me to study Chinese grammar in a formal and systematic way.  I have carried over this formal study of Chinese grammar to the work reported in this thesis.

I am also thankful to the Education Ministry of China, Sir Pao Foundation and British Council for providing me with the prestigious Sino-British Friendship Scholarship.  This scholarship enabled me to study computational linguistics at Centre for Computational Linguistics, UMIST, England (1992).  During my stay in UMIST, I had opportunities to attend lectures given by Prof. Jun-ichi Tsujii, Prof. Harold Somers and Dr. Paul Bennett.  I feel grateful to all of them for their guidance in and beyond the classroom.  In particular, I must thank Dr. Paul Bennett for his supervision, help and care.

I would like to thank Prof. Dong Zhen Dong and Dr. Lua Kim Teng for inviting and sponsoring me for a presentation at ICCC’96 in Singapore.  They are the leading researchers in the area of Chinese NLP.  I have benefited greatly from the academic contact and communication with them.

Thanks to anonymous reviewers of the international journals of  Communications of COLIPS, Journal of Chinese Information Processing, World Science and Technology and grkg/Humankybernetik.  Thanks also to reviewers of the International Conference on Chinese Computing (ICCC’96), North American Conference on Chinese Linguistics (NACCL‑9), Applied Natural Language Conference (ANLP’2000), Text Retrieval Conference (TREC-8), Machine Translation SUMMIT II, Conference of the Pacific Association for Computational Linguistics (PACLING-II) and North West Linguistics Conferences (NWLC).  These journals and conferences have provided a forum for publishing the NLP-related research work I and my colleagues have undertaken at different times of my research career.

Thanks to Dr. Jin Guo who has developed his influential theory of tokenization.  I have benefited enormously from exchanging ideas with him on tokenization and Chinese NLP.

In terms of research methodology and personal advice, I owe a great deal to my most devoted friend Dr. Jianjun Wang, Associate Professor at California State University, Bakersfield, and Fellow of the National Center for Education Statistics in US.  Although in a totally different discipline, there has never been an obstacle for him to understand the basic problem I was facing and to offer me professional advice.  At times when I was puzzled and confused, his guidance often helped me to quickly sort things out.  Without his advice and encouragement, I would not have been able to complete this thesis.

Finally, I wish to thank my family for their support.  All my family members, including my parents, brothers and sisters in China, have been so supportive and understanding.  In particular, my father has been encouraging me all the time.  When I went through hardships  in my pursuit,  he shared the same burden;  when I had some achievement,  he was as happy as I was.

I am especially grateful to my wife, Chunxi.  Without her love, understanding and support, it is impossible for me to complete this thesis.  I wish I had done a better job to have kept her less worried and frustrated.  I should thank my four-year-old daughter, Tian Tian.  I feel sorry for not being able to spend more time with her.  What has supported me all these years is the idea that some day she will understand that as a first-generation immigrant, her dad has managed to overcome various challenges in order to create a better environment for her to grow.


 

Approval                    ii

Abstract                    iii

Dedication                    iv

Acknowledgments                  v

Chapter I  Introduction                1

1.0. Foreword                1

1.1. Background                2

  • Principle of Maximum Tokenization and Critical Tokenization            2
  • Monotonicity Principle and Task-driven Segmentation            5

1.2. Morpho-syntactic Interface Problems        8

1.2.1. Segmentation ambiguity        8

1.2.2. Productive Word Formation        10

1.2.3. Borderline Cases between Morphology and Syntax              11

1.3. CPSG95:  HPSG-style Chinese Grammar in ALE    13

1.3.1. Background and Overview of CPSG95    14

1.3.2. Illustration              15

1.4. Organization of the Dissertation          16

Chapter II  Role of Grammar              18

2.0. Introduction                18

2.1. Segmentation Ambiguity and Syntax        19

2.1.1. Resolution of Hidden Ambiguity      19

2.1.2. Resolution of Overlapping Ambiguity    24

2.2. Productive Word Formation and Syntax      33

2.3. Borderline Cases and Grammar          37

2.4. Knowledge beyond Syntax            39

2.5. Summary                46

Chapter III  Design of CPSG95              48

3.0. Introduction                48

3.1. Mono-stratal Design of Sign          52

3.2. Expectation Feature Structures          57

3.2.1. Morphological Expectation        58

3.2.2. Syntactic Expectation          59

3.2.3. Chinese Subcategorization        63

3.2.4. Configurational Constraint        67

3.3. Structural Feature Structure          70

3.4. Summary                73

Chapter IV  Defining the Chinese Word          75

4.0. Introduction                75

4.1. Two Notions of Word            78

4.2. Judgment Methods              83

4.3. Formal Representation of Word          88

4.4. Summary                92

Chapter V  Chinese Separable Verbs            93

5.0. Introduction                93

5.1. Verb-object Idioms: V+N I            96

5.2. Verb-object Idioms: V+N II          107

5.3. Verb-modifier Idioms: V+A/V          116

5.4. Summary                122

Chapter VI  Morpho-syntactic Interface Involving Derivation    123

6.0. Introduction                123

6.1. General Approach to Derivation          125

6.2. Prefixation                127

6.3. Suffixation                130

6.4. Quasi-affixes                132

6.5. Suffix zhe (-er)              139

6.6. Summary                151

Chapter VII  Concluding Remarks            152

7.0. Summary                152

7.1. Contributions              154

7.2. Limitation                158

7.3. Final Notes                    159

BIBLIOGRAPHY                  161

APPENDIX I    Source Code of Implemented CPSG95      170

APPENDIX II  Source Code of Implemented CPSG95 Lexicon    208

APPENDIX III  Tested Results in Three Experiments Using CPSG95  229

 

[Related]

PhD Thesis: Morpho-syntactic Interface in CPSG (cover page)

PhD Thesis: Chapter I Introduction

PhD Thesis: Chapter II Role of Grammar

PhD Thesis: Chapter III Design of CPSG95

PhD Thesis: Chapter IV Defining the Chinese Word

PhD Thesis: Chapter V Chinese Separable Verbs

PhD Thesis: Chapter VI Morpho-syntactic Interface Involving Derivation

PhD Thesis: Chapter VII Concluding Remarks

Overview of Natural Language Processing

Dr. Wei Li’s English Blog on NLP

【汉语句法的挑战之一:if-then的简约式】

我:
汉语中有一种特别常见的句式,形式上看上去很像主谓关系(S-Pred)或 Topic+Clause,但是却是表达类似条件虚拟的因果关系(的浓缩形式,通常前一部分是VP或Clause,后一部分是 Pred,偶尔为小句),考虑给这种关系一个特别的命名,不叫 S,也不叫 Next,也不叫 Conj, 叫个什么好呢?实质是条件状语 Cond-Adv,
应该做个文献调查,看看汉语语法学家对这个现象,都怎么个说法?

他要来就好了 ==【 if】 他要来 【then it】 就好了 == 如果他要来,【那】就好了。

LOCK状态下连按两下HOME可以快速启动照相机 ==
【if】LOCK状态下【你】连按两下HOME【then 你就】可以快速启动照相机

喝粥吃不饱 《– 【if 我们】喝粥【then 我们就】吃不饱

这个句式似乎有些 trigger 它的小词,但非常微妙,形式也很多样,不好掌控:上面几句算随手举例,里面的 triggers 大概包括:“就”、“可以”、“也”等。“喝粥吃不饱”似乎与结果补语“不饱”有关。也有前后都是小句的:

她来我走 == 【if】她来【then】我【就】走。
她不来我也走 《– 【if】她不来【then】我也【仍然要】走

“她来我走”似乎是依靠平行句式(她来、我走)和对比谓词(来、走)。这种东西在英语就很难这样简约。

白:
@wei “要来”也可以是“要是来”的缩略。

宋:
这些压缩复句内部的逻辑关系是上下文相关的。某人拼命挣钱,忽略了健康,被人批评为“要钱不要命”,是“(为了)要钱(而)不要命”;但如果出自强盗之口,就是 “(如果)要钱(就)不要命”。强盗对被抢人说的话。也可能是 “(我)(只)要钱,不要(你的)命。” 这是复句义的歧义。

白:
卖瓜的说“不甜不要钱”。明明有歧义,大家也不按别的意思去理解,否则有强词夺理的嫌疑,比如“不甜 and 不要钱”。

宋:
因为不甜,所以不要钱,你们随便拿吧。

白:
在面对强盗的时候,求自保的被抢人肯定按照最配合强盗的理解行事。有实力干掉强盗的,就可能故意采用不利于强盗的解释。强盗本来就是不讲理的。

我:
这玩意儿真是难点 不好识别 可不识别 就有恶果,譬如 假如语义落地是抽取 sentiment,这种句子里一多半的虚拟式的本质 说明不是事实 不应该抽取。
“x 不好不要钱” 并不是评价 x 不好,而是条件虚拟 “如果 x 不好”,条件是没有 sentiment 的。

宋:
不一定虚拟。“(我)(只)要钱,不要(你的)命。” 就不是虚拟。

我:
“x 不降价就不要买”,也没断定 x 降价还是没降价。x “降价”一般认为是好事,“不要买” 一般认为是对 x 不利的行为:“x 不增加电池寿命就不喜欢了” (本来可能是喜欢的,但这里隐含了小抱怨,抱怨的原因是“电池寿命”)。诸如此类 都要求要识别条件式 才好准确判断 sentiment 及其原因。

汉语怎么就发展了这么个表达法呢 偏偏不用显性的小词 “如果”、“要是”、“假如”、“倘若” 等。口语还特常见。英语不用 if 的时候就要用倒装词序,也还是有了显性的形式痕迹:
Had I done that I would have lost
Should they get there in time they would make it

宋:
百度翻译结果:
Had I done that I would have lost
如果我这样做了,我会失去
Should they get there in time they would make it
如果他们及时赶到那里,他们会做到的

我:
很不错。MT 汉语生成用了显性表达的主从连词“如果”。
汉语分析绕不过去口语化句式常省略小词这一关。

网:
越是大家熟悉的事,大家才会用缩略语,口语。 才会出现一些语法上有歧义的句子,因为大家心照不宣,太熟悉了。这叫做语境。 而大多数不那么熟悉的地方就更偏向书面语,歧义就很少了。 所以我觉得歧义问题没那么严重吧,假如碰到就把这个特例记住得了。英语应该也有很多省略的口语,生活中的。这是人之常情吧,太常见的事就省略点,反正大家都懂。

我:
记住的是可以词典化的,open ended 的句式难进词典,死记不行。汉语省略小词的现象 总体说都是句法层的挑战 不是词典可以解决的。除了主从连词,省略介词也极为常见:

这件事儿我的意见大家还是要往前看
== 【关于】这件事儿【依】我的意见【,】大家还是要往前看

翻译成英语,这些介词绝不可以省略,否则就是 Chinglish:on this matter in my opinion, …….

* this matter my opinion we all should look forward

网:
关于这件事我的意见是。不能是省略了“是”?英语口语也有省略吧 肯定有

我:
也可能。“是”也是小词,那也是省了小词。
汉语难缠就难缠在,本来就是一个形态缺乏的语言,按照常理,应该更多依赖小词和词序来弥补形式的不足,但事实上,汉语的小词经常省略,词序也比我们想象的自由和弹性得多.

白:
“还是”有副词和动词的不同义项。

我:
简直就是挑战显性形式的极限,逼迫我们不得不诉求隐性形式(包括常识)来达到交流和理解。如果把汉语治服了,人类的多数语言就是小菜。

宋:
还依靠上下文。

白:
“意见“涉及三个坑,谁,对谁/什么,什么内容。其实填坑的要素一样不少
没有小词,一样填坑。但是,如果有多种填坑的可能性 问题就出来了。在涉及公平交易的场合,设坑和填坑 都是隐性形式的法子。如果你用明显不利于交易对手方的解释,这法子太low。不甜不要钱,就是这个情况。

我:
如果有显性形式可资利用,就对隐性形式(subcat 之类)的依赖减轻了。
涉及语用,算另一个层面,开始可以不问。只解析出 if-then 的框架即可。

白:
如果…则,是有利于对手方的;… and …,是不利于对手方的

我:
我准备在 links 中加一个 CondAdv 的 link,把目前的 S,Next 和 Conj
分出来一批表达这类条件。Next 从默认越来越单纯化为 【接续】;Conj 为【并列】,S 为【主语】, CondAdv【条件】

白:
我小的时候就对“不学无术”产生过疑问。到底是“因为不学,所以无术”还是“既不学,又无术”还是“如果不学,则无术”?

我:
还有 “不破不立”。不破哪能立。不学则无术。

白:
真的不是则 是因为所以

我:
【因为所以】 与 【如果则】 已经相当接近了 可以找一个上位,把两者都囊括进去 模糊一把。它们 与 【并列】 完全不同。

白:
如果则是潜在的关系,因为所以是已落地的关系

我:
“不学无术” 作为【并列】 也很说得通。【如果则】 是虚拟,而【因为所以】可能是已然,也可能不是已然: 除非【因为所以】里面的动词附着了时体助词,否则 因为所以不强调已然。

白:
如果则是门卫,因为是门票,所以是住户

我:
林彪既不学亦无术: “不读书 不看报 一点马列主义都不讲”。当年批林的时候常有类似的话。
不甜不要钱,甜也不要钱。” 前者是省了 if 后者是省了 even if 让了一步,可仅有的形式是那个几乎万能的 “也”。

白:
“他这人不学无术”
“这对冤家还真是不打不成交”

我:
成语好说,但此类句子完全可以不是成语:“这对冤家不打得头破血流不罢休
【不 VP 不 Pred(结果)】这样的 pattern,“罢休” 这个谓词可以在词典标注隐性形式 具有结果的意味。

其实虽然英语没有汉语这种表达条件的简约句式,但英语在【主语从句】和【条件状语从句】之间,也有摇摆:可见【状语】、【主语】有时真地蛮接近的:

it won’t be good that you are not coming
it won’t be good if u r not coming
你不来不好

这类句式限定于谓语是判定性的说法 诸如 not good, does not work。有时想 硬把汉语的简约条件式直译过去 虽然不合语法 似乎老外也应该可以理解(待核实。假设可理解,这说明简约式还是内含了某种逻辑链条的蛛丝马迹,即便没有小词的显性形式的帮忙):

? u come, I will leave
* u not come, i stay
* not work not succeed
* no work no success
* not leave won’t work

洋泾浜就是从类似下面的简约式直译过来的:

不走不行
不工作不成事儿
你来我【就】走

汉语简约式最大的好处是对无意义主语的省略,比较英语就很明显:

不劳动不得食
if you/we/one/anyone/everyone/anyone/they/people do not work
you/we/one/they/he/she should not get food

英语不得不在主句和条件从句加上这些莫名其妙的主语;汉语简约式直接省去,默认就是宇宙真理,普适于所有人。最叠床架屋的是,为了政治正确,在填写这些无意义的主语的时候,还常不得不这样来说: he or she 或者 s/he: if a person does not work, he or she should not get food.

no hard work no success 这种应该算是英语接受的、最接近汉语的简约句式了。

网:
@wei 你解析句子生成的内容用什么形式?用什么来表达解析后获得的语义?

我:
tree (& roles) / IE Templates

 

【相关篇什】

【离皇冠上的明珠只有一步之遥的感觉】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【立委科普:美梦成真的通俗版解说】

凑热闹参加【征文:美梦成真】 ,有网友搞不懂这美梦是啥,怎么叫美梦成真。说明我瞎激动的所谓美梦,非但没有做到老妪能解,甚至没有让科学人士明白,就科普而言,那是相当的失败。

看我能不能用大白话说明白这事儿:

我们人类的语言说简单也简单,说复杂也复杂。简单到不管多笨的人,也大都从小就学会了语言,交流没问题。但是人学会语言,大多知其然,不知其所以然。只有专门研究语言的语言学家一直在尝试对人类语言讲出点所以然来。可语言这玩意儿,不研究也就罢了,一研究就发现这是上帝的恶作剧,复杂得很,深不可测。

几千年的探索,总结出一种叫文法的东西,用它可以对语言的内在规律做一些总结,这样,千变万化的语句就可以分析成有限的句型结构,可以帮助语言理解和把握。人类本能的语言理解能力也因此显得有迹可循了。这就是我们在学校文法课上老师教给我们的知识,特别是一种语句分析的结构图的画法(grammar diagramming),条分缕析建立主语谓语宾语定语状语等结构联系,证明是一个很管用的语言分析技能。这一切本来是为了加强我们的语文能力。

电脑出现以后,就有人工智能的科学家想到,要教会电脑人类语言,这个领域叫自然语言理解(Natural Language Understanding),其核心是对人类语言做自动分析(parsing),分析结果往往用类似文法课上学到的树形图来表达。自动语言分析很重要,它是语言处理的核心技术。一个质量优良、抗干扰强(所谓鲁棒 robust)而且可以运行到大数据上面的自动分析引擎,就是个核武器。有了这样的自动分析,就可以帮助完成很多语言任务,譬如人机对话、机器秘书、情报抽取、舆情挖掘、自动文摘、机器翻译、热点追踪等等。(也有不少日常语言处理应用,譬如关键词搜索、垃圾过滤、文章分类、作者鉴定,甚至自动文摘和机器翻译,不分析,不理解,只是把语言当成黑匣子,把任务定义成通过黑匣子的从输入到输出的映射,然后利用统计模型来学习模拟,也可以走得很远。这些绕过了结构和理解的近似方法,由于其鲁棒性等优点,实际上是主流的主导性做法)。

自动分析语言方面,英语研究得比较充分。中文还刚刚在起步阶段,原因之一,是中文比欧洲语言难学,歧义更严重,大规律少,小规律和例外较多,不太好捉摸。因此有不少似是而非的流行说法,什么,词无定类,入句而后定,句无定法,“意合”而已矣。总之,中文自动分析是一项公认的很有意义但非常艰难的任务。尤其是要教会电脑分析真实世界的社交媒体大数据中的形形色色文句,更是难上加难。就是这个中文自动分析的美梦,最近被实现了。

这样的成就可以不可以说是美梦成真呢?

[11]方锦清  2013-10-17 15:04

我看不懂啊,可以进一步解释一下?

博主回复(2013-10-17 19:18):

这是一个跨越1/4世纪科研美梦终成真的现实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解(NLU)蓝图,其核心是对千变万化的中文文句施行自动语法分析。这幅蓝图距离现实太过遥远,其实现似乎非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,正在投入真实世界的大数据应用。
The mission impossible accomplished.

征文在此,请支持:【征文参赛:美梦成真】

 

【美梦成真】

  • 这是一个跨越1/4世纪科研美梦终成真的现实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解(NLU)蓝图,其核心是对千变万化的中文文句施行自动语法分析。这幅蓝图距离现实太过遥远,其实现似乎遥遥无期,非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,正在投入真实世界的大数据应用。The mission impossible accomplished.

二十五年了,中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。

   很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮。直到近两年,英语已经无可再做,该做的差不多都做了,不该做的也神农尝草,遍历辛苦。大山大水已然身后,而且已经大数据实用化了,应该可以放下。近几年来,随着白发的繁盛,岁月的流逝,忧虑之心油然而起。弹指一挥,逝者如斯,怕这辈子没有机会回到中文处理上来,那将抱憾终身。
   都说中文是世界上最诡秘、最玄妙、最不讲逻辑,自然也是最难机器处理的语言。有人甚至声称中文无文法,中文理解全靠“意合”,是对机器自然语言理解和人工智能前所未有的挑战。目的地如此高远,而现状却相当悲惨,中文处理整个领域深陷在汉字串切词的浅层漩涡长达数十年不能自拔。切词是什么?最多算万里长征的前十步而已。
   25年了,许多思考、想法,在头脑绕了很多年,一直未及实现,现在是时候了。这辈子不爬中文的珠穆朗玛,枉为华裔语言学博士。陶先生说:归去来兮,田园将芜胡不归?

喝令三山五岳开道,中文处理,我回来了!

出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【中文依存文法】,涵盖了现代汉语几乎所有的重要句型,画过无数的中文依存关系句法树,看上去真地很美。但那只是纸上谈兵。虽然设计这套文法是为机器处理,真要实现起来谈何容易。事实上,在当时那只能是一场科研美梦。这一梦就是25年!

现在回看当年的蓝图,对照最近在机器上实现的依存句法分析器,一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样体验着绿之美,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于迎来了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。

请欣赏青年立委当年“手绘”的粗糙又精致的句法树蓝图的几段截屏(可怜见地,当时只能用纯文本编辑器数着空格和汉字去“画树”,就如我年三十在机房数着字符描画山口百惠并用IBM-PC制成年历一样)。对照新鲜出炉的中文句法分析器全自动生成的婀娜树姿,我不得不说,美梦成真不再是一个传说。

(1) 25年前的蓝图(美梦):

25年后的实现(成真):
(2) 25年前的蓝图(美梦):

25年后的实现(成真):

(3)25年前的蓝图(美梦):

25年后的实现(成真):

(4) 25年前的蓝图(美梦):

25年后的实现(成真):

但那时我在上海也有一个惟一的不但敢于随便谈笑,而且还敢于托他办点私事的人,那就是送书去给白莽的柔石。

(5) 25年前的蓝图(美梦):

25年后的实现(成真):

(6)25年前的蓝图(美梦):

25年后的实现(成真):

胶合板是把原木旋切或刨切成单片薄板, 经过干燥、涂胶,  并按木材纹理方向纵横交错相叠, 在加热或不加热的条件下压制而成的一种板材。
 

 

【相关篇什】

初稿(2012-10-13 ):科学网—【立委随笔:中文之心,如在吾庐】

汉语依从文法: 维文钩沉(25年前旧作,浏览器下请选用国标码 GB 阅读以免乱码和图形失真)】:
ChineseDependencyGrammar1.txt
ChineseDependencyGrammar2.txt
ChineseDependencyGrammar3.txt

立委科普:语法结构树之美 (英文例示)】

立委科普:语法结构树之美(中文例示)】

【立委科普:美梦成真的通俗版解说】

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 

【离皇冠上的明珠只有一步之遥的感觉】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

【一日一parsing,而山不加增,何苦而不平?】

终于冰箱安装到位了, 欣喜之余发现有点儿小问题, 就联系了店家, 店家主动帮助联系客服上门查看, 虽然最终没有解决问题, 心里有点儿遗憾, 但是因为不影响使用, 所以也就无所谓了.”  这一句够复杂的,目前酱紫滴:

“店家” 与 “主动帮助”在主语之外,语义中间件给做了逻辑宾语,是 overkill,以为帮助的 subcat 的宾语没有 saturated,但是 动词性宾语ObjV 也算宾语的,这个调整一下可以 fix
最后的错误是远距离,“虽然” 应该找到 “但是”的,是强搭配,但里面有几个小句挡路。“但是”前面的小句没关系,反正是强搭配,抽着鞭子跑马也不怕越位,可是“但是”后面又来了个“因为 。。。所以”,这个嵌套有点讨厌:“但是”的落脚点因此不在第一小句,而在第二小句“所以”上。换句话说,人的理解是,“虽然”引导的让步状语从句应该长距离落实在最后的“无所谓”上,才符合句法语义逻辑。社会媒体似乎是不经意写出来的句子,也有这种繁复的小句嵌套的长距离句法问题(贴帖的人大概是个知道分子老九,大老粗没那么多“因为所以”“虽然但是”的,而且嵌套)。最后,“联系客服上门查看”还有个 subcat 词典没到位的 bug,小 case 了,不难纠正。small bugs are de-ed:

白:
这问题问的

我:
这事儿做的。
这澡洗的。
这牛吹的。
这问题问的。那叫一个水平。
这日子过的。那叫一个窝心。
这戏演的,那叫一个烂。
这话说的,那叫一个高。
感慨或惊叹的口语句式,句法主谓,逻辑述宾:这OV的。默认似乎负面,但正面也不少见。
这OV的 –》瞧人家这OV的
–》【human】+这+OV+的+标点
底层结构应该是:human+V+O+V+得+【】(补语省略)
他问问题问得【那叫一个水平】
他过日子过得【那叫一个窝心】
他演戏演得【烂】
他说话说得【高】

0822a

0822b

0822c

0822d

0822e

 

 

【相关】

【离皇冠上的明珠只有一步之遥的感觉】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一parsing:汉语单音节动词的语义分析很难缠】

白:
“她拿来一根漂亮的海草,围在身上做装饰物。”

我:
0821a

“围” 与 “做” 的逻辑主语阙如。原因之一是这两个动词本身的subcat没有要求“她”【human】或“海草”【physical object】。语义中间件目前是保守策略,因为逻辑填坑是无中生有,宁缺毋滥,rather underkill than overkill,精度优先。

人的理解是怎么回事呢:单个儿的“围”不好说,但是VP【围在身上】从“身上”继承了【human】的未填之坑,正好让“她”填做逻辑主语。同理,“做”是万能动词,也没有特定语义要求的坑,但是VP【做装饰物】(act as NP)则挖了一个同位语的语义坑【physical object】,可以让“海草”来填:【human】“把”(“用”)【physical object】“围在身上”;【physical object】“做装饰物”。
“围在身上”的句法主语可以是【human】,也可以是【physical object】:“一根漂亮的海草围在身上”。但是背后的逻辑语义都是 【human】为逻辑主语。

白:
此例引自小学一年级水平的课外读物

围,属于具有“附着、固定”subcat的动词子类,如果做话题,可以单独表示起始动作完成后的遗留状态。话题化 被固定物做话题

我:
而“海草”可以看做【工具】(包括【材料】状语),也可以看做是 VP【围在身上】内部的“围“的【受事】

白:
是逻辑宾语

我:
这是层次不同造成的逻辑角色的不同。
实际上,对这一类汉语单音节动词做如此细致的语义分析,挑战性很大。它们太多义了,只有组成合成动词、甚至形成 VP 以后,才逐渐排除多义而收心。这个动态的 subcat 的确定和填写过程,相当繁难,if not impossible。

白:
房子盖在山上做行宫

我:
0821b

“盖-房子”算合成词。
again “做” 的逻辑主语(深层同位语)没连上“房子”。

白:
他给你打了一副手镯当嫁妆

我:
0821c
SVO 齐活了,主句的O却断了。这叫顾腚不顾头,需要好好debug一哈:

0821d

这个比较完美了。也把“打手镯”当成“打酱油”一样做进离合词了。这样处理很重要,因为“打”是个万能动词,不知道有多少词义(如果考虑搭配中的词义的话)。

 

【相关】

【离皇冠上的明珠只有一步之遥的感觉】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【离皇冠上的明珠只有一步之遥的感觉】

1471802218_457583

parsing 是最好的游戏,而且实用。

据说好玩的游戏都没用,有实用价值的东西做不成游戏。但是,对于AI人员,parsing 却是这么一个最好玩但也最有用的游戏。纵情于此,乐得其所,死得其所也。

禹:
李老师parser有没有觉得太烧脑呢?
做parser少了个做字。感觉上先是一个比较优雅的规则集,然后发现规则之外又那么多例外,然后开始调规则,解决冲突,然后’整理规则的事情还得亲力亲为,做好几年感觉会不会很烦?

我:
不烦 特别好玩。能玩AI公认的世界级人类难题且登顶在望,何烦之有?
烦的是好做的语言 做着做着 没啥可做了 那才叫烦。英语就有点做烦了。做中文不烦 还有不少土地没有归顺 夺取一个城池或山头 就如将军打仗赢了一个战役似的 特别有满足感。

梁:
收复领地?

我:

【打过长江去,解放全中国!】

parsing 是最好的游戏。先撒一个default的网,尽量楼。其实不能算“优雅的规则集”,土八路的战略,谈不上优雅。倒有点像原始积累期的跑马,搂到越多越好。然后才开始 lexicalist 的精度攻坚,这才是愚公移山。在 default 与 lexicalist 的策略之间,建立动态通信管道,一盘棋就下活了。
譬如说吧,汉语离合词,就是一大战役。量词搭配,是中小战役。ABAB、AABB等重叠式是阵地战。定语从句界限不好缠,算是大战役。远距离填坑,反而不算大战役。因为远距离填坑在句法基本到位之后,已经不再是远距离了,而且填的逻辑SVO的坑,大多要语义相谐,变得很琐碎,但其实难度不大。(这就是白老师说的,要让大数据训练自动代替人工的语义中间件的琐碎工作。而且这个大数据是不需要标注的。白老师的RNN宏图不知道啥时开工,或已经开工?)

parsing 是最好的游戏。一方面它其实不是愚公面对的似乎永无尽头的大山,虽然这个 monster 看上去还是挺吓人的。但大面上看,结构是可以见底的,细节可以永远纠缠下去。另一方面,它又是公认的世界级人类难题。不少人说,自然语言理解(NLU)是人工智能(AI)的终极难题,而 deep parsing 是公认的通向NLU的必由之路,其重要性可比陈景润为攀登哥德巴赫猜想之巅所做出的1+1=2.  我们这代人不会忘记30多年前迎来“科学的春天”时除迟先生的如花妙笔:“自然科学的皇后是数学。数学的皇冠是数论。哥德巴赫猜想,则是皇冠上的明珠。…… 现在,离开皇冠上的明珠,只有一步之遥了。”(作为毛时代最后的知青,笔者是坐着拖拉机在颠簸的山路回县城的路上读到徐迟的长篇报告文学作品【哥德巴赫猜想】的,一口气读完,头晕眼花却兴奋不已。)

不世出的林彪都会悲观主义,问红旗到底要打到多久。但做 deep parsing,现在就可以明确地说,红旗登顶在望,短则一年,长则三五年而已。登顶可以定义为 open domain 正规文体达到 95% 左右的精度广度(f-score, near-human performance)。换句话说,就是结构分析的水平已经超过一般人,仅稍逊色于语言学家。譬如,英语我们五六年前就登顶了

最有意义的还是因为 parsing 的确有用,说它是自然语言应用核武器毫不为过。有它没它,做起事来就大不一样。shallow parsing 可以以一当十,到了 deep parsing,就是以一当百+了。换句话说,这是一个已经成熟(90+精度可以认为是成熟了)、潜力几乎无限的技术。

刘:
@wei 对parsing的执着令人钦佩

我:
多谢鼓励。parsing 最终落地,不在技术的三五个百分点的差距,而在有没有一个好的产品经理,既懂市场和客户,也欣赏和理解技术的潜力。

刘:
任何技术都是这样的

我:
量变引起质变。90以后,四五个百分点的差别,也许对产品和客户没有太大的影响。但是10多个百分点就大不一样了。譬如,社会媒体 open domain 舆情分析的精度,我们利用 deep parsing support 比对手利用机器学习去做,要高出近20个百分点。结果就天差地别。虽然做出来的报表可以一样花哨,但是真要试图利用舆情做具体分析并支持决策,这样的差距是糊弄不过去的。大数据的统计性过滤可以容忍一定的错误,但不能容忍才六七十精度的系统。

当然也有客户本来就是做报表赶时髦,而不是利用 insights 帮助调整 marketing 的策略或作为决策的依据,对这类客户,精度和质量不如产品好用、fancy、便宜更能打动他们。而且这类客户目前还不在少数。这时候单单有过硬的技术,也还是使不上劲儿。这实际上也是市场还不够成熟的一个表现。拥抱大数据成为潮流后,市场的消化、识别和运用能力还没跟上来。从这个角度看市场,北美的市场成熟度比较东土,明显成熟多了。

 

【相关】

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

It is untrue that Google SyntaxNet is the “world’s most accurate parser”

【立委科普:NLP核武器的奥秘】

徐迟:【哥德巴赫猜想】

《朝华点滴:插队的日子(一)》

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

从汉语Topic句式谈起

再谈汉语的 Topic 句式,这玩意儿说到底就是句法偷懒:不求甚解,凡是句首看上去像个实词的,贴个discourse意味上的标签 Topic 完事儿。管它逻辑语义上究竟是扮演什么角色,怎样达成深度的理解。说得难听一点儿,这就是汉语文法“耍流氓”。

宋老师的例子:
“吃苦他在前”–> Topic【吃苦】Subj【他】Pred【在前】
这就交差了,句法算及格了。
更常见的其实是:“他吃苦在前”。 分析起来,也是一个套路:
“他吃苦在前”–>Topic【他】Subj【吃苦】Pred【在前】。

“他学习好” 也是如此,话题是某个人(“他”),说的是他的弱点:什么地方(aspect)好(evaluation)。“学习【,】他好”(不用逗号亦可,但有歧义:【学习他】好。)。话题是 “学习”这事儿,说的是哪些人(subset)这方面好(evaluation)。

英语大概是: he is good in study;his study is good; he studies well

逻辑语义呢,似乎有这几个关系:
(1)他(big object)好;(2)学习(small object)好;(3)他学习。

人无完人。一个人的一个方面好了,就可以说这个人(整体)好,好的所在(优点,pros)就是部分。这是整体与部分的相互关系。缺点(cons)亦然,如:
iPhone 屏幕不好。
细节是屏幕的不如人意,但是屏幕(部分)不好,也就影响了iPhone(整体)的评价,所以也是 iPhone 不好。

说来归齐,就是 Topic 做句法的第一步没问题,但不是句法语义的终点。更像是偷懒,或者桥梁,最终要达到(1)(2)(3)才算完事儿。无论“iPhone屏幕不行”还是“屏幕iPhone不行”,无论中文英文,表达法可以不同,最终的逻辑归结点应该是一致的,大体上就是123。思考一下英语没有话题句式但用了至少三种其他的表达式(如上所述),想想这些表达式最终怎么归化到逻辑的123,是非常有意思和启迪的。

句法分析或逻辑语义上的123,最终要落地到语用去支持应用。语用上的定义可以依据应用层面的情报需求。下面是我们目前的自动句法分析及其相关的 sentiment analysis 的语用表达:

0815d

 

【相关】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

一日一parsing:“宝宝的经纪人睡了宝宝的宝宝 …”

bai:
宝宝的经纪人睡了宝宝的宝宝,宝宝不知道宝宝的宝宝是不是宝宝亲生的宝宝,宝宝的宝宝为什么要这样对待宝宝!宝宝真的很难过!宝宝现在最担心的是宝宝的宝宝是不是宝宝的宝宝,如果宝宝的宝宝不是宝宝的宝宝那真的吓死宝宝了。

tan:
这种八卦,估计很难分析。 难为parse这个宝宝了!

姜:
里边的歧义真是不少啊!要仔细用心才能理解每个“宝宝”的含义!
宝宝1:王宝强;宝宝2:王宝强媳妇;宝宝3:王宝强媳妇的儿子;宝宝4:王宝强的儿子

我:
结构上看还是蛮清晰的,有些人看上去类似绕口令的话语,结构分析的挑战其实不大

0814a

0814b

0814c

刘:
@wei 这主要不是parsing的问题,主要是指代消解的问题

我:
是的,我是说parsing提供结构的基础不难, 语义模块怎么消解指代是另外的问题。很多人以为这玩意儿没法 parsing,是因为对句法和语义的模块和功能不甚了解。当然一般人心目中的 parsing 等于 understanding,是结合了句法、语义甚至语用的整体的系统。
一步一步来吧。打下一个坚实的结构基础总是有利的。
我是 native speaker,其实也看不懂,不知道里面宝宝指的都是谁。刚才上网恶补了一下新闻,才明白怎么回事儿。所以,这里的指代消解需要很多语用背景知识,光句法语义分析不能解析的。

白:
这么快段子就来了:王宝强去马场选了一匹马准备骑,这时候马场的师傅阻止了他,说选的这个马不好。宝强问为啥?师傅解释说:“这马容易劈腿。” 宝强没有听太明白,师傅又大声说:“这马蓉易劈腿啊!!”?

我:
这是白老师先前转的,还是也 parse parse 凑齐一段吧:

814d

814e

814f

雷: 宝宝的宝宝是宝宝的吗?

我: 最多也只能提供可能性,然后语用或背景知识去定。
从词典上,“宝宝(Baby)”的可能性是:(1)孩子;(2)爱人
至于宝宝指王宝强,那是抽风似的娱乐界当前的背景知识,此前此后都没有这个知识。

白: 名字里带“宝”字的都有可能
之前宝宝的称号还被赋予过仰望星空那位大人物 是有先例的

我: 这样每一个宝宝就有三个义项: 宝宝1 (孩子),宝宝2 (爱人),宝宝3 (宝强)

孩子的孩子是孩子吗
爱人的爱人是爱人吗
宝强的宝强是宝强吗
孩子的爱人是孩子吗
孩子的爱人是爱人吗
孩子的爱人是宝强吗
孩子的宝强是孩子吗
孩子的宝强是爱人吗
孩子的宝强是宝强吗
爱人的孩子是孩子吗
爱人的孩子是爱人吗
爱人的孩子是宝强么
………

总之,逃不过这些爆炸的组合之一
加一点限制条件可以排除一些不可能组合,但留下的空间还是远远大于可以离开新闻背景知识而能消解的可能。

雷: 还有,现在还流行自称“宝宝”,比如,宝宝不高兴

白: 没那么复杂。“【孩子】是【男人】的吗?”才是唯一有看点的提问。其他都是渣。

我: 人不看新闻也解不了,反正我第一次看,完全不知所云。

雷: 还有,宝马之争

我: 宝强的孩子是宝强(亲生)的吗

雷: 宝强的老婆是宝强的吗?

我: 恩,这两条是关键,怎么从成堆的渣里面提炼出这两条?
通过什么样的知识?
这不是新闻背景知识了,这是人类道德在现阶段的扭曲和窥探欲的某种知识

白:
不是窥探欲的问题,是信息量、冲击力大小的问题。

雷: 孩子的爸爸是孩子的吗?

我: 孩子的爸爸是孩子的吗? 这个可能只在想象中成立,想象孩子把自己的爸爸叫做宝宝,孩子有这种探究的动机,等。

雷: 第三方看,也是可以的

 

【相关】

【立委科普:语法结构树之美(之二)】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【语义计算群:句法语义的萝卜与坑】

白:
张三对李四的批评一针见血。
张三对李四的批评置若罔闻。

梁:
白老师,这个挑战绝了,第一个是,张三批评李四,第二个是李四批评张三。

我: 白老师这个 minimal pair 是语言学的绝配样例。顺着它,可以 illustrate 一车的“萝卜与坑”的语言学:subcat 怎样工作,如何竞争,以及句法句型的的逻辑语义落地。这是语言学的魅力。我们先来 parse 一下,然后尝试做解读。

t0708b

谁一针见血,谁置若罔闻,都是张三(S)。我们先看两句的总体句子架构,然后再论内层的逻辑谓词“批评”的句法逻辑语义。“一针见血”是不及物动词,只有主语一个坑,可以是人 也可以是观点类抽象名词或动作类的语词;“置若罔闻”有主语宾语两个坑,但这个成语性的语词谓语,其宾语在汉语句法(subcat pattern)中要求PP(对),而不是后置NP,置若罔闻的主语坑必须是 human,最多推广到 法人(机构、公司等)。
t0708c

“X 一阵见血”,无论 X 是人是物还是动作:

t0708d

“human 对 X 置若罔闻”, 置若罔闻的X无论是物(信息)还是人(指代的仍旧是信息,是指那个人说的话:此乃“闻”的常识语义 ontology 所规定,但为了鲁棒,不必在句法上做这样的语义限制,因为介词“对”已经是一个很好的类似于“格变”的语言显性形式手段了,对于填这个坑已经足够精准了):

t0708f

后一句意思是,张三不把李四的话当话(e.g. 张三逆反)。

接着我们考察一下“批评”的SVO句型,看看S和O的坑在中文是怎样要求和被填的:

t0708g

t0708h

这算是“批评”的三个最基本的 subcat patterns,逻辑语义不变,尽管第二个变式中的表层句法是以PP做状语(Adv)的面貌(和位置)出现,但语义中间件根据变式2的规定可以很容易确认其逻辑宾语(O)的角色。

下面来看汉语中利用“的字结构”的SVO句型变式:e.g.  S对O的V

t0708i

t0708n

t0708j

这是指称性 arg structure,通常用“的”(“之”),于此对应的是英语的动名词NP:
John’s criticism of Peter
vs
John’s criticism by Peter
Peter’s criticism towards/of John
the criticism of John by Peter
the criticism of John towards Peter

可见,英语的 of 几乎与汉语的 “的” 一个臭德行 充满歧义。by 和 towards 就规矩多了。再举几个指称性SVO的例句:

t0708k

t0708l

t0708m

t0708o

如果不是逻辑动词的“意见类”语词,就是 human 对/关于 thing 的 意见,广义的 thing 包含 human:
张三对李四的看法
张三关于时局的一点意见

雷:
这个人不是东西

我:
人不是东西 但可以当东西看 在语义限制的时候 除非特地标明 NOT human,白马是马非马 的辩证法:“张三对李四的意见”。“李四”不是东西 但在这个句型当东西看 因为“意见”没有human逻辑宾语的坑 只有关于万事万物的坑。

梁:
张三对李四的评价很好。--》 评价很好--》评价是主语。
张三对李四的评价无所谓。 ——》 张三无所谓 ——》 张三是主语。
“对”管到哪儿的问题。

我:
到了 意见 的同义词 “看法” 就有趣了:“张三对李四的看法”。
句法上 仍然是 【关于】 万事万物;词法上,这个外化到句法的 pp 实际上是逻辑动词语素 “看” 的逻辑宾语,只不过 在 “看” 与 “法” 合成为黑箱子的词典化过程中,这种深度搭配被遮掩了。必须词典化、黑箱化,因为此法非彼法。只有词典化,才能绑架 “法” 的语义。

“张三对李四的看法”
结构上是
“ 张三 看 李四 的 ‘法’ ”

“法” 不是默认的 method 语义,而是引伸的 perspective 语义,相当于英语的 point 在 viewpoint 或 point of view 中。黑箱的好处是可以把引申语义绑架为本义,英语的 viewpoint 就是用的同一种绑架的招数,否则 point 本身也意义含混。

“John’s viewpoint about Peter”
structurally is equivalent to
“John’s perspective of (John) viewing Peter”

昨天说过 虽然黑箱化 但在段子里可以休眠唤醒为白箱子:tv 新看法 就是。

总结:今天调试开发了的 unit test 的句子如下,工作成效颇不坏:

张三对李四的批评一针见血。
张三对李四的批评置若罔闻。
张三的批评一针见血。
张三一针见血。
批评一针见血。
张三对批评置若罔闻。
张三对李四置若罔闻。
张三置若罔闻。
张三批评李四
张三对李四批评
张三对李四的批评
张三之批评李四,毫无道理。
张三被李四所批评
张三被李四批评
张三为李四所批评
张三的被批评
李四对他批评
李四对他的批评
张三对李四对他的批评置若罔闻。
李四对他的批评一针见血。
张三对王五对李四的批评置若罔闻。

 

【相关】

tv 新看法

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【李白之30:算账先生说,parser 就是个交易系统】

李:

t0702d

陈:
日他,不是应该分析成 日 他

李:
“日他”在我们sentiment中语义是落地了的,社交媒体中表达 negative 情绪的骂人的

白:
伟哥到隔壁做做两个句子

t0702e

t0702f

白:
next有点耍赖

李:
NEXT 不是有点耍赖 是非常耍赖。如今是把 NEXT 作为未来语义中间件的重点改造对象。

白:
人工智能那个,怎么排除另一个“发展”为名词的解释?

李:
怎么排除的?根本就没刻意排除。
现在的问题是,如果不想排除,我可以不可以做,值得不值得做?

白:
有助于人类 和 有助于人工智能  大数据会告诉你

李:
就case论case 我有点怀疑大数据的作用 语感上 是半斤百两:“有助于人类” 和 “有助于人工智能”。即便依照大数据的阈值,走了其中一条 path 也还是很可能与语感或具体的case相左。大数据也只能解决基本分明的现象 大数据对模糊现象不是灵丹。

白:
人类的人工智能,这条路径更弱。

李:
有助于人类的 path 还是可以的。当然 那个如果正确 也是瞎猫撞死耗子。
目前的喧嚣是人工智能可能是坏的 可能毁掉人类 因此下面这个提倡 非常具有霍金盖茨马云般的“高瞻远瞩”:既不排斥科学技术的发展进步 又提出了道德的要求。
MD 听上去都有点像斯大林做学问了:
发展有利于马克思主义的语言学
发展有利于社会主义的生物学
发展有利于人民革命的核武器

白:
“改革有利于中国的持续发展”
看看狗屎运是不是可持续

李:
狗屎运与否,这次是耍了一次流氓:

t0702f

Next 与 Topic 基本等价,所以其实并不坏。
句首的词做 Next 与句首的 Topic 基本都是耍流氓。但是都是可以教育好的,等到语义中间件去教它从良,恋爱结婚生子。

白:
改革不适应时代的陈旧观念。
改革有利于少数人的管理制度。

李:

t0702g

“不” 给拉下了,这是个 bug 很好奇怎么拉下的。不过框架是对的,怎么对的,只能说狗屎运了 因为自己也搞不清。下面这个把“少数人”加入词典后,狗屎运似乎就光临了的样子:
t0702h

白:
需要在边界附近强化蹂躏

白:
改革有利于多数人的公平正义。
指挥没有记熟谱子的队员很没劲。
指挥没有记熟谱子的后果很严重。

李:

t0702i

上面断链了两次 挺不咋样的。

t0702j

t0702k

白:
第一个,队员是指挥的逻辑宾语

李:
还有个 bug 应该不难 de:已经有“谱子”做宾语了,语义中间件还是在逻辑主语(对的)又给加了逻辑宾语(错的)。有一阵子是有意放宽了保持歧义的策略 因为语用的时候有歧义比较好运作。

白:
后果,和行为、事件、消息是一个封闭小类。是在对VP进行“概括”

李:
现在没给这个小类起名字 都是零碎地用一些已有的类别 结果就是有漏掉的 可以考虑加一个 feature 就叫 VdeN,表达的不是宾语 而是其他,譬如同位语。

白:
第二个,指挥根本就是名词

李:
“指挥”是名词,不太好伺候,需要细线条。

白:
前面的“发展”其实也是双性 还有“改革”

李:
我其实不主张把这类归为 POS 歧义 因为这很容易推卸句法的责任 误导人在 POS 里去做句法的事儿 这种教训太多了。后果很严重,尤其对汉语。不说是 POS 双性 而说POS就是V。汉语缺乏形态 基本上逻辑的POS就是语言的POS,不存在动词又是名词的事儿。到了句法,就有了这个动词是自我包裹起来 还是成家生子的区分。闹独身的动词 类似于英语的 gerund,成家生子的动词就是常态的谓语动词了 构成了自身的 arg structure

白:
转指(比如作为人的指挥)的PoS一定是双性。自指(比如作为动作的指挥)的PoS在词法阶段可以保持不变,在句法阶段被强制,有案可查。指称性、陈述性。

李:
“指挥”不论,指挥是 human 当然是名词。说的是 “改革”、“发展”。这样的词强调POS双性无益 而且误导。

白:
这个同意

李:
不知道如今的汉化的PennTree或WordNet 是不是还把它们作为 POS 的歧义来标注。如果是,就是 community 的政策性误导。结果新人就一头钻进去试图在 POS level 去解决这个 POS 歧义,这不是死胡同吗?

白:
所谓被强制,就是强制之后改性。如“这本书的出版”:出版是V,这本书的出版是NP

李:
不错。这些是在 parsing 的过程中解决,而不要归结为一个独立的 POS 问题 或 POS 模块,这是症结。其实 都 NP 了 改不改 POS 已经无所谓了。保证做出 NP 是目的。

白:
这没有问题。
“画穿裙子小人的是女厕所。”

李:
没看懂 不过 parse parse see see:

t0702aaa

一无是处。

当然 作为人脑 我看了几遍了 还是没看懂。
Wait,是标志 ……

白:
这是小学一年级课外读物

李:
画有穿裙子标志的那间是女厕所

白:
还好你的“穿”没做补语

李:
确实没看懂 人脑其实也不咋样。
这样就清楚多了:画了穿裙子的小人的那间是女厕所 于人于机。

t0702m

当然 “那间” 应该是 S 而不是动词 “画” 做主语。定语从句没搞定。
画的是“人”不是“间”。

白:
定语从句对于标配的坑和非标配的坑处理是不同的,前者可以省略“的”的中心语,后者不能省略。
“写了三行字的是作文本,写了两行字的是记事本。”

李:
的字结构作为指代,【定从】中插入“是”,前面的就成了【的字结构】主语,后面成了表语的是哪些?

我看的书 –》 我看的是书
我吃的这家馆子 –》 我吃的是这家馆子
我吃的亏 –》 我吃的就是这个亏。(动宾离合词的搭配需要这个pattern帮助搞定。)

上面的例句因为宾语的坑还在(没有 daturated),还好说。下面的呢?

我写了三行字的作文本 –》 写了三行字的是作文本
我写书的这个屋子 –》 我写书的是这个屋子??
我【在其中 in which】写书的屋子

白:
有些动词处所坑是标配,有些不是。不是的,的后面不能省略

李:
处所标配的动词是 “去”“来”这样的?

白:
这是其中一类

李:
“写书” 没有这个标配,如果带处所也是所有动词都带的状语性质。

白:
还有表示附着、固定的,画、涂、标、钉、挂,都可以。

李:
那是 put 、place 这类 带处所做补足语的。HowNet 里面应该有,这是跨语言的常识要求。

白:
挂两颗星的是中将。

李:
“中将” 与【处所】貌似没关系啊。“挂两颗星的是中将制服”。
“制服” 倒是处所的延伸。

白:
写书和写字不同。写字有附着对象,写书没有。
“写白字的是黑板,写黑字的是白板。”

李:
这个虽然有道理,但确实已经很微妙了 感觉上不大好拿捏。

白:
标配和光杆“的”之间的变换关系有道理?还是“放置、附着、固定”这类subcat带标配处所有道理?
我承认后者很微妙,总结得未必精准,但前者似乎是比较正常的。

李:

t0702n

看看这个parse: 就是说
写白字的是黑板 == 黑板写白字
写黑字的是白板 == 白板写黑字
这个解释几乎可以接受了吧?
至于这个 S 的深层逻辑语义该取个什么名字 暂时不管。

白:
你这白字和黑字不对等哦……

李:
yeh 我也发现了,不知道为啥
知道了:“白字” 词典化了。

白硕:
“白字”另有所指。

李:
对,白字不一定白,是错别字。而 “黑字” 却是自由组合出来的。组合的时候 算是 open compounding 就简单的加了个 x link

白:
但是,当逻辑主语现身的时候,S不会还霸占着吧?
“他们写白字的是黑板”
也可以逆行:“黑字写白板,白字写黑板”

李:
哈 你猜这么着?
Topic!

t0702o

t0702p

白:
今天飞北京,明天飞成都。
他们和黑板,显然不是大小主语关系,这属于滥用第三个坑了。

李:

t0702q

白:
“这里他写了三个字”

李:

t07021

这还差不多。

白:
这个O,对于不及物的“飞”来说,其实就是标配化的处所宾语了。
“重庆我昨天飞的”
“这张纸他只写了三个字”

李:
估计是 Topic。

t07022

不是 Topic 就是 Next。没关系 意味着想做后面可以接着做。其实在语用的时候,很可能不需要这个语义 arc 的求解了。反正 作为 node 重庆是地点,纸 是广义的处所 这个 ontology 知识系统是有的 不必借助精细的句法语义关系。所以 这个语义中间件 说到底就是要做可以一直做下去 理论上讲 做得好 对各种语用都会有好处。但实际上不做也没啥 语用的时候 稍微多费点儿力气 或者 语用很多时候根本用不到。

白:
标配与否,其实是人为的,有些不是满格,也许称为“半标配”更好接受。

李:
逻辑语义这东西 太细了麻烦大 好处却不明显。董老师的定义 我都觉得太细了。

白:
其实这个群讨论的问题,很多都无关做不做,而是事关有没有。

李:
从一个语义系统的角度看 董老师的定义有助于语义全貌的完整性;
从实际使用看 其实绝大多数的时候 要不了那么精细。

白:
做统计的人也一样可以说,我不做某事是因为好处不明显。我不需要那么精细

李:
他们一直就那么说。 昨天@Guo 还说呢,你那个 deep parsing 甭管多牛,我其实 shallow 就很好了。

白:
但是一个可以逐步精细的通道有还是没有,才是最关键的。

李:
通道是有的 至少我这里;有了 Next 和 Topic 精细化的通道就铺就了。而且写这些精细化的规则 比线性parsing要容易 容易很多。

白:
线性不线性,其实就是个是否允许做空的问题。一定要先买再卖,就是线性。

李:
线性的束缚大 而且层次多 里面的调控有很多 tricks 到了句法树出来了 问题就简化了

白:
允许一定窗口期内先卖再买,就打破线性了。

李:
耍流氓是谈一场精细浪漫恋爱的很好的前戏 尽管这句话听上去很不地道。

白:
topic很多就是在“做空”:动词没出场,逻辑宾语先出场了。

李:
就是。
能搞定的先搞定,搞不定的先挂着。等到局部大部搞定以后,再看那个别没搞定的,就不再是挑战了。

白:
卖自己没有的东西 赊账

李:
白老师还是在交易所里面呆太久了 满口算账先生的味道

白:
还别说,parser就是个交易系统:左括号是买单,右括号是卖单
你以为

李:
subcat 就是 ……

白:
subcat是股票

李:
saturated 就是成交

白:
subcat的提供者在填坑,subcat的需求者在挖坑。一对多的右括号是市价订单,无论多少左括号都通杀。比如多个定语对一个中心语 可以看成右括号潜在供应量无限。

李:
这是 mod 的本性,与 subcat 相对应。subcat 一个萝卜一个坑。两个萝卜来了 除非是 conjoin 否则没戏。

白:
补语在与述语动词分立时,坑的总供给有可能大于总需求。打包以后,有的坑被“合并同类项”了,取得了新的供需平衡。比如,冻肿了,冻X,X肿,两个X自然合并。合成的述补结构仍然只有一个坑。
什么坑能合并,看见两个谓词自然就能知道。(subcat or 大数据)不用和填坑的词打照面。所以,述补结构的处理,分层上要先于名词(短语)填坑。全放在一个平面,就说不清楚坑多萝卜少咋分的。

 

【相关】

【征文参赛:美梦成真】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一parsing:”钱是没有问题”】

雷:
2016年最佳语文组词能力:
“钱是没有问题 ” 就这六个字的组词成句,可以变成不同意思的句子!哈哈,偉大的語文能力!
钱是没有问题
问题是没有钱
有钱是没问题
没有钱是问题
问题是钱没有
钱没有是问题
钱有没有問题
是有钱没问题
是没钱有问题
是钱没有问题
有问题是没钱
没问题是有钱
没钱是有问题
@wei parsing请
高:
显然字不一样

t0709a

t0709b

t0709c

t0709d

 

我:
有少数不尽如意的 parses,但几乎每个 parse 都可以站得住,或说得出道理。是不是有点牛叉,我自己都有点吓倒了。哈。
最后的两个断链的 parses 也有道理,因为那两个破句子,我作为 native speaker 都不知到底想说啥。就是玩弄文字游戏,排列组合汉字瞎凑合。

雷:

白:
最后两个,我理解:没问题是有钱=没问题是因为有钱,没钱是有问题=没钱是因为有问题。所以用next是对的,用subj略勉强。但是如果说“没钱是有问题的”,就是subj了。

我:
“没钱是有问题” = “没钱的确有问题”
这个说法倒是听过。
白:
语感有差异
我:
“没问题是有钱” 还是听着别扭,不知所云 白老师的解读也有硬去揣摩的味道。

白:
如果“是”重读,也会到“确实”那个含义

我:
“没问题,是有钱。”
这个可以,就是两个小句: == 没问题。(X)的确有钱。
“没问题是有钱” 如果中间没停顿 没逗号 就几乎可以说不合法了。法不法不论,就是不容易明白想说啥。

陈:
立委最近发言不多了?

我:
@陈 钱不是问题 那啥是问题?我觉着,啥都不是问题,就钱是问题。

陈:
@wei 多来点parsing。。。

我:
要多少有多少。吹牛谁不会

dolo:
@wei 这个分析不错

我:
@dolo 我说了 牛叉不是吹的吧。
—- 其实还就是一个苦力,后面就是个力气活。到用了,就显灵了。

 
【相关】

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【一日一parsing:休眠唤醒的好例子】

白:
IPTV首页广告语“IPTV,电视新看法”。
需要休眠唤醒的好例子。

我:
t0796a
对,这个 hidden ambiguity 与 “难过”、“好过”一样,可以也应该休眠唤醒。如果真想做的话,就在“看法”的词条下,在句法后做一个词例化规则:
查一下“看法”(默认词义:viewpoint,有个 human 的坑)的 Mod 来唤醒第二条路径(词义)。
查 Mod 的条件有宽松两个选择,可以根据大数据测试的质量来权衡定夺:
(1)宽的话,如果 Mod 不是 Human,那就唤醒
(2) 窄的话,如果 Mod 是“看”的搭配词(看电影、看电视、看戏、看热闹、看耍猴 etc),那就唤醒

白:
作为一个词的“看法”有两个坑,“谁”对“什么”的看法。“谁”即使锁定到human和“电视”不搭调了,还有“什么”可供填充。所以,单纯从一个坑的不匹配,还不足以翻盘。需要“看-电视”这样的强搭配来推波助澜里应外合。

我:
好!
唤醒的是句法层面的定中关系(默认的是词典的合成词,可以看成词的黑箱子,也可以看成是词法内部的定中关系):“看-法”(而不是“看法”),语义落地在 MT 上的表现就是选择第二个译法:way of 看。因为搭配找着了,MT 也就可以把“看”的翻译从默认的“see”改成搭配的“watch”:
IPTV,电视新看法 ==》
IPTV, a new way of watching TV (而不是 TV’s new viewpoint)
这个思路是没有问题的 虽然需要花点儿力气。至于选择做还是不做 那是另一个问题。
在“难过” vs “难-过” 这样的case上,我们做 sentiment,是选择了去做,用到上述休眠唤醒的招术,把表达主观负面情绪的默认的“难过”解读,语义落地为表达客观负面情形的“难-过”。见 【立委科普:歧义parsing的休眠唤醒机制再探】 。

梁:
“IPTV,电视新看法” 这句话,连我都休眠了好一阵,刚刚被唤醒。
语义落地到 MT, 是 “ IPTV, a new way to watch TV” ?
so it is either, 一种看电视到新方法, or 一种对电视的新的看法? ”看法“ could be “opinion”?

我:
广告跟段子一样,故意弄这些,为了俏皮,加深印象。
可喜的是,至少我们寻到了解决这类段子似的俏皮话的计算机实现的路径。
休眠唤醒的事儿,以前在语义落地的时候“自发地”做过,但从来没有总结到现在的高度,可以有意识地推广运用。这是在本群与白老师等探讨的收获。
hidden ambiguity 和段子这类的parsing,以前一般都认为是难以企及的语言难题。至少现在不是那么遥不可及了。

梁:
想想这事是挺有趣。“看法”,本来挺强劲的结合,硬是给左边的“电视”拆开了。这类暗中较劲,猜想、比较、争吵,分裂,结合,settle 的过程,人的大脑 parsing 的时候,可能也有这样的过程。据说人思考时经历一种微型达尔文过程。

白:
【转神段子】航拍记录显示,湖北已经基本都是湖,找不着北了。
看看如何休眠唤醒。

K:
他伸出双手,要露上两手。

我:
唤醒啥? “找不着北” 是成语:
t0707a

白:
湖北两个字,只剩一个字了 另一个字找不着了
元层次和对象层次的纠缠

我:
并不影响语义理解

白:
影响段子理解

我:
俏皮的定性 如果也是语义的一部分 可以利用机械扫描匹配 来发掘 无需与句法层发生纠缠

白:
总之是要吃回头草

我:
不属于核心语义。核心语义是 湖北这个地儿现如今到处是水 方向辨别不清了

白:
核心语义没发生颠覆或荒诞化 只是附加了一层元层次上的俏皮。段子理解,有颠覆型的也有附加型的。

我:
“伸出双手 露上两手” 同理 同机制 也可以扫描匹配发掘 后半部也是成语 唤醒的是成语的非成语解读。这与切词中的 hidden ambiguity 同理。

白:
俏皮也是附加。还有我之前举的例子,“贾宝玉托举林黛玉,纯粹是多此一举”。先导词语素的重叠使用。

K:
电视的新看法 看法有了非成语语义属于唤醒

我:
Longest principle 默认一个多语素词的黑箱子性质,但在特定的上下文中 可以唤醒句法透明的解读。
t0707b

K:
露上两手 多此一举 是否与之类似呢?唤醒了手与举的非成语语义?

白:

我:
就是。词法的内部关系 唤醒为句法的外部关系。哪怕词法句法是一脉相承 平行的,句法解读与词法解读 在语义和概念层面是很不同的。英语类似的 hidden ambiguity 有blackboard 解读为black board

K:
感谢二位老师
我理解 成语语义的整体性与成语内部结构的潜在可分解性会影响休眠唤醒
比如 新看法 作为成语有其常用语义,但其内在结构可分解,(新(看(法))),这种结构分解为 看法 增添了新的语义。这与分词中的组合型歧义有关联。何时分,何时合,可能单在分词层面难以完成,有什么好的解决办法吗?

白:
先说没有外部刺激是不该拆开来的
然后再说外部刺激可能有哪些特征
比如,重复。

 

【相关】

立委科普:歧义parsing的休眠唤醒机制再探】 

泥沙龙笔记:NLP hard 的歧义突破

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白张61:长尾问题种种】

李:
欢迎金老师。从理转文 学语言学的 往往功力深厚 别具一格。白老师 还有语言所的前辈范继淹先生 都是证明。

白:
这里是NLP的一大窝点,每天都有扯不完的话题。
“白总,您可以给我一点您的简介,关于区块链的文章我来报选题不?”
看看这个“可以……不”之间经过了多么漫长的旅途。

李:
这个“可以不”肯定是搭配不上了,硬做也不值得,主要还是看看怎么凑合吧?当然是用 Next 把局部parses先patch起来,这样至少通道是有的,想做功的话,余地在。
t0704a

白:
从技术层面来讲,我们可以将8.11之后的人民币汇率形成机制简单表述为“双锚相机转换机制”。
这里的“相机”,谁的机译系统能翻对?
aaa

李:
not bad

白:
bbb
全是camera

李:
不是 camera 是啥?不懂术语。
谷歌这次及格了。涉及汉语的MT,谷歌总是比百度差或略差。谷歌干脆 license 百度得了,至少中文MT。

白:
take actions accordingly
这哪是术语。地道的中文。

李:
那就是我中文不行。哦,相机-见机 而行
双锚相机是什么相机?

白:
在没有camera的时候,就有这个“相机”

李:
但是大数据把它冲得快没影了

白:
我朋友圈转发了FT这篇文章,一看便知。

李:
相机是现代高频词。一个不懂行的人,看到这一段虽然不懂,但是心里在问:
“双锚相机是个什么相机?”

白:
双锚,也不修饰“相机”,他俩都是状语,修饰“转换”。

李:
那是你懂。对于不懂domain的人 不是这样的。
cf:“单反相机转换机制”

白:
双锚vs单反,完美的对仗。

李:
如果汉字保留“像机”不用“相机”,可能不至于。
一个 real life MT 很难为了一个几乎从来不用的 WSD 的选项,做啥特别的功夫。不单不合算,而且太容易弄巧成拙了。对于 trained model, SMT 根本就没有这个data;对于规则MT,也不大值得做。拉倒好了。

白:
这种逻辑,等于告诉用户,你就从了吧。

李:
对于极小概率的现象,如果真要做,那就尽可能词典化。词典化或 expert lexicon,没有啥副作用,可以应对长尾。任何概括化的努力,都容易亏本。

白:
极小概率累计起来就是长尾

马:
谋求单反相机起义。造一个,哈哈

白:
在不同formalism下,亏本与否可能结论大不相同。比如,如果formalism天然就是词例化的,就不存在弄巧成拙的问题。满世界都是拙。

张:
极小概率的词典化是规则系统最可爱而可贵的品质和能力

李:
可不,满世界都是拙,高高在上的精英规则就可以很光鲜。词例化 or expert lexicon 也还是不时需要与上面的合作。譬如句型的变式。合作的方式有不同。有句法语义一体的合作方式,也有先句法后语义的合作方式。各有利弊。

张:
这种拙是大局观,是大智若愚
我们这里有个小组正在天晕地暗研究知网的MT~~~

李:
愚公移山呗
挖一块儿 少一块儿 而山不加增 ……

张:
两位大师何时有空一来论剑?@白 @wei

李:
没去过东北,都说东北有三宝。

张:
白到骨,wei入髄
wei来we妙; wei说I 赞

李:
张老师那地儿 迟早是该去看看
李: 似乎是调通了,但还是选择不做“相机”。非不能也,是不为也,你懂的
有一个 catch: 将 —-> 把: “将” 等于 “把”(介词),但更歧义(modal V),好在前面有 “可以”。

t0704c

 

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语言学小品:送老婆后面的语言学】

456822675539882531

谁会误读?为什么误读?研究一下背后的语言学 and beyond。

双宾两个坑 human 默认的坑是对象 “老婆”是“送”的对象,这是正解。
对于心术不正的人 human 也可以填受事的坑,“老婆”跟礼物一样,成了“送”的受事。
这是 “送” 的歧义,到了 caption 里面的合成词 “送给”,subcat 有细微变化,就没歧义了。为什么 “送-个” 也没歧义呢?因为“个”是不定的,而对象这个角色通常是有定的。
这里面细说起来还有一摞的语言学。

(1)双宾句型的对象一般是有定的,不定的对象不是绝对不可以,譬如:
“我把一大批书送(给)一所学校了。”
“一所” 是不定数量词,作为对象。
汉语中的 “一+量词”与光杆“量词”通常认为是等价的,范畴都是不定(indefinite),后者是前者省略了“一”而得。但是二者并非完全等价。
对象这个角色默认有定(definite,虽然汉语没有定冠词),如果是有定,不可以省略“一”,或者说,不可以由带光杆量词的NP充当。
汉语句法里面可以总结出这么一条细则:带有光杆量词的NP只能充当直接宾语,不能充当间接宾语(对象)或其他。

(2)再看合成词 “送给” 里面的语言学。
汉语反映双宾概念的语词,常常可以进一步与“给”组成合成动词,意义不变,但注意合成前后的subcat的微妙变化:“送” vs “送给” (寄给,赠给,赠送给,等)
“送”的 subcat patterns:
(1) 送 + 对象NP + 受事NP: 送她一本书
(2) “把”受事NP+送+对象: 把一本书送她
(3)受事NP+送+对象: 这本书送她了
(4)送+受事NP: 送个老婆
(5)送+对象NP(human,definite):送(我)老婆。

请留心(4)和(5):两个patterns有相交竞争的时候,于是歧义产生。当“送+给”构成合成动词后,subcat 的 patterns(1)(2)(3)(5) 保持不变,而(4)基本失效(退出)了。说基本失效,是因为:虽然 “送给老婆”只能循 pattern 5,但“送给个老婆”(稍微有限别扭,但仍在语言可接受之列)似乎仍然需要理解为 pattern 4,这是怎么回事呢?
这就是语言的微妙之处:pattern 4 本来应该退出,因为“给”已经决定了后面是对象而不是受事;但是因为汉语有另一条很细但是很强的规则说,光杆量词的NP只能做受事,不能做对象或其他。在这两条规则(pattern 5的对象规则与光杆受事规则)发生冲突的时候,后一条胜,因此“送给个老婆”就不得不做 pattern 4 的受事解了。这叫规则与规则打架,谁胜谁输也是语言学的一部分,电脑实现的时候可以运用一个priority的机制来model。

上图还涉及一个常见的促销句式: 买NP1送NP2
买iPhone 6 送耳机
买 Prius 送三年保修
这个语用句式的存在,加强了NP2作为受事的可能性,使得 human 本来默认为对象的力量受到制衡。这似乎涉及语用与句法的交界了。

这些算是语言学。Beyond 语言学,也可以从文化上看这个误解或歧义的现象:

对于来自落后农村的人,老婆作为受事的理解几乎是理所当然,因为农村的封建落后使得娶不起媳妇的光棍汉太多,白捞一个媳妇的渴望诱使他们更多向受事而不是对象方面联想,何况手机对于他们是天价,卖肾才可得之,因此对于促销句式也就更加敏感。反之,对于一个知识分子或富裕阶层人士,“送老婆”可能更偏向于理解为对象。

就跟王若水老老年谈桌子的哲学类似,这则小品主要是想谈谈日常的语言学。哲学家满眼都是哲学,语言学家以语言学看世界。语言人人会说,背后的语言学却不是老妪能解。语言如水如空气,一般人熟视无睹了,语言学家来揭示。这是 real life linguistics,琐碎而不乏规律,似海却仍可见底。

【相关】

《立委随笔: 语言学家是怎样炼成的》

《朝华午拾》总目录

【关于立委NLP的《关于系列》】

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

【一日一parsing:NLP应用可以对parsing有所包容】

白: “西方人类比用得少,是因为西方的逻辑学产生的早。”
t0614a
什么叫狗屎运?我的定义就是:
遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug 了,因为此例就没有 bug。
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。S 是主语,Subj 是主语从句。
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。对于汉语常见的 NP1+NP2+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2)[S + Pred] +Pred
when the second element can be Pred (V, A, or deverbal N)
(3) [Mod + S] Pred
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness
顺便做个广告,承蒙高博协助,立委 NLP (liweinlp)频道 再张大吉:
liweinlp.com

【相关】

关于 parsing

【关于中文NLP】

《朝华午拾》总目录

【关于中文NLP】

【parsing 在希望的田野上】

语义计算沙龙:其实 NLP 也没那么容易气死

【deep parsing (70/n):离合词与定语从句的纠缠】

【立委科普:deep parsing 小讲座】

【新智元笔记:词的幽灵在NLP徘徊】

《新智元笔记:机器的馅饼专砸用心者的头》

【新智元笔记:机器的馅饼(续篇)】

【新智元笔记:parsing 汉语涉及重叠的鸡零狗碎及其他】

【新智元笔记:中文自动分析杂谈】

【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩”

《新智元笔记:找茬拷问立氏parser》

【新智元笔记:汉语分离词的自动分析】

《新智元笔记:与汉语离合词有关的结构关系》

《新智元笔记:汉语使动结构与定中结构的纠缠》

《新智元笔记:汉语parsing的合成词痛点》

《新智元:填空“的子结构”、“所字结构”和“者字结构“》

【沙龙笔记:汉语构词和句法都要用到reduplication机制】

钩沉:博士阶段的汉语HPSG研究 2015-11-02

泥沙龙小品:小词搭配是上帝给汉语文法的恩赐

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同

泥沙龙笔记:汉语就是一种“裸奔” 的语言

【立委随笔:中文之心,如在吾庐】

《立委科普:现代汉语语法随笔》

“自由”的语言学至少有三种理论

应该立法禁止切词研究 :=)

再谈应该立法禁止切词研究

中文处理的迷思之一:切词特有论

中文处理的迷思之二:词类标注是句法分析的前提

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破

专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了

方寒大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

研发笔记:粤语文句的情报挖掘

《立委随笔: 语言学家是怎样炼成的》

《立委科普:汉语只有完成体,没有过去时》

《科研笔记:中文图灵试题?》

立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷

比起英语,汉语感情更外露还是更炽烈?

科研笔记:究竟好还是不好

《科普随笔:汉字和语素》

《科普随笔:汉语自动断词 “一次性交500元”》

《科普随笔:“他走得风一样地快” 的详细语法结构分析》

【立委科普:自动分析 《偉大的中文》】

《立委随笔:汉语并不简单》

语言学小品:结婚的远近距离搭配

中文处理的模块化纠结

【立委科普:《非诚勿扰》中是谁心动谁动心?】

曙光在眼前,轻松过个年

挺反自便,但不要欺负语言学!

当面对很烦很难很挑战的时候

创造着是美丽的

汉语依从文法 (维文钩沉)

《挖掘你的诗人气质,祝你新年快乐》

 

【立委科普:实体关系到知识图谱,从“同学”谈起】

同学 同乡 同桌 同门 同事 同仁 同性恋 朋友 对象 配偶 恋人 爱人 。。。 这类词(R),作为逻辑谓词,语义上实际上有两个 arguments 的坑要填。这两个坑是 reciprocal 的,其逻辑语义关系就是 human 实体之间的R关系。其汉语的句法表达是:

1. NE1 BE NE2 的 R
张三是李四的同学
== 李四是张三的同学

2 NE1 NE2 R
张三李四同学过
== 李四张三同学过

3 NE1 AND NE2 R
张三与(跟、和、同)李四同学
== 李四与(跟、和、同)张三同学

4. NE1 NE2 BE R
张三李四是同学
== 李四张三是同学

5 NE1 AND NE2 是 R
张三与(跟、和、同)李四同学
== 李四与(跟、和、同)张三同学

6 NP(Plural)R
她们从小同学

“她们” 不仅仅是 Plural 而且必然是指的 2 entities

7 NP(Plural) BE R
她们是同学

BE(联系动词)包括:成为、变成 、当、当成、疑似等,还有介词 “作为”也可归于此类。R 在汉语是名词,有时也“活用”为动词。逻辑上对应的是 (1) 指代;(2)逻辑谓词(表达实体关系)。最有意思的是 R 的双重身份(polymorph,学过C++的都知道这个)使得 R 可以自己给自己填坑。因此本来 R 是有两个坑的: 谁1与谁2 发生了 R 的关系,但由于实体(指代)的 R 可以自己填 谓词R 的坑,结果在简单的名词短语 “NP de R”(e.g. “我的同学”、“张三的同学”)的结构里面,语义坑填满了(saturated),很圆满的样子,一个是 R 本身,一个是 NP:

“我的同学” 逻辑上等价于
==【我】是【我的同学】的同学
==【我的同学】是【我】的同学

假如我的同学叫“张三”,我叫“李四”,貌似同义反复的第二句其实是:

【我的同学(张三)】是【我(李四)】的同学。
== 张三是李四的同学。

逻辑表达式是: 同学{张三,李四}
Note 谓词后是集合 { …… } 不是 list < …… > 因为此类关系是相互作用(reciprocal)的,没有逻辑的次序。

最后说一句,这类实体之间的关系的抽取挖掘,是建立知识图谱(knowledge graph)的一个核心任务。我们当年给起了个名字叫 CE(Correlated Entity) relationship。说话已经15+年前的事儿了,那时还没有知识图谱这个被谷歌炒热的术语。没必要谦虚,我们是知识图谱的 pioneers(之一)(《知识图谱的先行:从Julian Hill 说起》),我们当年的工作对于美国国防部立项知识图谱起了关键作用。这是旧话了,好汉不提当年勇,要往前看,看借助 deep parsing 的核当量的威力,能不能施展一下拳脚,在中国和中文知识图谱大业上建功立业。

好风凭借力,送我做图谱。大数据图谱之上,种种应用在望,问答系统(QA)、智能浏览(intelligent browsing)、语义搜索(semantic search),等等等等。不求名利,无意宇宙,但求 put a ding 在我大唐。一切具备,只欠东风。求主保佑。

 

【相关】

【Bots 的愿景】

知识图谱的先行:从Julian Hill 说起

【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

《有了deep parsing,信息抽取就是个玩儿》

泥沙龙笔记:搜索和知识图谱的话题

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

立委NLP频道

【语义计算沙龙:其实 NLP 也没那么容易气死】

白:
“严把个人商用房客户准入关”
我:
这个句子我人脑也费了半天劲才明白讲的啥(“严把个人商用房客户准入关”==”对个人商用房客户应严把准入关”),尝试用parser也只好瞎碰了,果然乱得不是一处两处,甚至把 “准入关”词典化(拼音联想词组里面 还真有这个词条)也还是不行:
t0626a
白:
“严把个人商用房客户准入关”
严还是个姓,上下文清晰时,可以用裸姓指代全名
“入关”也是词
“把”作动词用不如作介词用的概率高
“房客”也是词

我:
幸亏 real world 这样的句子是极少数。不过人脑怎么 parse 的呢? 虽然也饶了几圈,backtracking ……
白:
这个例子是银行发的正式文件里的
纵向不确定性比较丰富,导致结构貌似不稳
“个人”是定语
我:
这个“严” 做状语也不好掌控 因为更多是做谓语的
“个人”也有些难缠,词典不行 因为有 “n个人” 的存在,只好后面补救了。
个人的定语问题倒是可以解决,但还是搞不定这句:
t0626b

算了,就当没看见。我投降。
白:
“准入”是有坑的,“把关”是有坑的。当“准入”+“关”生成“准入关”的时候,坑也要有同步的调整。
我:
谁(被)准入; 为谁把关(把谁的关)?
白:
把什么事由的关。
我:
把VP的关
白:
“皇军要当你的家”类似
我:
“把学习英语的关”
“英语学习的关真不好把”
白:
“严把生猪进口质量关”
我:
“要把好业务关”
这个事由的坑可以是 VP or (abstract)NP,逻辑语义大体是 about:关于什么事儿的关

白:
“教室的地得扫了”
旅行的目的地得调整了
马:
气死NLP
的士的目的地得调整
我:
其实 NLP 也没那么容易气死 @马少平
t0626c
t0626d
t0626g

马:
哈,强大
我:
当然不能指望“世界第1”的谷歌NLP,靠的是世界第0 的立氏NLP。毛主席保证,上面的句子是一次通过,没做任何工作(当然此前一定是有工作的)。
白:
扫地的离合词处理
目的地,长词优先,不用特意做什么
我:
幸好 real world 的句子也有貌似困难其实无根本挑战的 我们还有活路。
白:
反过来才有挑战性,看着是离合词,就是不该碰一块儿的。伟哥试试:“这地是这样地难扫。”
我:
t0626e
哈哈哈哈 仰天大笑
李白曰过的:我辈岂是蓬蒿人
白:
很好
舍近求远得真解
我:
不过我心内是把它当成狗屎运的,只不过狗屎运常光顾愚公似的人。以前说过n次,NLP 是力气活
白:
话说,离合词这个功能好像也没多久。
我:
两三月前?早就想做了 盘算很久了 实现是最近几个月的事儿。量词更近,才个把月。
白:
量词和本群有直接关系
我:
离合词的处理 直接源于我13年前做英语的 phrasal verbs:take it off / take off the coat / take the coat off 之类(Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003
对量词,的确是本群反复议论才被促上马的 因为没有量词搭配 90%+以上的场合无碍 以前一直拖着没做。

白:
“蔡英文说得不好。”
我:
这种还是休眠吧,hidden ambiguity,跟 “难过” 类似。真做就唤醒,用 word driven
t0626f
白:
和大语境有关
如果满篇都在说另一个蔡,就和蔡英文没啥关系了。
我:
是的,但是那种情形的处理需要在另外一个层面去做。discourse 的因素 trigger “蔡英文”-driven 的唤醒机制。
白:
分层不是单向,该交互时就交互
我:
word driven 是可以想象的,因为“蔡英文”这个词对于我们来说,的确是既透明又黑箱的:黑箱是,只要不是文盲,基本上都知道蔡英文是一个人名;透明是,尽管知道这是一个人名,我们也仍然知道这个词的内部结构,以及这个词的句法可能性:蔡 — 英文,Topic – S 的潜在性,单从这个词,我们就知道。
白:
一个上下文提供了所提及对象的“场”,重复出现可以增加“场强”,左右句法层面对部件的“抢夺”。
我:
不过这些可以想象的操作,大概很少有人去做,选择不做为多,因为还有很多可做的事儿还没做完呢。
白:
分场景。在游戏场景,上下文中的活跃对象“场”是至关重要的,不仅对其中的NLP,也对智能角色的动作规划。用于NLP是捎带脚
我:
所有的 hidden ambiguity 都可以用 word driven 机制唤醒 如果我们真想做的话。
而 hidden ambiguity 一直公认为是中文切词的死穴。至少可以说,死穴不一定就死。换句话说,在休眠唤醒理论(见文末【相关】链接)正式提出之前,这个挑战很可能是被认为无解或极其困难的
但是,我们已经用 “难过” 在 sentiment 语义落地的实际工作中的实现,证明了还是有救。“小王很难过” vs “小桥很难过”,如今在我们的中文舆情系统中处理得如此漂亮!(重温  【立委科普:歧义parsing的休眠唤醒机制再探】)

白:
从一个包含NLP在内的更大系统视角来看,关键语境参数的实时刷新,受益者绝不仅仅是NLP。作者的观点和作者转述的他人观点,在极性上就是需要区别对待的。引述可能是为了反驳或反衬。所以,观点的主人是谁,就需要甄别。
我:
至少在知识图谱的工作中,discourse 内的实体aliasing 以及 anaphor 的工作,成为整合抽取信息的相对可靠的关键元素,这一步可以 leverage document-internal 的线索,这才为下一步的跨文本的 information fusion 打下了基础。
跳过 discourse 直接做 fusion 是不智的。

 

【相关】

《泥沙龙笔记:parsing 的休眠反悔机制》

立委科普:歧义parsing的休眠唤醒机制再探

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

《朝华午拾:我的考研经历》

NLP 是一个力气活:再论成语不是问题

【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003

【置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录

语义计算笔记:坐而论道谈“的”“地”

【立委按】以前在语言学圈子里有些高雅的沙龙,譬如在冯志伟老师回忆 中津津乐道过的语言学沙龙,每周一次,通常在北大,参与的圈子很小,都是精英之精英,朱德熙(语言学大家,北大副校长)、陆捡明(汉语语法学家)、马希文(计算语言学家,传奇人才,白老师的导师)、冯志伟(计算语言学家)等。坐而论道,雅致之极,令人羡慕嫉妒恨不能入。如今时代不同了,这种沙龙还有吗?回答是,有,譬如白老师主持的【新智元语义计算群】即是:谈笑皆鸿儒,往来有白丁,微信群使得高大上的沙龙平民化了,但高度、大度、上度不浅反深,盖因所延揽的精英早已不再局限于小小的京城,而是遍及全球。白老师树大招风,与NLP有关的华裔背景的顶级专家学者毛姑姑也有90%了,或高论,多潜水,胜景跌出,风光无限。甚至连中国NLP旗手董振东老前辈也上了“贼船”,乐在其中。此番繁荣,拜技术所赐,先给张小龙敬个礼。

白:
“这本书的匆忙de出版,险些坏了大事。”  这里的“de”,是“的”还是“地”,为什么?
如果按照“从里到外”的原则,是“匆忙de”先跟“出版”结合,彼时“出版”尚未被强制,因此还是满格的动词属性,de理应为“地”。但是……个人语感为什么倾向于“的”,而且理论上找不出理由。
“今天真遗憾,错过了大师的精彩de指挥。” 这个就是百分之百的“的”了。
我:
既然白老师爱钻牛角尖儿,咱们就钻钻。
白:
难道这个“指挥”不是被强制的?
我:
不能说 100% 可能是 90%+ 吧。验证的话,可以用大数据。
白:
大数据里有错别字
我:
哪怕大数据里面出来的结果是 100%,用“超大数据” 也会发现不是 100% 而且不仅仅是由于错别字。
白:
验证如果找100个文字编辑,我没意见。
我:
这里面的道理就不是大数据这种表象了,而是某种语言学。
动词概念被性状概念的词修饰,在具体语言中的形式应该是怎样的?就是这个问题。到了汉语,默认的形式是:(1)前置 (2) 加“地”。凡是默认 必有例外。如果 大数据发现了例外 或者 100 个文字编辑的内在句法趋向于一种例外的结果 这个例外就有语言学上的说法。
这里面还有一个微妙之处:口语中是de1 de2不分的,因此上述形式的讨论只限于书面汉语,而书面汉语受到了文法规范化教育的灌输。因此至少从一个层面看,这个问题就是一个 moot point,因为每个人的受教育程度是不同的,而每个人的儿童时学会语言的过程则是相当类同的。这二者打架的结果就会出现不一致,因此 100% 很难。如果聚焦到 100 个文字编辑做裁判的话,实际上是放大了教育的影响。有意思的问题于是成为:本来 “的”是 de 的默认,而非默认的“地”的使用是受教育的结果,因此文字编辑应该趋向于在形状类概念修饰动词性概念的时候,使用“地”而不是“的”。但是,这个 case 却不是(假如白老师的语感或修养靠谱的话),正相反,受过教育的人在这个 case 中,更趋向于用 “的”。这是为什么呢?这里面必有更深层的说法。
还要继续吗?或者谁继续牛角尖下去?
白:
其实,我是在对“从里到外”和“从左到右”的原则在质疑。如果“从左到右”,名物化结构强制的痕迹在不断加重,用“的”就理所当然了。如果“从里到外”,强制在外层,里层在不确定情况下会追随标配。
我:
其实我也正想说到这点儿,就是发散太远,还没收回来。
白:
所以,我认为是“从左到右”的分析策略在起作用。
我:
左右就是词序形式。抽象一点,不是词序,而是【层次性】与【去层次性】在语义表达或理解中的矛盾体现。这在句法学界已经打了很久很久了。层次性是一派,去层次性(扁平化)是另一派。公、婆各有理。
白:
不需要那么极端,就是已经读进来但还没有构造成树的成分,是完全被动地等在那里,还是对后续的消岐有所影响的问题。

我:
层次性的理解涉及多性状概念的 scope 边界,这是乔姆斯基短语结构的真义。去层次性的理解不强调这种 scope 的严密性,而是把他们的配置看成是自由搭配。这是为什么 dependency grammar 的结构树放弃非终结节点的表达。
白:
结构强制发生在有明确结构预期的时刻,而不是真正等来了结构强制对象的时刻。
伟哥可以顺带看看“恢复疲劳”那段。
我:
层次性一派的假设: x1 de x2 de x3 == [x1 de [x2 de [x3]]]
去层次性一派的假设: x1 de x2 de x3 == x2 de x1 de x3
两个假设都可以找到语言事实的支持。
白:
应该有 强去层次 和 弱去层次 之分
强:等价;弱:sometimes等价
我:
相信层次化的理解和去层次化的理解,在相当多的人中其实是模糊的。人的语义,无论表达还是理解,都充满了模糊性,而这种模糊性基本上也不影响语义的语用。换句话说,怎么说都可以,人类在交流中基本不 care。
白:
对分析策略似有影响
我:
歧义不仅可以保留或休眠,直到语用,甚至可以 beyond 语用,一直到死:严格说到死的歧义超越了交流,不能算歧义,最多算伪歧义。从这一点看(伪)歧义,就发现很多问题是人自找的;董老师也说过类似的意思。“人” 指的是系统设计师。
白:
又漂了
我:
漂是因为某个思路还没到终点,意犹未尽,很难受的。
回到分析策略,自底而上最实在。自底而上与层次化自然相配,但也不必然采纳层次化的 representation。
说说 恢复疲劳 吧。这是个固定用法 词典化的条目。
白:
结构强制是个特殊的操作,如果承认在短语“这本书的不出版”中,“不出版”是个状中结构,而再外层是个定中结构,于是结构强制就发生在这两层的衔接当中。“这本书的匆忙de出版”站在层次观点也是一样的,但我质疑层次结构在先结构强制在后。
我:
虽然汉语的 动宾句法 可以有 n 种逻辑语义,但是作为 open-ended 的句法语义解读,这 n 种解读不能是非自然的或满拧的语义。“恢复”与“疲劳”就是满拧。里面省略了的 FROM 就是反映这种蛮拧的。如果 FROM 不出现,那么必然要词典化 用记忆去绑架。
白:
“维持骚乱”的说法也成立
我:
如果要探究为什么这种乍听上去矛盾的说法进入了人类的语言 被词典化,简单的说法就是约定俗成。深究的话 其实是因为矛盾的双方是共现频率极高的相关概念。因为高度相关,所以本来可以明晰的连接双方的句法手段(词序啊,小词 from、against 啊等)就显得太啰嗦,偷懒的人开始省去这些句法元素 共同体开始接受这种省略。最后就进入了集体的固定用法的记忆。“从疲劳中恢复” >> “恢复疲劳”;“维持和平以防骚乱” >> “维持骚乱”。
白:
我的观点是,分析不在乎是不是词典化,生成在乎。哪怕是第一次看到这样的组合,也会放行的,因为张力的指向一览无余。
我:
分析不在乎,是语义不落地,只是休眠。管它什么宾呢 动宾是无疑的。
白:
“维持骚乱”就不必有什么固定记忆,一看这俩词儿,就知道是从不正常状态努力进入正常状态。
我:
没进入固定记忆,是还在过程中。
董:
知网词典的词语,与两位讨论的有关,供参考:

W_C=打扫房间
G_C=verb [da3 sao3 fang2 jian1]
S_C=
E_C=
W_E=clean the room
G_E=verb [51cleanverb-0vi      ]
S_E=
E_E=
DEF={clean|使净:patient={room|房间}}
RMK=

W_C=打扫垃圾
G_C=verb [da3 sao3 la1 ji1]
S_C=
E_C=
W_E=sweep away rubbish
G_E=verb [51sweepverb-0vi      ]
S_E=
E_E=
DEF={remove|消除:patient={waste|废物}}
RMK=

W_C=打扫卫生
G_C=verb [da3 sao3 wei4 sheng1]
S_C=PlusEvent|正面事件
E_C=
W_E=cleaning
G_E=noun [7 cleaningnoun-0action,uncount,ofnpa次    ]
S_E=PlusEvent|正面事件
E_E=
DEF={clean|使净:StateFin={spotless|洁}}
RMK=

W_C=恢复疲劳
G_C=verb [hui1 fu4 pi2 lao2]
S_C=PlusEvent|正面事件
E_C=
W_E=recover from tiredness
G_E=verb [51recoververb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={BeRecovered|复原:StateIni={tired|疲乏}}
RMK=

W_C=恢复知觉
G_C=verb [hui1 fu4 zhi1 jue2]
S_C=PlusEvent|正面事件
E_C=
W_E=recover consciousness
G_E=verb [51recoververb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={BeRecovered|复原:StateIni={dizzy|昏迷}}
RMK=

W_C=救火
G_C=verb [jiu4 huo3]
S_C=
E_C=
W_E=fight the fire
G_E=verb [51fightverb-0vi      ]
S_E=
E_E=
DEF={remove|消除:patient={fire|火}}
RMK=

W_C=救生
G_C=verb [jiu4 sheng1]
S_C=PlusEvent|正面事件
E_C=
W_E=lifesaving
G_E=noun [3 lifesavingnoun-0action,uncount,ofnpa次    ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateFin={alive|活着}}
RMK=

W_C=救穷
G_C=verb [jiu4 qiong2]
S_C=
E_C=
W_E=help the needy
G_E=verb [51helpverb-0vi      ]
S_E=
E_E=
DEF={rescue|救助:StateIni={Circumstances|境况:host={group|群体}{human|人},modifier={poor|穷}}}
RMK=

W_C=救命
G_C=verb [jiu4 ming4]
S_C=PlusEvent|正面事件
E_C=
W_E=save somebody’s life
G_E=verb [51saveverb-0vt,sobj      ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateFin={alive|活着}}
RMK=

W_C=救灾
G_C=verb [jiu4 zai1]
S_C=PlusEvent|正面事件
E_C=
W_E=provide disaster relief
G_E=verb [51provideverb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateIni={mishap|劫难:cause={NaturalThing|天然物}}}
RMK=

白:
比如“打击卖淫嫖娼”为什么不能是“打击卖淫 嫖娼”而必须是“打击 卖淫嫖娼”?就是因为一个正面一个负面,是拧巴的,两个正面,就顺当了。这说的是sentiment对分析的反作用。
我:
“维持骚乱”对我这个个体 目前处于一种不接受的状态。并不因为拧巴 我就接受它合法。如果我是语文老师,我会判错 我自己也避免这样用 也不会这样用。但是如果共同体在这个演变过程的终点选择接受 也就是选择词典化,那么我只得也选择接受 并加入我的词典。这是其一。
其二,拧巴的确在语言交流中起作用。拧巴迫使人放弃默认 去探索其他的语义路径 达成理解 虽然心里可能依然别扭。心里别扭是因为还没有词典化 黑箱化。
白:
参加维和部队,到非洲去维持骚乱。
好点没?
我:
有了上下文,当然别扭感好一些。(同理,我也可以这样加上下文:恐怖主义分子猖獗得很,他们要维持骚乱,我们怎能坐视不理。)
在 sentiment 中,有些故意矛盾的说法来表达讽刺,也是这个拧巴理解的过程。以前说过的 thank you for misleading me,thank 的正面褒扬与 misleading 的反面 是拧巴的。理解放弃了默认,选择了 misleading,是客观sentiment对主观emotion的胜利。thank 的正面语义因此消失,被讽刺取代。
白:
“感谢你八辈祖宗”
我:
英语的 improve 是这样一个褒义词,以至于它不在乎宾语是正面反面。可是 维持 在汉语不是,因此“维持骚乱”的别扭感更强,除非是置于合适的上下文,或被语言共同体词典化绑架。

宋:
“这本书的匆忙的出版”和“这本书的匆忙地出版”都是合乎语法的,而且都是指称语。深入一层,“匆忙的出版”和“匆忙地出版”都受“这本书的”修饰,也都是指称语。再深入一层,“匆忙的出版”中的“出版”是指称语,“匆忙地出版”中的“出版”是述谓语。“匆忙的出版这本书”语法上是错的,“匆忙地出版这本书”没问题。一般来说,动词V的语用功能既可能是指称语,也可能是述谓语,依靠它的句法位置来区别。被“Adj的”修饰的V是指称语,被“Adj地”修饰的V是述谓语。修饰后得到的短语,“Adj的V”是指称语,“Adj地V”与V一样,既可能是指称语,也可能是述谓语,依靠它的句法位置来区别。
我:
基本同意宋老师。
顺便提一句,感觉与白老师对话的时候,常常是,似乎是两股道上跑的车,这不影响互相听得见;这两股道不是完全平行的 而是中间老有交叉点。仔细想来,估计是白老师是广度优先的对话算法;而我是深度优先的算法:一条路径不穷尽不愿意回头,就是所谓 “漂”或发散性思维。因为对话是在有限时空中进行,无论什么算法都不可能穷尽路径,因此就造成白老师提纲挈领 总站在云端俯瞰的效果,而深度优先的算法就成了啥了,捡了芝麻,丢了西瓜的印象。宋老师则不同,广度深度都有,但往往是隐而不发 一锤定音。董老师更是大师了 拈花微笑,howNet 拨千斤。就没有能超出 HowNet 的,简直就是如来佛的手掌心。
董:
“出版”,这对于Hownet曾有重要意义。HowNet当年就此要回答两个问题:第一,“出版”(或类似的“计算”、“分析”等)在汉语里也类似于英文既有动词词性,还有一个名词词性吗?这涉及在知网词典中,它们应有两个词条,还是只有一个词条?第二,“这本书的出版”和“这本树的不出版”,在理论意义上它们的区别是什么?
“出版”的问题,HowNet与宋老师是一致的。以前在我们对这个问题的说明时,我们说:“出版这本书”和“这本书的出版”中两个“出版”在核心语义上没有差别,所差的是:前者是有过程的,而后者是静态的,是一个事实。用比喻说,前者是一段视频,后者是一个镜头。这也就是宋老师的述谓性的和指称性的理论。HowNet基于这样的认识,“出版”这样的词语在词典中,只有一个词性,即动词,但对应着两个英文词条,动词和名词。
白:
“这本书的出版”揭示的结构强制现象概括为三句话:1、修饰语决定整体的词性;2、中心词保持原有的词性;3、修饰语填中心语的坑。
我:
Ontology 是逻辑的 高于语言的。在 ontology 的顶层 也有类似词类的东西,可以称作 逻辑类:逻辑动词 逻辑名词 逻辑形容词。这个思考在hownet 得到印证。我个人的这个思考发源于对世界语的钻研及其与不同类语言的比较。我学过法语 俄语 加上英语 汉语 世界语,有足够的表征支持跨语言、高于语言的逻辑类的探索。特别是世界语的构词法 对于这类研究的启示,当年感觉是醍醐灌顶。
白:
中心词的词性也可以“嫁鸡随鸡”,强制前保持原有词性,强制后由修饰语决定。此处特别容易走向拍脑袋。
我:
强制前强制后,原逻辑类都是恒定不变,它是这个语词概念的本质类别,不随句法词法而变。到了特定语言 会有一个类似的 field,俗称 pos,这个是可以改变的。但是传统上 nlp 定义的 pos 任务 很容易过火 过犹不及 结果是让开发者陷入依赖pos的误区(见【中文处理的迷思之二:词类标注是句法分析的前提】)。尤其是照搬英语pos做法到汉语的人 特别要警惕 pos 的陷阱。【迷思】里蕴涵很多只可意会的实践体会和哲学思考,说给世界听 但并不在乎世界听不听。陷阱本就是为人预备的 栽进去也没啥 不过是重复我们曾经的苦难而已。不说不忍,说了也就是菩萨心肠。

quote 需要说明的是,笔者并不反对先POS后Parser的中文处理策略,只是指出POS并非Parser的先决条件,还有一种句法直接建立在词典之上的一步走的策略。顺着这个思路,一步半的策略也许更好。所谓一步半,就是做一个简单的 POS 模块(算是半步)把词类区分中比较大路容易的现象标注好,并不求对所有词类施行标注。

这里要提的建议是:推向极端可以不做汉语 pos,为了工程方便 可以做,但不要过火 不能依赖。
董:
说得太对了。我们在HowNet 那本书的最后单有一章,讲的是中文。其中批评了宾州中文树库,说那是照着英文套中文。特别举得例子是他们标注:年平均(adv)-增长3倍,同句中的年平均(adj)增长率,中文真是如此吗?我们中文的哪本词典里有如此区分词性的。英文词典里look是动词还是名词表的清清楚楚。我们中文是到真实文本中浮动的。英文的文法是百姓的文法,中文的文法是汉语学家的文法。
清:
董老师分析的透彻!
我:
董老师做 HowNet 的30年,所经过的思考,是我们一般人难以企及和想象的,所以我说,真地就好像如来佛的手掌心,有时候我们自以为自己有什么创新思维,最多也不过是个孙猴子,还不等到得意,就发现董老师高高在上 拈花微笑呢。
白:
不过只要伪歧义控制得住,就算多几个POS,技术上也没什么大不了的。至少这不是个技术问题。
我:
问题是,这些都是相互关联的。多数人,特别是没有经过磨练的新毕业生,一头栽进去,根本就无法控制伪歧义。汉语处理一不留神就是个泥淖。
白:
毕业生学什么课太关键了,学了错的课,时间还不够用来消毒的。
杨:
精辟!

白:
NLP的精妙所在就是纵向不确定性(一个位置上取什么标签)和横向不确定性(哪两个标签之间有关联性,独享还是共享)互相交织,最后还给出一个确定的解。
我:
就好比一个迷宫。虽然说走出迷宫 并非只有一条路径 但能走出来的路径真心并不多,而且每条到达终点的路径都必然七曲八拐 暗礁险滩。可以展示最终的形态 很难展示历经的过程。有人认为 只要最终形态是相对确定的 这个路径就必然可以根据最终形态学出来。这就是黑箱子的哲学。似乎天然可行 也赢得了全领域 甚至全人类(大部分是外行)的理所当然的认同。我称它为学习乐观主义。有没有 catch 只有天知道 白老师知道。
白:
七拐八拐真心不是障碍,障碍是目标函数是什么。
我:
七拐八拐关涉多层,不也是毛毛虫的一个部分?

 

【相关】

中文处理的迷思之二:词类标注是句法分析的前提

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing 每日一 fun: 雨是好雨,但风不正经

气象局通知~~~原约定今日凌晨来的暴雨,因半路上被堵,耽误了点时间,或许今天下午到夜间赶到。这场雨如果下大了肯定不小,下小了也肯定……不能大,请市民再耐心等待!具体情况等气象台会上研究后报给市民。气象台温馨提醒:今天如果不下雨,明天不下雨的话,这两天就没有雨了,等下暴雨再准确播报。
气象台郑重劝告美女们最近几天不要穿裙子,容易被撩,雨是好雨,但风不正经。

这是微信最近流行的段子。每日 parsing 一 fun:
t0621a0
t0621a下面是笔者对两条路线斗争的总结,也 parse parse see see 吧,QUOTE:

说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。这就是计算语言学的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言  兴趣迥异 无法正常对话  更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。做了一辈子的某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊。

0623a
0623b
0623c
0623d
0623e
0623f
0623g

My interview:
wei_interview
from http://www.netbase.com/about-netbase/

 

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing: 每日一析,内情曝光 vs 假货曝光

白老师出的那个 minimal pair:
“这家公司卖给张三的内情曝光了。”“这家公司卖给张三的假货曝光了。”

测试一下,现在没有区分:
t0623
结构上粗线条是一样的 没大问题 可是 同位与动宾的区别没表达出来。既然句法大筐子不变,只是 roles miss 掉了,应该可以在语义中间件中轻易解决,透过定语从句的路径以及约束条件。

一觉醒来,在中间件加了一条简单的找逻辑宾语填坑的规则,看看怎么样?改进版:
t06231
这条规则是说,如果定语从句谓语句法完了以后仍然有宾语坑未填满,那么它所修饰的NP就来跳坑,除了 “消息” 类的NP。“内情” 于是被堵在外面 不跳,“假货”当然无所畏惧。至于 “内情” 与 定从 的同位语关系,可以做,但选择不做,因为定语的概念包含了同位语,比同位语大,目前没有感到有细分的必要。
上图中还有一个 catch,“公司”与 “卖给” 的逻辑主语没有做,而只是做了 “公司”与“假货”和“内情”的句法定语关系。目前也选择不做,等到需要的时候也不难在中间件中补。主要理由与上面同,偷懒而已。主语是arguments中最接近adjunct(定语就是一种 adjunct)的角色,细分的必要性不强。当然语义落地真地需要,那就或者在语义中间件补上,或者在落地时候唤醒。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

计算语言学的尴尬

白:
我关心“老婆情人”在那个语境下为啥不是定中结构。
老王卖瓜自开涮,
创新形容瓜特甜。
老婆情人小三见,
买回刀劈报仇般,
我:
没看懂。似乎有个 context:
老婆情人小三见 == 老婆情人见小三 or
老婆情人小三见 == 老婆见情人小三 ?
诗人特权害死人
Nick:
老婆情人小三见==三缺一
洪:
老婆/情人/小三见
两者兼顾,读诗看图,歧义何出?误解消除。
情人/小三,心理概念;原型维度,因人而殊。
RW:
情人/老婆,心理概念;原型维度,因人而殊。
我:
情人(lover)与小三当然不同。小三虽然没有法统地位,但既然排了次序,就有了事实的地位(“事实婚姻”的事实)。因此还有小四小五之说,这个次序也可能有新来后到的意思,或反映了喜新厌旧,数字越大新人可能越受“老爷”的宠(沿袭三妻四妾的旧制度思维),虽然事实的地位在俗众的心目中似乎越低。
陈:
情人一般是有夫之妇?小三是未婚?
我:
情人比较浪漫,超脱,爱情唯上。与世俗的地位和次序脱钩,倒是有某种秘密的刺激。
Nick:
小三是有上位企图的,情人没有。so情人就是炮友的意思。法国人那种关系都叫情人?我:
情人一旦转成小三 就低下了浪漫的头 失去了独立性 成了金屋藏的娇。广义的情人 也可以转成夫人 实现从浪漫到世俗的脱胎换骨。窄义的情人 专对已婚而言 那是法国英国贵族爱玩的公开的秘密游戏。
白:
你们都是发散思维,就我死啃一个点,结果没人回应。
我:
白老师的问题是老婆小三之间的顿号,是怎么进入人的语言心理的?虽然根本就没看见顿号的影子。为什么顿号不是“的”?
为什么呢?因为大数据!
白老师这次不是“窃喜”,而是感叹心有灵犀了吧
@白老师 “大数据” 是不是你心中老婆情人parsing的标准答案
白:
@wei 大数据中,老婆情人的对举用法远多于修饰用法,这是肯定的。另外老婆的情人有个更简约的用法“情敌”,放着不用偏要拐着弯说,浪费能源。现实中两个因素都在起作用。
我:
白老师的问题是太能干 这个世界不够他玩的。又是语言学 又是金融平台 又是什么块什么链。否则的话 拉出来我们搭个档 做做 NLP 多刺激。就依照你那个 RNN 还是啥的路子走。别人的路子不敢信服。别人也很少懂这一边。
白:
身不由己啊
我:
说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。白马非马 计算语言学亦非语言学 只剩下语言的计算 这就是【计算语言学】的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言  兴趣迥异 无法正常对话  更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。
但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊 主流可以不转眼珠 可是心里并不是想象的那么有底气 一个潮流来 可以鸡血一下 忘记幽灵的飘荡 但幽灵始终徘徊。

【相关】

【文傻和理呆的世纪悲剧(romance tragedy)】

【科普随笔:NLP主流的傲慢与偏见】

没有语言学的 CL 走不远

老教授回函:理性主义回摆可能要再延迟10几年

【科普随笔:NLP的宗教战争?】

Church – 计算语言学课程的缺陷 (翻译节选)

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】

【Church – 钟摆摆得太远(5):现状与结论】

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

【泥沙龙笔记:语法工程派与统计学习派的总结】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing 每日一析 半垃圾进 半垃圾出

白: 越南一架载有9人的巡逻机执行搜救任务时失踪,这失踪的CASA是去搜寻刚刚失踪的苏-30的。搜寻失踪的,自己也失踪了,得再派一架去搜寻这因搜寻失踪而失踪的飞机的飞机了。

白老师看重的是 不是人话的人话 “。。。得再派一架去搜寻这因搜寻失踪而失踪的飞机的飞机了”。不是人话的话,我把它叫做半垃圾。

半垃圾我都不想试,笃定搞不定。犯“错”了吧心里别扭,又想逞能,就必然去debug一个其实也没啥bug的系统 其结果很可能是得不偿失,或费九牛二虎之力不过是为了一个基本不会再次出现的长尾之长尾。如果无视吧,跟眼里揉了沙子似的。

好奇心害死猫,还是忍不住测试了,不过毛主席呢保证,绝不 debug,我说的是绝不! 也不进 unit test,任它 half-garbage in half-garbage out, 有当无好了:

t0617a

合上揉进沙子的眼呼呼去也,希望今夜无梦,至少无语言学的噩梦。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing:每日一析

“西方人类比用得少,是因为西方的逻辑学产生的早。
t0614a
什么叫狗屎运?我的定义就是:遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。
严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。(S 是主语,Subj 是主语从句。)
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。

对于汉语常见的 NP+XP+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2) [Mod + S] Pred
(3)[S + Pred] +Pred
when the second element XP can be Pred (V, A, or deverbal N)
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录