On Recall of Grammar Engineering Systems

After I showed the benchmarking results of SyntaxNet and our rule system based on grammar engineering, many people seem to be surprised by the fact that the rule system beats the newest deep-learning based parser in data quality.  I then got asked many questions, one question is:

Q: We know that rules crafted by linguists are good at precision, how about recall?

This question is worth a more in-depth discussion and serious answer because it touches the core of the viability of the “forgotten” school:  why is it still there? what does it have to offer? The key is the excellent data quality as advantage of a hand-crafted system, not only for precision, but high recall is achievable as well.

Before we elaborate, here was my quick answer to the above question:

  • Unlike precision, recall is not rules’ forte, but there are ways to enhance recall;
  • To enhance recall without precision compromise, one needs to develop more rules and organize the rules in a hierarchy, and organize grammars in a pipeline, so recall is a function of time;
  • To enhance recall with limited compromise in precision, one can fine-tune the rules to loosen conditions.

Let me address these points by presenting the scene of action for this linguistic art in its engineering craftsmanship.

A rule system is based on compiled computational grammars.  A grammar is a set of linguistic rules encoded in some formalism.  What happens in grammar engineering is not much different from other software engineering projects.  As knowledge engineer, a computational linguist codes a rule in a NLP-specific language, based on a development corpus.  The development is data-driven, each line of rule code goes through rigid unit tests and then regression tests before it is submitted as part of the updated system.  Depending on the design of the architect, there are all types of information available for the linguist developer to use in crafting a rule’s conditions, e.g. a rule can check any elements of a pattern by enforcing conditions on (i) word or stem itself (i.e. string literal, in cases of capturing, say, idiomatic expressions), and/or (ii) POS (part-of-speech, such as noun, adjective, verb, preposition), (iii) and/or orthography features (e.g. initial upper case, mixed case, token with digits and dots), and/or (iv) morphology features (e.g. tense, aspect, person, number, case, etc. decoded by a previous morphology module), (v) and/or syntactic features (e.g. verb subcategory features such as intransitive, transitive, ditransitive), (vi) and/or lexical semantic features (e.g. human, animal, furniture, food, school, time, location, color, emotion).  There are almost infinite combinations of such conditions that can be enforced in rules’ patterns.  A linguist’s job is to use such conditions to maximize the benefits of capturing the target language phenomena, through a process of trial and error.

Given the description of grammar engineering as above, what we expect to see in the initial stage of grammar development is a system precision-oriented by nature.  Each rule developed is geared towards a target linguistic phenomenon based on the data observed in the development corpus: conditions can be as tight as one wants them to be, ensuring precision.  But no single rule or a small set of rules can cover all the phenomena.  So the recall is low in the beginning stage.  Let us push things to extreme, if a rule system is based on only one grammar consisting of only one rule, it is not difficult to quickly develop a system with 100% precision but very poor recall.  But what is good of a system that is precise but without coverage?

So a linguist is trained to generalize.  In fact, most linguists are over-trained in school for theorizing and generalization before they get involved in software industrial development.  In my own experience in training new linguists into knowledge engineers, I often have to de-train this aspect of their education by enforcing strict procedures of data-driven and regression-free development.  As a result, the system will generalize only to the extent allowed to maintain a target precision, say 90% or above.

It is a balancing art.  Experienced linguists are better than new graduates.  Out of  explosive possibilities of conditions, one will only test some most likely combination of conditions based on linguistic knowledge and judgement in order to reach the desired precision with maximized recall of the target phenomena.  For a given rule, it is always possible to increase recall at compromise of precision by dropping some conditions or replacing a strict condition by a loose condition (e.g. checking a feature instead of literal, or checking a general feature such as noun instead of a narrow feature such as human).  When a rule is fine-tuned with proper conditions for the desired balance of precision and recall, the linguist developer moves on to try to come up with another rule to cover more space of the target phenomena.

So, as the development goes on, and more data from the development corpus are brought to the attention on the developer’s radar, more rules are developed to cover more and more phenomena, much like silkworms eating mulberry leaves.  This is incremental enhancement fairly typical of software development cycles for new releases.  Most of the time, newly developed rules will overlap with existing rules, but their logical OR points to an enlarged conquered territory.  It is hard work, but recall gradually, and naturally, picks up with time while maintaining precision until it hits long tail with diminishing returns.

There are two caveats which are worth discussing for people who are curious about this “seasoned” school of grammar engineering.

First, not all rules are equal.  A non-toy rule system often provides mechanism to help organize rules in a hierarchy for better quality as well as easier maintenance: after all, a grammar hard to understand and difficult to maintain has little prospect for debugging and incremental enhancement.  Typically, a grammar has some general rules at the top which serve as default and cover the majority of phenomena well but make mistakes in the exceptions which are not rare in natural language.  As is known to all, naturally language is such a monster that almost no rules are without exceptions.  Remember in high school grammar class, our teacher used to teach us grammar rules.  For example, one rule says that a bare verb cannot be used as predicate with third person singular subject, which should agree with the predicate in person and number by adding -s to the verb: hence, She leaves instead of *She leave.  But soon we found exceptions in sentences like The teacher demanded that she leave.  This exception to the original rule only occurs in object clauses following certain main clause verbs such as demand, theoretically labeled  by linguists as subjunctive mood.  This more restricted rule needs to work with the more general rule to result in a better formulated grammar.

Likewise, in building a computational grammar for automatic parsing or other NLP tasks, we need to handle a spectrum of rules with different degrees of generalizations in achieving good data quality for a balanced precision and recall.  Rather than adding more and more restrictions to make a general rule not to overkill the exceptions, it is more elegant and practical to organize the rules in a hierarchy so the general rules are only applied as default after more specific rules are tried, or equivalently, specific rules are applied to overturn or correct the results of general rules.  Thus, most real life formalisms are equipped with hierarchy mechanism to help linguists develop computational grammars to model the human linguistic capability in language analysis and understanding.

The second point that relates to the topic of recall of a rule system is so significant but often neglected that it cannot be over-emphasized and it calls for a separate writing in itself.  I will only present a concise conclusion here.  It relates to multiple levels of parsing that can significantly enhance recall for both parsing and parsing-supported NLP applications.  In a multi-level rule system, each level is one module of the system, involving a grammar.  Lower levels of grammars help build local structures (e.g. basic Noun Phrase), performing shallow parsing.  System thus designed are not only good for modularized engineering, but also great for recall because shallow parsing shortens the distance of words that hold syntactic relations (including long distance relations) and lower level linguistic constructions clear the way for generalization by high level rules in covering linguistic phenomena.

In summary, a parser based on grammar engineering can reach very high precision and there are proven effective ways of enhancing its recall.  High recall can be achieved if enough time and expertise are invested in its development.  In case of parsing, as shown by test results, our seasoned English parser is good at both precision (96% vs. SyntaxNet 94%) and recall (94% vs. SyntaxNet 95%, only 1 percentage point lower than SyntaxNet) in news genre, and with regards to social media, our parser is robust enough to beat SyntaxNet in both precision (89% vs. SyntaxNet 60%) and recall (72% vs. SyntaxNet 70%).

 

[Related]

Is Google SyntaxNet Really the World’s Most Accurate Parser?

It is untrue that Google SyntaxNet is the “world’s most accurate parser”

R. Srihari, W Li, C. Niu, T. Cornell: InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006

K. Church: A Pendulum Swung Too Far, Linguistics issues in Language Technology, 2011; 6(5)

Pros and Cons of Two Approaches: Machine Learning vs Grammar Engineering

Pride and Prejudice of NLP Main Stream

On Hand-crafted Myth and Knowledge Bottleneck

Domain portability myth in natural language processing

Introduction of Netbase NLP Core Engine

Overview of Natural Language Processing

Dr. Wei Li’s English Blog on NLP

 

 

Small talk: World’s No 0

A few weeks ago, I had a chat with my daughter who’s planning to study cs.
“Dad, how are things going?”
“Got a problem: Google announced SyntaxNet claimed to be world’s no 1.”
“Why a problem?”
“Well if they are no 1, where am I?”
“No 2?”
“No, I don’t know who is no 1, but I have never seen a system beating ours. I might just as well be no 0.”
“Brilliant, I like that! Then stay in no 0, and let others fight for no 1. ……. In my data structure, I always start with 0 any way.”

It is untrue that Google SyntaxNet is the “world’s most accurate parser”

As we all know, natural language parsing is fairly complex but instrumental in Natural Language Understanding (NLU) and its applications.  We also know that a breakthrough to 90%+ accuracy for parsing is close to human performance and is indeed an achievement to be proud of.  Nevertheless, following the common sense, we all have learned that you got to have greatest guts to claim the “most” for anything without a scope or other conditions attached, unless it is honored by authoritative agencies such as Guinness.  For Google’s claim of “the world’s most accurate parser”, we only need to cite one system out-performing theirs to prove its being untrue or misleading.  We happen to have built one.

For a long time, we know that our English parser is near human performance in data quality, and is robust, fast and scales up to big data in supporting real life products.  For the approach we take, i.e. the approach of grammar engineering, which is the other “school” from the mainstream statistical parsing, this was just a natural result based on the architect’s design and his decades of linguistic expertise.  In fact, our parser reached near-human performance over 5 years ago, at a point of diminishing returns, hence we decided not to invest heavily any more in its further development.  Instead, our focus was shifted to its applications in supporting open-domain question answering and fine-grained deep sentiment analysis for our products, as well as to the multilingual space.

So a few weeks ago when Google announced SyntaxNet, I was bombarded by the news cited to me from all kinds of channels by many colleagues of mine, including my boss and our marketing executives.  All are kind enough to draw my attention to this “newest breakthrough in NLU” and seem to imply that we should work harder, trying to catch up with the giant.

In my mind, there has never been doubt that the other school has a long way before they can catch us.  But we are in information age, and this is the power of Internet: eye-catching news from or about a giant, true or misleading, instantly spreads to all over the world.  So I felt the need to do some study, not only to uncover the true picture of this space, but more importantly, also to attempt to educate the public and the young scholars coming to this field that there have always been and will always be two schools of NLU and AI (Artificial Intelligence).  These two schools actually have their respective pros and cons, they can be complementary and hybrid, but by no means can we completely ignore or replace one by the other.  Plus, how boring a world would become if there were only one approach, one choice, one voice, especially in core cases of NLU such as parsing (as well as information extraction and sentiment analysis, among others) where the “select approach” does not perform nearly as well as the forgotten one.

So I instructed a linguist who was not involved in the development of the parser to benchmark both systems as objectively as possible, and to give an apples-to-apples comparison of their respective performance.  Fortunately, the Google SyntaxNet outputs syntactic dependency relationships and ours is also mainly a dependency parser.  Despite differences in details or naming conventions, the results are not difficult to contrast and compare based on linguistic judgment.  To make things simple and fair, we fragment a parse tree of an input sentence into binary dependency relations and let the testor linguist judge; once in doubt, he will consult another senior linguist to resolve, or to put on hold if believed to be in gray area, which is rare.

Unlike some other areas of NLP tasks, e.g. sentiment analysis, where there is considerable space of gray area or inter-annotator disagreement, parsing results are fairly easy to reach consensus among linguists.  Despite the different format such results are embodied in by two systems (an output sample is shown below), it is not difficult to make a direct comparison of each dependency in the sentence tree output of both systems.  (To be stricter on our side, a patched relationship called Next link used in our results do not count as a legit syntactic relation in testing.)

SyntaxNet output:

1.Input: President Barack Obama endorsed presumptive Democratic presidential nominee Hillary Clinton in a web video Thursday .
Parse:
endorsed VBD ROOT
 +-- Obama NNP nsubj
 |   +-- President NNP nn
 |   +-- Barack NNP nn
 +-- Clinton NNP dobj
 |   +-- nominee NN nn
 |   |   +-- presumptive JJ amod
 |   |   +-- Democratic JJ amod
 |   |   +-- presidential JJ amod
 |   +-- Hillary NNP nn
 +-- in IN prep
 |   +-- video NN pobj
 |       +-- a DT det
 |       +-- web NN nn
 +-- Thursday NNP tmod
 +-- . . punct

Netbase output:
g1

Benchmarking was performed in two stages as follows.

Stage 1, we select English formal text in the news domain, which is SyntaxNet’s forte as it is believed to have much more training data in news than in other styles or genres.  The announced 94% accuracy in news parsing is indeed impressive.  In our case, news is not the major source of our development corpus because our goal is to develop a domain-independent parser to support a variety of genres of English text for real life applications on text such as social media (informal text) for sentiment analysis, as well as technology papers (formal text) for answering how questions.

We randomly select three recent news article for this testing, with the following  links.

(1) http://www.cnn.com/2016/06/09/politics/president-barack-obama-endorses-hillary-clinton-in-video/
(2) Part of news from: http://www.wsj.com/articles/nintendo-gives-gamers-look-at-new-zelda-1465936033
(3) Part of news from: http://www.cnn.com/2016/06/15/us/alligator-attacks-child-disney-florida/

Here are the benchmarking results of parsing the above for the news genre:

(1) Google SyntaxNet:  F-score= 0.94
(tp for true positive, fp for false positive, tn for true negative;
P for Precision, R for Recall, and F for F-score)

P = tp/(tp+fp) = 1737/(1737+104) = 1737/1841 = 0.94
R = tp/(tp+tn) = 1737/(1737+96) = 1737/1833 = 0.95
F= 2*[(P*R)/(P+R)] = 2*[(0.94*0.95)/(0.94+0.95)] = 2*(0.893/1.89) = 0.94

(2) Netbase parser:  F-score = 0.95

P = tp/(tp+fp) = 1714/(1714+66) = 1714/1780 = 0.96
R = tp/(tp+tn) = 1714/(1714+119) = 1714/1833 = 0.94
F = 2*[(P*R)/(P+R)] = 2*[(0.96*0.94)/(0.96+0.94)] = 2*(0.9024/1.9) = 0.95

So the Netbase parser is about 2 percentage points better than Google SyntaxNet in precision but 1 point lower in recall.  Overall, Netbase is slightly better than Google in the precision-recall combined measures of F-score.  As both parsers are near the point of diminishing returns for further development, there is not too much room for further competition.

Stage 2, we select informal text, from social media Twitter to test a parser’s robustness in handling “degraded text”: as is expected, degraded text will always lead to degraded performance (for a human as well as a machine), but a robust parser should be able to handle it with only limited degradation.  If a parser can only perform well in one genre or one domain and the performance drastically falls in other genres, then this parser is not of much use because most genres or domains do not have as large labeled data as the seasoned news genre.  With this knowledge bottleneck, a parser is severely challenged and limited in its potential to support NLU applications.  After all, parsing is not the end, but a means to turn unstructured text into structures to support semantic grounding to various applications in different domains.

We randomly select 100 tweets from Twitter for this testing, with some samples shown below.

1.Input: RT @ KealaLanae : ?? ima leave ths here. https : //t.co/FI4QrSQeLh2.Input: @ WWE_TheShield12 I do what I want jk I ca n’t kill you .10.Input: RT @ blushybieber : Follow everyone who retweets this , 4 mins?

20.Input: RT @ LedoPizza : Proudly Founded in Maryland. @ Budweiser might have America on their cans but we think Maryland Pizza sounds better

30.Input: I have come to enjoy Futbol over Football ⚽️

40.Input: @ GameBurst That ‘s not meant to be rude. Hard to clarify the joke in tweet form .

50.Input: RT @ undeniableyella : I find it interesting , people only talk to me when they need something …

60.Input: Petshotel Pet Care Specialist Jobs in Atlanta , GA # Atlanta # GA # jobs # jobsearch https : //t.co/pOJtjn1RUI

70.Input: FOUR ! BUTTLER nailed it past the sweeper cover fence to end the over ! # ENG – 91/6 -LRB- 20 overs -RRB- . # ENGvSL https : //t.co/Pp8pYHfQI8

79..Input: RT @ LenshayB : I need to stop spending money like I ‘m rich but I really have that mentality when it comes to spending money on my daughter

89.Input: RT MarketCurrents : Valuation concerns perk up again on Blue Buffalo https : //t.co/5lUvNnwsjA , https : //t.co/Q0pEHTMLie

99.Input: Unlimited Cellular Snap-On Case for Apple iPhone 4/4S -LRB- Transparent Design , Blue/ https : //t.co/7m962bYWVQ https : //t.co/N4tyjLdwYp

100.Input: RT @ Boogie2988 : And some people say , Ethan ‘s heart grew three sizes that day. Glad to see some of this drama finally going away. https : //t.co/4aDE63Zm85

Here are the benchmarking results for the social media Twitter:

(1) Google SyntaxNet:  F-score = 0.65

P = tp/(tp+fp) = 842/(842+557) = 842/1399 = 0.60
R = tp/(tp+tn) = 842/(842+364) = 842/1206 = 0.70
F = 2*[(P*R)/(P+R)] = 2*[(0.6*0.7)/(0.6+0.7)] = 2*(0.42/1.3) = 0.65

Netbase parser:  F-score = 0.80

P = tp/(tp+fp) = 866/(866+112) = 866/978 = 0.89
R = tp/(tp+tn) = 866/(866+340) = 866/1206 = 0.72
F = 2*[(P*R)/(P+R)] = 2*[(0.89*0.72)/(0.89+0.72)] = 2*(0.64/1.61) = 0.80

For the above benchmarking results, we leave it to the next blog for interesting observations and more detailed illustration, analyses and discussions.

To summarize,  our real life production parser beats Google’s research system SyntaxtNet in both formal news text (by a small margin as we both are already near human performance) and informal text, with a big margin of 15 percentage points.  Therefore, it is safe to conclude that Google’s SytaxNet is by no means “world’s most accurate parser”, in fact, it has a long way to get even close to the Netbase parser in adapting to the real world English text of various genres for real life applications.

 

[Related]

Is Google SyntaxNet Really the World’s Most Accurate Parser?

Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open

K. Church: “A Pendulum Swung Too Far”, Linguistics issues in Language Technology, 2011; 6(5)

Pros and Cons of Two Approaches: Machine Learning vs Grammar Engineering

Introduction of Netbase NLP Core Engine

Overview of Natural Language Processing

Dr. Wei Li’s English Blog on NLP

 

Is Google SyntaxNet Really the World’s Most Accurate Parser?

Google is a giant and its marketing is more than powerful.  While the whole world was stunned at their exciting claim in Natural Language Parsing and Understanding, while we respect Google research and congratulate their breakthrough in statistical parsing space, we have to point out that their claim in their recently released blog that that SyntaxNet is the “world’s most accurate parser” is simply not true.  In fact, far from truth.

The point is that they have totally ignored the other school of NLU, which is based on linguistic rules, as if it were non-existent.  While it is true that for various reasons, the other school is hardly presented any more in academia today due to the  mainstream’s dominance by machine learning (which is unhealthy but admittedly a reality, see Church’s long article for a historical background of this inbalance in AI and NLU:  K. Church: “A Pendulum Swung Too Far”), any serious researcher knows that it has never vanished from the world, and it actually has been well developed in industry’s real life applications for many years, including ours.

In the same blog, Google mentioned that Parsey McParseface is the “most accurate such model in the world“,  with model referring to “powerful machine learning algorithms”.  This statement seems to be true based on their cited literature review, but the equating this to the “world’s most accurate parser” publicized in the same blog news and almost instantly disseminated all over the media and Internet is simply irresponsible, and misleading at the very least.

In the next blog of mine, I will present an apples-to-apples comparison of Google’s SyntaxNet with the NetBase deep parser to prove and illustrate the misleading nature of Google’s recent announcement.

Stay tuned.

 

[Related]

It is untrue that Google SyntaxNet is the “world’s most accurate parser”

Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open

K. Church: “A Pendulum Swung Too Far”, Linguistics issues in Language Technology, 2011; 6(5)

Pros and Cons of Two Approaches: Machine Learning vs Grammar Engineering

Introduction of Netbase NLP Core Engine

Overview of Natural Language Processing

Dr. Wei Li’s English Blog on NLP

 

 

【没有翻不了的案子,兼论专家vs学习的现状】

白:
分层不是要害,one way才是

我:

什么叫 one way? 没有不可推翻的。原则上讲,如果某个现象足够突出,值得去做,NLP 就没有翻不了的案子。连毛太祖钦定的文化大革命都全面否定、彻底翻案了。

Parsing的分层设计本身隐含了语言学的流程和算法,但与一切的语言学规则一样,规则的背后就是例外。只不过规则及其例外构成的 hierarchy 在同一层表现,而分层的例外则在 pipeline(管式)中处置。经常是做几层 就加一层 patching 做例外处置或修正,也有留到最后通过【词驱动】(word-driven)去唤醒的。词驱动不单单是词,可以是任意可能 trigger 歧义休眠及其唤醒的 ngram。(非词驱动的唤醒,如果需要,还需要研究,目前不太清晰。)但凡是可以词驱动的,问题就不大,因为词驱动聚焦了特定的歧义现象,错误的 parse 在聚焦为有限子树patterns以后是可以预计的,当然也就可以修正。错误不怕,就怕错误不可预测。可预测的 consistent 的错误,在管式架构下不是挑战,不必担心其 error propagation,如果设计者具有“负负得正”的准备和机制的话。

白:
唤醒的ngram再进一步,就是一个CNN了。parsing用明网RNN,休眠唤醒用暗网CNN。相得益彰啊。

我:
听上去高大上,cnn fox abc 呵呵

白:
多层卷积

我:

我骨子里是相信数据的,相信大数据的自动学习,因为太多的语言细节隐含其内,终归是可以挖掘出来帮助parsing和理解的。但不大相信短期内可以改天换地,匹敌专家的经验积累。

syntaxnet 已经被我剁成稀泥了。但同时也注意到 statistical parsing 的精度在最成熟的文体 news 方面,很多年 stuck 在 80 以下,syntaxnet 确实突破了 90,这个成就让他们忘乎所以一把、吹点不符合实际的牛也是情有可原的,虽然多年前我们就把规则系统做到了 90 以上的parsing精度,当时的感觉是理所当然,貌似苦力不值得弹冠相庆(不是蛮力,当然也不可能仅仅是力气活,还有架构者的设计匠心和类似 dark art 一样不可言传的绝技,譬如经年经验加研究而来的 NL“毛毛虫”的formalism及其实现,等等)。没有炫耀,就这么一直默默地领先了“主流”很多年。

虽然仍然无法匹敌规则系统,但深度神经的运用的确使得统计型parser有了新闻领域内的90的突破。很好奇他们如今用了多大的训练库,还用了什么 tricks(据报道行内达人声称真正能玩转深度神经系统的大牛全世界不过百人,因为里面不仅仅是科学,还是 art),其他人多快可以重复结果?最后的大问题是,cnn rnn 等深度神经的牛算法,多快可以移植到新的文体、新的domain和新的语言,这种成功移植的最低条件(譬如最少需要多大的带标数据)是什么。未来的某个时候,如果新的文体新的语言,就像流水线一样,可以高质量快速自动学习出来一个个可应用的 parser 出来,语言学专家们也就死得其所,可以安然地“永垂不朽”了。

不过,在共产主义神经大同真能实现之前,专家还不愁饭碗。

在 parsing 这个NLP核心任务方面,要赶上专家的系统质量也并非易事,因为专家的系统已经证明可以做到非常接近人的分析水平,而且文体和领域独立,鲁棒、线速且可以 scale up,这对学习有诸多挑战。Deep parsing,专家一边是 production system,已经达到实用的高度,学习一边还是 research 在努力追赶,这就是 parsing 质量的现状。可很多人误导或被误导,把深度神经未来可能的成功当成现实或铁定,完全无视专家系统现实的存在。

 

【相关】

立委科普:歧义parsing的休眠唤醒机制再探】 

【泥沙龙笔记:语法工程派与统计学习派的总结】

《新智元笔记:NLP 系统的分层挑战》

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

NLP 是一个力气活:再论成语不是问题

【科普随笔:NLP主流的傲慢与偏见】

关于NLP方法论以及两条路线之争】 专栏:NLP方法论

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【随笔:二代移民的东亚心】

也许是加州特别是湾区比较特别吧,IC 的硅谷亚裔移民多,在这里长大的亚裔青少年譬如我女儿形成了自己的种族认同趋向,表现在大小不同的种族圈里。

最认同的内圈是东亚人,包括大陆台湾香港、新马、日本、南北韩、菲律宾、印尼、越南等等。她虽然意识上知道自己是 Chinese,但日常生活和交友,基本是没有把中国人作为自己的最内的需要独立区分和认同的族裔圈。在她的观念中,东亚基本都是同种族的,没必要区别祖籍是东亚的哪个国家或地区。其中日本文化反而影响最大,主要是日本动漫带来的。这一点与我们第一代移民的感觉很不同。

她的第二个圈子包括了南亚的印巴人。印度人虽然肤色等都与东亚人不同,但是她还是相当认同和感到亲切的。原因大体有二:一是湾区印度人太多了,从小一起玩的同学很多都是印度孩子;二来,印度文化与东亚文化也的确有很多相同之处,家庭背景大多技术出身,重视教育,鼓励勤勉,比较低调友善。都是亚裔,相处容易。

第三个圈子开始涵盖老墨。主要原因与印度人类似,一是墨西哥人在加州很多,不少西裔背景的同学朋友,二是老墨也都很友善低调勤恳。

第四个圈子是白人,非我族裔的感觉开始凸显。其实,高中同学中也有三分之一以上的白人,但还是明显感觉到差异。学校里,亚裔的孩子与亚裔的扎堆,白孩子一般与白孩子玩儿。当年有意选了一个有相当白孩子比例的高中,就是为了让孩子有个接触更多种族的机会,结果学校里还是自然地人以群分。其他高中常常是压倒性的亚裔,就更无法认同非亚裔了。这是加州湾区。在内陆的那些白人压倒多数的州,亚裔孩子就被同化多了,因此这种种族差异的感觉也就少了。

最后的圈子是黑人。硅谷高科技区黑人很少,加上文化的迥异,也因此感觉最为遥远。

我觉得我女儿的种族认同圈和差异感,相当典型,代表了加州亚裔环境长大孩子的种族意识。譬如交朋友,就有意无意的从最内的东亚圈开始,逐步向外伸展,不到不得已,不愿意突破圈圈向外。有意思的是,择偶与一般交友不同,除了在东亚圈子里找以外,其次就是白人圈,很少在老印老墨更甭提老黑的圈子里找。前几天女儿自己还说,我们在加州环境长大,缺乏对白人和黑人文化的了解,这一课迟早要补回来,我们总不能一辈子不出加州啊。而她儿时在水牛城的亚裔小伙伴,如今已经完全被白人文化同化了,这个差别很明显。

所谓“我的中国心”(包括对祖国的乡愁和思念)也就是一代移民的心理和经验积淀而已,很难延续到二代,更甭提二代以下了。一切的中国文化的灌输都敌不过美国这个大熔炉。共产主义老祖宗说过无产者无祖国的话。现在的情形是,二代移民无祖籍国。他们即便寻根也是理性化的行为,而非感情的需要。大家熟知的二代或以下的华裔移民有前驻华大使骆家辉和CNN的前主播宗毓华(Connie Chung),他们是“黄皮白心”的典型,世界观和接人待物完全西化。

【随笔:台湾不可小觑】

台湾不可小觑。起码是食文化。举几个例子。

第一个是以珍珠奶茶为代表的各式台湾茶店,把茶文化花样翻新地推向世界。湾区这几年开了一家又一家的台湾式奶茶店,开一家火一家,门前常排长龙,尤其受美国的亚裔青少年欢迎,成了他们的聚会场所。相比之下,星巴克的咖啡和茶就极少有亚裔青年光顾。我女儿到任何一个城市或大学,第一个拿来评判好坏的就是有没有地道的珍珠奶茶。85度C的 seasalt 的冰茶和冰咖啡,连我都忍不住嘴馋。

第二是鼎泰丰,这才在湾区开了一家,网上排队就要提前两个月预定。尝过一次他家的包子,的确比什么狗不理、庆丰,甚至上海小笼包,口感更细腻,有回味。堪称一绝。Valley Fair Mall 的鼎泰丰是目前唯一的一家正宗,火得一塌糊涂。

aaa

第三个是台湾糖村的牛轧糖,我的天,入口酥脆,再嚼即化,奶香沁骨,一尝钟情,二尝销魂,绕舌三日,回味不绝。我从小不喜甜食,可是自从尝到了台湾糖村的牛轧糖,我就开始尝遍各地牛轧糖,有上海豫园的,有台湾其他店家(85度C),也有日本产的,就是没有一家有糖村的那个完美。

至于台湾牛肉面、台湾面包房(85度C为代表)、台湾凤梨酥,也都富有魔力。

总之,不为别的,就为这食文化,台湾就让人心服。

小品:皇帝的女儿

 

自古有言:皇帝的女儿不愁嫁。其实事情远非如此简单。

首先,都皇帝的女儿了,绝不能下嫁,hence 可嫁之对象遽减。看眼球女王冰冰便知:冰冰未嫁之前可为娱乐圈第一公主,放言:我就是豪门。豪门深似海,除了痴情笃深病入膏肓者流,谁还敢上?无奈病人不入法眼,非病者不敢造次,剩女无奈之下,随手抓了一个小生换作LC,无才无貌无幽默,略强过空气。

再者,皇帝女儿的愁你未必知悉,子非女。愁之一,追求者所为何来?伴君如伴虎,胆敢冲着皇帝女儿用心思的绝非等闲之辈,机关算尽,醉婿之意不在酒,亦不在女,在乎父皇宝座也。一切的真情与浪漫在肮脏的政治面前,黯然失色。皇女亦人女,少女春心,焉得不愁?

或曰:心仪者,与私奔可也。小娜可私奔,小圆可私奔,唯皇帝女儿不可奔。此皇女愁之二。纵有佳偶在途,心向往之,亦不可得。深宫之内,不是囹圄,固似囹圄。

 

 

 

 

《在美国写基金申请的酸甜苦辣》

 

1. 初闯 SBIR

在来美创业不到八年的时间里,我总共拿到了政府18项“小企业创新基金”(SBIR: Small Business Innovation Research),计900万美金,做了17任研究项目的主任(Principal Investigator, PI or co-PI, 拿下的第18个项目由于离职而把PI移交了),研究方向始终是信息抽取(Information Extraction)。对于SBIR的基金申请几乎百发百中(也尝试过其他基金申请,却没有成功,其中奥妙容后详述),这实际上已经达到了该基金项目所规定的饱和极限:虽然偶然有网开一面的时候,但原则上,SBIR项目的PI必须至少拿出50%的时间指导项目,也就是说,一个人最多同时担任两个项目的PI(含co-PI)。这样的成就回想起来,更多是运气的成分,天时地利人和,当然也与自己的执着和死嗑分不开,其中甘苦,难以尽述。比如,这八年就没有真正过过一次像样的圣诞节。老美庆祝圣诞就好比我们庆祝春节,圣诞是探亲团圆休长假的好时光,而圣诞总是我基金申请最繁忙的阶段,因为元月五日是SBIR基金申请的死期。

写得最苦最认真的是前两三个基金申请,后来就越写越顺了。如果18个申请都需要象前几个申请那样大的精力投入的话,就是分了身脱了皮,也不可能完成。这里的道理很简单,基金申请的成功与否,不仅仅看写得如何,有没有 ideas, 更主要的是科研实力和在政府资助人中的信誉。信誉建立了,一切都好办。开始写申请的时候,基本是纸上谈兵,没有既往的研究投入做后盾,面对的是未知的竞争者,审阅者和资助人,要想有幸被选中,基金申请报告的质量至关重要。虽然质量好的的也完全可能选不上(见过不少这样的实例),但质量有严重瑕疵而想蒙混过关是绝对不可能的。

我写的第一个基金申请,倾注了我全部心血,反复修改,跟自己死剋。领导在旁看都烦了。限量20页的申请,看我先起草了50多页,又减到30页,再压缩到20页,没完没了,说我进入死循环了。一遍一遍地捋,一遍一遍地顺,自己高声朗诵给自己听,看文字 flow 不 flow,到后来差不多可以背下来了。功夫不负苦心人,从来没有写过基金申请,也没有过海外工作经验的我,写出的这第一个基金申请就使老板对我刮目相看。她只修改了个别措辞,就决定让我署名项目的PI。(对于新人,她完全可以让我写,然后自己署名挂帅而不做事,我知道很多外国老板就是这么做的。虽然后来我羽翼丰满以后,她又深感不安,我至今还是很感激她刚开始给了我独当一面的发展机会。)项目批准以后,政府资助人来检查工作时,也对我的申请报告一再表示赞叹,说这是他审阅过的最明白透彻的申请。除了运气和苦干外,我想我这次成功还得益于两个因素:我的语言表达能力,以及我对课题细节的熟悉。尽管没有海外从事这项课题的背景,作为课题基石的自然语言研究我在国内踏踏实实做了五年,积攒了丰富的切身体验,这是博士课堂上学不到的。启动这项研究的我的老板对这个领域并不在行,虽然她对该研究的走向和应用前景能谈得头头是道,但论起具体的语言处理问题来免不了有些虚,只能人云亦云地照猫画虎。我的加盟改变了这个局面,为公司在信息抽取领域发挥影响奠定了基础。

 

2. SBIR 一览

先谈一下SBIR的概况。美国政府非常重视小企业的发展,认为这是美国经济中最活跃最创新的一个部分。SBIR 是联邦政府部门(国防部海、陆、空、航天、教育等)设立的专项基金,旨在鼓励小企业从事政府部门制定的科研蓝图中具有应用前景的课题。据说,财富500强中不少企业当年就得益于这项基金而发展了最初的技术。SBIR 基金分为三种,Phase 1 基金很少,才10万美金,资助为期九个月的可行性研究;Phase 2 为期两年,75万美金,目标是研发一个模型系统(working prototype);Phase 3 的基金不固定,50万美金或更多,有时还要求企业与政府共同投入资金(matching funds),目的是在模型的基础上开发应用系统或产品,实际上是政府在多年对某技术的科研投入后再给小企业推一把,以期其市场成功。作为投资方,政府并不要求小企业做大后对政府资助有所回报,但小企业对于政府部门使用相关技术产品应予优惠。

三个 Phase 的基金申请,Phase 1 最难,尽管钱最少。 平均约二十个申请才选中一个,命中率小于很多顶级学术会议论文的通过比率。到了 Phase 2, 命中率提高到 50%.  也就是说,政府资助的项目,同一个题目在 Phase 1 阶段通常选择两家公司平行进行,做的是相同的题目,但却没有交流,要的就是在 Phase 2 的时候好做二选一的竞争。Phase 3 是没有定数的,不能指望,有没有后续的 Phase 3 取决于相关题目的应用前景,以及政府资助人资金筹备情况等多个因素。有意思的是,Phase 3 (其中一种叫 SBIR 2 Enhancement) 一旦设立,无需竞争,完全由政府资助方的项目经理人全权决定。虽然从形式上,也要写一个基金申请报告,但是因为没有竞争对手,命中率100%,可以把申请报告当研发计划书来写,基本是走一下形式。

对于多数企业,Phase 1 即便拿到了,也是赔本的买卖,因为在仅有10万资金的条件下,为了竞争 Phase 2, 总要把工作做得更扎实一些,投入更多一些。Phase 1 的基金报告可以纸上谈兵,而申请 Phase 2 就必须包括一些实验数据支持可行性研究的结论。通常的做法多多少少是拿 Phase 2 的资源补贴 Phase 1 的工作,这种事不好明说,但不少企业不这样就很难维持研发的持续性。当年,CEO 看到我们拿了多项政府项目很高兴,因为科研团队的投入全部由政府负担了,科研出的技术成果可以无偿转化到风险投资人资助的产品开发中去,这对于刚刚起步的技术公司是很重要的。而且这种无偿技术转移是受到政府鼓励的,毕竟小企业在市场的成功,最终给国家增强的是劳工市场(帮助解决就业问题)和企业税收,政府巴不得小企业都能在政府扶持下取得市场成功。后来,CEO 凭着他职业嗅觉,发现政府项目并不总合算,有一天,他跑来跟我说,Wei, I don’t want to do Phase 1s, for only 100,000, it is not worth it.  We need more Phase 2s and Phase 3s.  我笑道,我明白,你只想要二楼三楼,而不愿意兴建一楼和地基。I wish we could do that.

其实,不仅是拿到了 Phase 1 往往倒贴,没拿到之前,就已经开始投入了,主要是写基金报告所花的时间。当然,在小企业里挂帅的科学家个个都是五好员工,为写好基金报告,加班加点,夜以继日,牺牲节假日,很少听说有要求加班费的。考虑到20个申请才能选中一个,可以想见全国争取基金的小企业总共白白花费了多少资源。世界就是这样的不公平,并非有了投入,必有回报。很多技术型小企业就在这样的竞争中,耗尽有限的资金,而自生自灭了,或者转向非技术性产品或服务领域。很多小企业里负责科研项目的“科学家”,也随葬了,小企业不似大企业的研究部门,拿不到基金养活自己及其研究团队,是不能指望投资人或公司其他部门来补贴其研究的。只有少数小企业是幸运儿,有的以此为转机而在工业界成功,也有的即便没有在市场上成功,也可以依靠政府资助 (包括前期的基金和后期的政府合同) 长期运营下去,特别是当政府部门逐渐开始推广使用小企业的技术产品或服务的时候。我所服务的公司两边都沾一点,终于一分为二(spin-off),做工业产品的部门走向了市场,被另一家大公司收购,而做研发的部门成为政府项目的承包者,至今还在依靠政府的基金以及合同运行着。

 

3 鸿运+汗水+适应性+天才=成功?

话说了一箩筐,还是没到实质问题:究竟怎样才能写好基金申请?钱是硬道理,没有钱怎么科研,怎么雇人,怎么出来成果。读者诸君看热门话题不能白看,有什么成功秘籍也该露一手,造福后学啊。老实说,真地说不清,可以强调的是,一定要为审阅者着想,投其所好,减轻其负担。你想啊,审阅的人也不是神,在有限的时间里,必须完成n多申请的审阅工作。你的主意再好,如果表达不顺畅,格式不规范,很可能第一关就过不了。论述一个问题及其解决途径的时候,无论空间多紧张,务必要举实例,抽象谈论折磨的是审阅者的神经,因为他/她可能要把你的抽象自己在心里做一次转换。如果可能,所举实例最好是前后连贯的,形成一个discourse, 好像一个有头有尾的故事一样。这样你提的方案就具象化成一个使用系统的雏形,这项研究的意义也就蕴含其中了。Proposal 的含金量以及项目 PI 的资历自然是重要指标,这反映了一个资深研究人员与资历欠缺的人之间的鸿沟。但是,也不要过分夸大它的作用,否则新人还怎么起步?我刚开始写申请的时候,资历是远远不够的,PhD 还没有到手,也没有北美科研经历,更没有在北美带过科研团队,严格意义上的发表几乎是空白,唯一的资本是曾经在国内做过五年的研发,对于问题领域敏感而熟悉,语言学的背景加上某种天赋使得我的表达能力超过多数科研人员。这个世界上,万能或者千能的人不是没有,譬如镜子,:=),但为数极少,大多数都是你我这样的有某项特长,也有严重缺陷的人。(当然,我的缺陷我是从来不认账的,我要把帐算在“四人帮”头上。本来嘛,我当年没费力气就做了数学课代表的,要不是文化大革命,保不准就是第二个陈景润了。)学会藏拙,扬长避短,使我走上了基金申请的成功之路。藏拙的底线是不能闹笑话,没把握的绕着走, 基金申请又不是论文答辩,怎样行文在自己掌控之中,没有被 question 和 cross examination 的现场,当然是”不问不说”喽 (立委注:”don’t ask, don’t tell” 是美国军方针对同性恋参军设立的一个妥协政策,奥巴马声称要废除这种带有歧视性质的政策,使同性恋者可以光明正大地保卫祖国)。

我的缺陷在于我的理工背景的缺失。本来是报考理工的,可硬被塞进文科学语言学了(这个不怪四人帮,那是文革后拨乱反正的匆忙造成的阴错阳差,详见《朝华午拾:我的考研经历》 )。学传统语言学也便罢了,偏偏是交叉学科计算语言学。当年念硕士刚入行的时候,情况还不算太糟,语言学家在这个领域还有发言权,10 年不到就被一帮学统计的理呆,有如张牙舞爪的洪水猛兽,把持了这个领域的话语权,语言学家成了敲边鼓的资料员。言必称统计,机器学习遂成主流, 语言学从软的文科变成了硬的科学。不提机器学习,根本难有立足之地,尽管实际上机器学习并没有那么神,在很多复杂一点的语言问题上,根本敌不过语言学家用熟的那套传统规则系统。但是,基金审阅人大多是以统计在这个领域起家的专家,或者是跟风的政府项目经理人,二者都有极深的bias. 科研潮流,浩浩荡荡,顺之者昌,逆之者亡,是我面对的学术现状的真实写照。

我来美的时候,根本就不知道机器学习是怎么回事,只是听说过这个名词而已。问题都是烂熟于心的问题,可解决问题的路子与我熟悉的规则系统迥然不同。到我写第二个申请的时候,项目的标题即明确规定了要探索某种机器学习的方法去解决所提的问题,想绕都绕不过去。可怜我被逼得临时抱佛脚,找来一本研究生的教科书,生吞活剥研读一遍,总算在概念上大体了解了机器学习的基本原理和常用算法,也知道了它的瓶颈和局限。可怎么开写呢,拿自己的短处去硬碰硬别人的长处不是找死嘛。于是,我就提出要结合传统的规则方法和机器学习方法,取长补短,来做这个课题。这样既符合了所要求的研究方向,又站在了兼收并蓄的“道德”制高点上。这篇基金申请千锤百炼写出来以后,比样板戏读着还顺畅。我的老板是电脑系教授,机器学习是她的研究方向之一,她看了也没有找出明显的毛病,稿子审阅完,改了几个措辞,她很满意,说,唯一的遗憾是没有公式。是啊,没几个公式唬人,这项研究方案显得不够硬,含金量不足,科学度不高。可是,那不是杀我吗?我要是硬凑几个公式上去,很可能自暴其短,硬伤累累。老板一时也想不好怎么加,加什么,时限到了,就这样提交上去了。天助我也,居然侥幸通过了,从此启动了我们机器学习的研究方向。后来的路子就顺畅了,有项目就有钱,就可以招机器学习的人员来做项目。在后续的项目申请中,我们总是恰到好处地加上一些公式和具体的机器学习算法,来阐释解决方案,算是跟上了革命的大队伍和学界的大潮流。

说到含金量,其实很多课题,特别是面向应用的课题,并不是什么高精尖的火箭技术(not rocket science),不可能要求一个申请预示某种突破。撰写申请的人是游说方,有责任 highlight 自己的提议里面的亮点,谈方案远景的时候少不了这个突破那个革命的说辞,多少迎合了政府主管部门好大喜功的心态,但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。(纯科学的研究,突破也不多吧,更何况应用型研究。)应用领域“奇迹”的发生往往植根于细节的积累(所谓 the Devil is in the details),而不是原理上的突破。而对于问题领域的细节,我是有把握的。这是我的长处,也是我提出科研方案比较让人信服的原因。有的时候,不得不有迎合“时尚”的考量,譬如领域里正流行 bootstrapping 等机器自学习的算法,虽然很不成熟,难以解决实际问题,但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作,由于科研的探索性质,最终的解决方案完全可以是另一种路子。说直白了就是,挂羊头卖狗肉不是诚实的科研态度,但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。

文字上的技巧就不用说了,很多科研作文指南有不少很好的建议。有一条是一定要做的,定稿前请一位英语 native speaker (比如公司秘书)做文字的修饰。不要让她擅改,因为有些技术内容虽然显得不顺畅,却不能轻易改动。但是对她提出的建议可以认真琢磨一遍,再决定接受与否,如果不接受,要不要再换一种表达法。

 

4 傍大款

为审阅者着想的延长线就是处处为 sponsor (项目资助和监护人)着想,特别是 sponsor 中的重量级经理(我们私下称之为财神爷)。为 sponsor 着想才能保证后续基金申请的胜算,特别是 Phase 2 和 Phase 3 这些油水大的项目,这一点比写好申请要重要百倍。一个基金通过后,政府会派一个项目监护人,我们需要向她汇报进度,在她来察访的时候,展示系统和成果。这些还远远不够。要想她所想,急她所急,她的任何要求,无论大小,都要放在优先的位置。即便她没有明确要求,也要主动联络,体会贯彻其精神。道理很简单:财神爷是我们科研的衣食父母。有几件事可以说一说,能看出我对衣食父母的尽心尽力,怎样保障了我们源源不断的研究经费,从而保证了研究的持续性和研究队伍的相对稳定。

我领导的系列项目的主要资助方是政府某部门信息抽取组组长A女士,她领导一个五个人的政府项目经理团队,专事信息抽取科研项目的管理和推广应用。A女士是一个聪慧而有悟性和远见的“超女”(super lady),她做事麻利,一丝不苟,精力无限,能量极大,每年在她手下管理的政府基金都是千万级的。八年下来,我们建立了密切融洽的关系,她有什么挑战和苦恼,也能坦率地跟我分享,使得我为她分忧解难成为可能。A 女士没有架子,廉洁奉公,site visit 来察访的时候,连招待快餐的三明治,她都坚持要自己付钱。她生孩子,我给她寄送的几十美元的礼品券也被退回了,说她心领了,但作为政府官员,她确实无法接受任何礼品(不知道国内掌握巨额资金的政府项目官员是怎样处理的?)。在项目的监管方面,A 女士有时严格到了苛刻的程度。每个政府项目都要写一个长长的最后报告(final report)在政府机构发表,总结这个项目的成果和教训。有几次,因为忙于基金申请,我们对现存项目的最后报告写得马虎了一点儿,她毫不留情面地打回来重做。有的报告来回折腾三五回才让她满意。她的认真和严厉不是问题,我自己也是较真的人,常常自己跟自己过不去,有她这样的监管,更加鼓励了我爱咬文嚼字千锤百炼的习惯。后来的系列最后报告, 越写越好,不断得到她的欣赏和推荐。

A 女士是有压力的。最大的压力来自上头,她管理这个被认为应用前景广阔的研究方向多年,经手上亿的资金,资助了一批大小企业和大学研究所的相关研究,可是技术转移却很不如人意,只有一些试用系统在政府机构内免费推广,用户响应并不热烈。上面开始质疑此项研究是否值得继续支持,特别是在政府科研经费预算吃紧的大环境下,完全可能撤消资助。一旦撤消,她的小组就必须解散,她自己也要转行,至少不能再管理她已经熟悉了的这个领域的项目了。所以,本质上她遇到的挑战与我的一样,没有她的资助,我的研究小组也必须解散。帮助她减轻这方面的压力,也是帮助我们自己的生存和发展。为此,我确立了帮助她的四个主要方面。首先是全力协助她准备年度检查。其次是加速科研的技术转移。第三是加快学术发表,提升该研究及其资助人在科研领域里的知名度。最后是帮助制定该领域的发展蓝图。

年度检查是对政府项目管理人的主要考核手段,其结果直接影响下一年度项目经费的重新布局。这理所当然成为 A 女士每年最为重视的事件。年度检查团队集中了政府部门的首席科学家和科研领导等重量级大牛,不能稍有差池。她总是提前三个多月就开始着手准备材料,与我们这些被资助方联络,看有什么突出的成果可以拿出来展示(demo)。我们也总是绞尽脑汁寻找科研上的最亮点,提供素材丰富她的 presentation.  重要的是能让她感受到我们急她所急的革命态度。检查关过后,特别是考核成绩优良的时候,她都及时与我们分享喜悦,并郑重感谢我们的合作。

在加速科研的技术转移方面,我们得天独厚,因为除了政府项目以外,我们乘着.com泡沫的东风,幸运地得到了千万级的华尔街风险投资(见《朝华午拾:创业之路》 )。有投资就必须做产品,在泡沫过后,资本家的耐心是极其有限的,速度慢了,很可能遭到撤资的命运。几经波折,最终,公司利用我们的信息抽取技术开发了一个品牌舆论测量的产品。尽管所用到的技术只是我们科研项目的一个部分,而且是技术中比较浅层的部分,这毕竟是一个 real life 面向市场的产品。在研发这款产品中,几个关键的 features 都是我亲自主持开发的,用的都是最实用甚至 brute-force 的方法,避免风险和不确定性,有些地方是牛刀宰鸡,譬如只用到自动分析中浅层的结果。换句话说,产品中的技术含量并不很高。当时的想法是先做出产品,以后在产品更新换代的时候,再逐步加强技术的深度转移。因为信息抽取的核心引擎已经植入产品,架构无需变化,只要定期更新引擎就可以为深度转移创造条件。但实际上深度转移后来没跟上,其中主要原因是负责工程的副总怕担风险,宁愿以不变应万变,只在应用层面修修补补,而不愿更新内核,以免伤筋动骨。一定程度上,科研和产品创新脱节了,而这超出了我能掌控的范围。尽管如此,该产品的 marketing 还是做得有模有样,先后在业界多次获奖,动静很大。本来这都是公司产品市场化过程中的题中应有之义,似乎与政府科研项目也没有太多直接关联。可我还是不厌其烦随时与A女士分享我们在市场化中的每一个成绩,包括公关宣传资料,各类奖状和报道,以及客户的正面反馈。她非常高兴,因为她需要这些资料去帮助证明这个技术的应用性,这对这个领域的科研持续得到经费至关重要。她资助的一些大公司和大学的相关研究项目,就没有这个产品化的过程,所以我们的技术产品显得特别重要。

光有产品还不足以让她对我们特别青睐。她需要我们在研究领域站住脚。头两三年忙于系统的设计和架构,以及基础设施的建设,没有顾上学术发表。等架子搭起来了,我们已经有了相当的科研积累。这时候,A 女士跟我说,我们的项目进展非常令她满意,可是学术发表没有跟上是个遗憾。军令如山倒,我于是召集研究组分工合作,集中精力加强学术发表所需的实验和投稿。那年一口气在大大小小会议和杂志发表了15篇论文,包括该领域的顶级会议,publishing like crazy。我与助手开玩笑说,尽管我们只是在工业界打工挖煤,可这样疯狂做研究,真像是为评终身教授  tenure 在拼命呢。每篇论文的结尾都要郑重致谢资助人,作为SBIR 成果备案在册,把 A 女士乐坏了。这些都是我和同事们拼命工作换来的,仗的是正值壮年,精力旺盛。回想起来,那一年真是累惨了,一个死期接着一个死期,不知熬过多少不眠之夜,体力透支,老有一口气喘不过来,感觉随时要光荣倒下的样子。幸好这样的自我摧残造成的亚健康局面没有持续下去,我们就站稳了脚跟。至此,我们的工作在政府资助机构中的信誉是完全建立起来了,要研究有研究,要产品有产品,还有什么比这些成果更能说明科研及其技术转移的实力呢。为此,政府部门领导通报表扬了 A 女士成功资助我们信息抽取研究的突出成绩,我们还数次被提名角逐全美 SBIR 年度最佳奖(nominated for US Small Business Administration Prime Contractor of the Year Award),我们的工作也上了 SBIR 光荣榜(SBIR success story)。也就是说,从资助人角度,对我们的资助是基金成功的样榜,一时风光无限。

在这样的形势下,我开始有了资本影响和(间接)参与政府在这个领域的科研蓝图规划。美国的体制很有意思, 政府的研究基金在首席科学家等最高决策者确立了一个总体方向(领域)以后,很多具体科研项目的确立是通过下面的政府项目经理竞标而来。A 女士每年都需要与其他同方向的项目经理竞争选题,她当然希望自己起草的选题被采纳。尽管她在这个领域做项目经理多年,上通下达,左联右合,对该领域的概貌、常用技术和应用前景有相当的了解,但她毕竟不是一线科研人员,她需要我们帮助她提供科研项目选题的思路和技术支持。选题要求确定该领域的瓶颈,以支持相关研究。为此,我利用一切机会把自已对该领域蓝图的理解和体验,用通俗易懂的方式灌输给她。她是个求知欲与好胜心一样强的聪明女士,沟通起来非常顺畅。这样的沟通是互利双赢的。首先是帮助她赢得了更多的选题,因此加强了她项目管理的资源,也在同事中增强了她在该领域项目管理的权威性。同样重要的是,由于帮助了她的选题,我们自然在竞争中处于优势地位。虽然政府项目总要公开招标,但别的竞争者要在短短的选题介绍中体会项目管理者的思路以投其所好,而我们是选题的发源地,可以自由发挥而不偏题,其中的竞争优势不言而喻。这种影响不限于研究性项目,也延及应用型项目。事实上,政府一个千万美元的技术转移 program 的立项,就直接源于我们的工作,这个选题基于我在这个领域科研多年积淀来的“洞见” 以及我们的可行性研究和模型系统。其中对问题的阐述方式、使用的自创术语以及技术转移可行性的论证,与我给政府项目写的最后报告如出一辙。不过,这个大项目的最大受益者却不是我们,而是一个做政府合同的大公司,因为项目指定所要处理的档案具有保密性质,而我们公司多是我这样的外籍盲流,没有权限处理保密文档。尽管如此,看到自己的工作和心目中的蓝图,被采纳成为一个大项目,还是很开心的。有意思的是,项目招标后,有资格竞标的几个公司纷纷找我们联系,上赶着要与我们建立排他性伙伴关系(exclusive partnership),采用我们的技术和引擎,来申请这个项目,因为他们知道这个项目的背景,想借助我们的特殊地位来增加自己的胜算。CEO 很高兴,他说,我们来者不拒,可以同他们都建立伙伴关系,但是 exclusive partnership 没门儿。是啊,让他们去争个头破血流,谁成功我们就跟谁搭档,是我们公司的利益所在。最终,我们如愿以偿成为政府应用开发的核心技术和引擎的提供者,不仅分了一杯羹,更重要的是,我们在政府 business 这一块,正如我们在工业开发那一块一样 ,也开始了从研究向应用的转变,不再是仅仅依靠研究基金存活,而是油水更大的政府合同的合伙人。这一转变的结果是带来更多的研究基金和政府合同,成为政府必须持续扶持的重点对象,因为政府经理及其项目的主承包者都不敢断了引擎维护和技术更新的源头。

在水牛城的八年,通过上述四个方面对政府资助人无微不至的协助和合作,终于达到了“政民”鱼水情的和谐融洽境界。我算过一笔账,论投资总量,政府项目的900万美元的投入,使得政府(当然最终是纳税人的钱,准确地说是“人民”)是公司实际意义上的最大“股东” (其他风险投资人每家很少超过 500 万)。尽管名义上政府只是扶持,并没有股东的法权,但对待政府项目经理象对待大股东一样才是正确的态度。保持密切联系,保障他们的知情权,是题中应有之义,也是我一直身体力行的。事实证明这样的认识和态度给双方带来的是最好的结果。从政府项目经理的角度,扶持一家小企业及其技术创新,达到可用好用的程度,也是一件极费心力的事。到了一定的阶段当扶持对象的信誉建立以后,政府经理自然悉心珍惜维护这种关系。大家都在一条船上,我们的成功就是他们的成功,他们的失败就是我们的灾难。

作为小企业,能傍上政府的大款,建立一种一损俱损一荣俱荣的关系,实属不易。这样的关系使用得当,可以化险为夷。在世纪之交科技股泡沫破灭后,我的公司经历了腥风血雨的大裁员(见《朝华午拾:水牛风云》)。我主管的研发这块儿,在裁员以后慢慢稳定到七八个人的团队,自负盈亏。仗着持续不断的政府项目,这支队伍一直维持下来。可是,有一次,因为政府项目之间有个缺口,大约有半年时间接不上来,CEO 坚持要我立即裁员。我软磨硬抗,告诉他很快新的项目就可能下来,我甚至用了哀兵之策,说我愿意工资减半,直到足够的政府项目资金到位。CEO 还是坚持要裁员,说新项目不一定能下来,如果下来了,你可以再招员。我心里想,你当是麦当劳工作啊,在职培训几天即可上岗,培养一支队伍不容易,一个新手来了,即便有经验,从熟悉系统到开始贡献一般也要半年时间,我可不能冒这个险。正在这个当口,A 女士带领她的小组来视察工作,老板和我像往常一样接待唯恐不周。老板是个好面子的人,叮嘱我不要把公司动荡的情绪带进来,她自己在介绍公司进展的时候,总是形势一派大好,是大好,不是小好。可是我的心结她也解不开,因为 CEO 固执己见,从来听不见她的意见。送走政府检查团以后,我翻来覆去睡不着觉,怎么想怎么觉得不应该对政府隐瞒这场危机,相反,我们应该向她求助。于是,我熬夜写了一封长信,细述我的科研团队面对伤筋动骨,科研难以为继的困境。第二天一早就收到她的回复,说感谢我的坦率,本来还以为我们一切良好呢。她说她正努力帮助我们度过难关,并嘱咐今后此类事情一定要及早与她通气,因为我的团队受到任何损害,直接影响她的全盘规划。很快,她就调动了自己可以控制的资源,加快了两项 Phase 3 的批准(那两个基金申请书是以最快速度完成的,基本是走过场)。她不久还把我们引荐介绍给另一个政府部门的基金主管,为我们开辟另一部门的基金来源。我感觉这大概是我在高级主管(研发副总)位置上“为政” 六年最大的一项政绩,可以说是在旅美革命的生死关头,我的一封上书,挽救了革命,挽救了党,保全了队伍,稳定了人心,峰回路转,转危为安,从此从胜利走向胜利,从辉煌走向平淡。

 

记于2010年春节

 

【相关】

《知识图谱的先行:从 Julian Hill 说起 》
Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)
Pre-Knowledge-Graph Profile Extraction Research via SBIR (2) 

【立委博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

【语义计算群:句法语义的萝卜与坑】

白:
张三对李四的批评一针见血。
张三对李四的批评置若罔闻。

梁:
白老师,这个挑战绝了,第一个是,张三批评李四,第二个是李四批评张三。

我: 白老师这个 minimal pair 是语言学的绝配样例。顺着它,可以 illustrate 一车的“萝卜与坑”的语言学:subcat 怎样工作,如何竞争,以及句法句型的的逻辑语义落地。这是语言学的魅力。我们先来 parse 一下,然后尝试做解读。

t0708b

谁一针见血,谁置若罔闻,都是张三(S)。我们先看两句的总体句子架构,然后再论内层的逻辑谓词“批评”的句法逻辑语义。“一针见血”是不及物动词,只有主语一个坑,可以是人 也可以是观点类抽象名词或动作类的语词;“置若罔闻”有主语宾语两个坑,但这个成语性的语词谓语,其宾语在汉语句法(subcat pattern)中要求PP(对),而不是后置NP,置若罔闻的主语坑必须是 human,最多推广到 法人(机构、公司等)。
t0708c

“X 一阵见血”,无论 X 是人是物还是动作:

t0708d

“human 对 X 置若罔闻”, 置若罔闻的X无论是物(信息)还是人(指代的仍旧是信息,是指那个人说的话:此乃“闻”的常识语义 ontology 所规定,但为了鲁棒,不必在句法上做这样的语义限制,因为介词“对”已经是一个很好的类似于“格变”的语言显性形式手段了,对于填这个坑已经足够精准了):

t0708f

后一句意思是,张三不把李四的话当话(e.g. 张三逆反)。

接着我们考察一下“批评”的SVO句型,看看S和O的坑在中文是怎样要求和被填的:

t0708g

t0708h

这算是“批评”的三个最基本的 subcat patterns,逻辑语义不变,尽管第二个变式中的表层句法是以PP做状语(Adv)的面貌(和位置)出现,但语义中间件根据变式2的规定可以很容易确认其逻辑宾语(O)的角色。

下面来看汉语中利用“的字结构”的SVO句型变式:e.g.  S对O的V

t0708i

t0708n

t0708j

这是指称性 arg structure,通常用“的”(“之”),于此对应的是英语的动名词NP:
John’s criticism of Peter
vs
John’s criticism by Peter
Peter’s criticism towards/of John
the criticism of John by Peter
the criticism of John towards Peter

可见,英语的 of 几乎与汉语的 “的” 一个臭德行 充满歧义。by 和 towards 就规矩多了。再举几个指称性SVO的例句:

t0708k

t0708l

t0708m

t0708o

如果不是逻辑动词的“意见类”语词,就是 human 对/关于 thing 的 意见,广义的 thing 包含 human:
张三对李四的看法
张三关于时局的一点意见

雷:
这个人不是东西

我:
人不是东西 但可以当东西看 在语义限制的时候 除非特地标明 NOT human,白马是马非马 的辩证法:“张三对李四的意见”。“李四”不是东西 但在这个句型当东西看 因为“意见”没有human逻辑宾语的坑 只有关于万事万物的坑。

梁:
张三对李四的评价很好。--》 评价很好--》评价是主语。
张三对李四的评价无所谓。 ——》 张三无所谓 ——》 张三是主语。
“对”管到哪儿的问题。

我:
到了 意见 的同义词 “看法” 就有趣了:“张三对李四的看法”。
句法上 仍然是 【关于】 万事万物;词法上,这个外化到句法的 pp 实际上是逻辑动词语素 “看” 的逻辑宾语,只不过 在 “看” 与 “法” 合成为黑箱子的词典化过程中,这种深度搭配被遮掩了。必须词典化、黑箱化,因为此法非彼法。只有词典化,才能绑架 “法” 的语义。

“张三对李四的看法”
结构上是
“ 张三 看 李四 的 ‘法’ ”

“法” 不是默认的 method 语义,而是引伸的 perspective 语义,相当于英语的 point 在 viewpoint 或 point of view 中。黑箱的好处是可以把引申语义绑架为本义,英语的 viewpoint 就是用的同一种绑架的招数,否则 point 本身也意义含混。

“John’s viewpoint about Peter”
structurally is equivalent to
“John’s perspective of (John) viewing Peter”

昨天说过 虽然黑箱化 但在段子里可以休眠唤醒为白箱子:tv 新看法 就是。

总结:今天调试开发了的 unit test 的句子如下,工作成效颇不坏:

张三对李四的批评一针见血。
张三对李四的批评置若罔闻。
张三的批评一针见血。
张三一针见血。
批评一针见血。
张三对批评置若罔闻。
张三对李四置若罔闻。
张三置若罔闻。
张三批评李四
张三对李四批评
张三对李四的批评
张三之批评李四,毫无道理。
张三被李四所批评
张三被李四批评
张三为李四所批评
张三的被批评
李四对他批评
李四对他的批评
张三对李四对他的批评置若罔闻。
李四对他的批评一针见血。
张三对王五对李四的批评置若罔闻。

 

【相关】

tv 新看法

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【李白之30:算账先生说,parser 就是个交易系统】

李:

t0702d

陈:
日他,不是应该分析成 日 他

李:
“日他”在我们sentiment中语义是落地了的,社交媒体中表达 negative 情绪的骂人的

白:
伟哥到隔壁做做两个句子

t0702e

t0702f

白:
next有点耍赖

李:
NEXT 不是有点耍赖 是非常耍赖。如今是把 NEXT 作为未来语义中间件的重点改造对象。

白:
人工智能那个,怎么排除另一个“发展”为名词的解释?

李:
怎么排除的?根本就没刻意排除。
现在的问题是,如果不想排除,我可以不可以做,值得不值得做?

白:
有助于人类 和 有助于人工智能  大数据会告诉你

李:
就case论case 我有点怀疑大数据的作用 语感上 是半斤百两:“有助于人类” 和 “有助于人工智能”。即便依照大数据的阈值,走了其中一条 path 也还是很可能与语感或具体的case相左。大数据也只能解决基本分明的现象 大数据对模糊现象不是灵丹。

白:
人类的人工智能,这条路径更弱。

李:
有助于人类的 path 还是可以的。当然 那个如果正确 也是瞎猫撞死耗子。
目前的喧嚣是人工智能可能是坏的 可能毁掉人类 因此下面这个提倡 非常具有霍金盖茨马云般的“高瞻远瞩”:既不排斥科学技术的发展进步 又提出了道德的要求。
MD 听上去都有点像斯大林做学问了:
发展有利于马克思主义的语言学
发展有利于社会主义的生物学
发展有利于人民革命的核武器

白:
“改革有利于中国的持续发展”
看看狗屎运是不是可持续

李:
狗屎运与否,这次是耍了一次流氓:

t0702f

Next 与 Topic 基本等价,所以其实并不坏。
句首的词做 Next 与句首的 Topic 基本都是耍流氓。但是都是可以教育好的,等到语义中间件去教它从良,恋爱结婚生子。

白:
改革不适应时代的陈旧观念。
改革有利于少数人的管理制度。

李:

t0702g

“不” 给拉下了,这是个 bug 很好奇怎么拉下的。不过框架是对的,怎么对的,只能说狗屎运了 因为自己也搞不清。下面这个把“少数人”加入词典后,狗屎运似乎就光临了的样子:
t0702h

白:
需要在边界附近强化蹂躏

白:
改革有利于多数人的公平正义。
指挥没有记熟谱子的队员很没劲。
指挥没有记熟谱子的后果很严重。

李:

t0702i

上面断链了两次 挺不咋样的。

t0702j

t0702k

白:
第一个,队员是指挥的逻辑宾语

李:
还有个 bug 应该不难 de:已经有“谱子”做宾语了,语义中间件还是在逻辑主语(对的)又给加了逻辑宾语(错的)。有一阵子是有意放宽了保持歧义的策略 因为语用的时候有歧义比较好运作。

白:
后果,和行为、事件、消息是一个封闭小类。是在对VP进行“概括”

李:
现在没给这个小类起名字 都是零碎地用一些已有的类别 结果就是有漏掉的 可以考虑加一个 feature 就叫 VdeN,表达的不是宾语 而是其他,譬如同位语。

白:
第二个,指挥根本就是名词

李:
“指挥”是名词,不太好伺候,需要细线条。

白:
前面的“发展”其实也是双性 还有“改革”

李:
我其实不主张把这类归为 POS 歧义 因为这很容易推卸句法的责任 误导人在 POS 里去做句法的事儿 这种教训太多了。后果很严重,尤其对汉语。不说是 POS 双性 而说POS就是V。汉语缺乏形态 基本上逻辑的POS就是语言的POS,不存在动词又是名词的事儿。到了句法,就有了这个动词是自我包裹起来 还是成家生子的区分。闹独身的动词 类似于英语的 gerund,成家生子的动词就是常态的谓语动词了 构成了自身的 arg structure

白:
转指(比如作为人的指挥)的PoS一定是双性。自指(比如作为动作的指挥)的PoS在词法阶段可以保持不变,在句法阶段被强制,有案可查。指称性、陈述性。

李:
“指挥”不论,指挥是 human 当然是名词。说的是 “改革”、“发展”。这样的词强调POS双性无益 而且误导。

白:
这个同意

李:
不知道如今的汉化的PennTree或WordNet 是不是还把它们作为 POS 的歧义来标注。如果是,就是 community 的政策性误导。结果新人就一头钻进去试图在 POS level 去解决这个 POS 歧义,这不是死胡同吗?

白:
所谓被强制,就是强制之后改性。如“这本书的出版”:出版是V,这本书的出版是NP

李:
不错。这些是在 parsing 的过程中解决,而不要归结为一个独立的 POS 问题 或 POS 模块,这是症结。其实 都 NP 了 改不改 POS 已经无所谓了。保证做出 NP 是目的。

白:
这没有问题。
“画穿裙子小人的是女厕所。”

李:
没看懂 不过 parse parse see see:

t0702aaa

一无是处。

当然 作为人脑 我看了几遍了 还是没看懂。
Wait,是标志 ……

白:
这是小学一年级课外读物

李:
画有穿裙子标志的那间是女厕所

白:
还好你的“穿”没做补语

李:
确实没看懂 人脑其实也不咋样。
这样就清楚多了:画了穿裙子的小人的那间是女厕所 于人于机。

t0702m

当然 “那间” 应该是 S 而不是动词 “画” 做主语。定语从句没搞定。
画的是“人”不是“间”。

白:
定语从句对于标配的坑和非标配的坑处理是不同的,前者可以省略“的”的中心语,后者不能省略。
“写了三行字的是作文本,写了两行字的是记事本。”

李:
的字结构作为指代,【定从】中插入“是”,前面的就成了【的字结构】主语,后面成了表语的是哪些?

我看的书 –》 我看的是书
我吃的这家馆子 –》 我吃的是这家馆子
我吃的亏 –》 我吃的就是这个亏。(动宾离合词的搭配需要这个pattern帮助搞定。)

上面的例句因为宾语的坑还在(没有 daturated),还好说。下面的呢?

我写了三行字的作文本 –》 写了三行字的是作文本
我写书的这个屋子 –》 我写书的是这个屋子??
我【在其中 in which】写书的屋子

白:
有些动词处所坑是标配,有些不是。不是的,的后面不能省略

李:
处所标配的动词是 “去”“来”这样的?

白:
这是其中一类

李:
“写书” 没有这个标配,如果带处所也是所有动词都带的状语性质。

白:
还有表示附着、固定的,画、涂、标、钉、挂,都可以。

李:
那是 put 、place 这类 带处所做补足语的。HowNet 里面应该有,这是跨语言的常识要求。

白:
挂两颗星的是中将。

李:
“中将” 与【处所】貌似没关系啊。“挂两颗星的是中将制服”。
“制服” 倒是处所的延伸。

白:
写书和写字不同。写字有附着对象,写书没有。
“写白字的是黑板,写黑字的是白板。”

李:
这个虽然有道理,但确实已经很微妙了 感觉上不大好拿捏。

白:
标配和光杆“的”之间的变换关系有道理?还是“放置、附着、固定”这类subcat带标配处所有道理?
我承认后者很微妙,总结得未必精准,但前者似乎是比较正常的。

李:

t0702n

看看这个parse: 就是说
写白字的是黑板 == 黑板写白字
写黑字的是白板 == 白板写黑字
这个解释几乎可以接受了吧?
至于这个 S 的深层逻辑语义该取个什么名字 暂时不管。

白:
你这白字和黑字不对等哦……

李:
yeh 我也发现了,不知道为啥
知道了:“白字” 词典化了。

白硕:
“白字”另有所指。

李:
对,白字不一定白,是错别字。而 “黑字” 却是自由组合出来的。组合的时候 算是 open compounding 就简单的加了个 x link

白:
但是,当逻辑主语现身的时候,S不会还霸占着吧?
“他们写白字的是黑板”
也可以逆行:“黑字写白板,白字写黑板”

李:
哈 你猜这么着?
Topic!

t0702o

t0702p

白:
今天飞北京,明天飞成都。
他们和黑板,显然不是大小主语关系,这属于滥用第三个坑了。

李:

t0702q

白:
“这里他写了三个字”

李:

t07021

这还差不多。

白:
这个O,对于不及物的“飞”来说,其实就是标配化的处所宾语了。
“重庆我昨天飞的”
“这张纸他只写了三个字”

李:
估计是 Topic。

t07022

不是 Topic 就是 Next。没关系 意味着想做后面可以接着做。其实在语用的时候,很可能不需要这个语义 arc 的求解了。反正 作为 node 重庆是地点,纸 是广义的处所 这个 ontology 知识系统是有的 不必借助精细的句法语义关系。所以 这个语义中间件 说到底就是要做可以一直做下去 理论上讲 做得好 对各种语用都会有好处。但实际上不做也没啥 语用的时候 稍微多费点儿力气 或者 语用很多时候根本用不到。

白:
标配与否,其实是人为的,有些不是满格,也许称为“半标配”更好接受。

李:
逻辑语义这东西 太细了麻烦大 好处却不明显。董老师的定义 我都觉得太细了。

白:
其实这个群讨论的问题,很多都无关做不做,而是事关有没有。

李:
从一个语义系统的角度看 董老师的定义有助于语义全貌的完整性;
从实际使用看 其实绝大多数的时候 要不了那么精细。

白:
做统计的人也一样可以说,我不做某事是因为好处不明显。我不需要那么精细

李:
他们一直就那么说。 昨天@Guo 还说呢,你那个 deep parsing 甭管多牛,我其实 shallow 就很好了。

白:
但是一个可以逐步精细的通道有还是没有,才是最关键的。

李:
通道是有的 至少我这里;有了 Next 和 Topic 精细化的通道就铺就了。而且写这些精细化的规则 比线性parsing要容易 容易很多。

白:
线性不线性,其实就是个是否允许做空的问题。一定要先买再卖,就是线性。

李:
线性的束缚大 而且层次多 里面的调控有很多 tricks 到了句法树出来了 问题就简化了

白:
允许一定窗口期内先卖再买,就打破线性了。

李:
耍流氓是谈一场精细浪漫恋爱的很好的前戏 尽管这句话听上去很不地道。

白:
topic很多就是在“做空”:动词没出场,逻辑宾语先出场了。

李:
就是。
能搞定的先搞定,搞不定的先挂着。等到局部大部搞定以后,再看那个别没搞定的,就不再是挑战了。

白:
卖自己没有的东西 赊账

李:
白老师还是在交易所里面呆太久了 满口算账先生的味道

白:
还别说,parser就是个交易系统:左括号是买单,右括号是卖单
你以为

李:
subcat 就是 ……

白:
subcat是股票

李:
saturated 就是成交

白:
subcat的提供者在填坑,subcat的需求者在挖坑。一对多的右括号是市价订单,无论多少左括号都通杀。比如多个定语对一个中心语 可以看成右括号潜在供应量无限。

李:
这是 mod 的本性,与 subcat 相对应。subcat 一个萝卜一个坑。两个萝卜来了 除非是 conjoin 否则没戏。

白:
补语在与述语动词分立时,坑的总供给有可能大于总需求。打包以后,有的坑被“合并同类项”了,取得了新的供需平衡。比如,冻肿了,冻X,X肿,两个X自然合并。合成的述补结构仍然只有一个坑。
什么坑能合并,看见两个谓词自然就能知道。(subcat or 大数据)不用和填坑的词打照面。所以,述补结构的处理,分层上要先于名词(短语)填坑。全放在一个平面,就说不清楚坑多萝卜少咋分的。

 

【相关】

【征文参赛:美梦成真】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【立委科普:NLU 的螺旋式上升以及 open知识图谱的趋向】

宋:
汉语有些动词,其核心概念其实是事件。对于这种动词V,SV中的S可能是施事,也可能是受事、与事,反正是事件V的参与者。比如,张三上课呢。张三可能在讲课,也可能在听课。张三动手术呢。张三可能是动刀的医生,也可能是病人,还可能是麻醉师、护士。遇到这种动词,填坑比较麻烦。

我:
宋老师 可以换一个角度看。
把 “上课” 看成是 “听课” 和 “讲课” 的上位概念,把 “动手术” 看成是 “施行手术” 和 “挨一刀” 的上位概念。然后 在这两个上位概念的 subcat 中确定其主语填写的是 involved role 或起个其他合适的名字。这个 involved 的角色 在逻辑上 是 【施事】、【受事】和【与事】 的上位概念。这才是合理的分析和系统设计 因为语言事实的模糊性得以合适地被model和保留 不多不少。

宋:
@wei 确实合理。

我:
我们应该改变勉强机器和自己在模糊地带做黑白划分的思路。

宋:
进一步问,这些动词是哪一些呢?有什么特征呢?

我:
以上是引子。这个“设计哲学”我们从前在前知识图谱时代的图谱项目中用过。
那是 15 年前在水牛城给政府做 IE(Information Extraction) 和知识图谱(当时叫 Profile,还没有图谱这个术语)的项目的时候,我们意识到 IE 及其知识图谱 按照 community 的标准定义 都是 pre-defined:所有的关系和事件都是事先定义好的一张空表格,等着 IE 去填写、等着 IF (Information Fusion) 去熔合成图谱,然后利用图谱去做应用。
这个传统有历史的积极作用,IE 因此使得 NLP(Natural Language Processing) 和 NLU (Natural Language Understanding) 有了聚焦,有领域针对性,走出了实验室。
但是随着图谱的发展,我们觉得这样做图谱不够,漏掉很多相关的但事先无法精确定义的重要事件。
我们因此定义了一个概念 叫 GE (General Event),以动词的 arg structure 为核心,里面的 args 在 图谱中的语用角色 就命名为 Involved 这是因为其 event 的语义事先是没有清晰定义的。对于一个 arg 来说,它牵涉到的 GEs 叫 Involved-events,对于一个 event 它的 args 叫做 Involved-roles,这个思想实际是延迟具体角色的确定,先把相关的东西绑在图谱再说,可以不变应万变。(《钩沉:SVO as General Events》)。

回看历史,这是一个典型的螺旋式上升的过程:前IE时代的NLU基本都是 toys,原因之一是自然语言太复杂,NLU试图把语言的千变万化parse成无所不包的语义表达,这是眉毛胡子一把抓,boiling the ocean,完全不切实际。结果就是, NLU 的学者成了象牙塔里面研究各种零星而复杂语言现象的腐儒,做不来实用的东西。

IE 开创了新时代。

美国 DARPA 开启和推动的 IE 从一开始就是语用制导,从实际需要定义目标,从 MUC-1 (1st Message Understanding Conference)到MUC-3 开始定义领域事件(名叫 Scenario Template,ST,”火箭发射”、“高管变动” 等 ),到后来定义的实体以及实体之间的具体的关系,这就把语言处理和理解的任务聚焦了:语言不再是大海,而是海洋中的一个个岛屿。这个扭转是划时代的。

因为语义落地的目标在IE中聚焦了,这就给了机器学习(ML)施展拳脚的机会:ML 把 IE 的任务作为端到端的黑箱子,利用浅层的NLP(譬如本质是 ngram 的关键词models),而不是深层的 NLU,做 IE 抽取和知识图谱。这逐渐成为IE的主流。在IE的community 的 MUC 各个会议中,可以看到直到 MUC-6,两条路线的系统还都有参与和报告,但 MUC-7 以及后续的 IE 的学界(譬如,ACL 的一些 workshops,以及 MUC 后影响和规模小得多的 ACE Automatic Content Extraction program)报告中,规则学派完全彻底地退场了。这与 NLP 整个领域(不仅仅是 IE 这块)的历史趋势完全一致。

统计一边倒到了这个地步,IE 这块肥肉被 ML 在学界独吞了,虽然实践中没有任何理由证明 ML 在 IE 能够真正胜过 deep parsing 支持的规则系统(其实恰恰相反,后者精度更高)。白老师说的,门户之见是不需要理由的,这就是学界的现实。以后也许会改变,但现状就是如此。

但是工业界做类似 IE 或 图谱 工作的,却远非学界那般极端地一刀切,火种尚存,有NL经验的语言学家仍然得以生存,星火燎原的希望也不是没有。如今,NLU 技术已经发展到了大海不再可怕,deep parsing 面对语言大海,无论精准度(precision)、召回率(recall)、鲁棒性(robustness)还是速度(speed),都已经达到了实用的高度,以至于当年的 IE 必须预先定义的框框,在新的知识图谱的设计中成为了一个束缚。突破 predefinition 有利于 open 图谱做大和多用途。历史可以、而且正在开始向这个方向回转。独立于领域的“一般性事件”(GE)与传统的事先定义的领域事件(PE,Predefined Event)开始汇合和互补。

我们作为 GE 和 知识图谱的先行者,早就看到了这个趋向,相信可以看到这种汇合开花结果。在这个过程中,deep parsing 的作用更加凸显。General event 因为目标没有事先预定,对于浅层分析为基础的黑箱子技术路线构成了挑战。GE 的核心就是 arg structure,简称 SVO,是 deep parsing 的自然结果。当年我们给的定义在 GE 里面附加了语用的限制条件(譬如 ignore 指代性 nominalized 的事件),为的是防止把不重要的事件全部喽进来,系统不必要地过载和鱼龙混杂。但那些不过是对 deep parsing 的过滤而已,不改变 GE 立足于 deep parsing 的本质。

NLU 从象牙塔的 deep 起,历经 IE 的 shallow,现在到了可以回归 deep 的图谱时代。这就是 NLP 螺旋式上升的鲜活实例。

 

【相关】

知识图谱的先行:从 Julian Hill 说起

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

《新智元笔记:知识图谱和问答系统:开题(1)》

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

【语义计算沙龙:知识图谱无需动用太多知识 负重而行】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

泥沙龙笔记: parsing vs. classification and IE

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

【关于知识图谱】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

【语义计算群:借定语的壳装状语的瓤】

看一组例子:
“洗了一个痛快的澡”
“痛快地洗了一个澡”
“洗澡洗得痛快”

t0708p

好在我们把动宾离合词“洗澡”的搭配问题解决了,定语(Mod)、状语(Adv)同是附加语(adjunct),都挂到了同样的动词“洗澡”身上了,加上部分补语(Buyu)也是附加语,可谓世界大同了。原先较真的话,要问“痛快”的是“澡”,还是“洗”,还是“洗澡”, who cares?其实都是一个意思。类似的,英语也有:
live a happy life
live (a life) happily

白:
do了一个痛快的“洗澡”
程序还是要care的。

我:
如果程序在此类情形下 只选一个路径,或不做规约也是可以的。到语义落地的时候 只要系统适应性鲁棒即可:Adv:happily OR Mod:happy。

白:
借定语的壳装状语的瓤,总要有一个地方碰上的。
“开了一个无聊的会”
工程师可以不 care,架构师必须给说法。
我要说的是,伪定语伪状语在formalism层面就是可以解决的,并不带来额外负担。

我:
do + Adjunct + core pred
已经做了相当努力去规约这些本质上相同的说法了,如前面图中的“洗澡”:Mod 也好 Adv 也好 Buyu 也好,大体属于同样性质的附加语:
adjunct 痛快 —-》 pred 洗澡

白:
“张三做出了一个追悔莫及的决定。”
“张三遇上了这个倒霉的天气。”
“倒霉的”修饰“天气”,但倒霉的不是天气。
同理,“追悔莫及的”修饰“天气”,但追悔莫及的不是天气。
修饰关系和修饰语内置的填坑关系是脱钩的。

我:
“追悔莫及” 本义 有一个 human 的坑
“做出决定” 也有一个 human 的坑
现在 human (张三) 与 “做出决定” 发生了直接联系(S) 与 “追悔莫及” 发生了间接关系(通过“做出决定”)。离开让 human (张三) 与 需要 human 坑的 “追悔莫及”直接联系 只有一步之遥了。

白:
由此可见,有了的字结构,就由“的”统一应对被修饰语。至于修饰语内部的坑由谁填,被修饰语不过只是一个普通的候选而已。选不上不勉强,有更好的候选完全可以进来。所以我对把“的”这种重要的词仅仅处理成x,是有保留看法的。

我:
“的” 是敲门砖。句法树出来了, x它意思意思,比扔掉它也许好一些。

白:
我有更好的处理办法,绝非仅是敲门砖。

我:
关键是,第一个句子是一步之遥,第二个句子是两步之遥,几乎不可能超过两步。也就是说 从ngram角度看 也不过是dag中的 bigram 或 trigram 的语义规则,如果真想做的话。只要证明从间接联系到直接联系 在语义中间件做 对应用有益处 这个工作是非常 tractable 的。
一个有语义的坑 一个正好符合语义可以填坑 近在咫尺 有何难处?给我五分钟 我两条线都可以勾搭上,而且保证不是权宜之计 不引起副作用。其所以这些语义中间件的细活 虽然不难 但并没去全做 是因为不很确定做了 到底能带来多大好处,虽然理论上是有好处的。

白:
这些后缀,几乎每个case都是一样的。

我:
要的是这个结果吗?
t0708r

白:
一点不错,就是它

我:
我做一下 regression testing 看看有无副作用,没有的话,这个 trigram 的语义填坑规则就留下来。

我:
trigram
具体到这个 case 是从线性 5-gram 缩小成 graph 的 trigram
5 与 3 在组合爆炸的考量中是天壤之别
何况完全可以造出比 5 更加远距离的同样合适的例子来 这就是句法的威力。
更主要的是,即便一个线性系统用得起 5-gram
没有结构支撑,也不敢乱用

白:
5-gram配得上的不稀疏的数据哪里来?

我:
说的是一回事儿 5gram 必然是稀疏数据 不足以支撑远距离选取。不能因为一个token需要human 另一个token恰好是human 中间隔了四个词,就可以填坑了。总之是,没有结构,这事儿就做不成。

 

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义计算群:带歧义或模糊前行,有如带病生存】

众所周知,作为符号系统,自然语言与电脑语言的最大差异和挑战在于其歧义性,有两类,结构歧义(structural ambiguity)和一词多义(相应的消歧任务叫WSD,word sense disambiguation)。如果没有这些随处可见的歧义,自然语言的自动分析就会与电脑语言的编译一样做到精准无误。因此,一般认为,自然语言parsing和NLU(自然语言理解)的核心任务就是消歧。至少理论上如此。

有意思的是,尽管自然语言一词多义极为普遍,结构歧义也颇常见,人类用语言交流却相当流畅,很多时候人根本就没有感觉到歧义的存在。只是到了我们做 parser 在计算机上实现的时候,这个问题才凸显。与宋老师的下列对话显示,计算语言学家模拟结构分析常遭遇歧义。

宋:
“张三对李四的批评咬牙切齿”,这是两可。
“張三对李四的批评不置一词”,这里有第三种可能。
“張三对李四的批评保持中立”,另一种两可。
“張三对李四的批评态度温和”,这是三可了。

我:
宋老师 我已经晕了。您是计算语言学家的敏感或敏锐,绝大多数 native speakers 是感觉不到这些句子之间的结构歧义及其不同之处的。

t0708o

目前的 parsing 结果,“保持中立” 的主语(S)是“批评”,这个解读不是不可能(批评意见的保持中立,可以间接指代给出这个批评的“张三”),但很勉强;多数人的解读应该是:“张三” 保持中立,“张三”不是“批评”的主语,“李四”是,不仅如此,“批评”隐含宾语回指到“张三”。第二句的parse倒显得更合理一些,关于这个“批评”(Topic),(其)“态度”是”温和”的,指代的是“张三”,而“批评”“李四”的正是“张三”。

宋:
“张三对李四的批评”+谓语,就批评者和被批评者来讲,有3种填坑的可能:
(1)批评者是张三,被批评者是李四。(2)批评者是李四,被批评者是张三。(3)批评者是李四,被批评者是第三者。
“置若罔闻”与“不置一词”不一样。对于这个V的主体A来说,一定是有一个评论,“置若罔闻”是说该评论是针对A的,而且是负面的;“不置一词”则没有这两条限制。

我:
两个逻辑谓词(句末的谓语和前面的“批评”)抢同一个PP(对),计算上总会遇到 scope 纠缠。再加一个 “对(or 对于)” 歧义就没了。“张三【‘对于’【‘对’李四的批评】 保持中立】。” 可是两个 “对” 听起来别扭,很少人这么用。

结构歧义其实没有我们想象的可怕。如果目标是语义落地 需要调整的不是追求落地前消灭一切歧义,而是反过来思维,如何让语义落地能够容忍歧义的保留,或者歧义的休眠,或者任意的某个 valid 的路径。其实人的理解和响应 也不是在 ambiguity-free 的前提下进行。现代医学有一个概念,叫带病生存。语言理解也应该有一个概念,带歧义落地。适度的歧义作为常态来容忍。

这是结构歧义,WSD 更是如此。绝大多数语义落地 可以容忍或绕过 WSD 的不作为(【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】)。MT 可能是对 WSD 最敏感的一个语义落地的应用了。即便如此,也并非先做好 WSD 然后才能做好 MT 落地(MT中叫 “lexical transfer”)。有亲戚关系的语言对之间 有很大的 keep ambiguity untouched 的空间 自不必说。即便在不相关的语系之间,譬如英汉的MT中,实践证明,全方位的 WSD 也是不必要的。细线条的 WSD 则更不必要。细线条指的是 词典里面的那些义项, 或 WordNet 中 synsets,其中的很多本义和引申义的细微差别 没有必要区分。

还有那些那些 hidden 的逻辑语义,是不是要挖掘出来呢?迄今为止,我们在句法后的语义中间件中做了部分这样的工作,但一直没有全力以赴去做全,虽然因为句法结构树已经提供了很好的条件了,这个工作并不是高难度的。

今天思考的结果是,其实很多 hidden links 没有必要整出来。如果一个 hidden link 本身就很模糊或歧义,那就更应该置之不理。自然语言带有相当程度的模糊性,语言本身也不是为了把每个细节都弄清白。人的交流不需要。如果一个细节足够重要,但这个细节在表达上是 hidden 的,省略的,或模糊的,那么人的交流就会在接下去的句子中把它 explicitly 用清晰无误的句法结构表达出来。

从语义落地的实践中也发现,大多数的 hidden links 也是不必要的。背后的道理是:信息流动的常态是不完整,不完整在信息交流中起到了减轻记忆负担、强化信息核心的重要作用。

理论上,每一个提到的谓词都有自己的 arg structure,里面都有潜在的坑,需要信息的萝卜来填。但语言的句法会区分谓词的不同地位,来决定是否把萝卜显性地表达出来,或隐去萝卜。常见的情形是,隐去、省略的萝卜或者不重要,或者不确定,都是信息交流双方不太 care 的细节。譬如一个动词 nominalize 后,就往往隐去 args (英语的动名词,汉语利用“的”的NP句式)。这种自然的隐去已经说明了细节不是关注点,我们何苦要硬去究它呢?

当然,上面说的是原则。凡原则一定有例外,某个隐去的细节如果不整明白,语义就很难落地到某个产品。能想到的“例外”就是,很多 hidden links 虽然其语义本身在语用上不是重要的信息,但是至少在 MT 的产品中,这个 hidden link 可以提供结构条件,帮助确定更合适的译词: e.g. this mistake is easy to make:make 与 mistake 的 hidden VO link 不整出来,就很难确定 make 的合适译法为 “犯(错误)”
关于隐去或省略的大多是不重要的,因此也 NLU 通常不 decode 出来也 OK,可以举个极端的例子来说明:

Giving to the poor is a virtue
Giving is a virtue

give 是一个 3-arg 的谓词,who give what to whom,但是在句法的名物化过程中,我们看到第一句只显性保留了一个萝卜(“to the poor”)。第二句连一个萝卜也没有。
我们要不要从上下文或利用标配去把这些剩下的坑都填上呢?
不。

白:
从陈述性用法“降格”为指称性用法的时候,对坑所采取的态度应该是八个字:“来者不拒、过时不候。”  比如,”这本书,出版比不出版好。”
我们没有必要关心谁出版,但是既然提高了这本书,填坑也就是一个举手之劳。

我:
很同意。就是说,一般来说对于这些有坑近处没萝卜的,我们不要觉得愧疚和心虚,who cares

 

【相关】

NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【一日一parsing:”钱是没有问题”】

雷:
2016年最佳语文组词能力:
“钱是没有问题 ” 就这六个字的组词成句,可以变成不同意思的句子!哈哈,偉大的語文能力!
钱是没有问题
问题是没有钱
有钱是没问题
没有钱是问题
问题是钱没有
钱没有是问题
钱有没有問题
是有钱没问题
是没钱有问题
是钱没有问题
有问题是没钱
没问题是有钱
没钱是有问题
@wei parsing请
高:
显然字不一样

t0709a

t0709b

t0709c

t0709d

 

我:
有少数不尽如意的 parses,但几乎每个 parse 都可以站得住,或说得出道理。是不是有点牛叉,我自己都有点吓倒了。哈。
最后的两个断链的 parses 也有道理,因为那两个破句子,我作为 native speaker 都不知到底想说啥。就是玩弄文字游戏,排列组合汉字瞎凑合。

雷:

白:
最后两个,我理解:没问题是有钱=没问题是因为有钱,没钱是有问题=没钱是因为有问题。所以用next是对的,用subj略勉强。但是如果说“没钱是有问题的”,就是subj了。

我:
“没钱是有问题” = “没钱的确有问题”
这个说法倒是听过。
白:
语感有差异
我:
“没问题是有钱” 还是听着别扭,不知所云 白老师的解读也有硬去揣摩的味道。

白:
如果“是”重读,也会到“确实”那个含义

我:
“没问题,是有钱。”
这个可以,就是两个小句: == 没问题。(X)的确有钱。
“没问题是有钱” 如果中间没停顿 没逗号 就几乎可以说不合法了。法不法不论,就是不容易明白想说啥。

陈:
立委最近发言不多了?

我:
@陈 钱不是问题 那啥是问题?我觉着,啥都不是问题,就钱是问题。

陈:
@wei 多来点parsing。。。

我:
要多少有多少。吹牛谁不会

dolo:
@wei 这个分析不错

我:
@dolo 我说了 牛叉不是吹的吧。
—- 其实还就是一个苦力,后面就是个力气活。到用了,就显灵了。

 
【相关】

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【一日一parsing:休眠唤醒的好例子】

白:
IPTV首页广告语“IPTV,电视新看法”。
需要休眠唤醒的好例子。

我:
t0796a
对,这个 hidden ambiguity 与 “难过”、“好过”一样,可以也应该休眠唤醒。如果真想做的话,就在“看法”的词条下,在句法后做一个词例化规则:
查一下“看法”(默认词义:viewpoint,有个 human 的坑)的 Mod 来唤醒第二条路径(词义)。
查 Mod 的条件有宽松两个选择,可以根据大数据测试的质量来权衡定夺:
(1)宽的话,如果 Mod 不是 Human,那就唤醒
(2) 窄的话,如果 Mod 是“看”的搭配词(看电影、看电视、看戏、看热闹、看耍猴 etc),那就唤醒

白:
作为一个词的“看法”有两个坑,“谁”对“什么”的看法。“谁”即使锁定到human和“电视”不搭调了,还有“什么”可供填充。所以,单纯从一个坑的不匹配,还不足以翻盘。需要“看-电视”这样的强搭配来推波助澜里应外合。

我:
好!
唤醒的是句法层面的定中关系(默认的是词典的合成词,可以看成词的黑箱子,也可以看成是词法内部的定中关系):“看-法”(而不是“看法”),语义落地在 MT 上的表现就是选择第二个译法:way of 看。因为搭配找着了,MT 也就可以把“看”的翻译从默认的“see”改成搭配的“watch”:
IPTV,电视新看法 ==》
IPTV, a new way of watching TV (而不是 TV’s new viewpoint)
这个思路是没有问题的 虽然需要花点儿力气。至于选择做还是不做 那是另一个问题。
在“难过” vs “难-过” 这样的case上,我们做 sentiment,是选择了去做,用到上述休眠唤醒的招术,把表达主观负面情绪的默认的“难过”解读,语义落地为表达客观负面情形的“难-过”。见 【立委科普:歧义parsing的休眠唤醒机制再探】 。

梁:
“IPTV,电视新看法” 这句话,连我都休眠了好一阵,刚刚被唤醒。
语义落地到 MT, 是 “ IPTV, a new way to watch TV” ?
so it is either, 一种看电视到新方法, or 一种对电视的新的看法? ”看法“ could be “opinion”?

我:
广告跟段子一样,故意弄这些,为了俏皮,加深印象。
可喜的是,至少我们寻到了解决这类段子似的俏皮话的计算机实现的路径。
休眠唤醒的事儿,以前在语义落地的时候“自发地”做过,但从来没有总结到现在的高度,可以有意识地推广运用。这是在本群与白老师等探讨的收获。
hidden ambiguity 和段子这类的parsing,以前一般都认为是难以企及的语言难题。至少现在不是那么遥不可及了。

梁:
想想这事是挺有趣。“看法”,本来挺强劲的结合,硬是给左边的“电视”拆开了。这类暗中较劲,猜想、比较、争吵,分裂,结合,settle 的过程,人的大脑 parsing 的时候,可能也有这样的过程。据说人思考时经历一种微型达尔文过程。

白:
【转神段子】航拍记录显示,湖北已经基本都是湖,找不着北了。
看看如何休眠唤醒。

K:
他伸出双手,要露上两手。

我:
唤醒啥? “找不着北” 是成语:
t0707a

白:
湖北两个字,只剩一个字了 另一个字找不着了
元层次和对象层次的纠缠

我:
并不影响语义理解

白:
影响段子理解

我:
俏皮的定性 如果也是语义的一部分 可以利用机械扫描匹配 来发掘 无需与句法层发生纠缠

白:
总之是要吃回头草

我:
不属于核心语义。核心语义是 湖北这个地儿现如今到处是水 方向辨别不清了

白:
核心语义没发生颠覆或荒诞化 只是附加了一层元层次上的俏皮。段子理解,有颠覆型的也有附加型的。

我:
“伸出双手 露上两手” 同理 同机制 也可以扫描匹配发掘 后半部也是成语 唤醒的是成语的非成语解读。这与切词中的 hidden ambiguity 同理。

白:
俏皮也是附加。还有我之前举的例子,“贾宝玉托举林黛玉,纯粹是多此一举”。先导词语素的重叠使用。

K:
电视的新看法 看法有了非成语语义属于唤醒

我:
Longest principle 默认一个多语素词的黑箱子性质,但在特定的上下文中 可以唤醒句法透明的解读。
t0707b

K:
露上两手 多此一举 是否与之类似呢?唤醒了手与举的非成语语义?

白:

我:
就是。词法的内部关系 唤醒为句法的外部关系。哪怕词法句法是一脉相承 平行的,句法解读与词法解读 在语义和概念层面是很不同的。英语类似的 hidden ambiguity 有blackboard 解读为black board

K:
感谢二位老师
我理解 成语语义的整体性与成语内部结构的潜在可分解性会影响休眠唤醒
比如 新看法 作为成语有其常用语义,但其内在结构可分解,(新(看(法))),这种结构分解为 看法 增添了新的语义。这与分词中的组合型歧义有关联。何时分,何时合,可能单在分词层面难以完成,有什么好的解决办法吗?

白:
先说没有外部刺激是不该拆开来的
然后再说外部刺激可能有哪些特征
比如,重复。

 

【相关】

立委科普:歧义parsing的休眠唤醒机制再探】 

泥沙龙笔记:NLP hard 的歧义突破

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【deep parsing,deep learning 以及在对话和问答系统中的应用】

如何把deep parsing的东西系统地用到对话系统中来?
这个以前多次零星讨论过,再梳理一下。

1. 先说 deep parsing 与 deep learning 的结合

两种结合方式,一种是内在的,一种是外在的。

1.1. 内在的结合

问题可以反过来看,绝大多数对话系统是不用 deep parsing 的,这就是没有代入结构的 baseline。如果不代入结构就已经满足应用的要求,自然没有 deep parsing 什么事儿。但其实是 baseline 有缺陷,不能解决一些问题,譬如 sparse data 的问题。
下一个问题就是,我们知道语言是有结构的,理论上讲代入结构一定对克服 sparse data 的问题有利,但实际上怎么去做,还不清楚。抽象地说,这是一个研究课题,沙龙里面讨论时候也有人提过,迄今为止的浅尝辄止,把结构作为features代入一个ngram为基础的学习模型,没有发现简单的结合办法,可以显著提高质量,这受到到 evidence overlapping 和算法复杂度等挑战。我们以前也做过这种结合的尝试,也是浅尝辄止没有深入,当时的结论是,看到了曙光,但还需要更深入的探索尝试。
迄今整个领域没有深入研究这个问题,不仅仅是研究性的挑战(算法复杂度等),更主要是:很多团队没有靠谱的deep parsing 的条件作为探索的基础,加上整个领域20多年一直陷在浅层里面做 NLP,还没有余力去做这一方面。但现在似乎到了认真做这个的时候了,因为甚至 deep learning 在算法上的突破,迄今也还是没有突破 text 结构的瓶颈,这是下一步比较清楚的方向。
我的设想是,可以重新定义 ngram 作为带入结构的探索。譬如 bigram 以前的定义就是 w(i) w(i+1) 序列,我们可以重新定义为 R(w1,w2)。这个 R 就是结构,譬如 动宾,主谓,定中,状语 等关系,deep parsing 的那些句法关系。其中的 w1 与 w2 也可以做扩展,不再是词(直接量),而是包括直接量的关于那个节点的不同抽象度的 features (最上层是 POS,中间还有带入 ontology 的可能)。当然从直接量提升到不同的 features,很可能造成模型太复杂:怎么控制复杂度,又不局限于直接量,是一个需要拿捏分寸的事儿。但总体思路就是,既要跨越线性距离的局限(通过用 R 代替 linear ngram,这是 arc 的抽象概括能力),又要跨越单词直接量的局限(node 也要具有抽象概括能力),这才有可能在学习的系统中真正有突破性进展。这个探索值得花大力气,因为这是 text NLP 的方法学上的突破,适用的不仅仅是对话系统,而是一切的ngram为基础的NLP。这是从机器学习带入 deep parsing 的角度看探索的方向。

1.2. 外在的结合

如果不从机器学习的角度看,deep parsing 支持对话系统本质上就是一个小数据的精度分析和语义落地的任务,规则本身是有一套自己的方法去做的。这一路做下去的结果是,精度(precision)高,但广度(recall)是挑战,需要靠时间去磨(incremental recall enhancement)。

这种高精度的 deep parsing 作为支持的规则系统,也可以外在地与机器学习的 baseline 系统结合。我们叫做 backoff model:就是让没有结构的机器学习的系统垫底,以弥补 recall 的不足,让 parsing 支持的精度系统作为首选。

这种外在的结合相对容易,因为两套系统是分别开发的,虽然目标是一致的。只不过到调用的时候再把两套系统结合起来。这与前面说的把 parsing 带入机器学习(1.1)不同,因为前面的是你中有我的结合,具有研究性的挑战(overlapping和perplexity等)。

我的看法是,两个路子都值得尝试:前者一旦突破,是研究的成就,有学术的影响。
后者是工程的做法 可以立竿见影。双方最终都要求一个靠谱扎实的 deep parser,对于汉语,迄今很少人做得到。汉语 chunking 倒是有靠谱的 但 deep parsing 未曾见到(不算在下)。

2.  再说说,deep parsing 在小数据系统与大数据系统的应用

对话系统基本是 front-end,面对的是小数据的处理与应对,虽然对于学习系统,在训练的时候,训练集可以是所有收集得到的对话,也有一定的量。

对于大数据挖掘以及用挖掘结果去支持问答系统(也可算是一种“对话”的延伸,譬如类似 IBM 沃森的问答系统),那边有一个 back-end engine,专门处理大数据,以抽取挖掘或在线搜寻 open-ended 的答案。这个大数据架构下,deep parsing 怎样起作用,可以说得更清晰 有把握 因为这些都是做过的工作:been there done that,在大数据挖掘,知识图谱,舆情监控,客户情报,自动民调,问答系统,智能搜索和智能浏览这些方面,deep parsing 是地地道道的核武器。

在小数据应用场合,deep parsing 也应该有很大助益,因为毕竟小数据更加依赖分析的精度。但是小数据的短板是没有大数据的信息冗余作为补偿。

或曰:车轱辘话
答曰:信息冗余是大数据时代的自保策略,否则一切真知灼见都可能烟消云散。

总之是大数据有了deep parsing,柳暗花明;大数据没有它,万古如长夜。但并不是一切的 deep parser 都是核武器,不信你下载一个斯坦福或者SyntaxNet试试就知道了。这些 deep parsers 下载来,你很难做一个像样的应用。主要原因有二:(i)他们基本没有 domain portability,设计者有本事训练出来,你下载以后想如法炮制,在你要应用的领域去重新训练,哪怕你真弄到了训练数据,其成功可能性还是渺茫;(ii) deep parsing 是 NLP 应用的核武器,绝不仅仅是指我们看到的那些句法树,还有句法树上的每个节点的丰富信息,包括 ontology。而下载来的这些 parsers 通常缺乏丰富的节点信息: 光靠单词(直接量)加上句法树结构是做不了大事的。因此核武器能不能发挥威力,很大程度上取决于 made in where and made by which approach.

其实 如果 斯坦福的 parser 或 谷歌的 SyntaxNet 能够发挥威力,迅速横扫深度 NLP 应用和产品 哪里会等到你去做 早有捷足先登的人了。而且果如此,他们大概也不会开源了,自家先发了再说。天上掉不下馅饼 就是这个道理。

Guo 君给我留言说,你整天追在学习后面喊打,人家眼珠子都不动,该干嘛干嘛。他眼珠动还是不动,根本不是我关心的。我是菩萨心肠,为了世界的丰富性和多样性,为了后学,为了NLP的未来世界,心胸早已超越一己之私,一党之争。如果没有人发声,这个世界多么单调寂寞,多少人被误导和洗脑。多少人在结果还没出来的时候,就盲目相信深度神经一定会 work,又有多少人根本就不知道这个世界还有神经以外的理性算法

阿弥陀佛。

【后记】

话多可以洗脑,嗓门高也可以洗脑。乔姆斯基的不同政见,批判美国外交政策和媒体洗脑,几十年来基本没有变动,一直是车轱辘话。他就是反复地不同角度地以不同的案例讲的是同一个见解,与马克思讲《资本论》一个路数。

不止一位朋友反映:你这速度,写的比我读的还快,哪里有那么多时间。我当是 compliments,因为所写虽有冗余,但并非口水,不乏真知灼见。这点儿信心还有。

哪里有那么多时间?鲁迅早就说过的,时间就是海绵。又说,那是把资产阶级喝咖啡的时间也挤出来了。大家都是24小时,彼此彼此,吃喝拉撒睡、上班点卯,样样不能少。

喷涌的时候写,总比枯竭的时候挤牙膏强。兴致来的时候不写,兴尽而归,就了无音息了。了无音信其实也没啥,自己脑袋的知识和见识并没有因此减少,但人活着,也不能只为了自己的脑袋不是。

其实 人一辈子有这个状态也不多。少年求学,青年求偶,中年养家,青年-老年也都还有个梦想 put a ding somewhere,总之人一辈子就是个劳碌命。随心随性的自由不过是劳碌之间的一次休假。要惜福感恩。

 

【相关】

关于 parsing

【关于信息抽取】

【关于大数据挖掘】

【关于问答系统】

【关于NLP应用】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【语义计算沙龙:Parsing 的数据结构和形式文法】

白:
如果完全把句法还原为左括号找右括号,规则就是多余的。只需要词典和原则。
我:
不必那样极端。
作为思路,是可以的。其实,HPSG 那些比较极端的 lexicalist 学派就主张,只有三五条“组合原则”。然后一切从词典出发,根据原则配对。HPSG 那样主张显得可行,是因为他们把 FEATURE structure 推向了叠床架屋的极致。一个词条里面的 SUBCAT 就是无比复杂的结构。SUBCAT 里面事先预备好了组合的各种可能性,当然只靠组合原则就ok,可是那是一条看上去美 实践中难缠的路线。
白:
关键错不在这,而在复杂特征集本身是一个错误的数据结构。
方向错了,不应该“合”而应该“拆”,拆到最简。
我:
太精巧的 typed feature structure (里面还有厚厚的一层 hierarchy,预先定义好,叫 signature),使得系统非常“脆弱”。对这个 structure 的任何改动,都是全局的改动,影响所有的词和短语。
白:
而且他还没放弃PSG,费二遍事。
我:
为了应对这个庞大的structure,只好鼓励使用 macros,macro calling macros,表面上精简了词典,实际上把词典和内含的潜在规则弄得不可读,不可维护。
白:
其实DG词例化大可以避免这些麻烦
我:
宏这个东西 极易滥用。宏的自然边界稍微不清晰 不直观的话,超过一层的宏调用 就把系统弄得跟密电码一样。初学的人以为自己很牛,宏调宏,似乎规则或词典越有层级越显得自己高明:我能玩转,你看不懂,也玩不转。
扯。
规则扁平化才是正道。宁肯冗余,也不能滥用宏调用。规则与规则的独立是原则 即便不能完全做到 也应该时刻警醒自己。
白:
我恰恰在说那些是可以避免的。扁平化的规则和单子化的词典是一致的。
我:
单子化??
白:
就是数据结构没层次
我:
MY GOD
我得去找找鲁迅的那个条幅 就是对瞿秋白写的那个 谬托知己的那个。
数据结构没层次是高境界
张:
大湿极
我:
但是更高的境界是没结构后面留了有结构的后门。这个后门完全可以独立管理 独立经营。再说下去 就差不多泄露天机了。
白:
卖单和买单也可以形成结构后门
对倒什么的
甚至伞型信托
我:
这个听不懂了
白:
卖单和买单
我:
数据结构是规则系统的大学问。stay simple stay foolish 还要留后门 暗度陈仓。不留后门 连 HowNet 都容纳不了。
在很多年以前,在上个世纪,我跟刘倬老师做MT系统。当时就开了个后门 我们向外宣称 起了个很响亮的名字,叫“背景知识库(BGKB)”,查当年的老论文,还有这一段。这个后门就是我提议刘老师允准的。
张:
都经历过了~~~
我:
当时其他的MT系统,譬如一个知名的系统 在 Texas,西门子资助的,好像叫 Metal(??),做德英,他们整个系统才用了 8 个 semantic features,已经被认为是很高级 很成熟的系统。
张:
后门太多屋便不在
我:
我们来了个理论上开放的背景知识库,天壤之别。可是我们仍能保持结构的极度简单。
迈:
大巧若拙@wei
张:
保持简单不简单,台湾三毛说的
我:
复杂的层级系统 并非一定需要精巧的数据结构去装。
张:
层级系统是指扫描的遍数?@wei
白:
扫描是可以流水的,不存在遍数概念
我:
其实这个道理 学过电脑 Introduction 的都知道:
高级语言的东西 编译成代码 就扁平化 低级化 但功能等价。低级到极限 就剩0和1了
HPSG 那一路算是另一个极端。当年对那一套数据结构也入迷过,很逻辑,很美。就是像个玻璃美人,不大敢碰她。可以远瞻 近则亵。再加上一个 unification 的优美操作,浪漫得很。里面没有丝毫强勉:一切都是理想世界的自由恋爱 你情我愿 极度和谐。任何层面的任何一点信息的冲突,都会导致 unification 失败。unspecified 信息在不同层面恰到好处地被充值,一旦充值,矢志不渝,决不允许翻案。没有过程性,不分头和尾。
白:
这个还是要反对一下,程序是图灵等价的,高级语言是必须的。自然语言是毛毛虫,离图灵等价差好大一截,用单子化的标签已经enough。二者不具有可比性。
我:
开始学 Prolog 和 HPSG 的人,几乎不可能不被迷住。日本人被迷住的结果就是闹了个五代机项目。栽在不接地气.
白老师 高级语言的必要性是自然,更高级的nlp语言的必要性 也是无需证明的。很难想象没有高级语言的软件世界,就如很难想象没有某种形式文法的parser一样。
几个月前 有一位貌似白人老工程师的 Linkedin 联系 说他用汇编写了一个高效精准的自然语言 parser,问我要不要看 他可以免费 license 给我用 因为他认为我可能是知己。我只好礼貌“谢”绝了,没那个功夫,也不存在好奇心。
用 general purpose 高级语言做 NLP toy,我们都做过的,硕士项目便是。完全可以想见汇编做的是个什么样子。反正是程序,见到什么做什么,图灵可以随心所欲。一 scale up 就完了,你就是有十个脑袋也 hold 不住它。
自然语言的毛毛虫 绝对不是随心所欲的图灵 可以不是 2 型 或 3 型 但必须有型。没有规矩 不能成方圆。
乔姆斯基的伟大在于他发现了语言是有型的,并试图给型做数学定义。
乔姆斯基的误导在于他非要证明某个型(3型)是不适合自然语言的,隐含的指向是2型。他老人家也没重视和考察过自然语言的分层,以及这个“型”与“层”的关系。他的形式系统于是只作用于一个平面,在立体架构中没有说法。这样作用于单层平面的型,对于电脑语言的 parsing 也许足够,但对自然语言就有些力不从心,似乎抓住了一些,又似乎总不贴切。就是预制了几双鞋子,可是脚总不配合。他老人家到今天也不认识毛毛虫。

【相关】

【语义计算沙龙:乔老爷的围墙,community 的盲区】

乔姆斯基批判

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【泥沙龙笔记:NLP 专门语言是规则系统的斧头】

【新智元:理论家的围墙和工程师的私货】

关于 parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【李白张61:长尾问题种种】

李:
欢迎金老师。从理转文 学语言学的 往往功力深厚 别具一格。白老师 还有语言所的前辈范继淹先生 都是证明。

白:
这里是NLP的一大窝点,每天都有扯不完的话题。
“白总,您可以给我一点您的简介,关于区块链的文章我来报选题不?”
看看这个“可以……不”之间经过了多么漫长的旅途。

李:
这个“可以不”肯定是搭配不上了,硬做也不值得,主要还是看看怎么凑合吧?当然是用 Next 把局部parses先patch起来,这样至少通道是有的,想做功的话,余地在。
t0704a

白:
从技术层面来讲,我们可以将8.11之后的人民币汇率形成机制简单表述为“双锚相机转换机制”。
这里的“相机”,谁的机译系统能翻对?
aaa

李:
not bad

白:
bbb
全是camera

李:
不是 camera 是啥?不懂术语。
谷歌这次及格了。涉及汉语的MT,谷歌总是比百度差或略差。谷歌干脆 license 百度得了,至少中文MT。

白:
take actions accordingly
这哪是术语。地道的中文。

李:
那就是我中文不行。哦,相机-见机 而行
双锚相机是什么相机?

白:
在没有camera的时候,就有这个“相机”

李:
但是大数据把它冲得快没影了

白:
我朋友圈转发了FT这篇文章,一看便知。

李:
相机是现代高频词。一个不懂行的人,看到这一段虽然不懂,但是心里在问:
“双锚相机是个什么相机?”

白:
双锚,也不修饰“相机”,他俩都是状语,修饰“转换”。

李:
那是你懂。对于不懂domain的人 不是这样的。
cf:“单反相机转换机制”

白:
双锚vs单反,完美的对仗。

李:
如果汉字保留“像机”不用“相机”,可能不至于。
一个 real life MT 很难为了一个几乎从来不用的 WSD 的选项,做啥特别的功夫。不单不合算,而且太容易弄巧成拙了。对于 trained model, SMT 根本就没有这个data;对于规则MT,也不大值得做。拉倒好了。

白:
这种逻辑,等于告诉用户,你就从了吧。

李:
对于极小概率的现象,如果真要做,那就尽可能词典化。词典化或 expert lexicon,没有啥副作用,可以应对长尾。任何概括化的努力,都容易亏本。

白:
极小概率累计起来就是长尾

马:
谋求单反相机起义。造一个,哈哈

白:
在不同formalism下,亏本与否可能结论大不相同。比如,如果formalism天然就是词例化的,就不存在弄巧成拙的问题。满世界都是拙。

张:
极小概率的词典化是规则系统最可爱而可贵的品质和能力

李:
可不,满世界都是拙,高高在上的精英规则就可以很光鲜。词例化 or expert lexicon 也还是不时需要与上面的合作。譬如句型的变式。合作的方式有不同。有句法语义一体的合作方式,也有先句法后语义的合作方式。各有利弊。

张:
这种拙是大局观,是大智若愚
我们这里有个小组正在天晕地暗研究知网的MT~~~

李:
愚公移山呗
挖一块儿 少一块儿 而山不加增 ……

张:
两位大师何时有空一来论剑?@白 @wei

李:
没去过东北,都说东北有三宝。

张:
白到骨,wei入髄
wei来we妙; wei说I 赞

李:
张老师那地儿 迟早是该去看看
李: 似乎是调通了,但还是选择不做“相机”。非不能也,是不为也,你懂的
有一个 catch: 将 —-> 把: “将” 等于 “把”(介词),但更歧义(modal V),好在前面有 “可以”。

t0704c

 

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义计算沙龙:乔老爷的围墙,community 的盲区】

白:
所以,述补结构的处理,分层上要先于名词(短语)填坑。全放在一个平面,就说不清楚坑多萝卜少咋分的。
我:
那是因为 subcat 不是静止的。起点是词典,但在后续中 有变。
在欧洲语言 有一些构词元素具有改变 subcat 的功效 使动语素(世界语用 -ig-)和自动语素(-igh-)是代表,morphology 里面的专门一章学问 有一套套的术语名词。
到了孤立语 句法结构就承担了一些这类subcat remapping 的功效。
白:
“这些馒头把我吃胖了”是个非常好的例子。X吃Y,Z胖。分析X、Y、Z各自的subcat,发现X与Z匹配的可能远大于Y与Z匹配的可能。而Z说好了要做结合后述补结构的逻辑宾语的,于是Y只好很不情愿地做了结合后述补结构的逻辑主语。
“把”就是“置底”,“被”就是“置顶”,“的”就是“掏心”,都是在做语序的重定向。
我:
有意思的说法。
总之 open ended 动补结构 需要动态调整 subcat 的预期指向。
白:
分层了就把复杂问题变简单了。先合并坑,再让坑一致对外。等到真正填坑的萝卜来了,坑多已经是历史传说了,现实的坑不多不少。
我:
分层是必由之路。
不仅仅是为这个 args 的捕捉。很多现象都有 local 和 全局的区分,把 local 的 和 全局的 放在一个锅里煮。不是偷懒 就是脑子进水了。出了问题找不到合适解决途径,还振振有词辩解说 语言是 inter-dependent 的,怎样分层都是割裂整体。这样思维的人 是自作自受。不管语言这个 monster 多么相互关联,难以一刀切干净,作为语言工程 你都必须切成模块。关键不在模块之间是不是绝对地合适分开 大体齐就行了;关键在于 切割了 还仍然是一个 integrated 的无缝连接的系统。即便有些地方切得不妥了 也要有改正、弥补、唤醒或其他补救或patching的机会。这样才好把千头万绪简化成 tractable 的工程开发任务。
事实上,以前红过一阵子的 unification grammars 一派 虽然最终在业界没能开花结果 在学界也被排挤得差不多了,这拨人还在 有不少是名校的名教授。他们深陷在 CFG 的单层的 formalism 里面 加上 unification 的实现也是以 Prolog 的回溯机制为基础,既无效率 也不能真正深入 很难有 scale up 的指望。结果 这帮人形成了自己的一个圈子 也有一定的体量 自己跟自己玩儿,虽然对NLP的学界和业界的影响几近于零了。每年各地诸侯会聚一次。起个名字好像叫 …… 忘了,总之是类似 very deep parsing 意思的一个什么。其实,怎么可能 very deep,如果层次和formalism这一关不过的话?在乔姆斯基倡导的 formal linguistics 的研究中,他们算是异端。姥姥不疼舅舅不爱 我们外人看去怪落寞的。可是当年(博士阶段)初学的时候 却被它的巨大魅力而吸引。这是一个看上去很美的框架。
白:
毛毛虫万岁!
我:
对。可是看清这一点的 人不多。那么多人陷在乔老爷的怪圈里。

QUOTE ( from [转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】):

白硕老师这篇文章值得所有自然语言学者研读和反思。击节叹服,拍案叫绝,是初读此文的真切感受。白老师对乔姆斯基形式语言理论用于自然语言所造成的误导,给出了迄今所见最有深度的犀利解析,而且写得深入浅出,形象生动,妙趣横生。这么多年,这么多学者,怎么就达不到这样的深度呢?一个乔姆斯基的递归陷阱不知道栽进去多少人,造成多少人在 “不是人话” 的现象上做无用功,绕了无数弯路。学界曾有多篇长篇大论,机械地套用乔氏层级体系,在自然语言是 context-free 还是 context-sensitive 的框框里争论不休,也有折衷的说法,诸如自然语言是 mildly sensitive,这些形而上的学究式争论,大多雾里看花,隔靴搔痒,不得要领,离语言事实甚远。白老师独创的 “毛毛虫” 论,形象地打破了这些条条框框。

     白老师自己的总结是:‘如果认同“一切以真实的自然语言为出发点和最终落脚点”的理念,那就应该承认:向外有限突破,向内大举压缩,应该是一枚硬币的两面。’ 此乃金玉良言,掷地有声。

Church 写 《钟摆摆得太远》 的时候 看到了表象 格局和视野都有 但就是没看到毛毛虫的实质。他看到了这个奇怪的现象:做 formal linguistics 的 community 研究了很多语言现象 有些问题研究得很深入 并试图以自己的框架形式化分析他们 而做 nlp 的这个community 几乎全部陷在浅层的泥坑里。本来面对的是同样的自然语言 而且双方都力图形式化和电脑实现它 应该可以互补的 但这两个 communities 是如此格格不入 老死不相往来 互相看对方 都是雾里看花。
白:
门户之见是不需要证据的
我:
所以他就开了个药方 要求在理性主义预计要回归的时候 请下一代 CL 的学生 必须去修语言学的课程,“计算语言学”不能丢了“语言学”的本,必须知道语言学圈做了些什么 改变这一代的”NLP大师”缺乏语言学的怪象。
白:
抄底靠的是先知先觉。等学生上课,黄花菜都凉了
我:
但是这个药方和呼声是如此疲弱 至少迄今没人当回事。而且这个药方本身也有问题 因为那个另一派也的确问题多多。自己在围墙里面束缚了自己,完全不接地气。争论的问题一多半是口水,大多是 system internal,玩的过家家的游戏(《Church:钟摆摆得太远》)。

quote 计算语言学课程的缺陷

正如上面明斯基和帕佩特指出的,我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘,不再提及,只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。

他要学生回头去啃乔姆斯基等理性主义大师,但不知道乔姆斯基本人就是最大的误导者(乔姆斯基批判《【钟摆摆得太远】高大上,但有偏颇》[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】)。

w:
@wei 很是同意“关键在于 切割了 还仍然是一个 integrated 的无缝连接的系统 ,即便有些地方切得不妥了 也要有改正、弥补、唤醒或其他补救或patching的机会”。切割是为了方便处理,藕虽断但丝还连。即使切错了,还能找回来才是真谛。
白:
这是一个搜索调度策略的问题。无论是平推,还是花开N朵先表一枝,还是台面上的路径之外另有暗送秋波的密道,都是可供选择的。“先表一枝”如能综合使用词典的、subcat的、中间件的、大数据的知识,在概率上可以占得先机。“密道”维护一条“阈下”暗流,一旦主线不保,立刻跳出来翻案,在段子的理解上最像人,但是密道的日常维护机制和受激翻案机制是个高难度的机密。
平推加概率,如果有很好的硬件实现RNN,效率绝对不低。至少确保线速。

我:
rnn 经白老师不断灌输 我就当它为神器来膜拜。
林彪说了 理解的要执行 不理解的更要执行 我对白老师的 rnn 的感受就是如此。
白老师啥时来一个 rnn 直通道 提供一个接口 我就可以不断给它 feed 语言学。
w:
@白 现在的硬件发展肯定会助推DL的性能的。只要基础理论框架结实且有市场,很多的硬件商都会挤进来的,没有人和蛋糕过不去的,AI硬件GPU,FPGA,还有其他什么xPU的倒不少,不过自己没认真关注。
@wei 如果接口来了,那语言学知识好不好喂?是专家级的专属?还是一般用户可为?感觉这是能走多远,走多广的问题。
感觉上李师parser的确是核武器,专家维护几枚就好。不过市场倒很大,很多人想有一枚。就是渠道打不开。
同意白老师的密道说。而且密道也应该不是直通型的,是网络交叉型的。运行时维护密道和应时启用的确是关健。
白:
伟哥说我描述句法分析还带着账房先生的味道,这让我想起当年被傅爱萍请到社科院语言所做交流时,我提起过的“铜臭”。一晃过去这么多年了。

 

【相关】

Church:钟摆摆得太远

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

乔姆斯基批判

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

【语义计算沙龙:Parsing 的数据结构和形式文法】

关于NLP方法论以及两条路线之争

《朝华午拾》总目录

NLP主流反思的扛鼎之作: 立委译《Church:钟摆摆得太远》

Kenneth Church 谈人工智能和自然语言的历史、发展与未来
选自中国计算机学会通讯

作者:Kenneth Church
翻译:李维(美国网基公司首席科学家)
唐天(美国网基公司首席科学家助理兼助理工程师)

译者按:肯尼斯·丘吉(Kenneth Church) 是自然语言领域的泰斗,语料库语言学和机器学习的开拓者之一。丘吉的这篇长文《钟摆摆得太远》(A Pendulum Swung Too Far) 是一篇主流反思的扛鼎之作。作者在文章中回顾了人工智能发展中,理性主义和经验主义各领风骚此消彼长的历史规律,并预测了今后20 年自然语言领域的发展趋势。文章的主旨是,我们这一代学者赶上了经验主义的黄金时代(1990 年迄今),把唾手可得的低枝果实采用统计学方法采摘下来,留给下一代的都是“难啃的硬骨头”。20 多年来,向统计学一边倒的趋势使得我们的教育失之偏颇。现在应该思考如何矫正,使下一代学者做好创新的准备,结合理性主义,把研究推向深入。丘吉的忧思溢于言表。丘吉预测,深度网络的热潮为主流经验主义添了一把火,将会继续主导自然语言领域十多年,从而延宕理性主义回归的日程表。但是他认为理性主义复兴的历史步伐不会改变。他对主流漠视理性主义的现状颇为忧虑,担心下一代学者会淹没在一波又一波的经验主义热潮中。

实用主义动机

20 世纪90 年代,经验主义的复兴是一个激动人心的时刻。我们从来没有想到,我们的努力会如此成功。当时,我们想要的只不过是一席之地而已。在当时流行的各项研究之外,我们所想的只是为不同于当时其他研究的工作争取一点空间。我们成立了SIGDAT为这类工作提供一个论坛。在1993 年成立之初,SIGDAT只是一个相对较小的关于大语料库的会议论坛,后来演变成规模较大的EMNLP 会议。起初,SIGDAT 会议在很多方面(规模、主题和地理范围)都与主流ACL大会非常不同。然而若干年后,这些区别已经很大程度上消失了。两个会议靠拢,这让人感到高兴。但我们可能是太成功了,我们不仅成功地让我们感兴趣的工作登堂入室,没给其他工作留下多少空间。图1 展示了从理性主义到经验主义的这一戏剧性转变。这种转变还在继续,似乎看不到尽头。

根据霍尔(Hall) 等人的文章,这种转变始于1988 年布朗 (Brown)和丘吉的工作。霍尔等人的依据是对ACL 文集的分析,文献包括自20 世纪70年代至今在计算语言学领域发表的总计16500 篇论文。

但是,如果我们考虑一个更长的时间段,追溯ACL 文集以前的文献,我们看到的是一幅非常不同的画面,如图2 所示。更加显著的趋势是经验主义与理性主义之间的振荡,像钟摆一样,每隔二十多年来回振荡一次:

  • 20世纪50 年代:经验主义(香农(Shannon)、斯金纳(Skinner)、弗斯(Firth)、哈里斯(Harris)) ;
  • 20世纪70 年代:理性主义(乔姆斯基(Chomsky)、明斯基(Minsky));
  • 20世纪90 年代:经验主义(IBM 语音团队(IBM Speech Group)、AT & T 贝尔实验室(AT&T Bell Labs));
  • 2010年代:回归到理性主义了吗?

本文将回顾一些我们这一代人曾经“反叛”的理性主义观点。遗憾的是,我们这一代是如此成功,以至于这些理性主义观点被人们忘却了(如果我们接受图2给出的预测,那么现在正是理性主义应该复苏的时期)。有些重要的理性主义代表人物如皮尔斯(Pierce) 在当今流行的教科书里甚至没有提及。如此下去,下一代人可能没有机会听到理性主义一方辩论的声音。特别是,如果理性主义立场在今后几十年逐渐流行,理性主义者可以提供很多值得重视的见解。

zb1
图1 理性主义到经验主义的转变令人惊讶(而且毫无争议)。该图是基于鲍勃·摩尔(Bob Moore)和弗雷德·贾里尼克(Fred Jelinek)对ACL会议的独立调查(私人通信)

是什么促使20 世纪90 年代经验主义的复兴?我们当时在反抗什么?经验主义复兴实际上是受到了实用主义考量的推动。学术界当时正埋头研究自然语言中面临的巨大挑战,例如完备人工智能(AI-complete) 的难题和远距离的依存关系。而我们所提倡的是从务实的角度来先针对一些较简单的、较有可能求解的任务,例如词性标注。当时数据的获得变得前所未有的方便。我们能用这些语料数据做些什么呢?我们认为,做成一些简单的事情比根本不做强。让我们去摘取一些低枝的果实,让我们利用近距离依存关系做我们能做的事情。虽然那不能解决整个问题,但还是让我们专注于我们能做什么,而不是我们不能做什么。玻璃杯有一半是满的(而不是已经空了一半)。

zb2
图2:对文献不寻常的解读,其中图1所示的趋势(此处以红点表示)是每隔20多年更大振荡的一部分。注意红点所示的是实际数据,而振荡曲线所示意的趋势只是为了说明一个观点

我们当时是这样记述这段历史的:

“20 世纪90 年代重现了具有20 世纪50 年代风格的语言分析的经验主义及其统计方法。50 年代是经验主义的高峰期,主导了从心理学(行为主义)到电子工程(信息论)一系列广泛的领域。当时语言学的通行做法是,不仅仅依据词义,还要基于它与其他词共同出现的情形来划分词类。50 年代英国语言学领域的领袖人物费思(Firth)用一段令人难忘的话总结此方法:‘通过一个词周围的词来了解这个词的意义。’遗憾的是,受一系列重大事件的影响,50年代后期和60年代早期,经验主义式微。这些重大事件包括乔姆斯基(Chomsky) 在《句法结构》(Syntactic Structures ) 中对N 元文法 (n-grams) 的批判,明斯基与帕佩特(Papert) 对神经网络的批判。

经验主义复兴最直接的原因也许是大量数据可用:文本从来没有这么丰富过。10 年前,搜集了100 万词的布朗(Brown) 语料库就被弗朗西斯(Francis) 和库塞拉(Kucera) 认为是大数据,但即使在那时,也有更大的语料库,如伯明翰(Birmingham) 语料库。如今,许多地方的文本样本已经达到上亿甚至几十亿词量……。通常称为文本分析的数据密集型语言研究方法采取的是实用主义手段,非常适合近来被强调的数值评估和具体的任务。文本分析强调对非受限文本(unrestricted text) 的广泛覆盖(尽管可能肤浅),而不是对于(人为)限定领域的深度分析。”

寒冬

20世纪90年代早期, 研究界发现应该注重务实方法,原因之一是该领域当时正处于严重的资金寒冬, 史称第二季人工智能寒冬(AI winter of1987~1993)。在又一次资金萧条到来之际,研究共同体比较容易接受一种更加现实的、结果更可靠的新方法。根据维基百科资料:

“在人工智能的发展历史中,所谓人工智能寒冬是指社会对人工智能研究的资助和兴趣消减的时期。许多新兴技术都经历了从狂热、失望到资金削减的过程(例如历史上的铁路大开发以及网络泡沫),但是人工智能的问题更加突出。这种模式已经发生过许多次了:

  • 1966 年:机器翻译的失败;
  • 1970 年:放弃人工智能联接主义(connectionism) ;
  • 1971~1975 年:美国国防部高级研究计划局(DARPA) 对卡耐基梅隆大学语音理解研究项目的失望;
  • 1973 年:莱特希尔(Lighthill)人工智能评估报告(Lighthill Report)发表之后,英国对人工智能研究资助的大幅削减;
  • 1973~1974 年:DARPA 削减对人工智能学术研究的资助;
  • 1987 年:Lisp 机市场崩溃;
  • 1988 年:战略计算规划(the Strategic Computing Initiative) 取消了进一步资助人工智能的计划;
  • 1993 年:专家系统慢慢跌入低谷;
  • 1990 年代:第五代计算机项目的原始目标黯然淡出视野,以及被牵累迄今的人工智能的坏名声。

人工智能经历的最糟糕的时间段是1974~1980 年和1987~1993 年。有时人工智能寒冬指的就是两者之一(或两者的某个时间段)。”

寒冬常常紧跟着过度的乐观主义,例如西蒙(Simon)在文献中提到的:

“在不久的未来——不会超过25年——我们将会有技术能力用机器来代替机构中的任何人类功能。而且,我们将充分掌握人类认知过程及其与人类情感、态度和价值观的交互过程的理论,这些理论将会被实验所证实。”

如今,比起第二季人工智能寒冬,我们变得更有信心。15 年低枝果实的采摘已经取得了相对稳定的成果,也获得了相对稳定的资助,至少比人工智能寒冬的形势乐观很多。

皮尔斯、乔姆斯基和明斯基

毋庸讳言,我们所反抗过的伟大的理性主义者如皮尔斯、乔姆斯基和明斯基(Pierce, Chomsky and Minsky, 以下简称PCM),对人工智能领域的现状不会感到满意。当然,另一方面,今天此领域的领军人物大多也不乐意看到PCM 理性主义的复兴。一位领域的带头人听说我在写这篇文章,讥讽道:“皮尔斯对我们现在有什么意义?”PCM 的观点在当年就饱受争议,现在依然如此,因为它们导致一些领域包括语音、机器翻译和机器学习多次进入了严重的资金寒冬。

本文主要感兴趣的是PCM三位大师理性主义的共同主线。不过也必须指出,这三位大师的声音并不完全一致。在信息论方面他们有很大分歧。皮尔斯对香农和乔姆斯基二位均大加赞佩,尽管乔姆斯基对香农在信息论方面的许多工作持反对意见。很显然,这些观点并不能清楚地划分成不同学派(例如理性主义和经验主义),学派之内并非完全一致,学派之间也不是处处相异。

关于智能亦有很多不同意见。明斯基是人工智能的创始人之一,而皮尔斯一直是直言不讳的批评者之一。他说:所谓人工智能真乃愚蠢之极7。皮尔斯反对任何试图接近人类智能的东西,当然包括人工智能,也包括机器翻译和语音识别。皮尔斯主持了著名(或者说是臭名昭著)的语言自动处理咨询委员会(Automatic Language ProcessingAdvisory Committee, ALPAC) 报告。这一报告直接导致了机器翻译的资金寒冬[27]。皮尔斯也曾为《美国声学学会会刊》(JASA ) 撰写富有争议的通讯“语音识别往哪里去”(Whither Speech Recognition?),给语音识别研究的资金造成令人寒心的困境。

本文重在回顾他们的共同主线,而不是他们的分歧。PCM 对当年流行现今复兴的一系列经验主义方法,均提出过挑战。他们的反对意见对于许多当今流行的方法都有影响,包括模式匹配、机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法模型)和语音识别(隐式马尔可夫模型(hidden Markov models, HMMs) 以及条件随机场(conditional random fields, CRFs))。

学生们需要学会如何有效地使用流行的近似方法。大多数近似方法基于简化的假设,这些假设在多数情况下有用,但并非万能。例如,N 元文法能捕捉许多依存关系,但当依存范围超过n个词距离的时候,N 元文法则无能为力。同理,线性分离机在很多情况下可以区分正例和反例,但对无法线性区分的样例自然无效。许多这类限制显而易见(由其本性所决定),但即便如此,相关的优劣争论有时仍然很激烈。有时候,争论的某一方不再被写进教科书,逐渐被遗忘,只能期待下一代学者去重新发现或复兴。

乔姆斯基论述了N 元文法的局限,明斯基论证了线性分离机的局限。也有学者对于其他近似方法的种种局限提出看法。例如,图基(Tukey) 教导学生如何有效使用回归算法[34]。他鼓励学生测试各种正态假设的偏离现象。离群点(outliers) 是回归算法常见的麻烦来源,正如偏离直线的弯曲残差(bowed residuals)。很多人提出了种种绕行的补救方案。一个常见的手段是对数据做非线性变换,如对数变换。这些技巧把问题转化为另一个问题,使其偏离假定的麻烦有所减少。

乔姆斯基的反对意见

如前所述, 乔姆斯基指出N 元文法不能捕捉远距离依存关系。虽然现在回想起来似乎是显然易见的,然而在当时,香农-麦克米兰- 布雷曼熵定理(Shan-non-McMillan-Breiman theorem)令人非常兴奋,对这条定理的解释是:在极限条件下,只要稍加制约,N 元文法模型足以捕捉字符串的所有信息(譬如英语的句子)。乔姆斯基认为,在极限条件下这条定理也许是正确的,但是N 元文法模型远远不是能概括许多语言事实最简洁的模型。在实际系统中,我们往往必须将N 元文法严格限制在某个(小的)固定的值k 上(例如三元或许五元)。这种限长的N 元文法模型系统可以捕捉到很多语法关系一致性方面的现象,但并非全部。

我们应该将这场论辩教给下一代学者,因为他们可能将不得不比我们更加认真地对待乔姆斯基的反对意见。我们这代人很幸运,可以摘取到大量的低枝果实(也就是那些可以用较短N 元文法捕捉到的语言现象)。但是,下一代学者将没有这么幸运,因为在他们退休之前,那些捕捉得到的语言事实大多将被捕捉已尽,因此,他们很可能将不得不面对那些简单N 元近似方法无法处理的语言现象。

中心嵌套论(Center-Embedding)

乔姆斯基不仅反对N 元文法模型,也反对有限状态(finite state) 方法,其中包括很多目前流行的方法,如隐式马尔可夫模型和条件随机场。

有限状态方法超越了N 元文法,它不仅可以捕捉一切N元文法可以捕捉到的语言现象,而且可以捕捉超越N 词距离的语法依存关系。例如,下列文法表现了主谓在数上一致的关系,名词和动词应该一致,二者同为单数(sg) 或者同为复数(pl)。这样的文法可以捕捉超过N 词距离的依存关系。

S → Ssg

S →Spl

Ssg → NPsg VPsg

Spl → NPpl VPpl

NPsg → … Nsg …

NPpl → … Npl …

VPsg → … Vsg …

VPpl → … Vpl …

最大的问题是,此文法是否需要无限的内存。为了使这场辩论严谨,乔姆斯基引入中心嵌套的概念,并创建了现今被称作乔姆斯基层级体系(Chomsky hierarchy)的理论。

乔姆斯基层级体系不仅在语言学,在其他许多领域,例如计算机科学9,也具有非凡的影响力。克努特(Knuth) 坦承他在1961 年的蜜月期间读到乔姆斯基的文章,发现它是如此“奇妙的事情:在这个语言的数学理论中,我可以感受到一个计算机程序员的直觉”。

乔姆斯基指出,乔姆斯基层级体系与相应的生成能力之间具有一种简单的对应关系:

类型0 > 类型1 > 类型2 >类型3

递归可枚举文法 > 上下文有关文法 > 上下文无关文法 > 正则文法

特别是上下文无关文法可以涵盖并超越正则文法;有一些需要无限内存(栈)所做的事情,有限内存就做不到。乔姆斯基的论证是,中心嵌套是上下文无关与有限状态之间的关键区别。也就是说,当(且仅当)一个文法具备中心嵌套能力,它才需要无限内存(栈)。否则就可以用有限内存(有限状态机)处理。

zb3

更正式地讲,如果一个文法中具有一个可以生成形如xAy的非终结节点A,其中x 和 y 均为非空,那么这个文法就是中心嵌套。如果x 或 y 为空,则可以得到较简单的左杈或右杈的嵌套。左杈嵌套和右杈嵌套均可在有限内存(有限状态机)中处理,而不像中心嵌套那样需要无限内存(栈)。

中心嵌套的一个简单例子是一个括号嵌套的文法:

< expr > → (< expr >)

括号嵌套文法是中心嵌套的一个特殊案例,其中 x 是左括号,y 是右括号。一个栈结构可以很容易地记录左括号与右括号之间的远距离依存关系,但这需要无限的内存。最大的问题是有限内存是否可以处理括号嵌套文法。乔姆斯基证明这是不可能的。更一般的表述是,有限状态方法无法捕捉中心嵌套。

乔姆斯基用下列样例论证英语为中心嵌套语言,因此超越了有限状态方法(如隐式马尔可夫模型)的捕捉能力。乔姆斯基假定英语具有一个非终结节点 S(代表句子或从句),其自生成的时候在它的左右两侧可以添加非空内容,如下所示:

  1. S → If S, then S.
  2. S → Either S, or S.
  3. S → The man who said that S, is arriving today.

关于中心嵌套的语言事实一直存在争论。本文审阅者之一反驳中心嵌套所用的几点论证,我当年在我的硕士论文中也提过类似的质疑。语料库中很难找到超过两层或三层的中心嵌套11。不过,乔姆斯基的说法并非没有道理。想要描述上述语言事实,采用允许任意中心嵌套的文法较之采用仅有一两层中心嵌套的文法可能更容易和简洁。

到目前为止,N 元文法和有限状态方法等近似模型足够我们使用。虽然这些近似模型都有其明显局限性,但迄今难以找到更有效的替代方法。尝试捕捉不常见的远距离关系也许可以处理一些不常见的边缘案例,但它们带来的问题往往比解决的问题要多。工程师们发现,处理好常见的短距离依存关系比处理不太常见的远距离依存关系更为重要。至少,这是我们这一代人的体验。

尽管如此,我们还是应该为下一代学者做好准备,使他们有可能比我们做得更好。我们应该教给下一代认识目前比较流行的各种方法的长处和短处。他们需要了解我们所知道的最成功的近似方法,但他们也需要了解其局限性。下一代学者很可能会找到改进N 元文法的办法,甚至可能发现超越有限状态的方法。

明斯基的反对意见

明斯基和帕佩特表明,感知机(更广泛地说是线性分离机)无法学会那些不可线性分离的功能,如异或(XOR) 和连通性(connectedness)。在二维空间里,如果一条直线可以将标记为正和负的点分离开,则该散点图即线性可分。推广到n 维空间,当有n -1 维超平面能将标记为正和负的点分离开时,这些点便是线性可分的。

判别类任务

对感知机的反对涉及许多流行的机器学习方法,包括线性回归(linear regression)、logistic 回归(logistic regression)、支持向量机(SVMs) 和朴素贝叶斯(Naive Bayes)。这种反对意见对信息检索的流行技术,例如向量空间模型 (vector space model) 和概率检索(probabilistic retrieval) 以及用于模式匹配任务的其他类似方法也都适用,这些任务包括:

  1. 词义消歧(WSD):区分作为“河流”的bank 与作为“银行”的bank。
  2. 作者鉴定:区分《联邦党人文集》哪些是汉密尔顿(Hamilton)写的,哪些是麦迪逊(Madison)写的。
  3. 信息检索(IR) :区分与查询词相关和不相关的文档。
  4. 情感分析:区分评论是正面的还是负面的。

机器学习方法,比如朴素贝叶斯,经常被用来解决这些问题。例如,莫斯特勒(Mosteller) 和华莱士(Wallace) 的鉴定工作始于《联邦党人文集》,共计85篇文章,其作者是麦迪逊、汉密尔顿和杰伊(Jay)。其中多数文章的作者是明确的,但有十几篇仍具争议。于是可以把多数文章作为训练集建立一个模型,用来对有争议的文件做判别。在训练时,莫斯特勒和华莱士估算词汇表中的每个词的似然比:Pr(word|Madison)/Pr(word|Hamilton)。对有争议的文章通过文中每个词的似然比的乘积打分。其他任务也使用几乎相同的数学公式,如表2 所示。近来,诸如logistic 回归等判别式学习方法正逐步取代如朴素贝叶斯等生成式学习方法。但对感知机的反对意见同样适用于这两类学习方法的多种变体。

zb4

停用词表、词权重和学习排名

虽然表2 中4 个任务的数学公式类似,但在停用词表(stoplist)上仍有重要的区别。信息检索最感兴趣的是实词,因此,常见的做法是使用一个停用词表去忽略功能词,如“the”。与此相对照,作者鉴定则把实词置于停用词表中,因为此任务更感兴趣是风格而不是内容。

文献中有很多关于词权重的讨论。词权重可以看作是停用词表的延伸。现今的网络搜索引擎普遍使用现代的机器学习方法去学习最优权重。学习网页排名的算法可以利用许多特征。除了利用文档特征对作者写什么进行建模外,还可以利用基于用户浏览记录的特征,来对用户在读什么建模。用户浏览记录(尤其是点击记录)往往比分析文档本身信息量更大,因为网络中读者比作者多得多。搜索引擎可以通过帮助用户发现群体智能来提升价值。用户想知道哪些网页很热门(其他和你类似的用户在点击什么)。学习排名是一种实用的方法,采用了相对简单的机器学习和模式匹配技术来巧妙地应对可能需要完备人工智能理解(AIcomplete understanding) 的问题。

最近有博客这样讨论网页排名的机器学习:

“与其试图让计算机理解内容并判别文档是否有用,我们不如观察阅读文档的人,来看他们是否觉得文章有用。

人类在阅读网页,并找出哪些文章对自己有用这方面是很擅长的。计算机在这方面则不行。但是,人们没有时间去汇总他们觉得有用的所有网页,并与亿万人分享。而这对计算机来说轻而易举。我们应该让计算机和人各自发挥特长。人们在网络上搜寻智慧,而计算机把这些智慧突显出来。”

为什么当前技术忽略谓词

信息检索和情感分析的权重系统趋向于专注刚性指示词(rigid designators)14(例如名词),而忽略谓词(动词、形容词和副词)、强调词(例如“非常”)和贬义词15(例如“米老鼠(Mickey mouse)”16 和“ 破烂儿(rinky dink)”)。其原因可能与明斯基和帕佩特对感知机的反对有关。多年前,我们有机会接触MIMS 数据集,这是由AT & T 话务员收集的评论(建议与意见)文本。其中一些评论被标注者标记为正面、负面或中性。刚性指示词(通常是名词)往往与上述某一类标记(正面、负面或中性)紧密关联,但也有一些贬义词标记不是正面就是负面,很少中性。

贬义词怎么会标记为正面的呢?原来,当贬义词与竞争对手相关联的时候,标注者就把文档标为对我方“正面”;当贬义词与我方关联的时候,就标注为对我方“负面”。换句话说,这是一种异或依存关系(贬义词XOR 我方),超出了线性分离机的能力。

情感分析和信息检索目前的做法不考虑修饰成分(谓词与论元的关系,强调词和贬义词),因为除非你知道它们在修饰什么,否则很难理解修饰成分的意义。忽视贬义词和强调词似乎是个遗憾,尤其对情感分析,因为贬义词显然表达了强烈的意见。但对于一个特征,如果你不知道其正负,即使强度再大也没什么用。

当最终对谓词- 论元关系建模时,由于上述异或问题,我们需要重新审视对线性可分的假设。

皮尔斯的反对意见

比起明斯基和乔姆斯基,皮尔斯在时下的教科书上更少提到,尽管皮尔斯作为ALPAC 委员会主席以及著名的“语音识别向何处去”一文的作者对本领域有深远影响。无论从终结资助还是从文章的引用率看,皮尔斯对该领域的冲击力是如此之大,真不明白现代教科书为何如此冷待皮尔斯。原因也许在于,比起明斯基和乔姆斯基,皮尔斯的批评“麻烦”更大。很多学者试图回应他的批评,但几乎没有任何回应能像他原来的批评那样有力和值得一读。

皮尔斯一生硕果累累,他开发了脉冲编码调制(pulse code modulation, PCM),一种与当今WAVE 文档格式紧密相关的语音编码方法,而WAVE 是一种在个人计算机上储存音频文件的流行格式。此外,皮尔斯在真空管领域的研究亦成就卓著,但他又带领团队发明了晶体管,使真空管很快消亡。皮尔斯的研究工作也涵盖卫星领域,后来他作为贝尔实验室的研究副总裁,在把卫星研究转化成商业应用上发挥了关键作用,成功开发了Telstar 1,这是卫星首次在电信领域的商业应用。

总之,皮尔斯是一位具有非凡成就的顶级技术执行官。与他争辩的另一方根本无法与他相提并论,其中包括一些可能会被拒授终身教职的初级教职人员。这是一场不公平的论战。但即便如此,也没有理由忽视他对领域的贡献,哪怕这些贡献给我们带来诸多“麻烦”。

ALPAC 报告与“语音识别向何处去”都非常值得一读。网上很容易找到 ALPAC 报告的原文,但其篇幅较长。如果读者时间有限,建议先从阅读“语音识别向何处去”开始,因为这篇通讯言简意赅,观点明晰。短短两页的通讯基本上论及两条批评意见:

  1. 系统评测:皮尔斯反对用演示来评测系统,也反对现今仍流行的各种系统评测方法。“即使给出了统计数据,语音识别的成功与否还是很难测量。总体而言……当……时对于……系统可以达到 95% 的准确率。在……情况下,性能会急遽下降。很难鉴定这种性能的语音识别系统能否成为实用的、经济合理的应用产品。”
  2. 模式匹配:皮尔斯反对现今仍流行的模式匹配技术(如机器学习和语音识别),斥之为巧妙的欺骗:“与科学相比由于更容易取巧而更快成功”。

模式识别批判

皮尔斯以魏岑鲍姆(Weizenbaum)开发的伊莉莎(ELIZA) 程序作为案例来解释“巧妙的欺骗”。虽然伊莉莎很明显并不“智能”,但它或许可以通过图灵测试。伊莉莎批判从此成为对那些看上去比实际能力要强的程序的标准批判。维基百科对“伊莉莎效应”的定义如下:

“在计算机科学中,所谓的伊莉莎效应,指的是下意识地假设计算机与人类的行为相似的一种趋势。从特定形式上看,伊莉莎效应只是指‘人们阅读被计算机串起的符号序列(特别是单词),往往读出了这些符号并不具备的意义’。更一般地,伊莉莎效应描述的是这样一种情形,仅仅依据系统输出,用户就把计算机系统理解为具有‘其软件控制(输出)不可能实现的内在素质和能力’,或者,‘假设(输出)反映了比实际更大的因果关系’。无论是在特定还是一般形式上,甚至当系统的用户已经知道系统产生的输出是预定不变的,伊莉莎效应都会显著出现。从心理学观点来看,伊莉莎效应源于一种微妙的认知失调,一方面,用户意识到程序编制的局限性,另一方面,他们对程序的输出结果依然盲信。伊莉莎效应的发现是人工智能的一个重要进展,说明利用社交工程原理,而不是显式编程,也可以通过图灵测试。”

魏岑鲍姆在意识到他的伊莉莎程序让公众如此信服后,他自己反而成为人工智能的强烈反对者。以下是从他的著作《难以理解的程序》(Incomprehensible Programs ) 中的一个章节摘录的:

“这两个程序(MACSYMA和DENDRAL) 与其他大多数人工智能程序完全不同,它们牢牢建立在深厚的理论之上……计算机当然还有其他许多重要的、成功的应用。例如,计算机可以操控整个石油精炼厂的流程,可以导航飞船以及监测并在很大程度上操控飞船内的环境,以便宇航员执行任务。这些程序依赖于数学控制理论和牢固确立的物理理论。这种以理论为基础的程序具有极其重要的优势,一旦程序走偏,监测人员就能发现它们的性能不符合理论的要求,从而可以用理论帮助诊断失败的原因。

但是, 大多数现有的程序……不是以理论为基础的……它们多是探索式的……采用的是在多数预见情况下显得‘可行’的策略……我自己的程序伊莉莎正是这种类型。伍诺格拉德(Winograd)的语言理解系统也是……纽厄尔(Newell) 和西蒙的GPS20 也是如此。”

魏岑鲍姆继续争辩道,程序理应易于理解,并建立在坚实的理论基础之上,这种观点皮尔斯想必也会同意。

皮尔斯关于“巧妙的欺骗”的提法批评了包括人工智能、语音识别以及模式识别(也包括大部分现代机器学习)的很多领域用演示来验证系统的做法。

“前述讨论适用于模式识别的各个领域,其应用作为练习留给读者”。

模式识别有其优缺点。优点是,模式识别可以巧妙应对许多科学难题,在实际应用中取得进步。但是这一优势同时也是其缺点。短期的取巧分散了领域的精力,无法顾及真正有意义的长远目标。

很多工程任务与语音合成一样有两类研究:一类是实用的工程方法(例如衔接合成和磁带拼接),另一类是雄心勃勃的科学计划(如模拟人类发音的合成)。一般而言,实用的方法更有可能在短期内产生较好的结果,但学术界也激励更有前途的科学路线。对于尚未解决的重大科学问题,如果我们直接研究它们,而不是投机取巧,我们会有更好的机会取得进展。话虽这么说,如果你在工业界领导一个语音合成产品,为了在预算内按时按质交付产品,采用任何工程手段和技巧都是题中应有之义。

回应

针对“语音识别向何处去”曾有很多回应,但是多数回应都没能有效应对上面提到的两条主要批评意见:

  1. 目前在论文发表时所要求的系统评测方法究竟有何意义?
  2. 与科学相比,模式匹配的意义何在?

罗(Roe)和威尔彭(Wilpon)争辩说,在“语音识别向何处去”提出后的25 年中,领域的发展已经把所谓“无用”的努力演变为商用现实。他们的文章开头介绍了隐式马尔可夫模型等流行方法,这些方法基于皮尔斯所反对的模式匹配技术。接着提到目前常用的评测方法。评测旨在展示模式匹配技术的有效性,然而评测带来的结论正如皮尔斯归纳描述的那样:“难以度量”。

“在实验室条件下,语言识别器对于声音的模式匹配相当准确。然而,在‘真实世界’的条件下,错误率会高出很多”。

ALPAC报告

相当长的ALPAC 报告提出了很多反对意见,其中许多批评意见令人尴尬,也很难回应。报告的结论部分提到一些好消息:

“如今仍有理论语言学家对实证研究或计算都不感兴趣,也有应用语言学家对十年来的理论进展无动于衷,对计算机也很木讷。但是,与以往任何时候相比,都有更多的语言学家尝试把微妙的语言理论与更丰富的数据相结合,他们中几乎所有人,无论在哪个国家,都渴望计算机的支持。前一代人需要一辈子做的工作(譬如建立对照语库、词汇表、浅层文法),如今借助计算机几个星期即可完成(下一年大概只需要几天)。在对于作为人类交流工具的自然语言的理解方面,人类迈出了万里长征的第一步。”

但好消息随后紧接着就是不那么好的消息 :

“ 但是,我们还没有简单易用并广为人知的计算机处理语言数据的好方法。”

作为回应,斯蒂德曼(Steedman)将我们的研究领域与物理学领域做了对比。他指出物理界并没有被类似于ALPAC 的报告所困扰:“没人去告诉周围的物理学家该做什么。”斯蒂德曼建议,如果我们更自律,并避免在公共场合过度渲染,我们的领域也许会处于更好的状态。

我们其实没必要羡慕物理学领域的状态,以此排斥ALPAC报告。斯蒂德曼的回应不仅没有解决问题,而且事实上,物理学在学术界根本就不处于一个令人羡慕的位置。曾经有一段时间,物理学确实处于相对良好的状态,但那是很久以前的事情了。物理学的冬天已经持续太久,以至于许多人离开了物理学领域。曾经的物理学家们对许多领域做出了贡献,包括我们领域的几个方向,例如机器翻译和机器学习等。至于过度渲染,物理学不比我们少。

甚至连ALPAC 报告也指出,计算语言学比物理学有许多优势:

“我们看到计算机为语言学家带来了一系列的挑战、视角和机会。我们相信,这些可与粒子物理面临的挑战、问题和视界相当。毫无疑问,语言的重要性不亚于任何其他现象。而且计算语言学所需要的工具成本,比起需要数十亿伏加速器的粒子物理学少得多了。”

哈钦斯(Hutchins)在ALPAC报告30 周年纪念时在《机器翻译国际新闻》(MT News International) 中题目为《ALPAC :著名(抑或臭名昭著)的报告》的文章中,总结道:

“ALPAC 对机器翻译持怀疑态度是有一定道理的:当时机器翻译的质量无疑非常糟糕,似乎确实没有正当理由获得那么多的资助。报告中也正确地指出需要研制计算机辅助翻译,并强调计算语言学需要更多的基础研究。然而,需要指责的是……”

哈钦斯继而批评ALPAC 报告的观点太过以美国为中心,机器翻译问题本应在更广阔的全球语境中来考虑。既然基调如此严肃,他对以美国为中心的批评就显得相对单薄。如果从美国角度看机器翻译技术质量不好,费用昂贵,难道换一个角度就会对他国合适?

事实上,ALPAC 报告之所以被认为臭名昭著,是因为它的怀疑论直接导致了机器翻译的资金寒冬,尤其是在美国方面。然而,报告(第34 页)实际上建议在两个不同方向上增加经费开支:

  1. 对于语言学和计算语言学的长期的基础学术研究,以及
  2. 对于实用的、可以短期奏效的提高翻译质量的工作。

第一类基础研究应该以其科学价值为基础,经过同行评议,而评估第二类应用程序应该着重于实用的指标:速度、成本和质量。

皮尔斯的这两个建议凸显出他的两个不同侧面,正由于这种两面性使得皮尔斯能够同时认同乔姆斯基和香农那样两种不同的立场。一方面,皮尔斯是基础科学的坚定支持者。皮尔斯反对任何将科学扭曲成其他东西(例如应用程序)的企图,以及试图以误导性演示和盲目的指标(如今天所例行的各种评估办法)歪曲科学的发展。另一方面,皮尔斯也有实用的一面,他在语音编码、真空管、晶体管和通信卫星等领域所取得的非凡成就就是证明。他是应用型工作强有力的支持者,但所用的规则与基础研究完全不同,比如强调从商业案例出发。应用型工作要按应用型工作来评估(基于商业标准),而科学必须按科学的标准来评估(基于同行评审)。

如果皮尔斯今天还活着,他会被学术界的现状深深困扰。太多的资金投入到了模式匹配技术和数值评估上,干扰了他认定的作为核心科学问题的学术发展。

从更积极的方面看,皮尔斯的应用一面应该会对谷歌的商业成功留下深刻印象,尤其是在搜索方面。尽管如此,谷歌的边缘业务如语音识别和机器翻译是否可以称作成功,从他的角度应该还有疑问。虽然我们有理由对这些领域抱有希望,像皮尔斯这样的怀疑论者会觉得,比起过去的几十年研发的巨额投资,机器翻译和语音识别的应用成就并不相称。作为一个合理的投资回报,现在的语音识别和机器翻译应该产生一个杀手锏级的应用,使得几乎每个人每天都离不开它,就像当年AT & T 发明的电话,或者像微软Windows 系统或谷歌搜索一样。谷歌在搜索方面的核心业务已经实现了这个理想,也许有一天他们的语音和翻译等边缘业务也能最终达到这一目标。

皮尔斯能给今天的我们提供什么?迄今为止,该领域已经做得很好,采摘了不少低枝果实。在有很多果实容易采摘的好时光里,我们自然应该充分利用这些机会。但是,如果这些机会逐渐枯竭,我们最好还是遵循皮尔斯的教诲,认真面对核心科学的挑战,而不是继续寻找不复存在的容易采摘的果实。

无视历史注定要重蹈覆辙

在大多数情况下,机器学习、信息检索和语音识别方面的实证复兴派简单地无视PCM 的论辩,虽然在神经网络领域,感知机附加的隐藏层可以看作是对明斯基和帕佩特批评的让步。尽管如此,明斯基和帕佩特对他们所著的《感知机》出版20 年以来领域进展之缓慢深表失望。

“在准备这一版时,我们本来准备‘把这些理论更新’。但是,当我们发现自本书1969 年第一次出版以来,没有什么有意义的进展,我们认为保留原文更有意义……只需加一个后记即可……这个领域进展如此缓慢的原因之一是,不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步,可能会感到震惊。难道感知机类的神经网络(新名称叫联接主义)没有成为热烈讨论的主题吗?……当然不是,该领域存在很多令人感兴趣的问题和讨论。可能确实也有些现在的发现也会随着时间逐渐显出重要性。但可以肯定的是,领域的基础概念并没有明显改变。今天令人兴奋的问题似乎与前几轮大同小异……我们的立场依然是当年我们写这本书时的立场:我们相信这个领域的工作是极为重要和丰富的,但我们预计其发展需要一定程度的批判性分析,可那些更富浪漫精神的倡导者却一直不愿意去做这种分析,也许因为连通主义的精神似乎变得与严谨分析南辕北辙。

多层网络并不比感知机更有能力识别连通性。”

计算语言学课程的缺陷

正如上面明斯基和帕佩特指出的,我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘,不再提及,只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。刚刚进入此领域的学生也许意识不到所谓“相关学习算法”包含了很多当今非常流行的方法,如线性回归和logistic回归。

“一些其他的梯度下降算法(gradient descent algorithms) 有类似的收敛定理,但是在大多数情况下,收敛只能达到局部最优。……感知机收敛能达到全局最优是因为它们从线性分离机这样一类比较简单的模型中选择分类器。很多重要的问题是线性不可分的,其中最著名的是异或问题。……决策树算法可以学习解决这类问题,而感知机则不能。研究人员在对感知机最初的热情[29]消褪以后,开始意识到这些局限性。其结果是,对感知机及相关学习算法的兴趣很快消褪,此后几十年一直一蹶不振。明斯基和帕佩特的论文《感知机》通常被看作是这类学习算法开始消褪的起点。”

曼宁等人的2008 版教科书中有简短的文献指向明斯基和帕佩特1988 年的论文,称其对感知机有不错的描述,但并未提及他们的尖锐批评:

“对文中提到但本章未进行细述的算法,感兴趣的读者可以参阅以下文献:神经网络方面的毕夏普(Bishop) 、线性和logistic回归方面的黑斯蒂(Hastie) 等人以及感知机算法方面的明斯基和帕佩特等的论文。”

基于这样的描述,学生可能会得出错误印象,以为明斯基和帕佩特是感知机算法(以及当今流行的线性和logistic 回归相关方法)的支持者。

毕夏普明确指出,明斯基和帕佩特绝不是感知机和神经网络的赞许者,而且把它们认作“不正确的构想”予以排斥。毕夏普把神经网络在实际应用中的普及看作是对明斯基和帕佩特上述批评意见的反击证明,认为并非如他们所说的那样“没有多少改变”、“多层网络并不比感知机更有能力识别连通性”。

当代教科书应该教给学生认识神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任,尤其是当其中一方的批评是如此的尖锐,用到“不正确的构想”和“没有多少改变”这样的说法。

乔姆斯基比皮尔斯和明斯基在当代教科书中被提及得多一些。曼宁和舒兹(Schütze) 的教科书引用乔姆斯基的论文10次,汝拉夫斯基和马丁的教科书的索引中共有27 处引用乔姆斯基的论文。第一本书中较少引用是因为它专注于一个相对狭窄的话题——统计型自然语言处理。而第二本教科书涉及面广泛得多,包括音韵学和语音。因此,第二本书还引用了乔姆斯基在音韵学方面的工作。

两本教科书都提到乔姆斯基对有限状态方法的批评,以及这些批评在当时对经验主义方法论的抨击效果。但是话题迅速转移到描述这些方法的复兴,而对这一复兴的论辩、动因及其对目前实践和未来的影响的讨论则相对较少。

“由乔姆斯基1956 年的论文开始的一系列极具影响力的论文中,包括乔姆斯基1957 年的论文以及米勒(Miller) 和乔姆斯基1963 年的论文,乔姆斯基认为,‘有限状态的马尔可夫过程’虽然是可能有用的工程探索,却不可能成为人类语法知识的完整认知模型。当时的这些论辩促使许多语言学家和计算语言学家完全脱离了统计模型。

N 元模型的回归开始于耶利内克(Jelinek)、默瑟(Mercer)、巴尔(Bahl) 等人的工作……”

两本教科书对N 元文法的讨论都是从引用其优缺点开始:

“但是必须认识到,无论怎样解读,‘一个句子的概率’都是一个完全无用的概念……。”

“任何时候,只要一个语言学家离开本研究组,识别率就会上升。”(弗雷德·耶利内克(Fred Jelinek),当时他在IBM 语音组,1988)

曼宁和舒兹是以这样的引用开始讨论的:

“统计的考量对于理解语言的操作与发展至关重要。”

“一个人对合法语句的产生和识别能力不是基于统计近似之类的概念。”

这种正反面观点的引用确实向学生介绍了争议的存在,但却不能真正帮助学生领会这些争议意味着什么。我们应提醒学生,乔姆斯基反对的是如今极其流行的一些有限状态方法,包括N 元文法和隐式马尔可夫模型,因为他相信这些方法无法捕捉远距离的依存关系(例如一致关系的限制条件和wh- 位移现象)。

乔姆斯基的立场直到今天仍然是有争议的,本文审阅者之一的反对意见也佐证了这种争议。我不希望站在这场辩论中的某一方。我只是要求应该教给下一代双方的辩论。对于任一方,都不至于由于我们疏于教授而使他们需要重新“发现”。

计算语言学学生应该接受普通语言学和语音学的培训

为了让进入这行的学生对低枝果实采摘完后的情形做好准备,今天的教育最好向广度发展。学生应该全面学习语言学的主要分支,如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学的学生在一个特定的较窄的子领域具有丰富的知识(如机器学习和统计型机器翻译),但可能没听说过格林伯格共性(Greenberg’s universals)、提升(raising)、等同(equi)、 量词辖域(quantifier scope)、 空缺(gapping)、孤岛条件(island constraints) 等语言学现象。我们应该确保从事共指关系(co-reference) 研究的学生都知道成分统制(c-command) 和指称相异(disjoint reference)。当学生在计算语言学会议上宣讲论文的时候,他们应该已经了解形式语言学(formal linguistics) 对此问题的标准处理。

从事语音识别工作的学生需要了解词汇重音(如文献)。音韵学重音对于下游的语音和声学过程具有各种各样的影响。

zb5-3
图3 “politics”and“political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。

语音识别目前没有充分利用词汇重音特征是一个不小的遗憾,因为重音是语音信号中较为突出的特性之一。图3 显示了最小对立体 (minimal pair)“ politics”和“political”的波形和谱图。这两个词千差万别,目前的技术着重于语音单位层面的区别:

  1. “politics”以 –s 结尾,而“political”以-al 结尾。
  2. 与“politics” 不同,“political”的第一个元音是弱化的非重读音节的元音(schwa)。

重音的区别更为突出。在诸多与重音有关的区别中,图3 突出显示了重音前与重音后/l/ 的音位变体之间的区别。另外还有对/t/ 音的影响。“politics”中 /t/是送气音,但在“political”中却是闪音。

目前,在语音单位层面,仍有大量低枝果实可以采摘,但这些工作终有完结之时。我们应该教给语音识别领域的学生有关音韵学和声学语音学的词汇重音知识,以便他们在目前的技术水平超越语音单位层面的瓶颈时依然游刃有余。由于重音存在超过三元音素的远距离依存关系,重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展,例如能有效使用重音,很可能要依赖于技术的根本性进步。

结论

学界前辈皮尔斯、乔姆斯基和明斯基曾经严重质疑过当年流行后来复活了的一些经验主义方法。他们的反对意见涉及许多当代流行的方法,包括机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法)、语音识别(隐式马尔可夫模型)和条件随机场。

学生们需要学习如何有效地使用流行的近似模型。乔姆斯基指出了N 元文法的缺陷,明斯基分析了线性分离机的局限性。许多局限性很明显(由自身算法设计带来的),但即便如此,对其支持与反对之间的争辩有时仍然非常激烈。有时,其中一方的论点不会被写进教科书,只有等到下一代人去重新发现和复兴这些被遗忘的思想。我们应该鼓励下一代学者充分了解辩论双方的论据,即使他们选择站在一方或另一方。

20 世纪90 年代,当我们复兴经验主义时,我们选择了实用主义的理由来反对我们导师的观点。数据从未如此丰富,我们能拿它做什么呢?我们认为,做简单的事情比什么都不做要好。让我们去采摘一些低枝果实。虽然三元模型不能捕捉到一切语言现象,但它往往比其他方法更有效。捕捉我们可以轻易捕获的一致性事实,要比好高骛远试图捕捉更多语言事实而最终得到更少要好。

这些说辞在20 世纪90 年代有很大的意义,特别是学术界在前一波繁荣期提出了很多不切实际的期望。但是今天的学生在不久的将来可能会面临一系列非常不同的挑战。当大多数低枝果实采摘完毕,他们应该做些什么呢?

具体就机器翻译而言,统计方法的复兴(例如文献)由于实用主义的原因,始于采用有限状态方法。但随着时间的推移,研究人员已经越来越接受使用句法捕捉远距离的依存关系,尤其是当源语与目标语缺乏平行语料库,或者当两种语言具有非常不同的词序的时候(例如,从主谓宾词序的语言(如英语)翻译到以动词收尾的语言(如日语))。展望未来,我们可以预料到机器翻译的研究会越来越多地使用越来越丰富的语言学表达。同样,很快也将有一天,重音将成为语音识别的重要依据。

既然计算语言学教科书不可能涵盖所有这些内容,我们就应该与其他相关科系的同事合作,确保学生能接受到广泛的教育,足以让他们为所有可能的未来做好准备。

选自《中国计算机学会通讯》第9卷第12期。
本文译自Linguistics issues in Language Technology, 2011; 6(5) K. Church 的“A Pendulum Swung Too Far”一文。
译者:李维(美国网基公司首席科学家。主要研究方向为信息抽取、舆情挖掘等)唐天(美国网基公司首席科学家助理兼助理工程师。主要研究方向为自然语言处理和机器学习)。

【置顶:立委NLP博文一览】

NLP University

【立委NLP相关博文汇总一览】

NLP University 开张大吉

 《朝华午拾》总目录

余致力自然语言处理(NLP,Natural Language Processing)凡30年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积30年之经验,深知欲达此目的,必须启蒙后进,普及科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。

 

1. 关于NLP体系及方法论

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】

泥沙龙笔记:漫谈语言形式

《泥沙龙笔记:沾深度神经的光,谈parsing的深度与多层》

【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】

《OVERVIEW OF NATURAL LANGUAGE PROCESSING》

《NLP White Paper: Overview of Our NLP Core Engine》

White Paper of NLP Engine

【新智元笔记:工程语法和深度神经】

【新智元笔记:李白对话录 – RNN 与语言学算法】

《新智元笔记:再谈语言学手工编程与机器学习的自动编程》

《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》

《新智元笔记:【Google 年度顶级论文】有感》

《新智元笔记:NLP 系统的分层挑战》

《泥沙龙笔记:连续、离散,模块化和接口》

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 – 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》

立委科普:NLP 中的一袋子词是什么

一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑

立委科普:关键词革命

立委科普:关键词外传

《立委随笔:机器学习和自然语言处理》

【泥沙龙笔记:语法工程派与统计学习派的总结】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

《立委随笔:语言自动分析的两个路子》

Comparison of Pros and Cons of Two NLP Approaches

why hybrid? on machine learning vs. hand-coded rules in NLP

Why Hybrid?

钩沉:Early arguments for a hybrid model for NLP and IE

【李白对话录:你波你的波,我粒我的粒】

【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

泥沙龙笔记:铿锵三人行

《泥沙龙铿锵三人行:句法语义纠缠论》

【科普随笔:NLP主流的傲慢与偏见】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

再谈机器学习和手工系统:人和机器谁更聪明能干?

乔姆斯基批判

Chomsky’s Negative Impact

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【新智元笔记:语法糖霜论不值得认真对待】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【泥沙龙笔记:NLP 专门语言是规则系统的斧头】

【新智元:理论家的围墙和工程师的私货】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

【Church – 钟摆摆得太远(2):乔姆斯基论】

【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】

【Church – 钟摆摆得太远(3):皮尔斯论】

【Church – 钟摆摆得太远(4):明斯基论】

【Church – 钟摆摆得太远(5):现状与结论】

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

自给自足是NLP王道

自然语言后学都应该看看白硕老师的“自然语言处理与人工智能”

语言创造简史

Notes on Building and Using Lexical Semantic Knowledge Bases

【NLP主流成见之二,所谓规则系统的移植性太差】

Domain portability myth in natural language processing (NLP)

【科普随笔:NLP的宗教战争?】

Church – 计算语言学课程的缺陷 (翻译节选)

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

坚持四项基本原则,开发鲁棒性NLP系统

NLP 围脖:成语从来不是问题

NLP 是一个力气活:再论成语不是问题

立委围脖:对于用户来说,抓住老鼠就是好猫

《科普随笔:keep ambiguity untouched》

【科研笔记:NLP的词海战术】

在构筑一个模型时,枚举法是常用的必要的强盗分类

没有语言学的 CL 走不远

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

手工规则系统的软肋在文章分类

老教授回函:理性主义回摆可能要再延迟10几年

每隔二十年振荡一次的钟摆要多长?

【系统不能太精巧,正如人不能太聪明】

《泥沙龙李白对话录:关于纯语义系统》

【泥沙龙笔记:语义可以绕过句法吗】

一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路

《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》

SBIR Grants

 

2. 关于NLP分析(parsing)

语义计算沙龙:Parsing 的数据结构和形式文法

【语义计算群:句法语义的萝卜与坑】

【语义计算群:李白侃中文parsing】

【语义计算群:借定语的壳装状语的瓤】

【语义计算群:带歧义或模糊前行,有如带病生存】

【一日一parsing:”钱是没有问题”】

【一日一parsing:休眠唤醒的好例子】

【一日一parse:长尾问题种种】

【语言学小品:送老婆后面的语言学】 

【一日一parsing:NLP应用可以对parsing有所包容】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2)

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【语义计算沙龙:巨头谷歌昨天称句法分析极难,但他们最强】

语义计算沙龙:parsing 的鲁棒比精准更重要】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

【做 parsing 还是要靠语言学家,机器学习不给力】

《泥沙龙笔记:狗血的语言学》

语义计算沙龙:关于汉语介词的兼语句型,兼论POS】

泥沙龙笔记:在知识处理中,很多时候,人不如机

《立委科普:机器可以揭开双关语神秘的面纱》

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

泥沙龙笔记:语言处理没有文法就不好玩了

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【立委科普:NLP核武器的奥秘】

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

【立委科普:自然语言理解当然是文法为主,常识为辅】

语义计算沙龙:从《知网》抽取逻辑动宾的关系】

【立委科普:教机器识英文】

【立委科普:及物、不及物 与 动词 subcat 及句型】

泥沙龙笔记:再聊乔老爷的递归陷阱

【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】

泥沙龙笔记:儿童语言没有文法的问题

《自然语言是递归的么?》

Parsing nonsense with a sense of humor

【科普小品:文法里的父子原则】

Parent-child Principle in Dependency Grammar

乔氏 X 杠杠理论 以及各式树形图表达法

【泥沙龙笔记:依存语言学的怪圈】

【没有语言结构可以解析语义么?浅论 LSA】

【没有语言结构可以解析语义么?(之二)】

自然语言中,约定俗成大于文法教条和逻辑

泥沙龙笔记:三论世界语

泥沙龙笔记:再聊世界语及其文化

泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩

《泥沙龙笔记:NLP component technology 的市场问题》

【泥沙龙笔记:没有结构树,万古如长夜】

Deep parsing:每日一析

Deep parsing 每日一析:内情曝光 vs 假货曝光

Deep parsing 每日一析 半垃圾进 半垃圾出

【一日一parsing: 屈居世界第零】

【研发随笔:植树为林自成景(10/n)】

【deep parsing:植树为林自成景(20/n)】

【deep parsing:植树为林自成景(30/n)】

语义计算沙龙:植树为林自成景(40/n)】

【deep parsing 吃文化:植树为林自成景(60/n)】

【deep parsing (70/n):离合词与定语从句的纠缠】

【deep parsing (80/n):植树成林自成景】

【deep parsing (90/n):“雨是好雨,但风不正经”】

【deep parsing (100/n):其实 NLP 也没那么容易气死】

 

3. 关于NLP抽取

【立委科普:NLU 的螺旋式上升及其 open知识图谱的趋向】

【语义计算沙龙:知识图谱无需动用太多知识 负重而行】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

泥沙龙笔记: parsing vs. classification and IE

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

Coarse-grained vs. fine-grained sentiment extraction

【立委科普:基于关键词的舆情分类系统面临挑战】

【“剩女”的去向和出路】

SBIR Grants

 

4.关于NLP大数据挖掘

 

“大数据与认识论”研讨会的书面发言(草稿)

【立委科普:自动民调】

Automated survey based on social media

《立委科普:机器八卦》

言多必露,文本挖掘可以揭示背景信息

社媒是个大染缸,大数据挖掘有啥价值?

大数据挖掘问答2:会哭的孩子有奶吃

大数据挖掘问答1:所谓数据完整性

为什么做大数据的吹鼓手?

大数据NLP论

On Big Data NLP

作为公开课的大数据演讲

【立委科普:舆情挖掘的背后】

【立委科普:所谓大数据(BIG DATA)】

【科研笔记:big data NLP, how big is big?】

文本挖掘需要让用户既能见林又能见木

【社媒挖掘:《品牌舆情图》的设计问题】

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

2011 信息产业的两大关键词:社交媒体和云计算

《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》

 

5. 关于NLP应用

 

【河东河西,谁敢说SMT最终一定打得过规则MT?】

【立委科普:NLP应用的平台之叹】

【Bots 的愿景】

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

《新智元笔记:知识图谱和问答系统:开题(1)》

【泥沙龙笔记:NLP 市场落地,主餐还是副食?】

《泥沙龙笔记:怎样满足用户的信息需求》

立委科普:问答系统的前生今世

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》

《新智元笔记:微软小冰,可能的商业模式(2)》

《新智元笔记:微软小冰,两分钟定律(3)》

新智元笔记:微软小冰,QA 和AI,历史与展望(4)

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

立委科普:从产业角度说说NLP这个行当

【立委科普:机器翻译】

立委硕士论文【附录一:EChA 试验结果】

社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?

2011 信息产业的两大关键词:社交媒体和云计算

再说苹果爱疯的贴身小蜜 死日(Siri)

从新版iPhone发布,看苹果和微软技术转化能力的天壤之别

非常折服苹果的技术转化能力,但就自然语言技术本身来说 …

科研笔记:big data NLP, how big is big?

与机器人对话

《机器翻译词义辨识对策》

【立委随笔:机器翻译万岁】

 

6. 关于中文NLP

【语义计算群:李白侃中文秀parsing】

【parsing 在希望的田野上】

语义计算沙龙:其实 NLP 也没那么容易气死

【deep parsing (70/n):离合词与定语从句的纠缠】

【立委科普:deep parsing 小讲座】

【新智元笔记:词的幽灵在NLP徘徊】

《新智元笔记:机器的馅饼专砸用心者的头》

【新智元笔记:机器的馅饼(续篇)】

【新智元笔记:parsing 汉语涉及重叠的鸡零狗碎及其他】

【新智元笔记:中文自动分析杂谈】

【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩”

【让机器人解读洪爷的《人工智能忧思录》(4/n)】

【让机器人解读洪爷的《人工智能忧思录》(3/n)】

【让机器人解读洪爷的《人工智能忧思录》(2/n)】

【让机器人解读洪爷的《人工智能忧思录》(1/n)】

《新智元笔记:找茬拷问立氏parser》

【新智元笔记:汉语分离词的自动分析】

《新智元笔记:与汉语离合词有关的结构关系》

《新智元笔记:汉语使动结构与定中结构的纠缠》

《新智元笔记:汉语parsing的合成词痛点》

《新智元:填空“的子结构”、“所字结构”和“者字结构“》

【沙龙笔记:汉语构词和句法都要用到reduplication机制】

钩沉:博士阶段的汉语HPSG研究 2015-11-02

泥沙龙小品:小词搭配是上帝给汉语文法的恩赐

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同

泥沙龙笔记:汉语就是一种“裸奔” 的语言

【NLP笔记:人工智能神话的背后是汗水】

【立委随笔:中文之心,如在吾庐】

汉语依从文法 (维文钩沉)

《立委科普:现代汉语语法随笔》

“自由”的语言学至少有三种理论

应该立法禁止切词研究 :=)

再谈应该立法禁止切词研究

中文处理的迷思之一:切词特有论

中文处理的迷思之二:词类标注是句法分析的前提

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破

专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了

社会媒体舆情自动分析:马英九 vs 陈水扁

舆情自动分析表明,谷歌的社会评价度高出百度一倍

方寒大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

研发笔记:粤语文句的情报挖掘

《立委随笔: 语言学家是怎样炼成的》

《立委科普:汉语只有完成体,没有过去时》

《科研笔记:中文图灵试题?》

立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷

比起英语,汉语感情更外露还是更炽烈?

科研笔记:究竟好还是不好

《科普随笔:汉字和语素》

《科普随笔:汉语自动断词 “一次性交500元”》

《科普随笔:“他走得风一样地快” 的详细语法结构分析》

【立委科普:自动分析 《偉大的中文》】

《立委随笔:汉语并不简单》

语言学小品:结婚的远近距离搭配

中文处理的模块化纠结

【立委科普:《非诚勿扰》中是谁心动谁动心?】

曙光在眼前,轻松过个年

挺反自便,但不要欺负语言学!

当面对很烦很难很挑战的时候

创造着是美丽的

汉语依从文法 (维文钩沉)

《新智元:挖掘你的诗人气质,祝你新年快乐》

 

7. 关于NLP社会媒体舆情挖掘的实践

 

【语义计算沙龙:sentiment 中的讽刺和正话反说】

【喋喋不休论大数据(立委博文汇总)】

【新智元笔记:再谈舆情】

舆情挖掘系统独立验证的意义

【社煤挖掘:雷同学之死】

《利用大数据高科技,实时监测美国总统大选舆情变化》

世人皆错nlp不错,民调错大数据也不会错

社媒大数据的困境:微信的风行导致舆情的碎片化

从微信的用户体验谈大数据挖掘的客户情报

社媒挖掘:社会媒体疯传柴静调查,毁誉参半,争议趋于情绪化

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你

全球社交媒体热议阿里巴巴上市

到底社媒曲线与股市曲线有没有、有多少相关度?

再谈舆情与股市的相关性

【『科学』预测:A-股 看好】

舆情挖掘用于股市房市预测靠谱么?

大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》

【社媒挖掘:外来快餐店风光不再】

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

世界杯是全世界的热点,纵不懂也有义务挖掘一哈

【大数据挖掘:方崔大战一年回顾】(更正版)

【大数据挖掘:转基因一年回顾】

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

【大数据挖掘:转基因英文网络的自动民调和分析】

只认数据不认人:IRT 的鼓噪左右美国民情了么?

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

关于转基因及其社会媒体大数据挖掘的种种问题

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】

【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】

【社媒挖掘:大数据时代的危机管理】

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

【社媒挖掘:不朽邓丽君】

【社媒挖掘:社会媒体眼中的李开复老师】

【社媒挖掘:糟糕透顶的方韩社会形象】

社媒挖掘:关于狗肉的争议

社媒挖掘:央视的老毕

社媒挖掘:老毕私下辱毛事件再挖掘

大数据淹没下的冰美人(之一)

大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五): 星光灿烂谁为最?

【社媒挖掘:成都暴打事件中的男司机和女司机】

【社媒挖掘:社会媒体眼中的陳水扁】

【社媒挖掘:社会媒体眼中的李登輝】

【社媒挖掘:馬英九施政一年來輿情晴雨表】

【社媒挖掘:臺灣政壇輿情圖】

【社媒挖掘:社会媒体眼中的臺灣綠營大佬】

舆情挖掘:九合一國民黨慘敗 馬英九時代行將結束?

社会媒体舆情自动分析:马英九 vs 陈水扁

社媒挖掘:争议人物方博士被逐,提升了其网路形象

方韩大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

社媒挖掘:苹果CEO库克公开承认同志身份,媒体反应相当正面

苹果智能手表会是可穿戴设备的革命么?

全球社交媒体热议苹果推出 iPhone 6

互联网盛世英雄马云的媒体形象

革命革到自身头上,给咱“科学网”也挖掘一下形象

两年来中国红十字会的社会媒体形象调查

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

【社媒挖掘:“剩女”问题】

【舆情挖掘:2013央视春晚播后】

【舆情挖掘:年三十挖一挖央视春晚】

新浪微博下周要大跌?舆情指数不看好,负面评价太多(疑似虚惊)

【大数据挖掘:微信(WeChat)】

【大数据解读:方崔大战对转基因形象的影响】

【微博自动民调:薄熙来、薛蛮子和李天一】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

Chinese First Lady in Social Media

Social media mining on credit industry in China

Sina Weibo IPO and its automatic real time monitoring

Social media mining: Teens and Issues

立委元宵节大数据科技访谈土豆视频上网

【大数据挖掘:中国红十字会的社会媒体形象】

【社媒挖掘:社会媒体眼中的财政悬崖】

【社媒挖掘:美国的枪支管制任重道远】

【舆情挖掘:房市总体看好】

【社媒挖掘:社会媒体眼中的米拉先生】

【社会媒体:现代婚姻推背图】

【社会媒体:现代爱情推背图】

【科学技术之云】

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【凡事不决问 social:切糕是神马?】

Social media mining: 2013 vs. 2012

社会媒体测试知名品牌百度,有惊人发现

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

舆情自动分析表明,谷歌的社会评价度高出百度一倍

圣诞社媒印象: 简体世界狂欢,繁體世界分享

WordClouds: Season’s sentiments, pros & cons of Xmas

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

社会媒体比烂,但国骂隐含舆情

肮脏语言研究:英语篇

肮脏语言研究:汉语篇(18岁以下勿入)

新年新打算:【社媒挖掘】专栏开张大吉

 

8. 关于NLP的掌故趣闻

《朝华午拾:创业之路》

《朝华午拾 – 水牛风云》

《朝华午拾:用人之道》

《朝华午拾:欧洲之行》

《朝华午拾:“数小鸡”的日子》

《朝华午拾:一夜成为万元户》

《朝华午拾:世界语之恋》

《朝华午拾:我的考研经历》

80年代在国内,社科院的硕士训练使我受益最多

科研笔记:开天辟地的感觉真好

《朝华午拾:今天是个好日子》

【朝华午拾:那天是个好日子】

10 周年入职纪念日有感

《立委随笔: 语言学家是怎样炼成的》

说说科研立项中的大跃进

围脖:一个人对抗一个世界,理性主义大师 Lenat 教授

《泥沙龙笔记:再谈 cyc》

围脖:格语法创始人菲尔墨(Charles J. Fillmore)教授千古!

百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng

冯志伟老师以及机器翻译历史的一些事儿

《立委随笔:微软收购PowerSet》

NLP 历史上最大的媒体误导:成语难倒了电脑

立委推荐:乔姆斯基

巧遇语言学上帝乔姆斯基

[转载]欧阳锋:巧遇语言学新锐 - 乔姆斯基

【科普小品:伟哥的关键词故事】

不是那根萝卜,不做那个葱

【随记:湾区的年度 NLP BBQ 】

女怕嫁错郎,男怕入错行,专业怕选错方向

据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率

【立委科普:美梦成真的通俗版解说】

【征文参赛:美梦成真】

【创业故事:技术的力量和技术公司的命运】

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

MT 杀手皮尔斯 (翻译节选)

ALPAC 黑皮书 1/9:前言

《眼睛一眨,来了王子,走了白马》

职业随想曲:语言学万岁

立委随笔:Chomsky meets Gates

钩沉:《中国报道》上与导师用世界语发表的第一篇论文

钩沉:《中国报道》上用世界语发表的第二篇论文

贴身小蜜的面纱和人工智能的奥秘

有感于人工智能的火热

泥沙龙笔记微博议摘要

【泥沙龙笔记:没有结构树,万古如长夜】

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

老革命遇到新问题,洪爷求饶打油翁

我要是退休了,就机器 parse 《离骚》玩儿


【语言学小品:送老婆后面的语言学】

456822675539882531

谁会误读?为什么误读?研究一下背后的语言学 and beyond。

双宾两个坑 human 默认的坑是对象 “老婆”是“送”的对象,这是正解。
对于心术不正的人 human 也可以填受事的坑,“老婆”跟礼物一样,成了“送”的受事。
这是 “送” 的歧义,到了 caption 里面的合成词 “送给”,subcat 有细微变化,就没歧义了。为什么 “送-个” 也没歧义呢?因为“个”是不定的,而对象这个角色通常是有定的。
这里面细说起来还有一摞的语言学。

(1)双宾句型的对象一般是有定的,不定的对象不是绝对不可以,譬如:
“我把一大批书送(给)一所学校了。”
“一所” 是不定数量词,作为对象。
汉语中的 “一+量词”与光杆“量词”通常认为是等价的,范畴都是不定(indefinite),后者是前者省略了“一”而得。但是二者并非完全等价。
对象这个角色默认有定(definite,虽然汉语没有定冠词),如果是有定,不可以省略“一”,或者说,不可以由带光杆量词的NP充当。
汉语句法里面可以总结出这么一条细则:带有光杆量词的NP只能充当直接宾语,不能充当间接宾语(对象)或其他。

(2)再看合成词 “送给” 里面的语言学。
汉语反映双宾概念的语词,常常可以进一步与“给”组成合成动词,意义不变,但注意合成前后的subcat的微妙变化:“送” vs “送给” (寄给,赠给,赠送给,等)
“送”的 subcat patterns:
(1) 送 + 对象NP + 受事NP: 送她一本书
(2) “把”受事NP+送+对象: 把一本书送她
(3)受事NP+送+对象: 这本书送她了
(4)送+受事NP: 送个老婆
(5)送+对象NP(human,definite):送(我)老婆。

请留心(4)和(5):两个patterns有相交竞争的时候,于是歧义产生。当“送+给”构成合成动词后,subcat 的 patterns(1)(2)(3)(5) 保持不变,而(4)基本失效(退出)了。说基本失效,是因为:虽然 “送给老婆”只能循 pattern 5,但“送给个老婆”(稍微有限别扭,但仍在语言可接受之列)似乎仍然需要理解为 pattern 4,这是怎么回事呢?
这就是语言的微妙之处:pattern 4 本来应该退出,因为“给”已经决定了后面是对象而不是受事;但是因为汉语有另一条很细但是很强的规则说,光杆量词的NP只能做受事,不能做对象或其他。在这两条规则(pattern 5的对象规则与光杆受事规则)发生冲突的时候,后一条胜,因此“送给个老婆”就不得不做 pattern 4 的受事解了。这叫规则与规则打架,谁胜谁输也是语言学的一部分,电脑实现的时候可以运用一个priority的机制来model。

上图还涉及一个常见的促销句式: 买NP1送NP2
买iPhone 6 送耳机
买 Prius 送三年保修
这个语用句式的存在,加强了NP2作为受事的可能性,使得 human 本来默认为对象的力量受到制衡。这似乎涉及语用与句法的交界了。

这些算是语言学。Beyond 语言学,也可以从文化上看这个误解或歧义的现象:

对于来自落后农村的人,老婆作为受事的理解几乎是理所当然,因为农村的封建落后使得娶不起媳妇的光棍汉太多,白捞一个媳妇的渴望诱使他们更多向受事而不是对象方面联想,何况手机对于他们是天价,卖肾才可得之,因此对于促销句式也就更加敏感。反之,对于一个知识分子或富裕阶层人士,“送老婆”可能更偏向于理解为对象。

就跟王若水老老年谈桌子的哲学类似,这则小品主要是想谈谈日常的语言学。哲学家满眼都是哲学,语言学家以语言学看世界。语言人人会说,背后的语言学却不是老妪能解。语言如水如空气,一般人熟视无睹了,语言学家来揭示。这是 real life linguistics,琐碎而不乏规律,似海却仍可见底。

【相关】

《立委随笔: 语言学家是怎样炼成的》

《朝华午拾》总目录

【关于立委NLP的《关于系列》】

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

【立委NLP频道的《关于系列》】

【立委按】有了这个《关于系列》,NLP有关的话,该说的已经大体说完了。以后再说,大多是重复或细节而已。有些论点可以不同角度说,关键的事情可以反复说,以信息的冗余试图保障信息传输的有效性和完整性。以前说过的,这方面立委有三个榜样,一律苦口婆心:第一是马克思,尤其反映在他集30多年功力未及完工的砖头一般厚重的《Das Kapital(资本论)》;第二是乔姆斯基,他对美国外交霸权主义和美国大众媒体的批判,絮叨了一辈子,万变不离其宗;三是老友镜子先生横扫万事万物,见诸立委主编【镜子大全】。都是菩萨心肠,把自以为的真知灼见(当然不是真理,也难免偏激)说给世界听。至少于我,说给世界听,但并不在乎世界听不听。老夫聊发少年狂,花开花落两由之。

关于 NLP 以及杂谈】                         专栏:杂类English

关于NLP体系和设计哲学】;               专栏:NLP架构

关于NLP方法论以及两条路线之争】 专栏:NLP方法论

关于 parsing】                                    专栏:Parsing

【关于中文NLP】                                   专栏:中文处理

【关于信息抽取】                                   专栏:信息抽取

【关于大数据挖掘】                               专栏:情报挖掘

【关于知识图谱】                                   专栏:知识图谱

【关于舆情挖掘】                                   专栏:舆情挖掘

【关于问答系统】                                   专栏:问答系统

【关于机器翻译】                                    专栏:机器翻译

【关于NLP应用】                                   专栏:NLP应用

【关于我与NLP】                                  专栏:NLP掌故

【关于NLP掌故】                                  专栏:NLP掌故

【关于人工智能】                                  专栏:杂类

 

【关于机器翻译】

 

【立委科普:机器翻译】

立委硕士论文【附录一:EChA 试验结果】

《机器翻译词义辨识对策》

【立委随笔:机器翻译万岁】

【河东河西,谁敢说SMT最终一定打得过规则MT?】

NLP 历史上最大的媒体误导:成语难倒了电脑

 

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于知识图谱】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【关于问答系统】

立委科普:问答系统的前生今世

《新智元笔记:知识图谱和问答系统:开题(1)》

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

《朝华午拾:创业之路》

【Bots 的愿景】

《泥沙龙笔记:怎样满足用户的信息需求》

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》

《新智元笔记:微软小冰,可能的商业模式(2)》

《新智元笔记:微软小冰,两分钟定律(3)》

新智元笔记:微软小冰,QA 和AI,历史与展望(4)

再说苹果爱疯的贴身小蜜 死日(Siri)

从新版iPhone发布,看苹果和微软技术转化能力的天壤之别

非常折服苹果的技术转化能力,但就自然语言技术本身来说 …

与机器人对话

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于知识图谱】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【关于知识图谱】

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

《新智元笔记:知识图谱和问答系统:开题(1)》

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义 2015-10-30

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

“大数据与认识论”研讨会的书面发言(草稿)

言多必露,文本挖掘可以揭示背景信息

大数据NLP论

【立委科普:所谓大数据(BIG DATA)】

文本挖掘需要让用户既能见林又能见木

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

 

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【语义计算沙龙:知识图谱无需动用太多知识 负重而行】

w:
@wei 现在做知识图谱是否大多是工程性的工作了?
漆:
做知识图谱不仅仅是工程
w:
我是觉得李老师,趟过情感分析的河,现在也许只是工程上的工作了
漆:
看你怎么理解工程
w:
同意,虽然没上手这个领域,但是感觉上不是简单工程上的
漆:
知识图谱本质上就是知识工程的一个分支而已,但是里面涉及到的技术还是蛮多的。至少现在深度神经网络,本体推理都用得上,还是有很多理论问题需要解决。
w:
那么,现在受制于那些主要问题呢
漆:
现在还有很多问题没解决,主要是特定领域的知识挖掘很难,特别是中文,很多资源都是缺乏的。而且现在的信息抽取算法精度不是很高,离实用还有一段距离,需要做很多dirty work 召回就更不要说了
w:
恩,觉得现阶段 准确率,胜过召回率 扎实做稳,逐步积累
雷:
对的
w:
就是中文标注的文本源太少
漆:
特别是事件抽取,好像没有谁可以做得很好 各种论文都是没用的 semantic parsing也没几个真正做得好的
w:
反过来说,还是Parser,质量不高的 李老师@wei 没有用上 语义parser,那是啊
漆:
我觉得不仅仅是一个parser的问题了,parser怎么可能做到完美呢 人类的自然语言就是含糊的 所以还是需要各种推理
w:
syntax parser 和semantic parser ,.应该不是严格分离的
漆:
数据清洗
w:
尽管李老师是主张parser 纯点
漆:。而且需要是context-dependent
w:
谈到推理,摊子就大了
漆:
还有常识知识
w:
我觉得专业领域的文本,是否使用推理情况少点,但是标注语料难求。
我:
唉 怎么说呢 让你们这么一议,知识图谱需要这个知识,那个推理,甚至常识,岂不寸步难行 遥遥无期了?照我说,其实没那么玄,有了靠谱的 deep parser,知识图谱的基础就打扎实了。知识图谱无需动用太多知识 负重而行。
漆:
专业领域会有很多业务规则的推理
我:
说了你可以不信
mei:
我也认为parser不够,还需要更powerful knowledge representation,再加推理,knowledge graph @漆
我:
不过还是可以说:中文事实抽取有啥难的 关系抽取有啥难的?
w:
哈!一个知识图谱,常识,推理,都来了,这掀起了NLP中的所有的锅盖啊
我:
这些基本事实的抽取就是小菜,如果与我们所做的 sentiment 做比较的话。客观语言的抽取工作 比起主观语言的抽取就是难度低了一个量级。
漆:
这个倒是 主观的更难
我:
如果因为论文中看到的抽取不靠谱 就断定抽取难的话 那是还没见到而已,不是不存在。
漆:
关系抽取还是可解的
我:
事件比关系的难度是一个水平级的 有了 deep parsing 就是一个玩儿。什么样的 deep parsing 可以让抽取成为玩儿呢? 就是我每天秀的这个 parser 就可以。它不完美 但足以支持抽取。
w:
相信@wei 几十载个功力,是可以处理相当的问题的
mei:
从抽取到推理都有一大步
我:
当然 秀出来的 parsing 结果仅仅是树结构,隐去了节点信息 抽取是在 arc+节点 两条腿上做的。推理另说。但没有必要把推理作为抽取的核心基础。倒是在知识图谱层面 有时需要一点推理。在抽取层面 无需严格意义的推理。最多是暗度陈仓引进一些零星的 ontology 的 taxonomy。
漆:
您现在的parsing还是单句的,如果是段落,有关系依存的句子,难道也是一样?
我:
parsing 都是单句的 抽取也是 一码归一码。
w:
在想,各种需求,如何结合得更好。一方面说现在没有好句法,另一方面,现在的句法好得很。这又都同时出现在本群中,如何衔接空隙呢?
mei:
单调的static predicate,knowledge graph之上加推理有很大一步。ontology也可以做成知识图谱的一部分,可离story understanding还差远
我:
到了做融合(fusion)的时候,需要跨句、跨段落、跨文章。
漆:
有些关系是跨句抽取的,如果只是单句抽取倒还好
w:
如果单句复杂得很话,也相当复句,或小段落了@wei 的大长句parsing 结果
漆:
是的
w:
同意@mei 可离story understanding还差远。我觉得现在篇章理解的初级阶段都不是,不能看论文的发表情况,看实用效果和市场产品,更为真实
我:
这里的问题是 story understanding 是一个什么任务?为什么产品或应用服务?如果抽象地说,understanding 很难,这是宇宙真理。如果具体到支持某一个应用,问题往往简化。譬如 如果知识图谱用来支持 entity 展示其中关系以及牵扯到的事件(所谓顺藤摸瓜),那么 understanding 与否 其实不会根本影响。
w:
story understanding,当然不一定是story,就我而言,我认为很重要,有产品需求。可以自动提取人类知识的规则,建立常识知识库,而不是手工CYC啊。
我:
CYC 也是如此,要 CYC 干什么用?抽象的说,常识及其常识推理是人类调动的知识手段,那么机器模拟人的话,自然也需要这个手段。但是具体到一个应用,问题不是这样的 因为很多应用无需常识就可以。
w:
来让机器认识我们周围的世界,有点常识,不要太机器
我:
CYC 叠床架屋一直得不到大用 根子就是只有它能做的事儿并不多。很多是,语言分析就可以做,常识也可以做,为什么要舍近求远呢?
漆:
CYC确实是用处不大
w:
当初研究 自然语言的目的,就是为了让机器思考,思考需要知识,知识来源于书籍(不限于),书籍需要表达,表达需要语言,—转了一个大圈,原来是卡在语言理解这块
漆:
不过常识知识还是很重要的,比如说,我们现在做地理知识问答,就需要很多地理常识知识 特别是空间知识
我:
QUOTE 三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能核心问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。 (《语义三巨人》)
mei:
CYC 都是手写的,很难实用。
漆:
挺有意思的一个博客
w:
常识是针对问题的常识,不是无边际的
我:
QUOTE cyc 是属于未来世界的。他的 cyc 探索必然在历史上留下足迹,未来的某一天,他会被人纪念。生不逢时吧,虎落平川。(一个人对抗一个世界,理性主义大师 Lenat 教授】)
w:
@mei 所以要自动提取。篇章理解好了,提取也就成了
mei:
所以很多实用是针对一个一个vertical的。同意。要也能自动。
w:
不赞同CYC手工,也不是长远事。语法是骨架,但是要真实世界的话,光语法是不够的
我:
094610c29n9t6heepp4891
(【立委科普:自然语言理解当然是文法为主,常识为辅】)
此图是要说明,只有 common sense 才能做的工作其实是很小的圈儿,而常识本身的形式化很难 很大 也很脆弱。
漆:
同意
我:
所以理论上万能的常识 实践中意义有限。
漆:
不过没有这个很多任务也不好完成
mei:
所以我说要knowledge representation 和推理
w:
同意常识很脆弱,不排除甚至走走就会自相矛盾。
我认为“常识本身的形式化”的最好形式就是自然语言。哪怕简洁自然语言,人人可懂,人人可修。自然滚雪球越走越大。否则,形式化这关就毙了。其他的三元组,都是不周全的。
我:
QUOTE 在自然语言处理的空间里,多年的实践使我们可以做一个宏观估计,大体说来,文法可以搞定大约80%的自然语言现象和问题,表现在图中就是绿色和棕色的区域。常识呢,因为常识系统很难建成,其应用尝试就更加艰难(这一点后面谈可操作性还要重提),我们其实不知道单单用常识、不用文法到底能解决多少语言问题。我们暂先给一个乐观的估计,假设它也可以解决约80%的问题,在图中用红色和棕色表示。绿色区域和红色区域所要说的是,语言中有少数现象文法可以搞定但常识搞不定,也有少数现象常识搞定但文法搞不定。
上面图示要传达的关键信息是,即便文法和常识都能搞定很多语言问题,二者必然具有相当大的重复面或论据冗余度(棕色区域)。这个推测应该是有道理的,因为文法可以搞定多数现象是可以证实的,笔者也多次经历过。那么常识如果可以大部搞定同样的问题领域,就必然与其大面积相交。
结论: 综上所述,规则系统中,文法为主的路子比起常识为主的路子要靠谱得多。无论规则系统还是机器学习,常识成为自然语言核心技术,既无必要,更无可能,后学谨记。作为科学家,你可以进军这一领域,但不要指望它在现实中开花结果。如果你要做工程,请绕开常识这个monster,你可以零星地收编一些常识,切忌陷入深不见底的常识(推理)系统的泥坑。
w:
@wei 这句话还是有印象。但是,发展的话,这是如何绕不过去的 就看谁来为,怎么为了
漆:
同意
w:
各位先聊,我这边忙,谢谢各位
白:
在投资领域,还是必须把常识进行到底的,哪怕手工做,只要价值在,时间够,就要往前推。没有常识的舆情都是耍流氓。
梁:
@w 赞成用“简洁的自然语言”,或受限语言,表达常识。
而且是 Domain Specific, 金融领域,明显可做。 另比如,tester 的语言是: Given-When-Then, 我很喜欢 Cucumber 语言。
w:
谢谢!
谢谢梁老师肯定,关于选用简洁语言做常识表示,当初也是基于知识库的长远发展性考虑的。
梁:
对呀,只要未来的小读者喜欢读它,愿意扩展它,这种语言可以 evolve. 它就活了。
w:
它也不是仅限于常识性的知识,对定义性知识,过程性知识,都可以。只要愿意参与,容易参与,多人来参与,确实就走活了。现在很多知识库为知识库而知识库,没用起来,再大也是静态的死库。
比如说有一个做一道菜的过程知识。描述语言先不多说,肯定人能懂也好改,机器明白几何不论,但能照做并做出菜来。那么后人看加点这个,加点那个,菜味有改善。又有人觉得一某个过程火候调一下更好,这样不断众人拾菜火焰高,这道菜就越发有发展了,发展到极佳。当然这共享知识,做菜机下载能用,参与“流通”,那么这做这道菜知识,就是活知识,当然也可能这知识发展饱合了,也是好事一桩,那说明这菜己炉火纯青了,人们可以考虑别的菜了。
知识块就这样一个点,一个小区域慢延展开来,随后形成某一个知识体系,可被调用的活知识。
梁:
对呀,a piece of knowledge, 人人可以参与,改它,更新它,微调它,download 它,使用它。
我:
难道 wiki 不就是如此而且成功了吗?连那么尊贵的大英百科 也不得不退让。
梁:
yeah, wikipedia 模式,但它的 business model, 它怎么赚钱?
w:
wiki的知识更多是面向人类的而非机器。机器理解不了,就消化不了,转化不成力量
我:
受限语言践行最久大概算波音了 但那是需要接受培训。
w:
接受培训这样的语言能传播多远?
我:
辅之以机器检查才能成事 天生就不是wiki一样开放给社区
w:
那种培训语言也就真只是“受限”语言
我:
不受限 那就采 wiki 模式 靠的是人编辑确保质量和一致性
w:
我认为是不自觉地参与进来,不觉累,没有义务,都有收益的编辑模式,就自然成风。中文的wiki规模就寒酸了。另外这种wiKi编辑模式,也有待改进之处。
@wei 李老师的规则描述可否走向普通人可编辑的方向?这样大家共建,走向查缺补漏的新天地
梁:
对呀,大家共建,共享,当然还要李老师培训把关。
w:
今天我和梁老师很有共鸣,是非常高兴的事。这边很晚了,再见!
梁:
原来在陈肇雄黄河燕老师的公司里做汉英系统,调句子,十几个女孩子一起干,调规则和字典。干得挺开心的。collaboration is great。:)
Good night
我:
最好是男女搭配 那就更开心。最后还是要一个掌舵人的指引和宏观保障,否则可能成为 over done 的系统 负载太重难以前行。微软前 nlp 组由着一帮语言学家做 系统庞大 如今基本废弃不用了吧 可惜了里面那么多语言学总结 不见天日。

【相关】

立委科普:自然语言理解当然是文法为主,常识为辅

语义三巨人

一个人对抗一个世界,理性主义大师 Lenat 教授

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

《朝华午拾》总目录

【语义计算沙龙:sentiment 中的讽刺和正话反说】

w:
看见前面的“降温”,这降温是何极性?
“本来就防寒措施准备不足,这不现在又要降温了。”
“他这几天高烧不退,还好刚才开始降温了。”
还有“降级”
“他这学期实在太差,学校对他实行了降级处理。”
“由防恐工作己经卓有成效,上面终于把防恐等级降级了。”
看这“随风倒”的词,在做情感分析,只看词的话也不大可靠。
我:
大小 多少 高低 长短 增减 之类 自身没有褒贬 根据它所修饰者而定
w:
这些中性词一看很清楚。降级这个偏向性应该很明显。
我:
那是。
降 中性。
w:

我:
级 级别 职称 等级 这些属于隐性正面词 在语言中被激发 被 increase、start or decrease、suspend 这类概念的词所激发。
w:
李老师研究是颇有心得啊!那存不存在褒义词贬义用,贬义词褒义用。
我:
当然存在 譬如讽刺 挖苦 自嘲 和 讥笑
w:
是的
我:
譬如 “谢谢你的完美误导”:“谢谢” 与 “完美” 的褒义 在“误导”前 转为讽刺 因此是负面
w:
呵呵! 那机器拿捏起来,就比较困难了。
我:
再如
“居然拿狐狸肉冒充牛肉上架 沃尔玛 你真行”
你真行 从褒奖转为讽刺贬义。
w:
例子,李老师也是随手拈来啊,这个”真行” -都是用坏了。这些应该是属于超一般文本的自然语言处理。觉得,在NLP 特别棘手这种讽刺,隐喻,借代,拟人之类的
我:
我过去五年就是陷在 sentiment 泥淖呢。
w:
好不容易搭配个语义模板出来,总那么多非法的都是合法的而且是高水平的修辞手法
这让机器莫名其妙,莫衷一是
我:
上面这样的正好反说有迹可循,有套路,小心一点,还是可以抓住的。做过 sentiment 后 事实抽取为基础的知识图谱就是小菜了。
白:
sentiment也是有结构的,仅仅正负面标签远远不够。
w:
同意白老师。独立标签
独立标签也许就如李老师之前所说的关键词
白:
“坑挖深了”有歧义,和不同预期有关。
原来挖浅了,现在按照要求深挖,可以交差了。这是一个意思。
没预期挖那么深,一不留神用力过猛,挖深了,是“过深”的意思。
【相关】

【关于舆情挖掘】

《朝华午拾》总目录

【一日一parsing:NLP应用可以对parsing有所包容】

白: “西方人类比用得少,是因为西方的逻辑学产生的早。”
t0614a
什么叫狗屎运?我的定义就是:
遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug 了,因为此例就没有 bug。
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。S 是主语,Subj 是主语从句。
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。对于汉语常见的 NP1+NP2+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2)[S + Pred] +Pred
when the second element can be Pred (V, A, or deverbal N)
(3) [Mod + S] Pred
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness
顺便做个广告,承蒙高博协助,立委 NLP (liweinlp)频道 再张大吉:
liweinlp.com

【相关】

关于 parsing

【关于中文NLP】

《朝华午拾》总目录