【李白宋88:再谈量词搭配与名词短语自动解析】

白:
“所谓印太区域自古以来就是一个印太国家间互相交流、学习、融合的平台。”

一个-国家,赋予国家单数特征,与“间”矛盾。一个-间,不搭配。所以只好 一个-平台。这是利用subcat相谐性的传导来排除不合适的量词搭配。

李:
这么做量词搭配 感觉不大合算 实现繁难 还容易错。对于普适性量词如 “个” 和 “种” 最大的heuristic 是最大跨度原则 有更有效的实现办法。

先说老办法容易错。容易错 源于相谐的软性要求 和 排除法 的脆弱性。举个例子:

“我们可以建造100个印太国家间互相交流、学习、融合的平台。”

利用 “间” 的相谐 颇不容易。最大跨度原则最简单而且有效的实现就是 见到 “一个” 先挂起来。 然后 该干嘛干嘛 等定语从句 和 其他乱七八糟的前置修饰语都扫荡干净了 一头一尾 拼接一下就完了 无需额外发力。所谓原则 必有漏洞 一定可以找到反例。但比起一个一个的相谐排除法 感觉可靠性更大 更符合国人的表述习惯。国人特别喜欢用这种跨度很大的左右边界搭配的np:

一个 blah blah 又 blah blah 的 N
这种 blah blah blah blah 的 N

写着写着 突然觉得似曾相识 好像就这个量词话题 在某个时间点 说过几乎完全相同的话 相似的论点和论据。 懒得查了 也不好查 这种感觉很真切 说明聚焦一个领域唠嗑 免不了会有车轱辘话 也说明一个人的观点很难轻易改变 尤其是实践中提炼出来的观点。

汉语中框式结构很值得利用。量词结构是一,前置词后置词搭配是另一个常见的框式结构。

白:
不搭配和搭配是不对称的。不搭配一票否决,搭配就近解决,这两个原则一点都不矛盾。

李:
“一个间 还是 两个间?”

一票否决如何鲁棒呢?这里牵涉好几个层面的方法论问题:

第一 我们说的是强搭配还是弱搭配,“个” 与 “种” 通常被认为是弱搭配,基本上是一个名词的标配。

第二 维护搭配词典是一回事,维护不搭配词典 又增加了一个维度和工作。前者是系统标配知识 后者要不要费那费力气 可以讨论。

白:
一个间,有反例吗?可以探讨。遇到一个+NP+间,中间推理过程可以省,记住最终结果(NP+间结合,一个留下不结合)就ok。推理过程离线做,最终结果在线用。

李:
强搭配一票肯定 基本不错。如果要考虑更细致的话 大概是如果有多个强搭配 最大跨度胜出。不过 这已经有点吃力不见得讨好了,因为二分法的强弱搭配 忽视了强弱的连续性。强不搭配 如果维护的话,可以考虑一票否决。弱搭配 或 弱不搭配 还是不如最大跨度。

白:
维护不等于人工维护。

李:
“间” 是方位词 属于后置词。n+间 基本上是 PP,做状语为多,通常还到不了要与量词纠缠的环节。

宋:
@wei 说的框式原则,或者说括号原则,应该是认知层面的规则,应适用于各种语言,确实有用。

白:
间是催化剂,自己不参加有关量词的反应,但偶尔可决定量词搭配的方向。就如“张三与李四的婚姻”当中的“婚姻”,决定了“张三与李四”是序偶(ordered pair)还是列表(list)。后者有分配性,前者没有。“鲁迅的书不是一天能读完的”通过谓语部分的周遍性补语“完”,确定话题主语“鲁迅的书”是“例”还是“类”。都是这个道理。不一定亲自下场子,但对别人的subcat特征取值有决定性影响力。特征不是专门为句法一个任务抽取的(否则确实有是否值得的问题),如果背后有N个任务等着要特征,搂草打兔子,何乐不为。

李:
做量词搭配很多时候是醉翁之意不在酒。怎么讲?我们知道,最常见的量词词组是不定量词组 “一个”、“一种”、“一类”、【一+量词】或有定量词组“这个”、“这种”、“这类”、【这/那+量词】。这些量词组本身语义很虚,除了不定有定的语义(大体上是英文冠词的语义)外,量词本身几乎没有意义(汉语用量词的地方,对应到英语往往是空白),它附着对了或错了,对其头名词的语义解读影响不太大。但是,量词组对于名词短语(NP)起到了左边界的作用,因此量词与右边界头词(head word)的搭配,这种框式结构,对缺乏形态的汉语搞定NP这种最基本最常见句子成分,具有非常重要的形式指征的作用。

从框式搭配结构的角度看量词处理,我们发现,对于比较长的往往内含定语从句的名词短语,人在交流的时候也利用了这个搭配,总是先来一个量词组,等于是跟听众说,注意,我这里给你打左括号了,下面我要说一个具有N多修饰语的实体名词了。换句话说,如果没有量词搭配这种形式标识,为了交流的顺畅和避免歧义,国人不会这么经常地使用长NP。

鉴于此,在短语抱团的浅层解析过程中,善用量词搭配,在最大跨度原则的范围里,容忍某些“出格”或不和谐的修饰语,是解决长NP的非常有效的know-how之一。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白洪87:人工智能,真的该让这样的哲学家走开】

李:
白老师在朋友圈转了一篇题目很吸引眼光的《人工智能研究中的“母语意识”刍议》,看了一半 看不下去,太经不起推敲了。 原来是哲学教授 社会科学战线的。难怪。(说这话总有点对不住我社科院母校的感觉。)

白:
量词携带语义标签,与“条”搭配的一般是两维差不多短、一维明显长的物体。所以,苗条品种的狗(狼狗、牧羊犬等)论“条”,臃肿品种的狗(京巴等)论“只”才是地道的。要想挑战远距离相关的量词搭配,必须把干扰项放在合适的句法位置才有意义,文中构造的“条-狗”搭配虽然隔了21字之远,但干扰项“只”却并不处在合适的句法位置,也许正常的词法或句法处理就可以把它消化掉,从而起不到任何干扰作用。

李:
他是假设量词搭配的实现者没有 parser 和 合适的分词系统,盲目寻找最近的直接量搭配。哲学教授的这种人工智能评论 让人啼笑皆非。文中似是而非 漏得像筛子一样的论点还有不少。譬如 常识的自然语言偏见,要说常识与文化偏见还有可能有那么一丝丝纠缠的可能的话,说自然语言偏见带入常识 就扯太远了。他还举例说计算机语言因为用了英语的一些词汇符号,因此也带入了英语偏见,这真是匪夷所思的论点。计算机语言的本性已经使得其词汇系统对任何自然语言偏见脱敏了。至于借用英语还是借用数字编号,不过就是个助记符的考量而已,与偏见何干?

洪:
@wei 作者徐英瑾 复旦哲学教授,最近也写过篇评价尼克ai简史的文章

李:
@洪涛Tao 徐教授怎么评价的?无论臧否,凭他上文那样的见识,忍不住想到的就是,歪评三国。

谈人工智能,还是人工智能专家靠谱。哲学家 企业家 媒体人士 包括名人(霍金等) 很多不值得认真对待。最近有:CCCF:周志华 | 关于强人工智能 ,周教授这篇言简意赅 是人工智能专家的科学普及。

洪:
徐英瑾评《人工智能简史》︱人工智能,真的能让哲学走开吗?_上海书评_澎湃新闻

李:
哈哈, quote:“该书的第九章《哲学家和人工智能》主要就是为了挤对哲学家而写的,特别是为了挤对那些对人工智能有话要说的哲学家。这很大程度上也是基于国内大多数理工研究者对哲学的某种深刻的偏见,即:咱们的地盘,哲学家少插嘴。”

看完了。这个长篇评论蛮好玩,作为拼命要介入AI的哲学家的百般自辩,首先气势上矮了半截。@Nick Zhang 终于惹怒了哲学,而且在哲学界得到了免费marketging的效果。

这样见识的哲学家 挤对都多余了。但愿还有其他的哲学家高人在。读到最后,我倒是同病相怜地欣赏他的结句:“一切逆风而行者的坚定,均来自对风向转变的信心。”  但仅此一句而已。

 

【相关】

【关于人工智能】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【语言学随笔:从缩略语看汉字的优越性】

董老师给了一个有趣的例子,发现对于汉语灵活的构词法带来的新出现的类似四字成语的简练表达,所有的巨头机器翻译系统都错得离谱:

“东方日报的上述评论说,以黑护商、以商养政、以政庇黑,警匪共治的恶劣政治生态,已经在一些地区出现。”

这里面很多表达法(以黑护商、以商养政、以政庇黑,警匪共治)蛮新的,很像是缩略语带来的新成语, 人还没来得及做翻译样板让机器学,机器自然一头雾水。神经机器翻译的亮眼成就本质上还是人工翻译的成就,人工没翻译过的,再牛的机器翻译也抓瞎。其实 这些新成语人理解没问题 翻译还是费思量。等优秀翻译琢磨出来最好的翻译 并在新语料中出现足够多次 相信机器很快就取法乎上 比翻译平均水平高 是可以期待的 (以前说过,成语的本质是记忆 而记忆电脑是大拿 人脑是豆腐)。问题在语料的搜集更新和重新训练能不能赶上新词涌现并流行的速度。

我自己来尝试翻译一下这里面的成语:

以黑护商、以商养政、以政庇黑,警匪共治

To protect businessmen by using black society
To sponsor politics by businessmen
To protect black society by politics
To maintain social order by police as well as black society

不知道及格否

郭兄说,@wei 我看不及格凡此种种十恶不赦之罪状,被你又是protect又是maintain,还有 sponsor 全漂泊了。中文四个字四个字的,那个味道,也被翻译得荡然无存。

可不是吗,用的都是正面动词(通常描述功能 benefit statement),至少不负面,而原句都是负面行为,满拧,肯定不及格。不急 总有高人会信达雅翻译出来,结果机器远超我 是铁定了 虽然我也学了一辈子英语和语言学。

想起来当年,“抓纲治国” 是我英语口试前遇到的难题(1977年高考口试,抓纲治国的翻译困境 在我的一篇 《朝花》 有记),后来发现官方翻译是:grasp the key link and run the country well,现在回看,绝对算不上高明 四字新成语的味道尽失。今天想了半天 终于为华主席的抓纲治国想出来一个可能更好的译法。请比较:

新华社翻译是: grasp the key link and run the country well
提议改成:Grasp the key manage the C

如果问什么意思,就解释说:Chairman Hua was following late Chairman Mao’s political ideology on class struggle, but at the same time he wants to boost the economy.  So he phrased his new strategy as above, which means we should grasp the key-link of class struggle and hence manage the country well,

类似套路的缩略语新成语层出不穷,老的有:

五讲四美 (讲文明、讲礼貌、讲卫生、讲秩序、讲道德; 心灵美、语言美、行为美、环境美)
(哈,试了一下有道翻译,是:Five speakers four U.S.)

Five F’s and four B’s
5 focuses and 4 beauties

focus on manners, focus on courtesy, focus on hygiene, focus on social order,  focus on morality;
beauty in mind, beauty in speech, beauty in action, beauty in environment.

三要三不要
3 do’s 3 don’ts

要搞马克思主义、不要搞修正主义;要团结、不要分裂;要光明正大、不要搞阴谋诡计
follow Marxism, do not follow revisionism;
unite, do not split;
be fair and square, do not play tricks

一带一路
官方翻译是: one belt one road

不得其解,昨天才搞明白是中国倡导 由中国带头 沿着古丝绸之路 开发新的经济贸易开发区 一方面帮助消化过剩的产能 一方面带动区域经济 实现共赢 让区域内国家分享中国经济高速发展的火车头效益 从而树立中国崛起的和平领军形象。

感觉还有更多也许更好的选项 反正是成语 反正光字面形式 谁也搞不清真意 总是需要伴随进一步解释 不如就译成:

一带一路 ===》 one Z one P (pronounced as:one zee one pee)

怎么样,这个翻译简直堪比经典翻译 long time no see (好久不见)和  “people mountain people sea” (人山人海)了。认真说,Zone 比 Belt 好得多。

One zone one path.
One zone one road.
New zone old road.
New Silk Road Zone.

感觉都不如 one Z one P 顺口。

缩略语方面 一般而言 英语不如中文灵活多变而且不重样 汉字作为独立词素载体的优越性突显了。英语缩略语也可以非常灵活 任何常用的ngram术语 都可以用首字母缩略 简直太自由了 但由于字母的本性不是词素 而是临时借来代表词素 而且一共才有26个字母形式 结果是英语的缩略语造成的重复歧义 多到了成为行业黑话的程度。

ABC 可以是 (i)美国广播公司;(ii)人工智能 大数据 云;(iii)字母表的代称;(iv)起码知识;…… 以及另外一千种可能性。从术语到缩略语是直通道 多对一 反过来一对多则把人搞死 也无法快速查对搞定 徒增记忆负担。

汉字缩略语的撞车现象 则急剧减少。虽然汉字缩略语也需要词典绑架才能真正搞清原意 不大能从字面意义去蒙 但第一,望文生义比两眼一抹黑 让人体验好;第二 也是更重要的是,基本没有歧义的缩略语查找方便 随时可以查对绑架和纠正语义误差。比较:

共党 vs. CP
中共 vs. CCP
解放军 vs. LA
人民解放军 vs. PLA (其实“人民解放军” 中文完全可以缩略为 “人解军”)

为什么英语不能学中文 用词素 而不是用字母 来做缩略语呢?主要原因是英文合成词里面的词素 不如 汉字词素 独立 没有汉字词素的灵活性:一个汉字往往对应多个词素语义,在缩略语的场合,汉字还有“变色龙”的词素特征,就是说 一个汉字可以临时扩展自己的词素语义 临时代表这个汉字本来不具有的语义。这后一个特征 英文缩略语里面的字母也同样具有(临时代表的功能),但英语的问题在字母集太小 比汉字少了两个数量级,这个表达能力的优越性被其不可避免的歧义性完全遮蔽,反而成了流弊。与汉字词素大体对应的英语词素的平均长度大约四个字母 突然退到一个字母来代表 可见问题的严重。

汉字使成的这种灵活的缩略语构成法在流行的网络语中被推向极端,譬如:普大喜奔(普天同庆、大快人心、喜闻乐见、奔走相告)。这类有点过分了,几乎转变成完全的黑箱子了(类似黑话 行话了),但即便如此,也比英文用首字母缩略的手段高明,因为起码这种东西没有歧义,一查词典即可理解。

当然英语也可以变通,交叉使用字母和词(素),来多少规避一点缩略语歧义的缺点。People’s Republic of China 的缩略语 PRC 就远不如混合式 PR China,上面的“抓钢治国”(grasp key manage C),“一带一路” (one Z one P),也是这个策略的体现。

把汉语归类成孤立语,总是带着点贬义似的,应该叫 独立语。词素极少不独立和自由的,因此构词特别灵活多样能产。口语中的词素音节 落实成汉字以后 又因为汉字形式比起语音形式的更具有沉淀性 加上汉字数量远多于音节数量使得汉字的表意性更少障碍(望文生义比听音生义更容易)使得其构词能产性和灵活性跨越了时代和地域。虽然说 语言学中 作为标记体系的汉字系统 常被认为是第二位的 不过是语言词素的一个载体而已,但汉字的确对汉语有一个非常正面的跨越时代和地域的反作用。汉字的这些方面的优越性是有根据的。

 

【相关】

【李白刘董85:汉字优越吗?】

【语义计算:李白对话录系列】

《朝华午拾》总目录

谷歌SyntaxNet是“世界上最精确的解析器”吗?

【立委按】老友郭兄盛赞自动有道翻译,说强过我常用的谷歌神经翻译。于是小试一次,翻译一下我自己的英语博客,除微量技术性编辑外,基本保留原译。以飨同仁。

我们都知道,自然语言解析相当复杂,在自然语言理解(NLU)及其应用中起着重要作用。我们也知道,一个突破到90%以上,解析的准确性接近于人类的表现,这确实是一个值得骄傲的成就。然而,按照常识,我们都知道,如果没有任何附加的范围或条件,你必须有最大的勇气来宣称“最”,除非得到了吉尼斯等权威机构的认可。对于谷歌宣称的“世界上最精确的解析器”,我们只需要引用一个系统来证明它是不真实的或具有误导性的。我们碰巧建了一个。

很长一段时间以来,我们知道我们的英语解析器在数据质量方面接近人类的性能,并且在支持真实生活产品方面是健壮的、快速的和扩展到大数据的。对于我们采取的方法,即语法工程的方法,这是主流统计分析以外的另一种“学派”,这是基于架构师的设计和他几十年的语言专业知识的自然结果。事实上,我们的解析器在5年前就达到了接近人类的性能,在收益递减的时候,我们决定不再大量投资于它的进一步开发。相反,我们的关注点转移到它的应用上,支持开放领域的问题回答和对我们的产品以及多语言空间的细致深入的情感分析。

几周前谷歌发布了SyntaxNet,我受到了来自我的许多同事,包括我的老板和我们的营销主管的各种渠道的消息轰炸。所有这些都提请我对“NLU最新突破”的关注,似乎暗示我们应该更加努力地工作,努力赶上这个巨人。

在我自己看来,我也从来没有怀疑过,另一学派在深度解析上还有很长的路要走,才能赶上我们。但我们处于信息时代,这就是互联网的力量: 来自一个巨人,真实的或具有误导性的新闻,均会立即传遍全世界。所以我觉得有必要做一些研究, 不仅要揭示这个领域的真实情况, 但更重要的是, 还试图教育公众和来到这个领域的年轻学者,一直存在也将永远存在两个学派,在NLU和AI(人工智能)领域。这两个学派实际上有各自的优点和缺点,它们可以是互补的,也可以是混合的,但是一个不能完全忽视或替代另一个。另外,如果只有一个方法,一个选择,一个声音,特别是NLU的核心,比如解析 (以及信息提取和情绪分析等),那么这个世界会变得多么无聊,特别是当大众“所青睐的方法”的表现还远不如被遗忘的那个方法的时候。

因此,我指示一位不参与解析器开发的语言学家尽可能客观地对这两个系统进行基准测试,并对其各自的性能进行一个苹果到苹果的比较。幸运的是,谷歌SyntaxNet输出语法依存关系,而我们的也主要是依存解析器。尽管在细节和命名惯例上存在差异,但在语言判断的基础上,结果并不难对比和比较。为了使事情变得简单和公平,我们将一个输入语句的解析树分解成二元依存关系,并让testor语言学家判断; 一旦有疑问,他会向另一位高级语言学家请教,或者被认为是在灰色地带,而那是很罕见的。

不像其他的NLP任务,例如情绪分析,在那里有相当大的灰色区域空间或标注者之间的分歧,解析结果其实很容易在语言学家之间达成共识。尽管两个系统(输出示例如下所示)所体现的格式不同,但在两个系统的句子树输出中对每个依存项进行直接比较并不困难。(对我们来说更严格的是,在我们的测试结果中使用的一种被称为“下一个链接”的修补关系在测试中并不算合法的句法关系。)

SyntaxNet输出:

Netbase 输出:

基准测试分两个阶段进行。

第1阶段,我们在新闻领域选择了英语形式的文本,这是SyntaxNet的强项,因为它被认为比其他类型的新闻有更多的训练数据。在新闻分析中公布的94%的准确率确实令人印象深刻。在我们的示例中,新闻并不是我们的开发主体的主要来源, 因为我们的目标是开发一个领域独立的解析器来支持各种类型的英语文本对于真实文本的解析,譬如从社交媒体(非正式文本)做情感分析, 以及用科技论文(正式文本)解析 来回答“如何”的问题。

我们随机选择了最近的三篇新闻文章,其中有以下链接。

(1) http://www.cnn.com/2016/06/09/politics/president-barack-obama-endorses-hillary-clinton-in-video/
(2) Part of news from: http://www.wsj.com/articles/nintendo-gives-gamers-look-at-new-zelda-1465936033
(3) Part of news from: http://www.cnn.com/2016/06/15/us/alligator-attacks-child-disney-florida/

以下是分析上述新闻类型的基准测试结果:

(1)谷歌SyntaxNet: F-score= 0.94。
(P为精度,R为召回,F为精度召回综合指标)

P = tp/(tp+fp) = 1737/(1737+104) = 1737/1841 = 0.94。
R = tp/(tp+tn) = 1737/(1737+96) = 1737/1833 = 0.95。
F = 2 *((P * R)/(P + R)]= 2 *((0.94 * 0.95)/(0.94 + 0.95)]= 2 *(0.893/1.89)= 0.94

(2)Netbase解析器: F-score = 0.95。

P = tp/(tp+fp) = 1714/(1714+66) = 1714/1780 = 0.96。
R = tp/(tp+tn) = 1714/(1714+119) = 1714/1833 = 0.94。
F = 2 *((P * R)/(P + R)]= 2 *((0.96 * 0.94)/(0.96 + 0.94)]= 2 *(0.9024/1.9)= 0.95

因此,Netbase 解析器在精度上比谷歌SyntaxNet好了约2个百分点,但在召回中低了1个百分点。总的来说,Netbase比谷歌在F-score的精确-召回综合指标中略好。由于这两个解析器都接近于进一步开发的收益递减点,其实没有太多的空间来进行进一步的竞争。

第二阶段,我们选择非正式文本,从社交媒体Twitter来测试一个解析器的鲁棒性看处理“退化文本”: 很自然,退化的文本总是导致退化的性能 (对人类和机器), 但一个健壮的解析器应该能够处理它,数据质量只有有限的退化。如果一个解析器只能在一个类型或一个领域中表现良好,并且性能在其他类型中显著下降,那么这个解析器就没有多大用处,因为大多数类型或领域没有像资源丰富的新闻类型那样有大量标记的数据。有了这种知识瓶颈,解析器就会受到严重的挑战,并限制其支持NLU应用的潜力。毕竟,解析不是目的,而是将非结构化文本转换为结构的一个手段,以支持不同领域中各种应用程序的语义支持。

我们从推特上随机选择100条推文进行测试,如下图所示。

1.Input: RT @ KealaLanae : ima leave ths here. https : //t.co/FI4QrSQeLh2.Input: @ WWE_TheShield12 I do what I want jk I ca n’t kill you .10.Input: RT @ blushybieber : Follow everyone who retweets this , 4 mins

20.Input: RT @ LedoPizza : Proudly Founded in Maryland. @ Budweiser might have America on their cans but we think Maryland Pizza sounds better

30.Input: I have come to enjoy Futbol over Football

40.Input: @ GameBurst That ‘s not meant to be rude. Hard to clarify the joke in tweet form .

50.Input: RT @ undeniableyella : I find it interesting , people only talk to me when they need something …

60.Input: Petshotel Pet Care Specialist Jobs in Atlanta , GA # Atlanta # GA # jobs # jobsearch https : //t.co/pOJtjn1RUI

70.Input: FOUR ! BUTTLER nailed it past the sweeper cover fence to end the over ! # ENG – 91/6 -LRB- 20 overs -RRB- . # ENGvSL https : //t.co/Pp8pYHfQI8

79..Input: RT @ LenshayB : I need to stop spending money like I ‘m rich but I really have that mentality when it comes to spending money on my daughter

89.Input: RT MarketCurrents : Valuation concerns perk up again on Blue Buffalo https : //t.co/5lUvNnwsjA , https : //t.co/Q0pEHTMLie

99.Input: Unlimited Cellular Snap-On Case for Apple iPhone 4/4S -LRB- Transparent Design , Blue/ https : //t.co/7m962bYWVQ https : //t.co/N4tyjLdwYp

100.Input: RT @ Boogie2988 : And some people say , Ethan ‘s heart grew three sizes that day. Glad to see some of this drama finally going away. https : //t.co/4aDE63Zm85

以下是社交媒体推特的基准测试结果:

(1)谷歌SyntaxNet: F-score = 0.65。

P = tp/(tp+fp) = 842/(842+557) = 842/1399 = 0.60。
R = tp/(tp+tn) = 842/(842+364) = 842/1206 = 0.70。
F = 2 *((P * R)/(P + R)]= 2 *((0.6 * 0.7)/(0.6 + 0.7)]= 2 *(0.42/1.3)= 0.65

Netbase解析器: F-score = 0.80。

P = tp/(tp+fp) = 866/(866+112) = 866/978 = 0.89。
R = tp/(tp+tn) = 866/(866+340) = 866/1206 = 0.72。
F = 2 *((P * R)/(P + R)]= 2 *((0.89 * 0.72)/(0.89 + 0.72)]= 2 *(0.64/1.61)= 0.80

对于这些基准测试结果,我们将它留给下一个博客来进行有趣的观察和更详细的说明、分析和讨论。

总而言之,我们的作为真实产品基础的解析器在正式的新闻文本以较小的领先 (不到两个百分点,两个系统其实都已经接近专家的性能),在非正式文本中以15个百分点的巨大优势,均超过了谷歌的研究性系统SyntaxtNet。因此,可以肯定的是,谷歌的SytaxNet绝不是“世界上最精确的解析器”,事实上,在适应现实生活中的各种类型的现实世界英语文本时,它还有很长的路要走,才能接近Netbase解析器。

有道翻译 http://fanyi.youdao.com/  自动翻译自我的领英博客:
https://www.linkedin.com/pulse/untrue-google-syntaxnet-worlds-most-accurate-parser-wei-li/

 

[Related]

Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open

Is Google SyntaxNet Really the World’s Most Accurate Parser?

K. Church: “A Pendulum Swung Too Far”, Linguistics issues in Language Technology, 2011; 6(5)

Pros and Cons of Two Approaches: Machine Learning vs Grammar Engineering

Pride and Prejudice of NLP Main Stream

On Hand-crafted Myth and Knowledge Bottleneck

Domain portability myth in natural language processing

Introduction of Netbase NLP Core Engine

Overview of Natural Language Processing

Dr. Wei Li’s English Blog on NLP

 

【李白86:这是最后的斗争?】

宋:
“严正指出”中,“严正”有歧义;“严正说”中,“严正”无歧义,一定是人名。

李:
宋老师观察真切。这里面有什么说法 怎样实现?

“说” 挖了个 【human】 的坑,人名就跳进去。“指出”也挖了个 【human】的坑, 所以,“严正”作为可能的人名也可以跳进去,是为歧义。

但作为副词的 “严正” 为什么可以修饰 “指出” 不可以修饰 “说”呢,虽然二者是同一个动词子类。通常的说法是,搭配使然。搭配说的是比类别(包括子类)颗粒度还要细微的词汇之间的语义相谐。“严正” 就是喜欢修饰 “指出”, “指出” 就是喜欢被 “严正” 修饰,对上眼了,之间有化学。这个倒也不罕见 也有词驱动的实现方式。难点(或痛点)在为什么 “严正” 不可以修饰 “说”?

相谐的事儿 一般认为是软约束,能谐自然好,不能特别谐的话,也可将就着,凑合一辈子的夫妻有的是。难道我们不仅仅要记住搭配,还要记住不搭配?实现的话, 就是有无必要,既有搭配的白名单,也要有不搭配的黑名单(谁谁与谁谁就是互相看不上 不共戴天)?开了这个黑名单的口子 无疑给电脑处理 也给人脑记忆增加了负担 到底必要性如何?

当然 还是大数据好说。如果大数据玩得转 容易无缝连接的话,大数据中 “严正指出” 就是个 4 gram 出现频次很高,而 “严正说” 频次很低。但怎么知道 前者是歧义 后者不歧义?

“严正指出” 频次高 因为副动组合出现多,外加少量的主谓组合。“严正说” 频次低 是因为副动组合在这里遭遇不搭配陷阱,只剩下少量的主谓组合了。这些东西不是没有统计根据 但要理清这些 感觉好难。

白:
这里的搭配是词对词的,而不是特征对特征的。比如“老实讲”就没有办法为“严正说”的可接受性做任何贡献。虽然前者在大数据中频次不低。

李:
是 搭配说词对词。
词与词搭配 背后的关系怎么解?无监督大数据看得见搭配,看不见关系,除非变成有监督 让人标注。如果 a 与 b 搭配 只有一种可能的关系,当然就无需标注。有两种 单看统计就难。

白:
有词典就可以看得见subcat,用不用subcat,(词对subcat或者subcat对subcat)由什么决定。

弹钢琴、弹琵琶、弹三弦、弹吉他、弹曼陀林

李:
打-酱油,吃-亏,…… 这些都是搭配,不用讲道理。

白:
这又离合词了。离合词不需要subcat。但是系统性的词对标签或者标签对标签,不一样。你词典里都有了,就是个拿来用的问题,也不用讲道理。

李:
所有词对词搭配 离合不论 都是词典绑架,要不要一个不搭配词典?里面全是例外 是黑名单。好比两人结婚前请八卦先生算命,看相克不克 如果克夫或克妻,坚决不能成婚。

标签对标签 就是抽象语法条例。我们都知道那种东西就跟筛子一样 到处是眼,但没有它也不行。要鲁棒 要召回 就要靠它。

白:
不要人来写

李:
于是可以把颗粒度变细,在抽象条例周围 ,前堵后补。也可以在条例里面 做黑名单约束 用逻辑与加逻辑非, 难看一点 但管用。词对标签同理,如果引入黑名单,也可以。这样来看 似乎没有必要单单来个 词对词的黑名单(不搭配词典)?

白:
否定的统计判断,是排除歧义用的。当没有歧义可以排除,这种东东还应不应该起作用,值得怀疑。

李:
我也怀疑。回到原问题:问题1,是 要不要考虑加一个不搭配词典。问题2是,无监督情况下 统计上相谐的词 如果有歧义 统计本身如何消歧?理论上 后者也不是非监督就束手无策了。理论上,通过对类似的但不歧义的词与词的统计数据作为参照,可以计算出歧义词的歧义程度和歧义偏向,甚至不排除可以通过某种 propagation 来无监督地消歧。

白:
就算没标记,还可以根据embedding干点啥,还可以协同推荐。

李:
哈 正是我想说的。
现如今 embedding 就好像上帝之手,啥事儿都可能,什么戏法都难保变不出来。

今天路上与郭老师还在说这些神奇事儿,翻译如今也不需要平行语料了,就在两个独立的语言语料里面训练,然后把句子一 embedding,二者就相互翻译了。(据说,一个双语的儿童就是这么学会两种语言,并自然切换或翻译两种语言的,儿童并不需要有翻译样板才学会翻译。)

更神奇的是 翻译两端也不一定是自然语言, source 可以是语言,target 可以是图片,反之亦然。根据啥 ? embedding。这么神奇的媒介语表达 难怪人看不懂,人脑只能看懂 symbolic 的东西。

embedding 到底是不是真的这么神奇美妙 先放一边,问题是其不可解释性 看不懂 怎么办 怎么掌控 怎么纠错。郭说 谁让你看懂了?看懂了的东西怎么可能神奇?蚂蚁看得懂人类语言吗?人类读得懂上帝旨意吗?

也许我们天天鼓捣这些看得懂的符号逻辑,算计来 算计去,全部是瞎操心,最多也就是过家家 儿戏一样。

想想怪悲凉的。

白:
咋改抒情诗了?

李:
30年前入行的时候 我们语言所有三拨搞 AI 相关的,每一拨都是中国AI的开山人物(现如今的中国AI史似乎抹去了这一页,其实这些老教授都是让人景仰的大师):

第一拨是我的导师 两位刘先生 搞规则mt的,第二拨是范继淹先生的自然语言理解,是传统 AI 那套常识推理的符号逻辑,第三拨是语音合成,吴老先生和杨顺安。 当年听马老师同学杨国文学姐介绍范先生小组的那套AI符号逻辑,心里很不以为然,觉得常识和推理很不协调,推理链条又显得太小儿科了,太脆弱(fragile)。无法与我们同属符号逻辑派的mt规则路线比,我们这边不用常识用语言学,接地气多了,而且分析语言也深入多了。那种 AI 果然没成气候 几乎绝迹(很长时间 AI 成了一个笑话),规则派苟延残喘 算是活下来了,但退一步想 我们当年诟病试图利用常识推理的AI符号逻辑,也许就是(或者还不如)50步笑百步呢。符号也许根本就不是必要的手段,更不必谈什么两派大团结大融合。国际歌很悲壮 说这是最后的斗争,等价的说法就是 这是垂死的挣扎—— 如果世界的本质根本就不是符号的话。

白:
世界本质是波粒二象性

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白刘董85:汉字优越吗?】

李:
想到一个事儿,关涉词素这个议题,语言学基础课里面已经说得清清白白。但在大众认知中,甚至在专业人士的讨论中,还是常常概念不清。表现在那些流行的“汉字优越论”的各种演讲中。

汉字优越论因为与文化自信和民族自豪感搅合在一起,天然政治正确,因此无论怎样拔高、夸赞,无论符合不符合语言学基本原理,都容易大行其道 深入人心。其中最流行的说法是,几千个汉字可以表达的概念,比几万个英文词汇表达的概念,还要丰富。

这种说法不能说完全没有道理,但本质上似是而非,经不起语言学基本面的推敲。

要害在,这是苹果与梨子在比较。

汉字是语言材料的最小单位,是词素(又叫语素,morphome)。英文词汇表中的词不一定是最小单位,里面也有复合词(compound:black-board),也有派生词(work-er)。如果是词素与词素比较(这才是 apple to apple comparison),语言之间在数量上的差别绝不会如此悬殊。上面的 blackbooard(黑板)和 worker (工人)就不是两个单独的单位,而是跟汉字一样,一一对应,应该分解为四个语素。

正确的符合语言学常识的说法是,几千个常用的汉字对应西方语言几千个词素(词根或词缀),它们可以合成几万个常用词汇,代表了日常语言中所需表达的概念的绝大部分。

这样一来不就是半斤八两了吗。显现不出汉字的优越性,还是心有不甘。

其实,真要深究,还是可以更加合理地为汉字优越找到一些语言学的根据,而不是人云亦云地拿自家的“字典”(词素表)与人家的“词典”做粗暴比较。

虽然世界上演化这么多年到今天的主要语言,无论东方西方,无论汉藏还是印欧,在这个信息飞速流转的地球村,都有足够的语言材料来表达所需要的概念了,但是汉字为词素的中文还是有一些额外的方便。这额外的方便可以算在汉字优越头上,只是要表达清楚这个优越性,需要一些语言学。

比较英语的词素(词根 词缀),汉字为词素的中文,其造词法更具有产生性。

换句话说,国人可以更轻易地“造词”。这也可能是缺点,反正语文老师对小学生“生造词”一直是很不以为然的,过犹不及。他们的责任就是约束学生的造词能力,怕学生没必要地造出太多的词出来,行文不规范。但是,原理上说,这是语言的灵活性和适应性的体现,应该算是优越的语言学特点。

今天听中文网络广播,听到一个超出我的词汇范围的词(术语叫OOV,Out of Vocabulary,其边界因人而异,我的OOV词对于我来说就是“生造”词)“区隔”(后来查了万能的互联网,发现是一个被共同体已经接受的词),因为这词于我是第一次听到,我愣了一下,但很快就从汉字及其关联词汇(“区分”、“分隔”)意会到其语义。这说明什么,说明汉字组词有很强的随意性(明明有常用词“区分”,也不妨再造一个几乎完全等价 的词来),对于听者和说者的顺畅交流通常不构成障碍。增加的是灵活性、多样性,以及从灵活性而来的新鲜感(谁愿意老“墨守陈词”)和从多样性逐渐带来的细微差别(nuance)。

为什么同为语素,汉字组合成词,比起英语语素组合成词,更加能产呢?

要起床了。先停下,以后再聊(老话说,且听下回分解……)。

刘:
@wei 我对汉字优越论也持怀疑态度。不仅仅是你说的原因。我觉得汉字的表义性对词义的理解有好处也有坏处。好处当然是可以减轻学习新词的负担,看到新词也容易猜测意思(如你所说英语词素也有类似作用)。但从另一方面来说也会带来坏处,就是容易望文生义。有些词义仅从字面解释容易造成误导,另外一个坏处我觉得是带来翻译的困难,这一定程度上阻碍了外语新词的传入。

白:
“电脑”的命名跟汉字的优越性不知道有没有关系。

刘:
前不久还见周志华在微博上吐槽把Robot翻译成机器人使得这个词在中文里面的意思发生了变化

白:
还有,intelligent和smart都翻译成智能,中国凑AI热闹的人群一下子大了好多。

魯:
嗯嗯,Robot建议翻译成“若博”,信达雅…. 哈哈哈哈

白:
“肉薄”貌似也可以。

董:
把翻译中出现的瑕疵或缺陷,都算在汉字的“不优越”头上,欠公平。别人也许会举出“可口可乐”、“出水芙蓉”等来说“优越论”。其实,一种语言都有自己的特点,有好的地方,也会有不足的地方。汉语重义,英语重形。在思考和研究语义时也许可以更多地借重汉语。

姜:
有个机构试图把“Internet”翻译成“因特网”并强力推广,但大家都不认,都觉得叫“互联网”好。“互联网”易于理解,不必另造新词,民间其实也早就一直这么说了。

李:
@刘群 很同意,这正是我想要说的。

构词的灵活是很大的优点,也有副作用。不过,正反比较,我还是觉得,好处大于缺点。我这么说,除了源于汉字这个现象的思考,还源于我对世界语构词法的观察和研究。柴门霍夫对于构词法的设计,与汉字构词非常贴近,但更加“优越”。其结果是,学会几千个语素以后的世界语者,都可以随心所欲造词。副作用是,每一个造了新词的人,都留下了争论的空间。

根子在:新词所对应的概念到底是黑色的(必须最终通过词典注册来绑架),白色(透明)的(完全是compositional),还是灰色的(介于二者之间)?

譬如,电脑不叫 komputero,可以临时造一个词 叫 kalkul-ilo(calculator),留下的争论空间就是,你到底是指的 “电脑” 还是 “计算器”?

再如 筷子不叫 kuaizio,可以生造为 “mangh-ilo”(用餐工具),留下的争论空间就是,到底是 “筷子” 还是 “刀叉” ?

白:
我觉得望文生义出现误差是免不了的。

李:
对啊。
好在在说话的现场,这些误差和副作用会自然消解,所以,富有造词法灵活性的语言 譬如汉语和世界语,还是长处大于短处。对于严谨的场合,譬如学科论文 专利文书,这种灵活的透明造词法,常常让位于黑箱的新词,所以专业术语最好是音译(等价于生词)或直接用外文,或者起码在透明翻译后面再括号里注明外语的等价物,凸显其黑箱子特性。因为是黑箱子,留下的争论空间没有了。必须先给这个新词做一个定义,杜绝了望文生义的可能性。

白:
临时词就没有是否“地道”一说了。比如“马桶抽子”,是不是一定叫“抽子”不重要了,指出是疏通工具,就够了。

李:
所以,我同意董老师,汉字的表意性,及其汉语的自由度很大的造词法,大面上看是一个很大的长处。不求甚解,一般比两眼一抹黑好,至少对于人这点可怜的脑记忆量。到了电脑,再大的词汇都不是问题了,但词典是要“绑架”才有定义的,这个绑架的工作就不得了。好在最近有个深度神经的好东西,word embedding,有点神奇,可以在定义绑架这件事儿上发力。前提是那些个生词要有足够的大数据垫底。

白:
辅助望文生义的话,战斗机器人叫“肉搏”,对话机器人叫“若博”,那啥机器人………、

李:
需要的不是带标大数据,本质就是 clustering ,非监督的,所以还不真正构成太大的知识瓶颈。原理上属于 propagation,自动从有知推展到无知。

白:
非监督是正解

董:
说到翻译,还有“马桶”。一个不好的翻译例子是“抽水马桶”(flush toilet)–别误解为用来抽水的、像抽水机那样的用具。因为V+Nde结构,多数可以是用来V的N.

白:
往里抽不是往外抽

李:
马桶幸好是常用登录词,每个人的词典都内在绑架了,所以看上去透明的,其实是黑箱子。万一一个老外新学汉语,或者一个儿童第一次接触,就糊涂了,这与 马 这个词素有什么关系呢?

白:
@wei 跟“扎马步”不知道有多少关系。

李:
马桶为什么不给马用 而是给人用呢?好处是半透明,即便老外不懂为什么有马在里面,起码能蒙对这是一个桶一样的物件。

沙发 和 软椅 也是如此。后者黑箱子,必须扩大词汇量。前者不用,但。。。

白:
从“马拉松”到“半马”“全马”“北马”“厦马”,洋词儿变地道的土词儿了。
不是捆绑那么简单,有内生的能产性最恐怖了。

李:
“半马”“全马”“北马”“厦马”等,对于我还是要登录(记忆)捆绑才能理解。大概谁开始说 大半马,也许我们不用捆绑也悟出来了。

白:
捆绑+派生+简化.

有了例子,后面就是泛化了。京巴,也有点这个感觉,其实“大巴、中巴、小巴”究其根源也是这种类型。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【语言学随笔:汉字优越吗(1)?】

想到一个事儿,关涉词素这个议题,语言学基础课里面已经说得清清白白。但在大众认知中,甚至在专业人士的讨论中,还是常常概念不清。表现在那些流行的“汉字优越论”的各种演讲中。

汉字优越论因为与文化自信和民族自豪感搅合在一起,天然政治正确,因此无论怎样拔高、夸赞,无论符合不符合语言学基本原理,都容易大行其道 深入人心。其中最流行的说法是,几千个汉字可以表达的概念,比几万个英文词汇表达的概念,还要丰富。

这种说法不能说完全没有道理,但本质上似是而非,经不起语言学基本面的推敲。

要害在,这是苹果与梨子在比较。

汉字是语言材料的最小单位,是词素(又叫语素,morphome)。英文词汇表中的词不一定是最小单位,里面也有复合词(compound:black-board),也有派生词(work-er)。如果是词素与词素比较(这才是 apple to apple comparison),语言之间在数量上的差别绝不会如此悬殊。上面的 blackbooard(黑板)和 worker (工人)就不是两个单独的单位,而是跟汉字一样,一一对应,应该分解为四个语素。

正确的符合语言学常识的说法是,几千个常用的汉字对应西方语言几千个词素(词根或词缀),它们可以合成几万个常用词汇,代表了日常语言中所需表达的概念的绝大部分。

这样一来不就是半斤八两了吗。显现不出汉字的优越性,还是心有不甘。

其实,真要深究,还是可以更加合理地为汉字优越找到一些语言学的根据,而不是人云亦云地拿自家的“字典”(词素表)与人家的“词典”做粗暴比较。

虽然世界上演化这么多年到今天的主要语言,无论东方西方,无论汉藏还是印欧,在这个信息飞速流转的地球村,都有足够的语言材料来表达所需要的概念了,但是汉字为词素的中文还是有一些额外的方便。这额外的方便可以算在汉字优越头上,只是要表达清楚这个优越性,需要一些语言学。

比较英语的词素(词根 词缀),汉字为词素的中文,其造词法更具有产生性。

换句话说,国人可以更轻易地“造词”。这也可能是缺点,反正语文老师对小学生“生造词”一直是很不以为然的,过犹不及。他们的责任就是约束学生的造词能力,怕学生没必要地造出太多的词出来,行文不规范。但是,原理上说,这是语言的灵活性和适应性的体现,应该算是优越的语言学特点。

今天听中文网络广播,听到一个超出我的词汇范围的词(术语叫OOV,Out of Vocabulary,其边界因人而异,我的OOV词对于我来说就是“生造”词)“区隔”(后来查了万能的互联网,发现是一个被共同体已经接受的词),因为这词于我是第一次听到,我愣了一下,但很快就从汉字及其关联词汇(“区分”、“分隔”)意会到其语义。这说明什么,说明汉字组词有很强的随意性(明明有常用词“区分”,也不妨再造一个几乎完全等价 的词来),对于听者和说者的顺畅交流通常不构成障碍。增加的是灵活性、多样性,以及从灵活性而来的新鲜感(谁愿意老“墨守陈词”)和从多样性逐渐带来的细微差别(nuance)。

为什么同为语素,汉字组合成词,比起英语语素组合成词,更加能产呢?

要起床了。先停下,以后再聊(老话说,且听下回分解……)。

 

【李白王董84:再谈POS迷思,兼论 PennTree 的误导】

王:
动词名化确实不好处理的难办事,以前做词性标注,准确辛率不高,就栽在这,n,v,vN上了,还有区别词b。当然现在语法理论,一个小小助词“的“就有管住核心谓词的能力,使之由V变N。

白:
A、“粉红凤凰”,B、“红绿色盲”,C、“真假和尚”。
A、粉修饰红,粉红修饰凤凰。
B、红绿并列,但并不是用本意的叠加修饰“色盲”,而是用不能区分这两种颜色来定义色盲的具体类型。
C、真假并列,通过分配律把共享中心词“和尚”送给二词修饰,表示“真和尚、假和尚”。
修饰成分间的关系很不简单呢。

李:
我对 b 的第一解读是 c 的并列
看了讲解才悟出来 也许还有 nuance
感觉差异已经细微 微妙到很少需要在意区分的程度了

@wei wang 中文中的所谓动词名物化 nominalization
很大程度上是一个伪问题 一个语言学迷思
强加到 POS 模块 作为其难点 更是一个自找的麻烦
工作 学习 睡眠 吃饭 下雨 打雷
这些词 类别很清晰

王:
@wei,对此我也迷惑

李:
(逻辑)动词 万变不离其宗 没有 POS 区分的必要性

Wang:
这点我同意李老师。所以,我说现代语法理论,是否需要调整一下?只是不敢妄论。
如果都能走对,倒无妨,就怕转得有对有不对,就确实是问题了

李:
在 POS 先于句法的通常架构里
把句法的不同用场 强加到 POS 标签去 是真实世界的天下本无事 x人自扰之。
真有好好的路 硬是自己挖个坑 然后就自己跳进去 然后抱怨路不平。

王:
当然,我现在已经跨越POS这个,不使用POS而直接走句法了。不过对别人而言,这词性标注依然存在。即便标注,我也认为动词体征的,就一直动词体征走向去,比较好。

李:
汉语语法学界上世纪50年代的词类大争论,大争论当年没争出结果来,是时代的局限。

王:
我的看法是,也不去争论。

李:
词无定类(“词无定类 入句而后定”)走向一个极端,无法服人,但其思想有闪光之处。

王:
而是拿到系统中去跑,能跑得好的,自然就是好的,至少这正是我们所需要的

白:
结构强制在技术上一点不复杂,问题是算句法还是算词法,但这都不是技术问题,是旗号问题。旗号与我何干?

王:
至于语言学方面,那是另外的一回事

李:
对于具有 consistent ambiguity 的词,
本体上就是无定类,但是一说“词无定类”就扩大化了,以为所有词都是必须要句法,要上下文,这就陷入了鸡和蛋的死循环,当然不能服人。
这个迷思从哲学上不难看穿。可是实践中却坑了人太多 太久 而且还继续在坑人。

王:
@白硕 说的是,确实不是技术问题

李:
如果一个东西 在有些场景下看着是 红色 有的场景下看着是 黑色
自然的结论就是给个 X 的本体标签,让 X 统辖 红 黑 两个标签,至少这个信息的外延是清晰的,是红黑的区域,不是蓝 不是绿 不是紫 等等,这才符合事实 恰如其分。

王:
这是否分两种情况?
1)本来是多义词,兼有多种词性的;2)已经定了就一种(比如纯动词),走着走着,变了,

李:
不说多义词。多义词(细微差别不算)那是两个词,凑巧长得一样了,其归属自然也可能不同。

王:

李:
只说 2)
2) 没有 POS 半毛钱的关系。
汉语中的 POS 任务中 纠缠了几十年,原来一开始就把任务定义错了。

王:
请问,那么怎么“ X 统辖 红 黑 两个标签”

李:
对于我们讨论的动词名物化,这个 X 就是 V,可以读成逻辑动词。这个 V 是词典给的,没有歧义,何用区分?

王:

李:
到了结构里面做了主语或者宾语,它没有改变 V 的本性:词义没变,归属自然也没变。所改变的是句法 role。

王:
同意

白:
没有X统辖那么简单。以“出版”为例,被赋予了动词特有的零碎,比如加“不”,仍然可以再通过“的”强制为名词;但是反过来,已经被名词特有的零碎强制过的,不可能再被强制回动词。
本性是动词,强制为名词,然后就凝固了,不接受变回动词的再次强制。

李:
没问题啊。
这些个细节 与标签没大关系,标签还是 X。只要词义不变,标签就没有道理变,这是本体 taxonomy 决定的。词义变了,标签有可能变。在同一个词义下给不同的POS标签,对于汉语这样缺乏形态的语言,是不合理的。

王:
我的看法是,不去改变词性
这本书的出版,—-出版依然是动词,—可以看作是一个成句中谓词
这个成句,是一个小句(子句),可以做主语,或宾语,这样,句法上也顺上了,而且,词性也没去改变

李:
换句话说,汉语这样的语言,POS 应该用的是逻辑类

白:
问题是啥叫词义变。“真孙子”里面的“孙子”,我感觉词义变了。

李:
世界上所有的语言的词汇,都有逻辑类。这是语言共性。但是形态语言 在逻辑类之上,经常使用形态变换,把逻辑类穿上不同的衣裳。穿得好的话,可以脱离场景做句法。例如 俄语,morphology 很大,句法就简单了。极端来说,别说 POS 标签,就是本质上是上下文结构决定的 role,也可以脱离上下文 在词上反映:宾格就是宾语 role。

王:
同意@wei 在同一个词义下给不同的POS标签,对于汉语这样缺乏形态的语言,是不合理的。

白:
填坑使用的不应该是逻辑类,应该是角色。比如“这本书的出版怎么没通知我”当中,“这本书的出版”填坑时就是N。“这本书出版怎么没通知我”当中,“这本书出版”填坑时就是S。

王:
这本书的出版—-看作一个小句 ,小句也相当于名词作用。出版–作为一个事件出现
事件—>没通知我。

李:
填坑不外两点:
1. 句法上要的是什么形式(包括标签或子类,或直接量),这是输入条件;2. 语义上是什么 role,这是输出角色,是“理解”的形式化。不能混淆输入和输出。输入条件用逻辑类,没有问题。句法的工作,起点就是词典信息。逻辑类是词典信息的重要方面,是词典本体信息体系里面层级最高的那几个标签。

白:
但,“通知”的内容那个坑,就必须是个X,混儿。见人说人话见鬼说鬼话。

李:
“出版”的坑:
(1)第一个坑
输入条件:publication (本体链条属于逻辑名词)
输出角色:【受事】

(2)第二个坑:
输入条件:human_or_organization
输出角色:【施事】

这才是 “出版” 的真实面貌。至于语言应用中,上述类似 HowNet 定义出来的 subcat pattern, 应该如何松绑输入条件 来应对鲁棒与活用,那是另一层面的勾当。

王:
就是说,不能因为一个“的”字,把本来清晰骨架,垫走了样。

李:
“通知”的坑:

(1)
输入条件:thing_or_event

(这就是白老师所谓变色龙,其实本体链条上,不过是在逻辑n与逻辑v上,再抽象一个统辖的 n_or_v,thing 就是逻辑名词的通俗表述,event 就是逻辑动词的通俗表述)

输出角色:【content】

(2)第二个坑是施事【谁】
输入条件:human (具体语言还有格、词序、介词类的条件制约)
输出角色:【施事】

(3)第三个坑是对象【向谁】
输入条件:human (具体语言还有介词、格、词序类的条件制约)
输出角色:【对象】

回来总结一下:坑里面使用逻辑类或者逻辑类下辖的子类 甚至 直接量(等价于具体词义搭配)是天经地义的。至于这些条件的松绑,所谓 preference semantics 那是语言应用中的窍门。为了鲁棒必须松绑,松绑会一步步从具体逻辑子类,向高层的逻辑类去。

王:
同意李老师

李:
HowNet 是独立于语言设计的,它的最上层 top 节点 其实就是逻辑类,event 就是 v
thing 就是 n。其实还应该再往上走一步,thing_or_event,但反正有 OR 算符,所以走不走也无所谓了。

白:
可以看成一个lattice,and就低不就高,or就高不就低。

李:
HowNet 其实是两个东西在里面。第一个是本体,董老师对人类认知和常识体系的总结和设计。第二个是语言落地(汉语,英语,……)。这第二步是通过给汉语词汇标注 HowNet 本体标签的方式实现的。这时候的本体已经落地到具体语言了。

白:
修饰语隐含的被修饰语和真实的被修饰语做or

李:
PennTree 在英语NLP中已经很多缺陷,时代的局限,误导了很多人。

白:
总感觉HowNet不完全满足这个架构

李:
PennTree 的那一套标准用到汉语更是误导,不如直接用 HowNet 来作为标准。

白:
想都不要想,肯定不会用PennTree

李:
至于选取 HowNet 顶层或者中上层的哪些标签作为中文 POS 的任务,可以再议。POS 选得细了,就几乎等价于 WSD 任务了(事实上,白老师很多时候在讨论中就是把二者看成同一回事儿,道理很显然,WSD 说的是词义区分,词义的taxonomy 链条就是逻辑词类)。

王:
现在很多评测都是以宾州树库来做基准的。我也想过,就算那个F值即便很高,那么真实应用就是那么高的吗。

李:
HowNet 在语义领域可以独树一帜,能够站得住,相信也能够经受时间,其中原因之一,是由于董老师是中国人,讲的是“裸奔”的汉语。裸奔的汉语与逻辑最贴近,有自然的亲密关系。这对排除语言的干扰,从逻辑的高度审视语义,有天然的好处。如果要讲中国人对世界文明作出自己的独特贡献,HowNet 可以是一个代表。

王:
李老师对其他语义词典是如何评价?

李:
哪些?

王:
比如wordnet ,同义词词林

李:
早就不用 WordNet 了,麻烦比好处多。擦不完的屁股,以至于用了两年后,不得不全部推翻,宁肯自己零敲碎打,不完备,增量积累做语义标签,也不愿意陷入 WordNet 泥坑。

王:
主要是想说直接是树状,而非网状的这类

白:
标签体系必须是DAG

王:
分类体系做得不好,还是后期建设不好,比如冲突出现?

李:
其实 WordNet 是可以改造得好一点的 好用一点的,但只听说有人说改造,但没见到有人愿意坐冷板凳去真地改造它。

白:
标签体系的数学基础,一是type theory,一是lattice。lattice解决单类型的上下位问题,type解决复合类型的构造问题。

王:
上下位好理解,这复合类型就不好理解了,请白老师讲解

白:
@wei wang 带坑呗

王:
明白了,我还以为复合类型,穿插把不同上下位的分支。又结成了网

白:
上下位是为不带坑的type准备的,带坑的都是复合type。

王:
@白硕 带坑是一个词带n个坑,这几个坑是另外的词

白:
@wei wang 对的

王:
是否有的词,本身就自己萝卜和都带了,这样的词如何分类?比如一些成语

白:
标签也分层。微结构,比如“扫地”,合起来是一个坑,微结构又可析出一个萝卜一个坑。

李:
subcat 既是子类(atomic 的标签),也蕴含了潜在的结构pattern,说 vt 其实是说有这类动词子类 挖了个宾语的坑。

白:
地不扫,何以扫天下

王:
@白硕 那看成一个整体,仍在统一分类体系,

李:
HowNet 开始用的时候也有问题(有些问题与 WordNet 类似,没那么严重),给董老师反映过。问题的根源在 董老师需要一个逻辑完备自足的义元体系,为了这个自足和完备,标注的时候就务求细而全。

HowNet 中的一个个单字的标签特别丰富,特别细,把这个字(词素)各种可能语义都反映了,甚至包括只存在于 idiom或合成词 中的词义。这其实给使用带来很多噪音。我一开始是试图 删减。后来发现对于单字的标签,删不胜删,最后决定索性单字的标签不用。要用的自己临时增量式加入,宁肯 under labeling,不能 over

王:
@wei “后来发现对于单字的标签,删不胜删,最后决定索性单字的标签不用。”
单字,是义原的核心,就是不用单字最基本的,而直接使用信息能独立的,更有代表性?更便于处理?

李:
不好用啊。很多汉字 看上去不过一两个词义,结果里面标了五六个词义,仔细想 确实都存在。但是用起来就是眉毛胡子一把抓了。

王:
嗯,我觉得建造体系可以这样建,想怎么用就是应用来选了

李:
如果这五六个词义的确都是自由语素的词义,虽然统计上出现频率不同,但逻辑上这样标注没有问题。但有些词义从来不作为自由语素的语义出现,只存在于合成词中,那就没有理由标注了。这个问题,董老师后期版本有了 config,可以筛选。做了弥补。这个问题在 WordNet 中更严重。

王:
嗯,谢谢李老师,白老师的解答。时间不早,明天上班,我先拜拜。

李:
晚安 @wei wang

王:
晚安!真的我还没聊够的感觉,特别是,语义分到什么类别,很关键,对系统有很大影响,也深有体会

白:
据我的经验,先别说具体类别,先说长什么样,更容易把握。数学上什么样,计算机里什么样。实体、属性、关系、值,这是一个层面。事件是另一个层面。时间空间因果模态,又是一个层面。知网中很先知先觉地引入了“变关系、变属性、变状态”等事件子范畴,相当高明。真的很赞.

董:
讲一个真实的故事。1988年由日本发起的五国机器翻译项目正在进行。在一次饭桌上,日方的项目负责人内田裕士谈起该项目的语义研究落实问题是说:”这个项目的语义研究,是不是请中方负责,具有中华文化背景的人对于语义有更高的敏感性。”
只是觉得只要由中方来负责,总归是好事情。我就表示同意了。可是对他的那句有关“中华文化背景”的断语,还真没有完全理解,但饭桌上也不适合讨论下去。后来时隔近20年,内田先生来北京,那次我们只是几个人一起吃饭。我问他:“你还记得20多年前,我们在讨论MMT的语义研究时,你说过一句话。你说’具有中华文化背景的人更适合做语义研究吗?我一直想问你你为什么会这么说呢?’”
他说的很简单:”因为是你们有汉字”。那时候我已基本完成了HowNet的研究和开发。HowNet正是以汉字为理念依据的。前两天我跟李维讨论。说到洋人不懂汉语,跟他们讲深了他们不理解。

白:
这些要是落在知识图谱里,不得了。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白宋83:点评 “人工智能的诗与远方”】

Me:

NLP:人工智能的诗与远方
好像是白老师的最新指示。刚在微博看到。金句连珠,隆重推荐。行文如流水,简洁 干净 深刻。

无论使用什么样的句法分析技术,有一点必须明确,就是句法本身是不自足的。细粒度描述的句法不具备鲁棒性和可行性,而粗粒度描述的句法往往必然带有伪歧义。

“粗粒度描述的句法往往必然带有伪歧义”没疑问,为什么“细粒度描述的句法不具备鲁棒性和可行性”?是的,细粒度描述的句法不具备完备性,但鲁棒性与细不细的关系何在呢,可行性就更可以商榷了。

细颗粒的极致就是“词专家”,没有看到不鲁棒或不可行的问题,就是琐碎,劳动量大,概括性弱。

“句法本身是不自足的”,是反乔姆斯基的论点,反得好。但与鲁棒和可行不是一类概念。白老师自己给的简要定义是:鲁棒性(对灵活语序和修辞性失配的适应性)。

鲁棒与规则层级体系(hierarchy)关系大,与规则本身的颗粒度关系小。语序说到底是(显性)形式条件,语义适配(语义相谐)也是(隐性)形式条件, 所有的形式条件都有弹性(优选语义),可松可紧,这就是层级安排因而鲁棒的根本原因:紧的条件精确但不鲁棒,松的条件鲁棒但不精确,配合得好,就可以又鲁棒又精确,或者至少维持在一个兼顾鲁棒和精准的准入门槛之上。

白老师的《NLP:人工智能的诗与远方》值得咀嚼。标题好文科、浪漫。但这是一篇严肃的高阶科普。一如既往,白老师的文字,举重若轻,高屋建瓴。

wang:
在我看来,李老师最后这一段描述,和白老师对句法所描述的,是一致的,并不矛盾。只是选的视角不一样罢了。完全同意李老师的弹性适应,这一点我也是这样做到

白:
1、琐碎到不合算就是不可行;2、一头扎进细粒度,一定会失去对灵活语序和修辞性失配的宏观把握;3、分层就是在粒度方面保持弹性的good approach之一。顺便说一句,这个是节选版本,原稿比这干货多得多。

李:
原稿在哪?

wang:
期待白老师,合适时机放出

李:
1. 琐碎到不合算其实很少存在:
如果是狭窄domain(譬如天气预报),琐碎是可行的,也就谈不上合算不合算。

白:
狭窄 domain甚至不需要deep parsing

李:
如果是 open domain,几乎没有琐碎单打一的。总是在一个大的框架下(better,层级体系的设计中),利用琐碎(细颗粒度)做增量修补。

白:
这就是分层了

李:
换句话说,琐碎不可行,最多是一个吃饱了不饿的真理。这也就回答了第2个问题:一头扎进去,单打一,做系统没人这么做。

白:
不是人人如伟哥般真理在握的。从外面搬来开源系统就想比划的不知道有多少,伟哥这是高处不胜寒。

李:
“3、分层就是在粒度方面保持弹性的good approach之一”, I cannot agree more

期待看原稿:这篇稿子太过简洁,很多地方真地是点到即止。

好,再精读一遍,摘录一些当面请教白老师,摘录可classify 为:1. 可圈可点;2. 可商榷;3. 没看懂

鉴于自然语言丰富地表现了人类的认知、情感和意志,潜在地使用了大量常识和大数据,自身在算法和模型上也多采用各种启发式线索,目前一般均把自然语言处理作为人工智能的一个分支

“算法和模型上也多采用各种启发式线索”:heuristics?

白:

李:
这个总结直感上很精到:无论什么模型,规则也好,统计也好,联结也好,其实都是反映 heuristics,英语没问题,汉语读者大概搞不清“启发式线索”的不在少数,这个术语以前论过,从来就没有好的译法。

白:
启发式这个翻译,在中国大陆的大学里正式的人工智能课程里应该是比较通行了的。

李:
第一张图,机器翻译和人机接口作为NLP的现实代表,很合适。但什么叫“纯人机对话”?

白:
就是没有任何grounding的人机对话。

李:
哦,以前是玩具 bot,现在是聊天机器人,将来可以落地(grounding)到老人陪护或心理疏导。

落地艰难:非良定义

什么样叫非良定义?点解?
不能完备定义,只能例举,或就事论事?

白:
说不清标准,说得清答案。ill-defined
知道输入对应什么输出,但不知道依据什么得到输出。

李:
我其实想问:这里想说明什么?是说NLP落地很难,主要是因为目标不明确吗?

白:
非良定义和落地艰难是并列关系不是因果关系。

李:
这句赞 赞:对于各种自然语言来说,大体上占到2型的很少但很不规则的一部分,但部分现象呈现上下文相关性,会在局部对2型有所突破。这就是笔者所说的“毛毛虫”现象。

其实2以降“很少”到几乎可以忽略(或绕道而行)。“突破”一般不必是着力点。

0型语言是翻译为“递归语言”吗?文法上,0 型是短语结构文法。这个其实也很 confusing,因为层级体系是蕴含关系的:3 也属于2,1和0,但窄义或另义的 PSG或短语结构图,是相对于 DG 而言,PS 是 constituency 的同义词,讲的是“兔子吃窝边草”的路数,而不是 DG 的兔子不必吃窝边草的逻辑跳跃的路数。

白:
PSG的原始定义就是0型。窝边草是对的,但窝边草怎么来的有玄机。把一堆窝边草重写为另一堆草,这就是0型。

李:
从语言类型学角度,一般而言,PSG 适用语序相对固定的语言,英语、汉语等;DG 适用自由语序的语言(如 俄语)。0 型 从复杂度角度,不是没有章法么?爱怎么整都行。因此,最有章法的正则自然也属于0型,有限制的一定落在没有限制之内。

白:
只是对重写有不同的限制,依据都是窝边草

李:
但学习这个层级体系的不少人,可能本能地把层与层隔绝在互不包含的院墙里(也许只是文科生容易这样陷入?)

白:
这篇文章不是讲给没学过类型分层体系的人的。计算机专业学过形式语言与自动机或编译原理的都应该不陌生。

李:
不懂:“实际上,鉴于欧氏空间具有良好和丰富的数学工具可用,语言/文本的向量化努力是跨越统计和联结两大阵营的”。

不过,这不是行文的问题,应该是受体的知识缺陷,可能讲解了还是不懂。

白:
欧氏空间这段,详解被删了。统计的典型是LSI,联结的典型是词嵌入。

李:
word embedding 最近体验了一点,是有点神奇。

可圈可点:这段时期之所以NLP既远离“人工智能”的招牌,也远离“计算语言学”招牌,是因为人工智能招牌在当时并无正面贡献,而语言学家在经验主义范式下不得施展甚至每每成为负担。

这是对历史的精确描述。AI 曾经像个丑小鸭(或瘟神),人人避之不及。计算语言学名不副实或有名无实,久矣。

白:
原来这杆旗下的人还要继续混日子啊

李:
后面一段是革命乐观主义和浪漫主义,蛮鼓舞人心的:

深度学习技术以摧枯拉朽之势横扫语音、图像识别和浅层自然语言处理各类任务,知识图谱技术为语义知识处理走向各行各业做好技术栈和工具箱的铺垫,人工智能招牌强势的王者归来已经在所难免,自然语言处理技术也自然地成为了这王者头上的王冠。这是因为,语音和图像识别大局已定。自然语言处理已经成为一种应用赋能技术,随着实体知识库的构建、知识抽取和自动写作在特定领域的实用化和对话机器人从对接语料到对接知识图谱的换代,正通过新一代人工智能创新创业团队,全面渗透到人工智能应用的各个角落。

其中强调两个支柱:(i)深度学习的算法;(ii)知识图谱的表示。
其实有点格格不入:前者是经验主义的极致,后者是理性主义的表现;前者显得高大上,后者显得平庸但实在。

白:
所以波粒二象性啊

李:
by the way, “对话机器人从对接语料到对接知识图谱的换代”这是在下目前的重点课题或挑战。

知识图谱的概念被谷歌炒热以后,其实稍微拔高一点看,没有多少“新意”。不过就是“结构化”的具象而已,结构的图示(visualization)化、大众化而已。图谱早就植根在乔姆斯基符号体系以及其他种种语义流派的传统里,通过MUC的信息抽取的语用落地,导致谷歌利用搜索把它活生生展示给亿万受众,激发了大家的想象。

白:
而且只是一小部分。被删掉的部分讲了哪些地方是“一小部分”不能涵盖的。

李:
对的,被炒热的知识图谱就是结构化中的一小部分。也是最简单的一部分。知识图谱是很平民化的东西,讲到底就是一个烧钱烧资源的知识工程。典型代表就是一个多少亿的三元组,还不如 tree bank,从数据结构看。更不如各种规则 formalism,最简单的产生式规则也有 if then。

白:
挑战性的东西不少,看不到就没办法了。不能光看表达力,还要看技术栈、工具箱。后者丰富前者贫乏,仍可以做大事情;前者丰富后者贫乏,只能做玩具。

李:
是 是:“后者丰富前者贫乏,仍可以做大事情;前者丰富后者贫乏,只能做玩具。”

自然语言处理从浅层到深层面临范式转换,还处在对接情感计算与常识计算的战略性要地的关键位置。谁能拔得头筹,谁就能在当下的人工智能“军备竞赛”中处于有利地位。

深层解析需要常识计算我们在本群讨论中见过无数例证了。需要情感计算也见过一些。

基于统计的范式繁荣了近二十年,终于在2010年前后被同为“经验主义”学派的基于联结的范式所全面取代。这是深度学习算法显现的巨大威力,也是数据和算力积累到临界点的一次综合性的爆发。

据说,有一代人有失落感,他们当年横扫千军如卷席,各种算法花样翻新,从朴素贝叶斯,HMM,CRF,MaxEnt,。。。各种参数设计身怀绝技,突然九九归一,以前的绝技似乎不再闪光。这种失落不亚于语言学家面对统计学家长驱直入而带来的边缘化的失落感。历史循环还是报应?真是 30 年河东,20 年河西。

白:
没那么不堪吧,有啥用啥,干嘛一定站队。

李:
目前,基于联结的范式风头正盛,但“深度”自然语言处理的需求压力之下,“理性主义”学派以某种方式再度回归,实现“波粒二象性”的有机结合,也是可期待的。

这个有机结合,NLP老司机呼吁较多,新一代的联结主义者似乎无暇他顾。当然,无暇不仅仅是“攻城掠地忙”(毛委员打土豪那阵,农民革命就曾“分田分地忙”),也因为这种“有机”结合,真心不容易。

看今后10年吧。

词法分析领域绝非基于词典的分词这么简单,这个领域还有大量有待攻克的难关,有些难题已经与句法分析搅在一起,非统筹考虑是无法单独推进的

这个观察到位,但真认识到的人不多。特别是汉语,在进入句子结构之前,基本分词之后,还有一个广阔的地带。其中不乏难题。有些是致命的。领域化在这个方面也有很大的挑战。譬如,看电商的标题,那种 sub language 简直就不是汉语。

白:
这一节删掉甚多。提到了词性标注、命名实体识别、形态还原、构词法。形态还原中特别提到了离合词。

李:
的确删太多了。

还有一个可以探讨的事儿:觉得 DG 和 CFG不好相提并论。DG 本身不是算法,只是表达法。

白:
都不是算法

李:
CFG 比较直接地蕴含了算法,譬如 chart parsing,DG 不蕴含任何方法,也许隐隐蕴含了自由语序的匹配方式。从表达法(representations)角度,DG与PSG并列,是两套表达体系。声称 DG parsing 的人,其实用的 formalism 与做 PSG parsing 的人无异,逃不过乔姆斯基的佛掌。anyway,只是感觉大家在讨论中这方面有时候似乎容易概念混淆。从表达法来看,也没有单单的 CFG,CFG 属于 PSG,所以表达法只有 PSG 与 DG 之别。

Nick:
白老师这篇要认真学习

李:
@Nick 咱有样学样啊。。。

最后要说明,即使语言的结构表示模型是基于理性主义(符号或规则)路线的,但语言解析过程本身仍可以采用基于统计的或基于联结的方法。比如PCFG就是基于规则的结构表示与基于统计的过程控制的有机结合。

PCFG 是有机结合的先行,但不算成功,文章似乎不少,但没见多少实效。今后几年看白老师的了。

词典化(免规则)、单子性(免复杂层次)、局域化(免跨成分关联)和鲁棒性(对灵活语序和修辞性失配的适应性),是自然语言句法分析技术未来的发展趋势。

“局域化(免跨成分关联)”不大明白,其他几方面可说是有相当共识,所见略同。

知识图谱的技术栈里算力充足工具齐全”:这个需要检阅一番。

白:
PCFG不见实效的关键原因,一是CFG先天不足,二是标注成本过高。如果不能变为非监督或弱监督,必死。

李:
对,P 要到位就要超大数据,否则怎么个概率法?可是结构标注根本就不是人做的的活儿(PennTree 这么多年成长也很有限,增长部分大概是语言学研究生的苦力)。

quote 此外,人类的语义解析过程充满了所谓“脑补”。可见,借助知识图谱,智能化地完成这类需要“脑补”的语义理解过程,是语义分析技术走向实用和深化的必然要求。

这段话群里的人 可能会理解,但对于大众,无异天书,必须要有相当的 illustrations,脑补的是常识,专业知识?是常识中的默认选项,etc. etc.

白:
这里也删去几百字。

李:
知识图谱的好处是为结构化张目。很久以来,没人尿结构化这壶,一草包词 多厉害啊,鲁棒到极致。用于搜索,不仅鲁棒,还特擅长长尾,tf-idf,越长尾 关键词越灵 要什么结构劳什子。连词序都可以舍弃,何况结构?

到了 ngram,词序带入考量了,算是对语言结构的一个看上去拙劣粗鄙 但实践中颇有效的模拟近似,因此也不用着急蹚结构这个浑水了,来个 bigram or trigram model,还有个 viterbi 的高效算法。

现在好了,趁着图谱热,结构化的旗帜高高飘扬。终于可以理直气壮、名正言顺地大谈结构化乃是自然语言理解的正道,乃是人类智能的基石。为这一点,要感谢谷歌。就好比我们应该感谢苹果,通过 Siri 把自然语言接口送到千家万户,教育培养了用户。

下面这些都是字字真理:
自然语言处理能力以平台化方式提供服务,是广大自然语言处理技术提供者求之不得的事情,但目前还受到一些因素的限制。现实中,更多的自然语言处理技术是融合于一个更大的行业应用场景中,作为其中一项核心技术来发挥自己的作用的。

NLP平台化迄今没有大规模成功案例。趋势上是必由之路,但今后何时真地可以平台化广泛赋能,真地是一个未知数,我们从业人员都在努力 。。。。

除了法律、医疗、教育等先行行业之外,金融证券行业对自然语言处理技术业有很迫切的落地需求,但往往必须结合专业领域知识和私有数据才能构建有价值的场景

就是。

熬了一夜,精读了白老师最高指示。
两个等待:一是等着看原文(非删节版);二是等着看白老师的系统。

宋:
读白硕的文章,的确高屋建瓴,分析得透彻。我觉得还应该补充一点(也许是简本删掉了的),就是语言学研究的必要性。具体来说,就是语素、词、词组、小句、句子(小句复合体)的定义,以及相关属性(如词性)及关系的定义。对于英语等西方语言,似乎一切都很清楚,不言自明,无需当回事儿去研究,但是论及到汉语一切就都糊涂了。不能适用于汉语的语言学概念的归纳,都是偏置的。基本对象及其属性、关系的概念不清楚,相应的模型和计算就不可能完全适用。

白老师的全本中会讲离合词,这个概念就是其他多数语言中没有的。但是,如何从人类语言的高度看待离合词,期待看白老师的全本。

白:
@宋柔 我感觉语言学并没闲着,只是节奏慢了点,在NLP这边是没人理睬,而不是挑出很多毛病。挑拣的才是买主。挑拣才能让语言学加速。

宋:
语言学方面的问题是没有照着机械化的可操作的要求去做研究。

白:
@宋柔 光算法层面的机械化,语言学家或可手工模仿;扯进大数据,连手工模仿都不可能了。

宋:
基本概念的定义,比如词的定义,应当适用于大数据中的所有样本,语言学应当做这件事。

白:
只要承认运用中可拆解,词的定义不难。@宋柔

宋:
不仅是运用中拆解的问题,还有一个粘着性的问题。

白:
粘着性倒是真的可以大数据说话

宋:
你说的有道理。语言学的基本概念的定义。真的不能是静态的,需要在大数据的环境中定义。基本原则是这样。定义的结果,哪个是词哪个不是,要看参照哪一堆文本。

白:
“以国防部长的身份”当中的“以”,可以是介词,也可以是名词的拆解物(“以色列”的简称)。这个拆解物当名词用。

宋:
即使数据集定了,也还有模糊性、两可性。那又是另一个问题,即符号的歧义问题。

白:
承认可拆解的另一面就是承认微结构。宋老师说的粘着性,可以从词根与词缀结合的微结构角度来考虑。

宋:
微结构的节点应当有波粒二象性,既是词,又不是词。

白:
拆解出来当词用,封在里面就是词素。

宋:
微结构可能会有相当大的跨度:这个澡啊,从来没洗得这样舒服过。语言学理论必须把这些现象包容进去。

白:
必须的

宋:
这样的澡我从小到大,再到老,还没洗过。

李:
离合词是可以解决到很完美的不再是问题的问题,关键就在词典与句法的接口上。大规模验证过的。

【相关】

白硕:知识图谱,就是场景的骨架和灵魂

【语义计算:李白对话录系列】

《朝华午拾》总目录

新年新发现:微信开恩允许改错,但仍美中不足

提一句微信最近的新功能:我呼吁这个功能已经两年了,最近的更新终于基本实现:

发微信常常有错别字 覆水难收 对于有文字洁癖者 那是一个巨大的折磨 早就呼吁在限定时间内 应该允许 edit。道理也很简单,既然允许撤回,就没有道理不让人改错。 呼吁两年了 没动静。遇到必须改错的 post,不得不先

(1)select all
(2)然后 copy
(3)然后撤回
(4)然后 confirm
(5)然后 paste
(6)然后 edit
(7)最后 repost

为了改个错,不得不走7步,该死的微信,皇帝女儿不愁嫁,硬是不理不睬人民呼声。最近不知道张小龙怎么一高兴,还真开恩了。虽然姗姗来迟,还是应该庆幸。

本来以为,直接点击刚写的post,然后就能进去 edit,然后 repost,这多 intuitive 啊。结果产品经理不是这么实现的,它仍然需要你先撤回,相当于自动帮你复制了,留个 button 允许编辑。如此这般,7个步骤,只需要 (3)(4)(6)(7),变成了四个步骤,省了3步,将尽一半的力气。

既然撤回了还可以更改,还可以再发,这原先就有的第(4)步 confirm,就没有存在的理由了,这样只需要3步即可,省了一多半功夫。堂堂微信的产品经理,也是这样榆木脑袋吗?以前需要 confirm 是有道理的,如今还要 confirm 纯粹是增加负担。Eat your own dog food, 怀疑产品经理不吃狗粮,没治。

以前听过一个微信产品经理谈产品设计,说得那叫一个好,让人叹服。伟大的产品果然背后有伟大的产品老总。如今,这样的产品经理都走人了吗?

 

【语义计算:李白对话录系列】

《朝华午拾》总目录