【语义计算群:句法语义的萝卜与坑】

白:
张三对李四的批评一针见血。
张三对李四的批评置若罔闻。

梁:
白老师,这个挑战绝了,第一个是,张三批评李四,第二个是李四批评张三。

我: 白老师这个 minimal pair 是语言学的绝配样例。顺着它,可以 illustrate 一车的“萝卜与坑”的语言学:subcat 怎样工作,如何竞争,以及句法句型的的逻辑语义落地。这是语言学的魅力。我们先来 parse 一下,然后尝试做解读。

t0708b

谁一针见血,谁置若罔闻,都是张三(S)。我们先看两句的总体句子架构,然后再论内层的逻辑谓词“批评”的句法逻辑语义。“一针见血”是不及物动词,只有主语一个坑,可以是人 也可以是观点类抽象名词或动作类的语词;“置若罔闻”有主语宾语两个坑,但这个成语性的语词谓语,其宾语在汉语句法(subcat pattern)中要求PP(对),而不是后置NP,置若罔闻的主语坑必须是 human,最多推广到 法人(机构、公司等)。
t0708c

“X 一阵见血”,无论 X 是人是物还是动作:

t0708d

“human 对 X 置若罔闻”, 置若罔闻的X无论是物(信息)还是人(指代的仍旧是信息,是指那个人说的话:此乃“闻”的常识语义 ontology 所规定,但为了鲁棒,不必在句法上做这样的语义限制,因为介词“对”已经是一个很好的类似于“格变”的语言显性形式手段了,对于填这个坑已经足够精准了):

t0708f

后一句意思是,张三不把李四的话当话(e.g. 张三逆反)。

接着我们考察一下“批评”的SVO句型,看看S和O的坑在中文是怎样要求和被填的:

t0708g

t0708h

这算是“批评”的三个最基本的 subcat patterns,逻辑语义不变,尽管第二个变式中的表层句法是以PP做状语(Adv)的面貌(和位置)出现,但语义中间件根据变式2的规定可以很容易确认其逻辑宾语(O)的角色。

下面来看汉语中利用“的字结构”的SVO句型变式:e.g.  S对O的V

t0708i

t0708n

t0708j

这是指称性 arg structure,通常用“的”(“之”),于此对应的是英语的动名词NP:
John’s criticism of Peter
vs
John’s criticism by Peter
Peter’s criticism towards/of John
the criticism of John by Peter
the criticism of John towards Peter

可见,英语的 of 几乎与汉语的 “的” 一个臭德行 充满歧义。by 和 towards 就规矩多了。再举几个指称性SVO的例句:

t0708k

t0708l

t0708m

t0708o

如果不是逻辑动词的“意见类”语词,就是 human 对/关于 thing 的 意见,广义的 thing 包含 human:
张三对李四的看法
张三关于时局的一点意见

雷:
这个人不是东西

我:
人不是东西 但可以当东西看 在语义限制的时候 除非特地标明 NOT human,白马是马非马 的辩证法:“张三对李四的意见”。“李四”不是东西 但在这个句型当东西看 因为“意见”没有human逻辑宾语的坑 只有关于万事万物的坑。

梁:
张三对李四的评价很好。--》 评价很好--》评价是主语。
张三对李四的评价无所谓。 ——》 张三无所谓 ——》 张三是主语。
“对”管到哪儿的问题。

我:
到了 意见 的同义词 “看法” 就有趣了:“张三对李四的看法”。
句法上 仍然是 【关于】 万事万物;词法上,这个外化到句法的 pp 实际上是逻辑动词语素 “看” 的逻辑宾语,只不过 在 “看” 与 “法” 合成为黑箱子的词典化过程中,这种深度搭配被遮掩了。必须词典化、黑箱化,因为此法非彼法。只有词典化,才能绑架 “法” 的语义。

“张三对李四的看法”
结构上是
“ 张三 看 李四 的 ‘法’ ”

“法” 不是默认的 method 语义,而是引伸的 perspective 语义,相当于英语的 point 在 viewpoint 或 point of view 中。黑箱的好处是可以把引申语义绑架为本义,英语的 viewpoint 就是用的同一种绑架的招数,否则 point 本身也意义含混。

“John’s viewpoint about Peter”
structurally is equivalent to
“John’s perspective of (John) viewing Peter”

昨天说过 虽然黑箱化 但在段子里可以休眠唤醒为白箱子:tv 新看法 就是。

总结:今天调试开发了的 unit test 的句子如下,工作成效颇不坏:

张三对李四的批评一针见血。
张三对李四的批评置若罔闻。
张三的批评一针见血。
张三一针见血。
批评一针见血。
张三对批评置若罔闻。
张三对李四置若罔闻。
张三置若罔闻。
张三批评李四
张三对李四批评
张三对李四的批评
张三之批评李四,毫无道理。
张三被李四所批评
张三被李四批评
张三为李四所批评
张三的被批评
李四对他批评
李四对他的批评
张三对李四对他的批评置若罔闻。
李四对他的批评一针见血。
张三对王五对李四的批评置若罔闻。

 

【相关】

tv 新看法

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【李白之30:算账先生说,parser 就是个交易系统】

李:

t0702d

陈:
日他,不是应该分析成 日 他

李:
“日他”在我们sentiment中语义是落地了的,社交媒体中表达 negative 情绪的骂人的

白:
伟哥到隔壁做做两个句子

t0702e

t0702f

白:
next有点耍赖

李:
NEXT 不是有点耍赖 是非常耍赖。如今是把 NEXT 作为未来语义中间件的重点改造对象。

白:
人工智能那个,怎么排除另一个“发展”为名词的解释?

李:
怎么排除的?根本就没刻意排除。
现在的问题是,如果不想排除,我可以不可以做,值得不值得做?

白:
有助于人类 和 有助于人工智能  大数据会告诉你

李:
就case论case 我有点怀疑大数据的作用 语感上 是半斤百两:“有助于人类” 和 “有助于人工智能”。即便依照大数据的阈值,走了其中一条 path 也还是很可能与语感或具体的case相左。大数据也只能解决基本分明的现象 大数据对模糊现象不是灵丹。

白:
人类的人工智能,这条路径更弱。

李:
有助于人类的 path 还是可以的。当然 那个如果正确 也是瞎猫撞死耗子。
目前的喧嚣是人工智能可能是坏的 可能毁掉人类 因此下面这个提倡 非常具有霍金盖茨马云般的“高瞻远瞩”:既不排斥科学技术的发展进步 又提出了道德的要求。
MD 听上去都有点像斯大林做学问了:
发展有利于马克思主义的语言学
发展有利于社会主义的生物学
发展有利于人民革命的核武器

白:
“改革有利于中国的持续发展”
看看狗屎运是不是可持续

李:
狗屎运与否,这次是耍了一次流氓:

t0702f

Next 与 Topic 基本等价,所以其实并不坏。
句首的词做 Next 与句首的 Topic 基本都是耍流氓。但是都是可以教育好的,等到语义中间件去教它从良,恋爱结婚生子。

白:
改革不适应时代的陈旧观念。
改革有利于少数人的管理制度。

李:

t0702g

“不” 给拉下了,这是个 bug 很好奇怎么拉下的。不过框架是对的,怎么对的,只能说狗屎运了 因为自己也搞不清。下面这个把“少数人”加入词典后,狗屎运似乎就光临了的样子:
t0702h

白:
需要在边界附近强化蹂躏

白:
改革有利于多数人的公平正义。
指挥没有记熟谱子的队员很没劲。
指挥没有记熟谱子的后果很严重。

李:

t0702i

上面断链了两次 挺不咋样的。

t0702j

t0702k

白:
第一个,队员是指挥的逻辑宾语

李:
还有个 bug 应该不难 de:已经有“谱子”做宾语了,语义中间件还是在逻辑主语(对的)又给加了逻辑宾语(错的)。有一阵子是有意放宽了保持歧义的策略 因为语用的时候有歧义比较好运作。

白:
后果,和行为、事件、消息是一个封闭小类。是在对VP进行“概括”

李:
现在没给这个小类起名字 都是零碎地用一些已有的类别 结果就是有漏掉的 可以考虑加一个 feature 就叫 VdeN,表达的不是宾语 而是其他,譬如同位语。

白:
第二个,指挥根本就是名词

李:
“指挥”是名词,不太好伺候,需要细线条。

白:
前面的“发展”其实也是双性 还有“改革”

李:
我其实不主张把这类归为 POS 歧义 因为这很容易推卸句法的责任 误导人在 POS 里去做句法的事儿 这种教训太多了。后果很严重,尤其对汉语。不说是 POS 双性 而说POS就是V。汉语缺乏形态 基本上逻辑的POS就是语言的POS,不存在动词又是名词的事儿。到了句法,就有了这个动词是自我包裹起来 还是成家生子的区分。闹独身的动词 类似于英语的 gerund,成家生子的动词就是常态的谓语动词了 构成了自身的 arg structure

白:
转指(比如作为人的指挥)的PoS一定是双性。自指(比如作为动作的指挥)的PoS在词法阶段可以保持不变,在句法阶段被强制,有案可查。指称性、陈述性。

李:
“指挥”不论,指挥是 human 当然是名词。说的是 “改革”、“发展”。这样的词强调POS双性无益 而且误导。

白:
这个同意

李:
不知道如今的汉化的PennTree或WordNet 是不是还把它们作为 POS 的歧义来标注。如果是,就是 community 的政策性误导。结果新人就一头钻进去试图在 POS level 去解决这个 POS 歧义,这不是死胡同吗?

白:
所谓被强制,就是强制之后改性。如“这本书的出版”:出版是V,这本书的出版是NP

李:
不错。这些是在 parsing 的过程中解决,而不要归结为一个独立的 POS 问题 或 POS 模块,这是症结。其实 都 NP 了 改不改 POS 已经无所谓了。保证做出 NP 是目的。

白:
这没有问题。
“画穿裙子小人的是女厕所。”

李:
没看懂 不过 parse parse see see:

t0702aaa

一无是处。

当然 作为人脑 我看了几遍了 还是没看懂。
Wait,是标志 ……

白:
这是小学一年级课外读物

李:
画有穿裙子标志的那间是女厕所

白:
还好你的“穿”没做补语

李:
确实没看懂 人脑其实也不咋样。
这样就清楚多了:画了穿裙子的小人的那间是女厕所 于人于机。

t0702m

当然 “那间” 应该是 S 而不是动词 “画” 做主语。定语从句没搞定。
画的是“人”不是“间”。

白:
定语从句对于标配的坑和非标配的坑处理是不同的,前者可以省略“的”的中心语,后者不能省略。
“写了三行字的是作文本,写了两行字的是记事本。”

李:
的字结构作为指代,【定从】中插入“是”,前面的就成了【的字结构】主语,后面成了表语的是哪些?

我看的书 –》 我看的是书
我吃的这家馆子 –》 我吃的是这家馆子
我吃的亏 –》 我吃的就是这个亏。(动宾离合词的搭配需要这个pattern帮助搞定。)

上面的例句因为宾语的坑还在(没有 daturated),还好说。下面的呢?

我写了三行字的作文本 –》 写了三行字的是作文本
我写书的这个屋子 –》 我写书的是这个屋子??
我【在其中 in which】写书的屋子

白:
有些动词处所坑是标配,有些不是。不是的,的后面不能省略

李:
处所标配的动词是 “去”“来”这样的?

白:
这是其中一类

李:
“写书” 没有这个标配,如果带处所也是所有动词都带的状语性质。

白:
还有表示附着、固定的,画、涂、标、钉、挂,都可以。

李:
那是 put 、place 这类 带处所做补足语的。HowNet 里面应该有,这是跨语言的常识要求。

白:
挂两颗星的是中将。

李:
“中将” 与【处所】貌似没关系啊。“挂两颗星的是中将制服”。
“制服” 倒是处所的延伸。

白:
写书和写字不同。写字有附着对象,写书没有。
“写白字的是黑板,写黑字的是白板。”

李:
这个虽然有道理,但确实已经很微妙了 感觉上不大好拿捏。

白:
标配和光杆“的”之间的变换关系有道理?还是“放置、附着、固定”这类subcat带标配处所有道理?
我承认后者很微妙,总结得未必精准,但前者似乎是比较正常的。

李:

t0702n

看看这个parse: 就是说
写白字的是黑板 == 黑板写白字
写黑字的是白板 == 白板写黑字
这个解释几乎可以接受了吧?
至于这个 S 的深层逻辑语义该取个什么名字 暂时不管。

白:
你这白字和黑字不对等哦……

李:
yeh 我也发现了,不知道为啥
知道了:“白字” 词典化了。

白硕:
“白字”另有所指。

李:
对,白字不一定白,是错别字。而 “黑字” 却是自由组合出来的。组合的时候 算是 open compounding 就简单的加了个 x link

白:
但是,当逻辑主语现身的时候,S不会还霸占着吧?
“他们写白字的是黑板”
也可以逆行:“黑字写白板,白字写黑板”

李:
哈 你猜这么着?
Topic!

t0702o

t0702p

白:
今天飞北京,明天飞成都。
他们和黑板,显然不是大小主语关系,这属于滥用第三个坑了。

李:

t0702q

白:
“这里他写了三个字”

李:

t07021

这还差不多。

白:
这个O,对于不及物的“飞”来说,其实就是标配化的处所宾语了。
“重庆我昨天飞的”
“这张纸他只写了三个字”

李:
估计是 Topic。

t07022

不是 Topic 就是 Next。没关系 意味着想做后面可以接着做。其实在语用的时候,很可能不需要这个语义 arc 的求解了。反正 作为 node 重庆是地点,纸 是广义的处所 这个 ontology 知识系统是有的 不必借助精细的句法语义关系。所以 这个语义中间件 说到底就是要做可以一直做下去 理论上讲 做得好 对各种语用都会有好处。但实际上不做也没啥 语用的时候 稍微多费点儿力气 或者 语用很多时候根本用不到。

白:
标配与否,其实是人为的,有些不是满格,也许称为“半标配”更好接受。

李:
逻辑语义这东西 太细了麻烦大 好处却不明显。董老师的定义 我都觉得太细了。

白:
其实这个群讨论的问题,很多都无关做不做,而是事关有没有。

李:
从一个语义系统的角度看 董老师的定义有助于语义全貌的完整性;
从实际使用看 其实绝大多数的时候 要不了那么精细。

白:
做统计的人也一样可以说,我不做某事是因为好处不明显。我不需要那么精细

李:
他们一直就那么说。 昨天@Guo 还说呢,你那个 deep parsing 甭管多牛,我其实 shallow 就很好了。

白:
但是一个可以逐步精细的通道有还是没有,才是最关键的。

李:
通道是有的 至少我这里;有了 Next 和 Topic 精细化的通道就铺就了。而且写这些精细化的规则 比线性parsing要容易 容易很多。

白:
线性不线性,其实就是个是否允许做空的问题。一定要先买再卖,就是线性。

李:
线性的束缚大 而且层次多 里面的调控有很多 tricks 到了句法树出来了 问题就简化了

白:
允许一定窗口期内先卖再买,就打破线性了。

李:
耍流氓是谈一场精细浪漫恋爱的很好的前戏 尽管这句话听上去很不地道。

白:
topic很多就是在“做空”:动词没出场,逻辑宾语先出场了。

李:
就是。
能搞定的先搞定,搞不定的先挂着。等到局部大部搞定以后,再看那个别没搞定的,就不再是挑战了。

白:
卖自己没有的东西 赊账

李:
白老师还是在交易所里面呆太久了 满口算账先生的味道

白:
还别说,parser就是个交易系统:左括号是买单,右括号是卖单
你以为

李:
subcat 就是 ……

白:
subcat是股票

李:
saturated 就是成交

白:
subcat的提供者在填坑,subcat的需求者在挖坑。一对多的右括号是市价订单,无论多少左括号都通杀。比如多个定语对一个中心语 可以看成右括号潜在供应量无限。

李:
这是 mod 的本性,与 subcat 相对应。subcat 一个萝卜一个坑。两个萝卜来了 除非是 conjoin 否则没戏。

白:
补语在与述语动词分立时,坑的总供给有可能大于总需求。打包以后,有的坑被“合并同类项”了,取得了新的供需平衡。比如,冻肿了,冻X,X肿,两个X自然合并。合成的述补结构仍然只有一个坑。
什么坑能合并,看见两个谓词自然就能知道。(subcat or 大数据)不用和填坑的词打照面。所以,述补结构的处理,分层上要先于名词(短语)填坑。全放在一个平面,就说不清楚坑多萝卜少咋分的。

 

【相关】

【征文参赛:美梦成真】

关于 parsing

【关于中文NLP】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一parsing:”钱是没有问题”】

雷:
2016年最佳语文组词能力:
“钱是没有问题 ” 就这六个字的组词成句,可以变成不同意思的句子!哈哈,偉大的語文能力!
钱是没有问题
问题是没有钱
有钱是没问题
没有钱是问题
问题是钱没有
钱没有是问题
钱有没有問题
是有钱没问题
是没钱有问题
是钱没有问题
有问题是没钱
没问题是有钱
没钱是有问题
@wei parsing请
高:
显然字不一样

t0709a

t0709b

t0709c

t0709d

 

我:
有少数不尽如意的 parses,但几乎每个 parse 都可以站得住,或说得出道理。是不是有点牛叉,我自己都有点吓倒了。哈。
最后的两个断链的 parses 也有道理,因为那两个破句子,我作为 native speaker 都不知到底想说啥。就是玩弄文字游戏,排列组合汉字瞎凑合。

雷:

白:
最后两个,我理解:没问题是有钱=没问题是因为有钱,没钱是有问题=没钱是因为有问题。所以用next是对的,用subj略勉强。但是如果说“没钱是有问题的”,就是subj了。

我:
“没钱是有问题” = “没钱的确有问题”
这个说法倒是听过。
白:
语感有差异
我:
“没问题是有钱” 还是听着别扭,不知所云 白老师的解读也有硬去揣摩的味道。

白:
如果“是”重读,也会到“确实”那个含义

我:
“没问题,是有钱。”
这个可以,就是两个小句: == 没问题。(X)的确有钱。
“没问题是有钱” 如果中间没停顿 没逗号 就几乎可以说不合法了。法不法不论,就是不容易明白想说啥。

陈:
立委最近发言不多了?

我:
@陈 钱不是问题 那啥是问题?我觉着,啥都不是问题,就钱是问题。

陈:
@wei 多来点parsing。。。

我:
要多少有多少。吹牛谁不会

dolo:
@wei 这个分析不错

我:
@dolo 我说了 牛叉不是吹的吧。
—- 其实还就是一个苦力,后面就是个力气活。到用了,就显灵了。

 
【相关】

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【一日一parsing:休眠唤醒的好例子】

白:
IPTV首页广告语“IPTV,电视新看法”。
需要休眠唤醒的好例子。

我:
t0796a
对,这个 hidden ambiguity 与 “难过”、“好过”一样,可以也应该休眠唤醒。如果真想做的话,就在“看法”的词条下,在句法后做一个词例化规则:
查一下“看法”(默认词义:viewpoint,有个 human 的坑)的 Mod 来唤醒第二条路径(词义)。
查 Mod 的条件有宽松两个选择,可以根据大数据测试的质量来权衡定夺:
(1)宽的话,如果 Mod 不是 Human,那就唤醒
(2) 窄的话,如果 Mod 是“看”的搭配词(看电影、看电视、看戏、看热闹、看耍猴 etc),那就唤醒

白:
作为一个词的“看法”有两个坑,“谁”对“什么”的看法。“谁”即使锁定到human和“电视”不搭调了,还有“什么”可供填充。所以,单纯从一个坑的不匹配,还不足以翻盘。需要“看-电视”这样的强搭配来推波助澜里应外合。

我:
好!
唤醒的是句法层面的定中关系(默认的是词典的合成词,可以看成词的黑箱子,也可以看成是词法内部的定中关系):“看-法”(而不是“看法”),语义落地在 MT 上的表现就是选择第二个译法:way of 看。因为搭配找着了,MT 也就可以把“看”的翻译从默认的“see”改成搭配的“watch”:
IPTV,电视新看法 ==》
IPTV, a new way of watching TV (而不是 TV’s new viewpoint)
这个思路是没有问题的 虽然需要花点儿力气。至于选择做还是不做 那是另一个问题。
在“难过” vs “难-过” 这样的case上,我们做 sentiment,是选择了去做,用到上述休眠唤醒的招术,把表达主观负面情绪的默认的“难过”解读,语义落地为表达客观负面情形的“难-过”。见 【立委科普:歧义parsing的休眠唤醒机制再探】 。

梁:
“IPTV,电视新看法” 这句话,连我都休眠了好一阵,刚刚被唤醒。
语义落地到 MT, 是 “ IPTV, a new way to watch TV” ?
so it is either, 一种看电视到新方法, or 一种对电视的新的看法? ”看法“ could be “opinion”?

我:
广告跟段子一样,故意弄这些,为了俏皮,加深印象。
可喜的是,至少我们寻到了解决这类段子似的俏皮话的计算机实现的路径。
休眠唤醒的事儿,以前在语义落地的时候“自发地”做过,但从来没有总结到现在的高度,可以有意识地推广运用。这是在本群与白老师等探讨的收获。
hidden ambiguity 和段子这类的parsing,以前一般都认为是难以企及的语言难题。至少现在不是那么遥不可及了。

梁:
想想这事是挺有趣。“看法”,本来挺强劲的结合,硬是给左边的“电视”拆开了。这类暗中较劲,猜想、比较、争吵,分裂,结合,settle 的过程,人的大脑 parsing 的时候,可能也有这样的过程。据说人思考时经历一种微型达尔文过程。

白:
【转神段子】航拍记录显示,湖北已经基本都是湖,找不着北了。
看看如何休眠唤醒。

K:
他伸出双手,要露上两手。

我:
唤醒啥? “找不着北” 是成语:
t0707a

白:
湖北两个字,只剩一个字了 另一个字找不着了
元层次和对象层次的纠缠

我:
并不影响语义理解

白:
影响段子理解

我:
俏皮的定性 如果也是语义的一部分 可以利用机械扫描匹配 来发掘 无需与句法层发生纠缠

白:
总之是要吃回头草

我:
不属于核心语义。核心语义是 湖北这个地儿现如今到处是水 方向辨别不清了

白:
核心语义没发生颠覆或荒诞化 只是附加了一层元层次上的俏皮。段子理解,有颠覆型的也有附加型的。

我:
“伸出双手 露上两手” 同理 同机制 也可以扫描匹配发掘 后半部也是成语 唤醒的是成语的非成语解读。这与切词中的 hidden ambiguity 同理。

白:
俏皮也是附加。还有我之前举的例子,“贾宝玉托举林黛玉,纯粹是多此一举”。先导词语素的重叠使用。

K:
电视的新看法 看法有了非成语语义属于唤醒

我:
Longest principle 默认一个多语素词的黑箱子性质,但在特定的上下文中 可以唤醒句法透明的解读。
t0707b

K:
露上两手 多此一举 是否与之类似呢?唤醒了手与举的非成语语义?

白:

我:
就是。词法的内部关系 唤醒为句法的外部关系。哪怕词法句法是一脉相承 平行的,句法解读与词法解读 在语义和概念层面是很不同的。英语类似的 hidden ambiguity 有blackboard 解读为black board

K:
感谢二位老师
我理解 成语语义的整体性与成语内部结构的潜在可分解性会影响休眠唤醒
比如 新看法 作为成语有其常用语义,但其内在结构可分解,(新(看(法))),这种结构分解为 看法 增添了新的语义。这与分词中的组合型歧义有关联。何时分,何时合,可能单在分词层面难以完成,有什么好的解决办法吗?

白:
先说没有外部刺激是不该拆开来的
然后再说外部刺激可能有哪些特征
比如,重复。

 

【相关】

立委科普:歧义parsing的休眠唤醒机制再探】 

泥沙龙笔记:NLP hard 的歧义突破

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白张61:长尾问题种种】

李:
欢迎金老师。从理转文 学语言学的 往往功力深厚 别具一格。白老师 还有语言所的前辈范继淹先生 都是证明。

白:
这里是NLP的一大窝点,每天都有扯不完的话题。
“白总,您可以给我一点您的简介,关于区块链的文章我来报选题不?”
看看这个“可以……不”之间经过了多么漫长的旅途。

李:
这个“可以不”肯定是搭配不上了,硬做也不值得,主要还是看看怎么凑合吧?当然是用 Next 把局部parses先patch起来,这样至少通道是有的,想做功的话,余地在。
t0704a

白:
从技术层面来讲,我们可以将8.11之后的人民币汇率形成机制简单表述为“双锚相机转换机制”。
这里的“相机”,谁的机译系统能翻对?
aaa

李:
not bad

白:
bbb
全是camera

李:
不是 camera 是啥?不懂术语。
谷歌这次及格了。涉及汉语的MT,谷歌总是比百度差或略差。谷歌干脆 license 百度得了,至少中文MT。

白:
take actions accordingly
这哪是术语。地道的中文。

李:
那就是我中文不行。哦,相机-见机 而行
双锚相机是什么相机?

白:
在没有camera的时候,就有这个“相机”

李:
但是大数据把它冲得快没影了

白:
我朋友圈转发了FT这篇文章,一看便知。

李:
相机是现代高频词。一个不懂行的人,看到这一段虽然不懂,但是心里在问:
“双锚相机是个什么相机?”

白:
双锚,也不修饰“相机”,他俩都是状语,修饰“转换”。

李:
那是你懂。对于不懂domain的人 不是这样的。
cf:“单反相机转换机制”

白:
双锚vs单反,完美的对仗。

李:
如果汉字保留“像机”不用“相机”,可能不至于。
一个 real life MT 很难为了一个几乎从来不用的 WSD 的选项,做啥特别的功夫。不单不合算,而且太容易弄巧成拙了。对于 trained model, SMT 根本就没有这个data;对于规则MT,也不大值得做。拉倒好了。

白:
这种逻辑,等于告诉用户,你就从了吧。

李:
对于极小概率的现象,如果真要做,那就尽可能词典化。词典化或 expert lexicon,没有啥副作用,可以应对长尾。任何概括化的努力,都容易亏本。

白:
极小概率累计起来就是长尾

马:
谋求单反相机起义。造一个,哈哈

白:
在不同formalism下,亏本与否可能结论大不相同。比如,如果formalism天然就是词例化的,就不存在弄巧成拙的问题。满世界都是拙。

张:
极小概率的词典化是规则系统最可爱而可贵的品质和能力

李:
可不,满世界都是拙,高高在上的精英规则就可以很光鲜。词例化 or expert lexicon 也还是不时需要与上面的合作。譬如句型的变式。合作的方式有不同。有句法语义一体的合作方式,也有先句法后语义的合作方式。各有利弊。

张:
这种拙是大局观,是大智若愚
我们这里有个小组正在天晕地暗研究知网的MT~~~

李:
愚公移山呗
挖一块儿 少一块儿 而山不加增 ……

张:
两位大师何时有空一来论剑?@白 @wei

李:
没去过东北,都说东北有三宝。

张:
白到骨,wei入髄
wei来we妙; wei说I 赞

李:
张老师那地儿 迟早是该去看看
李: 似乎是调通了,但还是选择不做“相机”。非不能也,是不为也,你懂的
有一个 catch: 将 —-> 把: “将” 等于 “把”(介词),但更歧义(modal V),好在前面有 “可以”。

t0704c

 

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语言学小品:送老婆后面的语言学】

456822675539882531

谁会误读?为什么误读?研究一下背后的语言学 and beyond。

双宾两个坑 human 默认的坑是对象 “老婆”是“送”的对象,这是正解。
对于心术不正的人 human 也可以填受事的坑,“老婆”跟礼物一样,成了“送”的受事。
这是 “送” 的歧义,到了 caption 里面的合成词 “送给”,subcat 有细微变化,就没歧义了。为什么 “送-个” 也没歧义呢?因为“个”是不定的,而对象这个角色通常是有定的。
这里面细说起来还有一摞的语言学。

(1)双宾句型的对象一般是有定的,不定的对象不是绝对不可以,譬如:
“我把一大批书送(给)一所学校了。”
“一所” 是不定数量词,作为对象。
汉语中的 “一+量词”与光杆“量词”通常认为是等价的,范畴都是不定(indefinite),后者是前者省略了“一”而得。但是二者并非完全等价。
对象这个角色默认有定(definite,虽然汉语没有定冠词),如果是有定,不可以省略“一”,或者说,不可以由带光杆量词的NP充当。
汉语句法里面可以总结出这么一条细则:带有光杆量词的NP只能充当直接宾语,不能充当间接宾语(对象)或其他。

(2)再看合成词 “送给” 里面的语言学。
汉语反映双宾概念的语词,常常可以进一步与“给”组成合成动词,意义不变,但注意合成前后的subcat的微妙变化:“送” vs “送给” (寄给,赠给,赠送给,等)
“送”的 subcat patterns:
(1) 送 + 对象NP + 受事NP: 送她一本书
(2) “把”受事NP+送+对象: 把一本书送她
(3)受事NP+送+对象: 这本书送她了
(4)送+受事NP: 送个老婆
(5)送+对象NP(human,definite):送(我)老婆。

请留心(4)和(5):两个patterns有相交竞争的时候,于是歧义产生。当“送+给”构成合成动词后,subcat 的 patterns(1)(2)(3)(5) 保持不变,而(4)基本失效(退出)了。说基本失效,是因为:虽然 “送给老婆”只能循 pattern 5,但“送给个老婆”(稍微有限别扭,但仍在语言可接受之列)似乎仍然需要理解为 pattern 4,这是怎么回事呢?
这就是语言的微妙之处:pattern 4 本来应该退出,因为“给”已经决定了后面是对象而不是受事;但是因为汉语有另一条很细但是很强的规则说,光杆量词的NP只能做受事,不能做对象或其他。在这两条规则(pattern 5的对象规则与光杆受事规则)发生冲突的时候,后一条胜,因此“送给个老婆”就不得不做 pattern 4 的受事解了。这叫规则与规则打架,谁胜谁输也是语言学的一部分,电脑实现的时候可以运用一个priority的机制来model。

上图还涉及一个常见的促销句式: 买NP1送NP2
买iPhone 6 送耳机
买 Prius 送三年保修
这个语用句式的存在,加强了NP2作为受事的可能性,使得 human 本来默认为对象的力量受到制衡。这似乎涉及语用与句法的交界了。

这些算是语言学。Beyond 语言学,也可以从文化上看这个误解或歧义的现象:

对于来自落后农村的人,老婆作为受事的理解几乎是理所当然,因为农村的封建落后使得娶不起媳妇的光棍汉太多,白捞一个媳妇的渴望诱使他们更多向受事而不是对象方面联想,何况手机对于他们是天价,卖肾才可得之,因此对于促销句式也就更加敏感。反之,对于一个知识分子或富裕阶层人士,“送老婆”可能更偏向于理解为对象。

就跟王若水老老年谈桌子的哲学类似,这则小品主要是想谈谈日常的语言学。哲学家满眼都是哲学,语言学家以语言学看世界。语言人人会说,背后的语言学却不是老妪能解。语言如水如空气,一般人熟视无睹了,语言学家来揭示。这是 real life linguistics,琐碎而不乏规律,似海却仍可见底。

【相关】

《立委随笔: 语言学家是怎样炼成的》

《朝华午拾》总目录

【关于立委NLP的《关于系列》】

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

【一日一parsing:NLP应用可以对parsing有所包容】

白: “西方人类比用得少,是因为西方的逻辑学产生的早。”
t0614a
什么叫狗屎运?我的定义就是:
遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug 了,因为此例就没有 bug。
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。S 是主语,Subj 是主语从句。
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。对于汉语常见的 NP1+NP2+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2)[S + Pred] +Pred
when the second element can be Pred (V, A, or deverbal N)
(3) [Mod + S] Pred
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness
顺便做个广告,承蒙高博协助,立委 NLP (liweinlp)频道 再张大吉:
liweinlp.com

【相关】

关于 parsing

【关于中文NLP】

《朝华午拾》总目录

【关于中文NLP】

【parsing 在希望的田野上】

语义计算沙龙:其实 NLP 也没那么容易气死

【deep parsing (70/n):离合词与定语从句的纠缠】

【立委科普:deep parsing 小讲座】

【新智元笔记:词的幽灵在NLP徘徊】

《新智元笔记:机器的馅饼专砸用心者的头》

【新智元笔记:机器的馅饼(续篇)】

【新智元笔记:parsing 汉语涉及重叠的鸡零狗碎及其他】

【新智元笔记:中文自动分析杂谈】

【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩”

《新智元笔记:找茬拷问立氏parser》

【新智元笔记:汉语分离词的自动分析】

《新智元笔记:与汉语离合词有关的结构关系》

《新智元笔记:汉语使动结构与定中结构的纠缠》

《新智元笔记:汉语parsing的合成词痛点》

《新智元:填空“的子结构”、“所字结构”和“者字结构“》

【沙龙笔记:汉语构词和句法都要用到reduplication机制】

钩沉:博士阶段的汉语HPSG研究 2015-11-02

泥沙龙小品:小词搭配是上帝给汉语文法的恩赐

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同

泥沙龙笔记:汉语就是一种“裸奔” 的语言

【立委随笔:中文之心,如在吾庐】

《立委科普:现代汉语语法随笔》

“自由”的语言学至少有三种理论

应该立法禁止切词研究 :=)

再谈应该立法禁止切词研究

中文处理的迷思之一:切词特有论

中文处理的迷思之二:词类标注是句法分析的前提

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破

专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了

方寒大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

研发笔记:粤语文句的情报挖掘

《立委随笔: 语言学家是怎样炼成的》

《立委科普:汉语只有完成体,没有过去时》

《科研笔记:中文图灵试题?》

立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷

比起英语,汉语感情更外露还是更炽烈?

科研笔记:究竟好还是不好

《科普随笔:汉字和语素》

《科普随笔:汉语自动断词 “一次性交500元”》

《科普随笔:“他走得风一样地快” 的详细语法结构分析》

【立委科普:自动分析 《偉大的中文》】

《立委随笔:汉语并不简单》

语言学小品:结婚的远近距离搭配

中文处理的模块化纠结

【立委科普:《非诚勿扰》中是谁心动谁动心?】

曙光在眼前,轻松过个年

挺反自便,但不要欺负语言学!

当面对很烦很难很挑战的时候

创造着是美丽的

汉语依从文法 (维文钩沉)

《挖掘你的诗人气质,祝你新年快乐》

 

【立委科普:实体关系到知识图谱,从“同学”谈起】

同学 同乡 同桌 同门 同事 同仁 同性恋 朋友 对象 配偶 恋人 爱人 。。。 这类词(R),作为逻辑谓词,语义上实际上有两个 arguments 的坑要填。这两个坑是 reciprocal 的,其逻辑语义关系就是 human 实体之间的R关系。其汉语的句法表达是:

1. NE1 BE NE2 的 R
张三是李四的同学
== 李四是张三的同学

2 NE1 NE2 R
张三李四同学过
== 李四张三同学过

3 NE1 AND NE2 R
张三与(跟、和、同)李四同学
== 李四与(跟、和、同)张三同学

4. NE1 NE2 BE R
张三李四是同学
== 李四张三是同学

5 NE1 AND NE2 是 R
张三与(跟、和、同)李四同学
== 李四与(跟、和、同)张三同学

6 NP(Plural)R
她们从小同学

“她们” 不仅仅是 Plural 而且必然是指的 2 entities

7 NP(Plural) BE R
她们是同学

BE(联系动词)包括:成为、变成 、当、当成、疑似等,还有介词 “作为”也可归于此类。R 在汉语是名词,有时也“活用”为动词。逻辑上对应的是 (1) 指代;(2)逻辑谓词(表达实体关系)。最有意思的是 R 的双重身份(polymorph,学过C++的都知道这个)使得 R 可以自己给自己填坑。因此本来 R 是有两个坑的: 谁1与谁2 发生了 R 的关系,但由于实体(指代)的 R 可以自己填 谓词R 的坑,结果在简单的名词短语 “NP de R”(e.g. “我的同学”、“张三的同学”)的结构里面,语义坑填满了(saturated),很圆满的样子,一个是 R 本身,一个是 NP:

“我的同学” 逻辑上等价于
==【我】是【我的同学】的同学
==【我的同学】是【我】的同学

假如我的同学叫“张三”,我叫“李四”,貌似同义反复的第二句其实是:

【我的同学(张三)】是【我(李四)】的同学。
== 张三是李四的同学。

逻辑表达式是: 同学{张三,李四}
Note 谓词后是集合 { …… } 不是 list < …… > 因为此类关系是相互作用(reciprocal)的,没有逻辑的次序。

最后说一句,这类实体之间的关系的抽取挖掘,是建立知识图谱(knowledge graph)的一个核心任务。我们当年给起了个名字叫 CE(Correlated Entity) relationship。说话已经15+年前的事儿了,那时还没有知识图谱这个被谷歌炒热的术语。没必要谦虚,我们是知识图谱的 pioneers(之一)(《知识图谱的先行:从Julian Hill 说起》),我们当年的工作对于美国国防部立项知识图谱起了关键作用。这是旧话了,好汉不提当年勇,要往前看,看借助 deep parsing 的核当量的威力,能不能施展一下拳脚,在中国和中文知识图谱大业上建功立业。

好风凭借力,送我做图谱。大数据图谱之上,种种应用在望,问答系统(QA)、智能浏览(intelligent browsing)、语义搜索(semantic search),等等等等。不求名利,无意宇宙,但求 put a ding 在我大唐。一切具备,只欠东风。求主保佑。

 

【相关】

【Bots 的愿景】

知识图谱的先行:从Julian Hill 说起

【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

《有了deep parsing,信息抽取就是个玩儿》

泥沙龙笔记:搜索和知识图谱的话题

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

立委NLP频道

【语义计算沙龙:其实 NLP 也没那么容易气死】

白:
“严把个人商用房客户准入关”
我:
这个句子我人脑也费了半天劲才明白讲的啥(“严把个人商用房客户准入关”==”对个人商用房客户应严把准入关”),尝试用parser也只好瞎碰了,果然乱得不是一处两处,甚至把 “准入关”词典化(拼音联想词组里面 还真有这个词条)也还是不行:
t0626a
白:
“严把个人商用房客户准入关”
严还是个姓,上下文清晰时,可以用裸姓指代全名
“入关”也是词
“把”作动词用不如作介词用的概率高
“房客”也是词

我:
幸亏 real world 这样的句子是极少数。不过人脑怎么 parse 的呢? 虽然也饶了几圈,backtracking ……
白:
这个例子是银行发的正式文件里的
纵向不确定性比较丰富,导致结构貌似不稳
“个人”是定语
我:
这个“严” 做状语也不好掌控 因为更多是做谓语的
“个人”也有些难缠,词典不行 因为有 “n个人” 的存在,只好后面补救了。
个人的定语问题倒是可以解决,但还是搞不定这句:
t0626b

算了,就当没看见。我投降。
白:
“准入”是有坑的,“把关”是有坑的。当“准入”+“关”生成“准入关”的时候,坑也要有同步的调整。
我:
谁(被)准入; 为谁把关(把谁的关)?
白:
把什么事由的关。
我:
把VP的关
白:
“皇军要当你的家”类似
我:
“把学习英语的关”
“英语学习的关真不好把”
白:
“严把生猪进口质量关”
我:
“要把好业务关”
这个事由的坑可以是 VP or (abstract)NP,逻辑语义大体是 about:关于什么事儿的关

白:
“教室的地得扫了”
旅行的目的地得调整了
马:
气死NLP
的士的目的地得调整
我:
其实 NLP 也没那么容易气死 @马少平
t0626c
t0626d
t0626g

马:
哈,强大
我:
当然不能指望“世界第1”的谷歌NLP,靠的是世界第0 的立氏NLP。毛主席保证,上面的句子是一次通过,没做任何工作(当然此前一定是有工作的)。
白:
扫地的离合词处理
目的地,长词优先,不用特意做什么
我:
幸好 real world 的句子也有貌似困难其实无根本挑战的 我们还有活路。
白:
反过来才有挑战性,看着是离合词,就是不该碰一块儿的。伟哥试试:“这地是这样地难扫。”
我:
t0626e
哈哈哈哈 仰天大笑
李白曰过的:我辈岂是蓬蒿人
白:
很好
舍近求远得真解
我:
不过我心内是把它当成狗屎运的,只不过狗屎运常光顾愚公似的人。以前说过n次,NLP 是力气活
白:
话说,离合词这个功能好像也没多久。
我:
两三月前?早就想做了 盘算很久了 实现是最近几个月的事儿。量词更近,才个把月。
白:
量词和本群有直接关系
我:
离合词的处理 直接源于我13年前做英语的 phrasal verbs:take it off / take off the coat / take the coat off 之类(Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003
对量词,的确是本群反复议论才被促上马的 因为没有量词搭配 90%+以上的场合无碍 以前一直拖着没做。

白:
“蔡英文说得不好。”
我:
这种还是休眠吧,hidden ambiguity,跟 “难过” 类似。真做就唤醒,用 word driven
t0626f
白:
和大语境有关
如果满篇都在说另一个蔡,就和蔡英文没啥关系了。
我:
是的,但是那种情形的处理需要在另外一个层面去做。discourse 的因素 trigger “蔡英文”-driven 的唤醒机制。
白:
分层不是单向,该交互时就交互
我:
word driven 是可以想象的,因为“蔡英文”这个词对于我们来说,的确是既透明又黑箱的:黑箱是,只要不是文盲,基本上都知道蔡英文是一个人名;透明是,尽管知道这是一个人名,我们也仍然知道这个词的内部结构,以及这个词的句法可能性:蔡 — 英文,Topic – S 的潜在性,单从这个词,我们就知道。
白:
一个上下文提供了所提及对象的“场”,重复出现可以增加“场强”,左右句法层面对部件的“抢夺”。
我:
不过这些可以想象的操作,大概很少有人去做,选择不做为多,因为还有很多可做的事儿还没做完呢。
白:
分场景。在游戏场景,上下文中的活跃对象“场”是至关重要的,不仅对其中的NLP,也对智能角色的动作规划。用于NLP是捎带脚
我:
所有的 hidden ambiguity 都可以用 word driven 机制唤醒 如果我们真想做的话。
而 hidden ambiguity 一直公认为是中文切词的死穴。至少可以说,死穴不一定就死。换句话说,在休眠唤醒理论(见文末【相关】链接)正式提出之前,这个挑战很可能是被认为无解或极其困难的
但是,我们已经用 “难过” 在 sentiment 语义落地的实际工作中的实现,证明了还是有救。“小王很难过” vs “小桥很难过”,如今在我们的中文舆情系统中处理得如此漂亮!(重温  【立委科普:歧义parsing的休眠唤醒机制再探】)

白:
从一个包含NLP在内的更大系统视角来看,关键语境参数的实时刷新,受益者绝不仅仅是NLP。作者的观点和作者转述的他人观点,在极性上就是需要区别对待的。引述可能是为了反驳或反衬。所以,观点的主人是谁,就需要甄别。
我:
至少在知识图谱的工作中,discourse 内的实体aliasing 以及 anaphor 的工作,成为整合抽取信息的相对可靠的关键元素,这一步可以 leverage document-internal 的线索,这才为下一步的跨文本的 information fusion 打下了基础。
跳过 discourse 直接做 fusion 是不智的。

 

【相关】

《泥沙龙笔记:parsing 的休眠反悔机制》

立委科普:歧义parsing的休眠唤醒机制再探

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

《朝华午拾:我的考研经历》

NLP 是一个力气活:再论成语不是问题

【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003

【置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录

语义计算笔记:坐而论道谈“的”“地”

【立委按】以前在语言学圈子里有些高雅的沙龙,譬如在冯志伟老师回忆 中津津乐道过的语言学沙龙,每周一次,通常在北大,参与的圈子很小,都是精英之精英,朱德熙(语言学大家,北大副校长)、陆捡明(汉语语法学家)、马希文(计算语言学家,传奇人才,白老师的导师)、冯志伟(计算语言学家)等。坐而论道,雅致之极,令人羡慕嫉妒恨不能入。如今时代不同了,这种沙龙还有吗?回答是,有,譬如白老师主持的【新智元语义计算群】即是:谈笑皆鸿儒,往来有白丁,微信群使得高大上的沙龙平民化了,但高度、大度、上度不浅反深,盖因所延揽的精英早已不再局限于小小的京城,而是遍及全球。白老师树大招风,与NLP有关的华裔背景的顶级专家学者毛姑姑也有90%了,或高论,多潜水,胜景跌出,风光无限。甚至连中国NLP旗手董振东老前辈也上了“贼船”,乐在其中。此番繁荣,拜技术所赐,先给张小龙敬个礼。

白:
“这本书的匆忙de出版,险些坏了大事。”  这里的“de”,是“的”还是“地”,为什么?
如果按照“从里到外”的原则,是“匆忙de”先跟“出版”结合,彼时“出版”尚未被强制,因此还是满格的动词属性,de理应为“地”。但是……个人语感为什么倾向于“的”,而且理论上找不出理由。
“今天真遗憾,错过了大师的精彩de指挥。” 这个就是百分之百的“的”了。
我:
既然白老师爱钻牛角尖儿,咱们就钻钻。
白:
难道这个“指挥”不是被强制的?
我:
不能说 100% 可能是 90%+ 吧。验证的话,可以用大数据。
白:
大数据里有错别字
我:
哪怕大数据里面出来的结果是 100%,用“超大数据” 也会发现不是 100% 而且不仅仅是由于错别字。
白:
验证如果找100个文字编辑,我没意见。
我:
这里面的道理就不是大数据这种表象了,而是某种语言学。
动词概念被性状概念的词修饰,在具体语言中的形式应该是怎样的?就是这个问题。到了汉语,默认的形式是:(1)前置 (2) 加“地”。凡是默认 必有例外。如果 大数据发现了例外 或者 100 个文字编辑的内在句法趋向于一种例外的结果 这个例外就有语言学上的说法。
这里面还有一个微妙之处:口语中是de1 de2不分的,因此上述形式的讨论只限于书面汉语,而书面汉语受到了文法规范化教育的灌输。因此至少从一个层面看,这个问题就是一个 moot point,因为每个人的受教育程度是不同的,而每个人的儿童时学会语言的过程则是相当类同的。这二者打架的结果就会出现不一致,因此 100% 很难。如果聚焦到 100 个文字编辑做裁判的话,实际上是放大了教育的影响。有意思的问题于是成为:本来 “的”是 de 的默认,而非默认的“地”的使用是受教育的结果,因此文字编辑应该趋向于在形状类概念修饰动词性概念的时候,使用“地”而不是“的”。但是,这个 case 却不是(假如白老师的语感或修养靠谱的话),正相反,受过教育的人在这个 case 中,更趋向于用 “的”。这是为什么呢?这里面必有更深层的说法。
还要继续吗?或者谁继续牛角尖下去?
白:
其实,我是在对“从里到外”和“从左到右”的原则在质疑。如果“从左到右”,名物化结构强制的痕迹在不断加重,用“的”就理所当然了。如果“从里到外”,强制在外层,里层在不确定情况下会追随标配。
我:
其实我也正想说到这点儿,就是发散太远,还没收回来。
白:
所以,我认为是“从左到右”的分析策略在起作用。
我:
左右就是词序形式。抽象一点,不是词序,而是【层次性】与【去层次性】在语义表达或理解中的矛盾体现。这在句法学界已经打了很久很久了。层次性是一派,去层次性(扁平化)是另一派。公、婆各有理。
白:
不需要那么极端,就是已经读进来但还没有构造成树的成分,是完全被动地等在那里,还是对后续的消岐有所影响的问题。

我:
层次性的理解涉及多性状概念的 scope 边界,这是乔姆斯基短语结构的真义。去层次性的理解不强调这种 scope 的严密性,而是把他们的配置看成是自由搭配。这是为什么 dependency grammar 的结构树放弃非终结节点的表达。
白:
结构强制发生在有明确结构预期的时刻,而不是真正等来了结构强制对象的时刻。
伟哥可以顺带看看“恢复疲劳”那段。
我:
层次性一派的假设: x1 de x2 de x3 == [x1 de [x2 de [x3]]]
去层次性一派的假设: x1 de x2 de x3 == x2 de x1 de x3
两个假设都可以找到语言事实的支持。
白:
应该有 强去层次 和 弱去层次 之分
强:等价;弱:sometimes等价
我:
相信层次化的理解和去层次化的理解,在相当多的人中其实是模糊的。人的语义,无论表达还是理解,都充满了模糊性,而这种模糊性基本上也不影响语义的语用。换句话说,怎么说都可以,人类在交流中基本不 care。
白:
对分析策略似有影响
我:
歧义不仅可以保留或休眠,直到语用,甚至可以 beyond 语用,一直到死:严格说到死的歧义超越了交流,不能算歧义,最多算伪歧义。从这一点看(伪)歧义,就发现很多问题是人自找的;董老师也说过类似的意思。“人” 指的是系统设计师。
白:
又漂了
我:
漂是因为某个思路还没到终点,意犹未尽,很难受的。
回到分析策略,自底而上最实在。自底而上与层次化自然相配,但也不必然采纳层次化的 representation。
说说 恢复疲劳 吧。这是个固定用法 词典化的条目。
白:
结构强制是个特殊的操作,如果承认在短语“这本书的不出版”中,“不出版”是个状中结构,而再外层是个定中结构,于是结构强制就发生在这两层的衔接当中。“这本书的匆忙de出版”站在层次观点也是一样的,但我质疑层次结构在先结构强制在后。
我:
虽然汉语的 动宾句法 可以有 n 种逻辑语义,但是作为 open-ended 的句法语义解读,这 n 种解读不能是非自然的或满拧的语义。“恢复”与“疲劳”就是满拧。里面省略了的 FROM 就是反映这种蛮拧的。如果 FROM 不出现,那么必然要词典化 用记忆去绑架。
白:
“维持骚乱”的说法也成立
我:
如果要探究为什么这种乍听上去矛盾的说法进入了人类的语言 被词典化,简单的说法就是约定俗成。深究的话 其实是因为矛盾的双方是共现频率极高的相关概念。因为高度相关,所以本来可以明晰的连接双方的句法手段(词序啊,小词 from、against 啊等)就显得太啰嗦,偷懒的人开始省去这些句法元素 共同体开始接受这种省略。最后就进入了集体的固定用法的记忆。“从疲劳中恢复” >> “恢复疲劳”;“维持和平以防骚乱” >> “维持骚乱”。
白:
我的观点是,分析不在乎是不是词典化,生成在乎。哪怕是第一次看到这样的组合,也会放行的,因为张力的指向一览无余。
我:
分析不在乎,是语义不落地,只是休眠。管它什么宾呢 动宾是无疑的。
白:
“维持骚乱”就不必有什么固定记忆,一看这俩词儿,就知道是从不正常状态努力进入正常状态。
我:
没进入固定记忆,是还在过程中。
董:
知网词典的词语,与两位讨论的有关,供参考:

W_C=打扫房间
G_C=verb [da3 sao3 fang2 jian1]
S_C=
E_C=
W_E=clean the room
G_E=verb [51cleanverb-0vi      ]
S_E=
E_E=
DEF={clean|使净:patient={room|房间}}
RMK=

W_C=打扫垃圾
G_C=verb [da3 sao3 la1 ji1]
S_C=
E_C=
W_E=sweep away rubbish
G_E=verb [51sweepverb-0vi      ]
S_E=
E_E=
DEF={remove|消除:patient={waste|废物}}
RMK=

W_C=打扫卫生
G_C=verb [da3 sao3 wei4 sheng1]
S_C=PlusEvent|正面事件
E_C=
W_E=cleaning
G_E=noun [7 cleaningnoun-0action,uncount,ofnpa次    ]
S_E=PlusEvent|正面事件
E_E=
DEF={clean|使净:StateFin={spotless|洁}}
RMK=

W_C=恢复疲劳
G_C=verb [hui1 fu4 pi2 lao2]
S_C=PlusEvent|正面事件
E_C=
W_E=recover from tiredness
G_E=verb [51recoververb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={BeRecovered|复原:StateIni={tired|疲乏}}
RMK=

W_C=恢复知觉
G_C=verb [hui1 fu4 zhi1 jue2]
S_C=PlusEvent|正面事件
E_C=
W_E=recover consciousness
G_E=verb [51recoververb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={BeRecovered|复原:StateIni={dizzy|昏迷}}
RMK=

W_C=救火
G_C=verb [jiu4 huo3]
S_C=
E_C=
W_E=fight the fire
G_E=verb [51fightverb-0vi      ]
S_E=
E_E=
DEF={remove|消除:patient={fire|火}}
RMK=

W_C=救生
G_C=verb [jiu4 sheng1]
S_C=PlusEvent|正面事件
E_C=
W_E=lifesaving
G_E=noun [3 lifesavingnoun-0action,uncount,ofnpa次    ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateFin={alive|活着}}
RMK=

W_C=救穷
G_C=verb [jiu4 qiong2]
S_C=
E_C=
W_E=help the needy
G_E=verb [51helpverb-0vi      ]
S_E=
E_E=
DEF={rescue|救助:StateIni={Circumstances|境况:host={group|群体}{human|人},modifier={poor|穷}}}
RMK=

W_C=救命
G_C=verb [jiu4 ming4]
S_C=PlusEvent|正面事件
E_C=
W_E=save somebody’s life
G_E=verb [51saveverb-0vt,sobj      ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateFin={alive|活着}}
RMK=

W_C=救灾
G_C=verb [jiu4 zai1]
S_C=PlusEvent|正面事件
E_C=
W_E=provide disaster relief
G_E=verb [51provideverb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateIni={mishap|劫难:cause={NaturalThing|天然物}}}
RMK=

白:
比如“打击卖淫嫖娼”为什么不能是“打击卖淫 嫖娼”而必须是“打击 卖淫嫖娼”?就是因为一个正面一个负面,是拧巴的,两个正面,就顺当了。这说的是sentiment对分析的反作用。
我:
“维持骚乱”对我这个个体 目前处于一种不接受的状态。并不因为拧巴 我就接受它合法。如果我是语文老师,我会判错 我自己也避免这样用 也不会这样用。但是如果共同体在这个演变过程的终点选择接受 也就是选择词典化,那么我只得也选择接受 并加入我的词典。这是其一。
其二,拧巴的确在语言交流中起作用。拧巴迫使人放弃默认 去探索其他的语义路径 达成理解 虽然心里可能依然别扭。心里别扭是因为还没有词典化 黑箱化。
白:
参加维和部队,到非洲去维持骚乱。
好点没?
我:
有了上下文,当然别扭感好一些。(同理,我也可以这样加上下文:恐怖主义分子猖獗得很,他们要维持骚乱,我们怎能坐视不理。)
在 sentiment 中,有些故意矛盾的说法来表达讽刺,也是这个拧巴理解的过程。以前说过的 thank you for misleading me,thank 的正面褒扬与 misleading 的反面 是拧巴的。理解放弃了默认,选择了 misleading,是客观sentiment对主观emotion的胜利。thank 的正面语义因此消失,被讽刺取代。
白:
“感谢你八辈祖宗”
我:
英语的 improve 是这样一个褒义词,以至于它不在乎宾语是正面反面。可是 维持 在汉语不是,因此“维持骚乱”的别扭感更强,除非是置于合适的上下文,或被语言共同体词典化绑架。

宋:
“这本书的匆忙的出版”和“这本书的匆忙地出版”都是合乎语法的,而且都是指称语。深入一层,“匆忙的出版”和“匆忙地出版”都受“这本书的”修饰,也都是指称语。再深入一层,“匆忙的出版”中的“出版”是指称语,“匆忙地出版”中的“出版”是述谓语。“匆忙的出版这本书”语法上是错的,“匆忙地出版这本书”没问题。一般来说,动词V的语用功能既可能是指称语,也可能是述谓语,依靠它的句法位置来区别。被“Adj的”修饰的V是指称语,被“Adj地”修饰的V是述谓语。修饰后得到的短语,“Adj的V”是指称语,“Adj地V”与V一样,既可能是指称语,也可能是述谓语,依靠它的句法位置来区别。
我:
基本同意宋老师。
顺便提一句,感觉与白老师对话的时候,常常是,似乎是两股道上跑的车,这不影响互相听得见;这两股道不是完全平行的 而是中间老有交叉点。仔细想来,估计是白老师是广度优先的对话算法;而我是深度优先的算法:一条路径不穷尽不愿意回头,就是所谓 “漂”或发散性思维。因为对话是在有限时空中进行,无论什么算法都不可能穷尽路径,因此就造成白老师提纲挈领 总站在云端俯瞰的效果,而深度优先的算法就成了啥了,捡了芝麻,丢了西瓜的印象。宋老师则不同,广度深度都有,但往往是隐而不发 一锤定音。董老师更是大师了 拈花微笑,howNet 拨千斤。就没有能超出 HowNet 的,简直就是如来佛的手掌心。
董:
“出版”,这对于Hownet曾有重要意义。HowNet当年就此要回答两个问题:第一,“出版”(或类似的“计算”、“分析”等)在汉语里也类似于英文既有动词词性,还有一个名词词性吗?这涉及在知网词典中,它们应有两个词条,还是只有一个词条?第二,“这本书的出版”和“这本树的不出版”,在理论意义上它们的区别是什么?
“出版”的问题,HowNet与宋老师是一致的。以前在我们对这个问题的说明时,我们说:“出版这本书”和“这本书的出版”中两个“出版”在核心语义上没有差别,所差的是:前者是有过程的,而后者是静态的,是一个事实。用比喻说,前者是一段视频,后者是一个镜头。这也就是宋老师的述谓性的和指称性的理论。HowNet基于这样的认识,“出版”这样的词语在词典中,只有一个词性,即动词,但对应着两个英文词条,动词和名词。
白:
“这本书的出版”揭示的结构强制现象概括为三句话:1、修饰语决定整体的词性;2、中心词保持原有的词性;3、修饰语填中心语的坑。
我:
Ontology 是逻辑的 高于语言的。在 ontology 的顶层 也有类似词类的东西,可以称作 逻辑类:逻辑动词 逻辑名词 逻辑形容词。这个思考在hownet 得到印证。我个人的这个思考发源于对世界语的钻研及其与不同类语言的比较。我学过法语 俄语 加上英语 汉语 世界语,有足够的表征支持跨语言、高于语言的逻辑类的探索。特别是世界语的构词法 对于这类研究的启示,当年感觉是醍醐灌顶。
白:
中心词的词性也可以“嫁鸡随鸡”,强制前保持原有词性,强制后由修饰语决定。此处特别容易走向拍脑袋。
我:
强制前强制后,原逻辑类都是恒定不变,它是这个语词概念的本质类别,不随句法词法而变。到了特定语言 会有一个类似的 field,俗称 pos,这个是可以改变的。但是传统上 nlp 定义的 pos 任务 很容易过火 过犹不及 结果是让开发者陷入依赖pos的误区(见【中文处理的迷思之二:词类标注是句法分析的前提】)。尤其是照搬英语pos做法到汉语的人 特别要警惕 pos 的陷阱。【迷思】里蕴涵很多只可意会的实践体会和哲学思考,说给世界听 但并不在乎世界听不听。陷阱本就是为人预备的 栽进去也没啥 不过是重复我们曾经的苦难而已。不说不忍,说了也就是菩萨心肠。

quote 需要说明的是,笔者并不反对先POS后Parser的中文处理策略,只是指出POS并非Parser的先决条件,还有一种句法直接建立在词典之上的一步走的策略。顺着这个思路,一步半的策略也许更好。所谓一步半,就是做一个简单的 POS 模块(算是半步)把词类区分中比较大路容易的现象标注好,并不求对所有词类施行标注。

这里要提的建议是:推向极端可以不做汉语 pos,为了工程方便 可以做,但不要过火 不能依赖。
董:
说得太对了。我们在HowNet 那本书的最后单有一章,讲的是中文。其中批评了宾州中文树库,说那是照着英文套中文。特别举得例子是他们标注:年平均(adv)-增长3倍,同句中的年平均(adj)增长率,中文真是如此吗?我们中文的哪本词典里有如此区分词性的。英文词典里look是动词还是名词表的清清楚楚。我们中文是到真实文本中浮动的。英文的文法是百姓的文法,中文的文法是汉语学家的文法。
清:
董老师分析的透彻!
我:
董老师做 HowNet 的30年,所经过的思考,是我们一般人难以企及和想象的,所以我说,真地就好像如来佛的手掌心,有时候我们自以为自己有什么创新思维,最多也不过是个孙猴子,还不等到得意,就发现董老师高高在上 拈花微笑呢。
白:
不过只要伪歧义控制得住,就算多几个POS,技术上也没什么大不了的。至少这不是个技术问题。
我:
问题是,这些都是相互关联的。多数人,特别是没有经过磨练的新毕业生,一头栽进去,根本就无法控制伪歧义。汉语处理一不留神就是个泥淖。
白:
毕业生学什么课太关键了,学了错的课,时间还不够用来消毒的。
杨:
精辟!

白:
NLP的精妙所在就是纵向不确定性(一个位置上取什么标签)和横向不确定性(哪两个标签之间有关联性,独享还是共享)互相交织,最后还给出一个确定的解。
我:
就好比一个迷宫。虽然说走出迷宫 并非只有一条路径 但能走出来的路径真心并不多,而且每条到达终点的路径都必然七曲八拐 暗礁险滩。可以展示最终的形态 很难展示历经的过程。有人认为 只要最终形态是相对确定的 这个路径就必然可以根据最终形态学出来。这就是黑箱子的哲学。似乎天然可行 也赢得了全领域 甚至全人类(大部分是外行)的理所当然的认同。我称它为学习乐观主义。有没有 catch 只有天知道 白老师知道。
白:
七拐八拐真心不是障碍,障碍是目标函数是什么。
我:
七拐八拐关涉多层,不也是毛毛虫的一个部分?

 

【相关】

中文处理的迷思之二:词类标注是句法分析的前提

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing 每日一 fun: 雨是好雨,但风不正经

气象局通知~~~原约定今日凌晨来的暴雨,因半路上被堵,耽误了点时间,或许今天下午到夜间赶到。这场雨如果下大了肯定不小,下小了也肯定……不能大,请市民再耐心等待!具体情况等气象台会上研究后报给市民。气象台温馨提醒:今天如果不下雨,明天不下雨的话,这两天就没有雨了,等下暴雨再准确播报。
气象台郑重劝告美女们最近几天不要穿裙子,容易被撩,雨是好雨,但风不正经。

这是微信最近流行的段子。每日 parsing 一 fun:
t0621a0
t0621a下面是笔者对两条路线斗争的总结,也 parse parse see see 吧,QUOTE:

说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。这就是计算语言学的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言  兴趣迥异 无法正常对话  更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。做了一辈子的某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊。

0623a
0623b
0623c
0623d
0623e
0623f
0623g

My interview:
wei_interview
from http://www.netbase.com/about-netbase/

 

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing: 每日一析,内情曝光 vs 假货曝光

白老师出的那个 minimal pair:
“这家公司卖给张三的内情曝光了。”“这家公司卖给张三的假货曝光了。”

测试一下,现在没有区分:
t0623
结构上粗线条是一样的 没大问题 可是 同位与动宾的区别没表达出来。既然句法大筐子不变,只是 roles miss 掉了,应该可以在语义中间件中轻易解决,透过定语从句的路径以及约束条件。

一觉醒来,在中间件加了一条简单的找逻辑宾语填坑的规则,看看怎么样?改进版:
t06231
这条规则是说,如果定语从句谓语句法完了以后仍然有宾语坑未填满,那么它所修饰的NP就来跳坑,除了 “消息” 类的NP。“内情” 于是被堵在外面 不跳,“假货”当然无所畏惧。至于 “内情” 与 定从 的同位语关系,可以做,但选择不做,因为定语的概念包含了同位语,比同位语大,目前没有感到有细分的必要。
上图中还有一个 catch,“公司”与 “卖给” 的逻辑主语没有做,而只是做了 “公司”与“假货”和“内情”的句法定语关系。目前也选择不做,等到需要的时候也不难在中间件中补。主要理由与上面同,偷懒而已。主语是arguments中最接近adjunct(定语就是一种 adjunct)的角色,细分的必要性不强。当然语义落地真地需要,那就或者在语义中间件补上,或者在落地时候唤醒。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

计算语言学的尴尬

白:
我关心“老婆情人”在那个语境下为啥不是定中结构。
老王卖瓜自开涮,
创新形容瓜特甜。
老婆情人小三见,
买回刀劈报仇般,
我:
没看懂。似乎有个 context:
老婆情人小三见 == 老婆情人见小三 or
老婆情人小三见 == 老婆见情人小三 ?
诗人特权害死人
Nick:
老婆情人小三见==三缺一
洪:
老婆/情人/小三见
两者兼顾,读诗看图,歧义何出?误解消除。
情人/小三,心理概念;原型维度,因人而殊。
RW:
情人/老婆,心理概念;原型维度,因人而殊。
我:
情人(lover)与小三当然不同。小三虽然没有法统地位,但既然排了次序,就有了事实的地位(“事实婚姻”的事实)。因此还有小四小五之说,这个次序也可能有新来后到的意思,或反映了喜新厌旧,数字越大新人可能越受“老爷”的宠(沿袭三妻四妾的旧制度思维),虽然事实的地位在俗众的心目中似乎越低。
陈:
情人一般是有夫之妇?小三是未婚?
我:
情人比较浪漫,超脱,爱情唯上。与世俗的地位和次序脱钩,倒是有某种秘密的刺激。
Nick:
小三是有上位企图的,情人没有。so情人就是炮友的意思。法国人那种关系都叫情人?我:
情人一旦转成小三 就低下了浪漫的头 失去了独立性 成了金屋藏的娇。广义的情人 也可以转成夫人 实现从浪漫到世俗的脱胎换骨。窄义的情人 专对已婚而言 那是法国英国贵族爱玩的公开的秘密游戏。
白:
你们都是发散思维,就我死啃一个点,结果没人回应。
我:
白老师的问题是老婆小三之间的顿号,是怎么进入人的语言心理的?虽然根本就没看见顿号的影子。为什么顿号不是“的”?
为什么呢?因为大数据!
白老师这次不是“窃喜”,而是感叹心有灵犀了吧
@白老师 “大数据” 是不是你心中老婆情人parsing的标准答案
白:
@wei 大数据中,老婆情人的对举用法远多于修饰用法,这是肯定的。另外老婆的情人有个更简约的用法“情敌”,放着不用偏要拐着弯说,浪费能源。现实中两个因素都在起作用。
我:
白老师的问题是太能干 这个世界不够他玩的。又是语言学 又是金融平台 又是什么块什么链。否则的话 拉出来我们搭个档 做做 NLP 多刺激。就依照你那个 RNN 还是啥的路子走。别人的路子不敢信服。别人也很少懂这一边。
白:
身不由己啊
我:
说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。白马非马 计算语言学亦非语言学 只剩下语言的计算 这就是【计算语言学】的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言  兴趣迥异 无法正常对话  更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。
但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊 主流可以不转眼珠 可是心里并不是想象的那么有底气 一个潮流来 可以鸡血一下 忘记幽灵的飘荡 但幽灵始终徘徊。

【相关】

【文傻和理呆的世纪悲剧(romance tragedy)】

【科普随笔:NLP主流的傲慢与偏见】

没有语言学的 CL 走不远

老教授回函:理性主义回摆可能要再延迟10几年

【科普随笔:NLP的宗教战争?】

Church – 计算语言学课程的缺陷 (翻译节选)

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】

【Church – 钟摆摆得太远(5):现状与结论】

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

【泥沙龙笔记:语法工程派与统计学习派的总结】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing 每日一析 半垃圾进 半垃圾出

白: 越南一架载有9人的巡逻机执行搜救任务时失踪,这失踪的CASA是去搜寻刚刚失踪的苏-30的。搜寻失踪的,自己也失踪了,得再派一架去搜寻这因搜寻失踪而失踪的飞机的飞机了。

白老师看重的是 不是人话的人话 “。。。得再派一架去搜寻这因搜寻失踪而失踪的飞机的飞机了”。不是人话的话,我把它叫做半垃圾。

半垃圾我都不想试,笃定搞不定。犯“错”了吧心里别扭,又想逞能,就必然去debug一个其实也没啥bug的系统 其结果很可能是得不偿失,或费九牛二虎之力不过是为了一个基本不会再次出现的长尾之长尾。如果无视吧,跟眼里揉了沙子似的。

好奇心害死猫,还是忍不住测试了,不过毛主席呢保证,绝不 debug,我说的是绝不! 也不进 unit test,任它 half-garbage in half-garbage out, 有当无好了:

t0617a

合上揉进沙子的眼呼呼去也,希望今夜无梦,至少无语言学的噩梦。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing:每日一析

“西方人类比用得少,是因为西方的逻辑学产生的早。
t0614a
什么叫狗屎运?我的定义就是:遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。
严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。(S 是主语,Subj 是主语从句。)
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。

对于汉语常见的 NP+XP+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2) [Mod + S] Pred
(3)[S + Pred] +Pred
when the second element XP can be Pred (V, A, or deverbal N)
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录