【立委兄:加拿大西部自驾山水游(14/16)】

二十八天加拿大自驾游西部篇

在去优鹤国家公园路上,我们先去离路易斯湖14公里梦莲湖 Moraine Lake,这是我们在班夫国家公园看到最后一个湖泊。去梦莲湖须走一段上山的岔路,当时路上不是雨就是大雾,我们对拍美照己不抱希望,到那去纯粹是到此一游了。梦莲湖是一个冰川湖,坐落在著名的十峰谷中,湖泊面积不大,仅有0.5平方公里,它被世界公认为是最有拍照身价的湖泊。因沉积的岩粉矿物质,湖水呈现出美丽的蓝绿色,晶莹剔透,在锯齿状的山谷的拥环下,就像一块宝玉。加拿大老版20元的纸币上就印着这个美丽小湖。到湖边雾小多了,但车多人多,找不到停车位,如果不是突然有一辆车开出,在我们车前让出一个停车位,我们可能就与这美景失之交臂了。虽稍微有一些寒意,天还阴阴的,刚看到时也没特惊喜,第一眼就挺失望的,一是人多,二是没有啥惊艳的感觉。

但我们沿着旁边的岩石堆小径 Rockpile Trail 登顶,整个湖面映入眼帘,感觉完全不一样,太让我们惊喜了。湖水的颜色却是神奇般地变蓝了。更何况这时太阳突然从厚厚的云层冲出来了,因为湖底有很多含有矿物质的石头,加上阳光的折射,变幻多姿,晶莹剔透,湖面像块晶莹剔透的蓝宝石。十峰环绕的梦莲湖与碧空、白雪形成强烈对比,远山云雾缭绕,神秘梦幻,冰山倒影在一片蔚蓝中,这是一个你不去绝对会后悔的的绝美风景。

岩石堆小径Rockpile Trail下梦莲湖Moraine Lake

离开梦莲湖后,我们走1号公路前往优鹤国家公园塔喀可桂 Takakkaw 瀑布,幽鹤公园的第一个景点不是塔喀可桂 Takakkaw 瀑布,而是加拿大太平洋铁路。8字型盘山螺旋隧道是加拿大太平洋铁路浩大工程施工中最为险要的路段之一。太平洋铁路观景平台Lower Spiral Tunnel Scenic Viewpoint 就在高速公路边上,据说如果有长编组的列车通过,在上下错落的隧道中与腰带般的铁轨上蜿蜒而行,很让人震撼。不过我们没有看到,说实话看不到什么景观,只能看见松林中的隧洞口而已。离开观景台,我们直奔塔喀可桂瀑布,瀑布本身宽幅一般,但是落差很大,位列全加拿大第二,垂真高度达384米,是著名的高山飞瀑景观。到那里去要开很长一段盘山路,狭窄曲折,弯道很多,是我们这次加拿大自驾游所有行程中最险的一段路。据说塔卡可瀑布夏季水量很大,气势磅礴,非常壮观。但我们去时水量一般,虽也有震耳欲聋的轰鸣,但弥漫在山腰间的水雾并不大,美感一般。塔喀卡库瀑布的源头竟然是一条由上个冰川时代遗留下来的冰河,从对面高山上看会有意外惊喜,可惜我们没时间去爬对面山上。

加拿大太平洋铁路一段,不是最惊俭那部分

加拿大太平洋铁路,8字型盘山螺旋隧道模型

去塔喀可桂Takakkaw瀑布的路上

塔喀可桂Takakkaw瀑布

 

 

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

二十八天加拿大自驾游西部篇

2日一早,当我起床打开窗户,不由得惊叫:太美呢,太美呢!蓝蓝天空下,白白的雪山,一条云雾缠绕在山间,朝霞印照在山顶,多彩多姿,金光闪烁,不是仙境胜似仙境。原来昨晚是山下下雨,山上下雪,清晨突然转晴,就展现出这神奇的景色来。我们呼着极清新的空气,冒着寒凤,拿着相机,在住宿门外不停地拍摄,太让人心动了。

落基山旅馆四周的好照片

随着我们赶紧打包上路,去朱砂湖拍日出下梦幻般的湖景,我们两天前就对那个地方充满期待。果然上天眷顾我们,给我们很多惊喜,枯黄的草,绚丽的霞,碧蓝的水,山顶的雪,多层的云,洁净的天,这些要素全都具备,实在是可遇不可求。诸要素构成了一幅难得的美丽画卷,让人爱不释手。不停的拍,不停的拍,说来你可能不信,当我们拍完照后,天气又大变,一股厚云从西向东飘来,不一会儿大雨倾盆。虽然我们无法再去我们发现的另一摄像点即1号公路与1A号公路交汇处去取景拍照,但我们心愿已足,便开车直奔优鹤 Yoho National Park 国家公园。

阴雨下的朱砂湖

日出下的朱砂湖

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

二十八天加拿大自驾游西部篇

 

我们今晚住处不在班芙镇,而在离班芙20公里外的坎莫尔Canmore小镇的落基山旅馆,我们在这住两晚。这是我们这几天住得最好的旅馆,楼上楼下,日式联排别墅式的,二室二厅二厕一厨,十分干净和方便。

坎莫尔Canmore小镇的落基山旅馆

10月1日国庆节,天仍下着雨,我们在班芙镇转了一转,天空雾蒙蒙的,自然去硫磺山顶也无意义了,就再去路易斯湖了。环绕湖畔有许多条健行路径,加拿大国家公园大多建有许多许多步行道,人家对体育与锻练都很执着。另外湖边还有一条登山路径,可一直到达山顶。在山顶可俯览翡翠般的露易斯湖,由于天气不佳,我们只在湖边走了一下,没有上山去拍路易斯湖全景了。露易斯湖三面环山,层峦叠嶂的露易斯湖,仍然翠绿静谧,在宏伟山峰及壮观的冰川的衬映下秀丽迷人。我相信如果不是天气太差,这里一定是现实中的世外桃源,毕竟它久富盛名。下午就回到住处,自己做晚歺去了。傍晚雨仍在下,我们心情自然糟透了,明天就要离开班芙了,没拍几张班芙四周的好照片,该死的天气不给力呀。

班芙镇Banff


班芙镇Banff四周自然风光

 

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

二十八天加拿大自驾游西部篇

沿1号公路继续往班芙赶,突然发现在1号公路与1A号公路交汇处,风景很是独特,山、水、林、铁路浑然一体,特适合摄影。天气已开始下雨,我们下车观察一下,决定明早一定要来这里,这里太有特色了。

1号公路与1A号公路交汇处

快到班芙,雨忽停忽下,没完没了。突然一处景观让我们眼前一亮,惊呼起来。美,实在是美。这就是朱砂湖Vermilion Lakes。朱砂湖位于班夫镇入口的高速公路旁,这里十月初湖畔风景线真是美的无语。虽然天气不好,仍让我们心旷神怡,十分振憾。我们赶紧下车猛拍了一番,不能辜负此处如朱砂一般色彩斑斓的动人景色。我们不用说,自然明早还会来,祈祷明天天气会好起来。

到班芙镇 Banff 了,天又下雨了。班芙镇比贾斯帕镇大很多,没有贾斯帕镇淳朴,是加拿大著名旅游城市,被誉为落基山脉的灵魂,加拿大国皇冠上的明珠。班芙镇群山环绕,冬天可以滑雪,夏季可远足。如果登小镇旁硫磺山,可以居高翘望落基山脉磅礴的气势,俯瞰班芙全镇景貌和弓河蜿蜒曲折的美景。硫磺山海拔2285米,有双向缆车到山顶,但因天气与时间原因,我们没有去硫磺山顶,错失俯瞰班芙全景的机会。到班芙镇我们首先到火车站,打听火车时刻表,目的就是希望明天去我们探寻的那个景点时,正好有火车经过,照出一批有特色的照片。天气说好就好,在火车站时天气转晴,太阳出来了,紧赶慢赶照了几张百年老火车站照片,这鬼天气说变就变,不一会又阴转雨了。

班芙镇百年老火车站

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

【立委兄:二十八天加拿大自驾游 结语】

【立委按】这篇结语显然是老哥有感而发的由衷之言,也看得出震撼般观感以后的对比和思索。不过,说实话,对于我们在北美讨生活多年的海华,部分观感显得有些表面和肤浅,语气也欠平和沉稳。这其实是很自然的。毕竟是生活在两个世界很多年,观察社会和世界的角度不可能一致。我想是,我可能久入芝兰之室,不闻其香;他也可能乍来枫叶之国,不见其弊。但总体而言,我们有一些关键性的共同观点值得强调:加拿大的确是一个美丽到让人窒息、胸怀宽广、社会和谐的伟大国家。它是我的第二故乡,是我魂萦梦牵的所在。如果一定要在人间寻找天堂,加拿大很有可能高票当选,虽然加拿大的经济并不最强,机会也远没有美国多。

这次去加拿大自驾游,由西向东行程近一万多公里,耗时一余月,穿过加拿大城镇几十个,说到底还是走马观花,蜻蜓点水。当然不可能准确地、完整地、立体地、全面地了解加拿大民情,而且自己缺乏多层次、辩证法、科学观和历史思维的模式,又受自己接触范围和观察水平所限,所以结语与感想这节所述内容不可能是绝对真理。我不能保证我的结语与感想是正确的,正能量的和主旋律的,但我能保证我绝不会弄虚作假,也不会无中生有,它是我有限的信息和知识的结累,是我独立判断与分析的结果,属于阶般性的个人认知和结论。我的所有结语都有依据,我的所有感想都是发自内心的。

加拿大是个伟大的国家,面积很大,人口不多,经济发达,法制建全。空气、阳光与水,一个字:净,是TM的真净。原生态、无污染、原汁原味,当然也包括食品。
税收高,退休晚,福利好,大家特别遵纪守法,人人都愿做志工社工,社会公德意识强烈,宗教、科学、民主、法制和自由是整个社会共奉的核心价值。全社会尊老爱幼,各种族各宗教相互宽容,整个国家有如社会主义理想的再现,实在想不出这是一个没落腐朽的资本主义国家。这是结语。

有关感想,大家别急,请我一一道来。

到加拿大首先感觉环境好,没有那该死的P2.5的烦恼,第二天,我在中国常年发病的鼻炎症状消失了,这可是我在武汉大小医院检查诊治多年不见好转的顽疾。医生一会儿说是过敏性鼻炎,一会儿说是慢性鼻炎,药也没少吃,就是不见好。再就是我久治不愈的胃肠道紊乱消失了,大便通畅了,小便不黄了,在中国,我常年大便不正常,经常腹泻,西药中药都吃过,大小便颜色仍不正常。到了加拿大,不用治疗,全好了。这是加拿大这个国家给我赠送的第一个惊奇。

第二个惊奇是,加拿大的所有居所没有天朝常见的防盗门和铁丝窗,没有小区围墙,每家都靠马路,出入自由,实在不可思议。后来发现,连学校、政府、企业都没有围墙,这说明什么呢?不要小看这个没有围墙的小宅院,说明社会治安好呀,它会给你一份踏实,让你从内心爽快。大家不要认为那一定和中国一样,到处安装监控摄头?不是!是有安装,但真的很少,甚至公路交通监控摄头都安装不多,这让我这个受了几十年正统教育的人惊呆了。贪婪的资本主义制度,腐朽的资产阶级思想,贫困的劳动人民和吸血如鬼的资本家,这样的国度怎么能有比天朝还要好的社会治安呢?没有严酷律令,还能维持社会和谐与稳定,是值得中国学者和当政人物好好思考的。我住在朋友兼向导在郊区的小别墅,一个普通木门,一把小锁,朋友一个月不来一次,但从来没有被盗窃过。我们把从中国带来的大包小包放在屋里,然后去东部玩了一圈,也没不放心,更不担心有人入室行窃,这种心态在国内我从来没有过。因为我们居住的小区,有围墙,有保安,有摄像头,但每年都发生盗窃,去年就我所知有五家被盗,有一家损失惨重,百万财产消失了。

第三个惊奇是,没有网络控制,无须翻墙,可随意看阅祖国任一网站。今天社会是网络社会,出国在外人,网络更显重要。我们可以用微信向国内亲友报平安,发照片,也可以上网了解国内外政治经济状况。制度不自信的加拿大,不害怕它的工人阶级通过网络,向往那令人神往的美好制度,造成人才流失?理论不自信的加拿大,不害怕它的人民通过网络,掌握精神原子弹,造成社会动乱?道路不自信的加拿大,不害怕它的公民通过网络,结聚社会正能量,让人民当家作主?文化不自信的加拿大,不害怕它的组织通过网络,被先进文化俘虏,走向社会的异化?不理解!不明白!加拿大这个充满着多元文化色彩的国度,能如此和谐,实属难得。

第四个惊奇是,在加拿大自驾这么久,走过不同道路,各地的公路车水马龙,但井然有序,也没有人横穿马路,没在路上看到一起交通事故。一个月来唯一一起交通事故还是发生在自己身上,这后面再详谈。而我在中国,只要出去游玩,总能碰到交通事故。要知道加拿大很多高速公路硬件条件不如中国,比如我们走的是5号公路,虽然也叫高速公路,但并不完全封闭。也无中间隔栏,沿途基本没有固定摄像头和测速仪,很多地方只是双向二股道,弯道也多,有很多非立交岔口可以进车,远不如在中国很多省级非高速公路,加拿大高速公里没有规范的服务休息站,有时候一百公里都看不见一个服务区。我们开车的那条高速不少路段,公路车流量也不少,但不论大货车,小轿车速度都很快,包括常见的房车基本都在110或120公里/小时,山区的路能跑这么快,还看不到交通事故,不能不佩服加拿大的交通制度!加拿大人的交通意识很强,那怕再挤,靠里的两人乘坐的专用道再空,也没有人去转道插队。该停的地方一定停下,唯一普遍违规的就是超速。本来加拿大道路限速起点就高,在中国限速六十至九十的,在加拿大一般限速九十以上,而且道路硬件远不如中国限速六十的道路,但加拿人驾车仍在110至120之间,尤其是大货车,开得挺猛。我问过我朋友,他说加拿大警察默许超速,但过了120后,如果抓到,后果也很严重。加拿大很多地方高速没有限速监控摄像,主要靠巡路警察执法,我们开了一天车去珞基山,也没看见一辆巡路警察车,也未看到一起事故,是个奇迹!据说加拿大这种所谓高速公路事故率很低,这让我很困惑了一番。而我们天朝山区高速,比如湖北恩施段,硬件环境比它不知好多少倍,可却限速80或60,还老出事故,真是让人想不通。

第五个惊奇是,加拿大人民真善良,加拿大衙门真亲民。我在加拿大曾经的首都金斯顿Kingston出了一起小事故,在我停车等红灯时,从侧面轻微碰擦了我们车。车主是个年轻妈妈,带着小孩,由于语言不通,沟通十分困难。后来只能求助于多伦多的朋友,作为翻译,双方才明白各自意思。事故发生后,这位女士很友善,不推卸责任,她把车主证,驾驶证和保险凭单让我们拍照,本来这事按当地处理方式就此了结,但这位女士很热心,不放心提出要看看我们租车合同。看后,她告诉我们,合同明确规定在外行驶中,事故不论大小都须报警,並带回当地交警部门责任书,才能理赔。这位女士不顾两个小孩吵闹,立既打了报警电话。警察在电话里说,人手不够,这种小事故不能来现场处理。那位女士马上热心对我们说,她要带我们去警察局报警,并打电话给她丈夫,让他去警察局去接小孩。她拖着两个小孩带我们一起去警察局,真是个活雷锋。到金斯顿警察局,只有一位中年妇女处理交通事故,在等她处理上一起交通事故后,就立马分别给双方车子照像,热情地单独分开询问双方事故发生情况并作笔录。态度极为友善认真,比中国交警处理事故态度要暖心许多,不厌其烦,耐心解释,然后开具责任事故单。唯一缺点是太认真太热情太负责太教条,耗费时间太多。在国外出事故是最麻烦的,我们深有体会,一直到旁晚才了结这个案件。加拿大人民真善良,在这次出行中我们常常感受到这种温暖。比如在皇家山公园停车场,素不相识人把停车位让出后,还没已交停车费尚未到时间的停车票一并赠送;比如在行驶路,总有热情人热心指路,耐心解答我们询问。总之,富裕的加拿大人善良、朴实、热情。

第六个惊奇是,加拿大把信用看得很重,信用是他们立国之本。宾馆退房不查房,也没押金。大家都会按次序排队,绝没有插队加塞的行为。这里的商场货真价实童叟无欺,你在这里买东西心里觉得踏实,不用担心商品质量和被欺骗。人们都很文明,没见过随地吐痰的。记得我们去魁北克市那一家汽车旅馆----谢瓦利埃汽车旅馆 Motel Chevalier时,没有一个工作人员,门口有一张留言条,告诉我们房间钥匙在门口小箱子里,可自取自住。第二天退房也没人,只叫把钥匙丢进小箱子里就可走人,这在中国是无法想象的。到各个公园,有部分也需购票,但没人管靠自觉。地铁站只有一位售票员,没见其他工作人员,门也敞开,买票也靠自觉。当然有抽检的,据说查到后信用会受损,但并不频繁抽捡,我一次没碰到过,但也几乎没见到人逃票。

第七个惊奇是,加拿大社会保险体系涵盖广泛,社会福利倾斜贫困者,关心弱势群体成了风尚。服务员、清洁工、木工、水道工、电工,报酬不低,干起来没有低人一等的感觉。我行走加拿大一余月,只在温哥华市加拿大广场碰到一个乞讨者,很是不相信。我朋友告诉我加拿大还是有一些无家可归者,但是政府很关心他们。我这位朋友Max每周都去做义工,照顾无家可归者,对这方面情况相对熟悉。他告诉我们,照顾无家可归者场所实施非常不错,伙食也好。他每周过去就是给他们做甜点,不少无家可归者以此为家,白天出去,傍晚回来,不受限制,不管来历。费用主要是政府拔款和个人捐助,食品都十分新鲜卫生也很可口。有时食品剩多了,他们也带点回家,小孩特别喜欢吃。一个代表资产阶级利益,受寡头资本操纵控制的政府对自己压迫的阶级仍能这么细心周到,是某些理论无法自说其圆的。

我一余月在加拿大唯一见到的一个无家可归者,温哥华加拿大广场:

第八个惊奇是,加拿大农民真幸福。这次自驾游,从西到东,在加拿大广阔田野里奔驰,所见所看,没有发现破旧房屋,最起码从表面看,农民生活很富足。没有地主也没有贫农,大家都是农场主。和中国农民不一样,他们不是农民工,不是弱势群体,更不是收入低,生活苦的代名词。说是农村,给人的感觉蛮现代化的,他们生活也是高品质的。农村住宅各具特色且体量较大,房前屋后是草坪、鲜花、树林,还有汽车、拖拉机和游艇,不是别墅胜似别墅,内部装饰也干净明亮卫生和舒心,更没有在中国农村常见的鸡鸭、农具、柴草。比我们的社会主义新农村建设更合理,更有美丽乡村味道。就居住条件、生活品质而言,在加拿大说不准已没有比农民更好的了。不知道在加拿大农村,还有没有阶级斗争?但贫下中农是绝对绝迹了,这是不争的事实。

第九个惊奇是,加拿大让不少中国人失望,这里没有国内丰富的娱乐活动。在祖国大地遍布的冼脚城、桑拿房、美发室、夜总会,在这里很难寻觅到。更没有我们文学作品中描述的灯红酒绿的景致。这里一切平淡如水,波澜不惊。有些国内来的人,会非常失望,这里太不热闹,太安静,太讲人权了。加拿大虽是世界上最富有的国家之一,但没有土豪金的嚣张跋扈,暴发户的醉生梦死,不论富人穷人,还是中产阶级,都十分喜爱徒步,划船,滑雪这类活动。人们生活健康,情趣高雅,而且人际关系也简单许多,没有国内那种压力与压抑。恕我眼拙,实在看不出腐朽没落垂死的资本主义即帝国主义的一丝征兆来。对不起胸怀祖国放眼世界解放全人类的中国无产阶级的广大革命群众,你们臆想的帝国主义丑陋就如你们臆想的自己已当家作主一样,我仔细观察,证据实难搜索到。

一个月时间十分短暂,看到的也不一定是真实深刻的,但这次旅途给我触动很大,所见所闻再次引起了我的思考。过去给我们的那些教育是否过于偏执?资本主义也在改革,也在自我完善,它们在发展过程中形成了一套良性的运行体系,值得我们好好研究。加拿大的先进经验我们要学习。科技在发展,世界又不大,我们都生活在这个地球村上。争斗归争斗,冲突归冲突,但大家也有必要为人类共同面对的问题,精诚合作,一起破解,如果地球毁了,争个意识形态的是非又有什么意义?

经过这次短暂而又深刻的游历,我开阔了眼界,增长了见识,看到了差距,收获是大大地,体会是深深地。我决定:生命不息,探索不止,游历不停。

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大东部枫叶游(1/11)】

 

【语义计算:“他衣服要烫得笔挺才肯穿出门”】

白:
“他蔬菜要用清水泡过的才敢吃。”

这里面,“泡”的逻辑主语是不是“他”?保险策略:不做定论,悬在那里。激进策略:是,如有必要,拓展对“逻辑主语”的解释。“他”主导了“泡”的启动或者“泡过”的选择,即便不是亲手“泡”,也算是逻辑主语了。落地时可以有个开关,决定“算是”的逻辑主语是否映射为真实的施事或当事语义角色。个人认为激进策略也是可行的。

董:
我的语感是“他”是topic。说的是他这个人。而不是一个行为动作的事件。

白:
“他衣服总是穿得笔挺。”
“他衣服总是要穿得笔挺才敢出门。”

里面的“他”也不和“穿”挂钩吗?
这里的“穿”和那里的“泡”有何不同?

李:
转了弯的逻辑主谓

白:
董老师框架下要直接确定语义角色,我和伟哥是分阶段的。

李:
解析的目的何在?
能想到的好处是可以提供更多的案例 帮助挖掘本体知识。对于语句的语义 其实没啥意义。语句要表达的语义 大多不绕大弯。这也是为什么非谓语动词 常常有坑没萝卜,或者即便有萝卜 填坑不填坑无关宏旨。事实上即便填上了,也大多不是事实,不是发生的事儿的语言表达,而只是本体的潜在逻辑关系的语义相谐的一种体现,此所谓“非谓语”。

白:
绑上了放掉很容易。放掉了再绑上有点返工的感觉。在没有竞争候选的情况下,建议绑上。这是依据封闭世界假设。如此填上的萝卜,如果语境中有其他活跃萝卜,可以override。

李:
顺手的话 当然绑上。

白:
把link标记为“可覆盖”,就可以兼得。

李:
如果知道不十分确定,绑的时候做个标记,说这是个 candidate 不是绝对的。

白:
就是这样:soft hypothesis,遇到更hard的candidate,立马让贤。

“他衣服要烫得笔挺才肯穿出门。”

fallible reasoning,“僵尸萝卜”和“鲜活萝卜”结为兄弟

李:
这句子很绝。各种坑。可以列数一下
(1)possessive:他-衣服
(2)aux-V: 要-烫
(3)动宾:烫-衣服
(4)主谓:衣服-笔挺
(5)计划类V带动词宾语(也可以看成是 aux-V):肯-穿
(6)candidate 主谓:他-烫(衣服)
(7)主谓:他-肯穿
(8)主谓:他-出(门)
(9)动宾:出-门
(10)动宾:(肯)穿-衣服
(11)述补:穿-出(门)

还漏掉啥填坑关系?总之,短短一句,各种纠缠。

最后这个【述补】好像随机性强一些,预示性弱,就好比 【得字结构】 的补语:
“烫-得(笔挺)”,它们更像 adjuncts 不像 args。

白:
parser都要做,补语不是填坑,是坑共享萝卜,是动态确定的

李:
不需要词典subcat驱动,而是一般性规则。

白:
不是词典化的。坑共享萝卜的另一个说法就是坑的合并

李:
好,parse parse:

做到一半了没有?论句法,约莫八成;论全体逻辑语义,也就做了一半吧。

今儿较真一次,列数一下,看到底做了几层关系出来:

(1)Mod (possessive): 他-衣服
(2)句法主谓(其实是逻辑动宾:算是做了一半吧):要烫-衣服
(3)aux-V(表现在 vg chunking 里了): 要-烫
(4)大主语,又名 Topic(其实是逻辑主谓,也算做了一半吧):他-要烫
(5)主谓:他-肯
(6)V带动词宾语:肯-穿
(7)Next 耍了个流氓(算是做了一小半,至少直接联系是搭上了):肯-出门
(8)补语:要烫-笔挺

白:
很牛了

李:
自评: 是八成熟的 parser 吧,差强人意。偶尔露峥嵘。
关键是,这句没做任何微调,所见即所得。隐式的逻辑语义,譬如 “衣服-笔挺” 就没顾上了。隐式逻辑语义目前在语义模块只是做了个样子,没细究。

白:
我说的僵尸萝卜和鲜活萝卜,就是分别指“穿”和“出门”。

李:
句法细化为逻辑语义,也没做全。譬如,流氓 Topic 和 Next 还没教化。

白:
坑者有其萝卜,是NLPer的共同理想,就像耕者有其田一样

李:
哈。
为顺口,可以提这个口号:坑者有其苗。 跟植树造林似的。一个坑一棵苗,终成句法森林。双音语素 “萝卜” 不知怎么个来历 居然是黑匣子 无法缩略为单音节。还不如 “蝴蝶”, “蝴蝶” 略为 “蝶” 没啥问题。

【v者有其n】,这种成语句式 要求 v 和 n 都是单音节才好:

耕者有其田。
劳者有其工。
行者有其车。
食者有其鱼。
学者有其书。
棋者有其go (不是 alpha go)
nlp者有其tree

坑者有其萝卜??
赌者有其麻将??

“麻将” 也是双音节黑匣子 不好。牌九呢,也是双音语素,但似乎可缩略为 “牌”:

赌者有其牌

共产大同了 哈。

白:
“一切不拿自己当大数据入口的端设备都是耍流氓。”

董:
AI,也是智者千虑必有一失。

白:
拿……当……,句式没搞定。把“当”翻译成“when”,后面的都失去准星了。

白:

“机器人送快递还有多远?”

怎么知道这里的“远”实际指的是时间而不是空间?

宋:
时间空间常混淆。

梁:
时空一体

李:
词汇总是有歧义,有不歧义的。

“机器人送快递还有多久?”

多久 无歧义; 多远,有歧义,但标配是空间。结构也是如此,有歧义的,有不歧义的。形态丰富的语言,结构起来,就较少歧义。汉语就显得到处都是歧义。所以那些争论语言优劣的口水仗,缺少的是一个双方公认的测量标准。常常鸡同鸭讲。如果从较少歧义,以显性形式为主要手段来避免歧义这个角度看,汉语是劣质的,这个应该没有多少疑问。但是,歧义也好不歧义也好,现存语言都达到了人类交流的工具目的。不过是,歧义多的语言,人类在交流中下意识利用了常识或领域知识的帮助而已,而这种下意识,对人类一般不构成负担。既然知识在语言理解中的引入不够成负担,那么比较优劣当然还可以有其他的标准。譬如语言表达的灵活性、丰富性、微妙性,甚至模糊性。从这些角度考量,可以 argue 说汉语是世界上最牛逼的语言。

词汇的歧义(wsd)属于 hidden ambiguity,通常不影响结构分析。wsd 真要解决的话,绝大多数都可以在句法后的语义模块或语义落地模块去做。

wsd 和 hidden 歧义 通过上下文消歧 可以利用句法结构的帮助 也可以不用。但既然绝大多数这类歧义都可以留到句法后进行 不利用白不利用 两条腿走路总是更踏实。其所以wsd 研究 利用结构不为多数 不是因为大家不愿意两条腿走路 而是因为多数研究者缺乏得心应手的 parser 的支持 我以为。另一个原因是为模型的纯粹。两条腿一起来,在学习模型中,等于增加了另一维度的 heterogeneous 的 evidence,难缠。

从休眠唤醒的角度看 wsd 的多数都休眠了 常常也不用唤醒 如果落地语义无需聚焦到那里的话。到了需要唤醒的情形 譬如某个应用需要解读 多远 可不可能是说时间的话 结构条件加语义或常识就可以出场了。

“机器人 - 送外递” 这个主谓关系的行为 是一个热炒的话题 现实中很多家在尝试 但还没有成熟。这个知识介入了,才好确定 “多远” 是指向时间的。可这个知识如何搜集、表达和恰到好处地代入,目前看来还有不少挑战。

梁:
汉语比英语更高层次,你更简洁。

李:
简洁的另一说法就是裸奔。

本来穿衣主要不是避寒 而是为了体面,为了百分之五不到的避寒需求 每天都要穿得笔挺 的确显得麻烦。譬如 欧洲语言的一致关系在形态上的表现,主谓一致、形容词与头名词的一致(agreement),性数格人称等形态,看着就眼晕。 这些一致的形式有如西装革履,百分之九十五的场景就是摆设,因为没有穿戴它们 语义的相谐也不会让我们产生误解。但的确有不到百分之五的场景 就好比坏天气来了一样 没有穿戴 就会冻坏;没有一致关系 理解就发生困难。 汉语的简洁和裸奔,是以牺牲百分之五的理解畅达性作为代价的。这就是为什么汉语不如欧洲语言严谨,突出表现在写合同和法律文书的场景。欧洲语言之间 严谨性也有不同 大致都可以用穿衣的繁琐程度来度量。国人能省就省 很多小词(功能词)说没就没了,常裸奔到无语。

梁:
Okay, 更裸奔更放任自己,更让 Wei哥难受。

詹:
我常听到这样的说法,说英语的parsing都百分之九十多了,汉语差十个百分点云云。如果方法相同,分析结果总是差着这么多,是不是可以推测,汉语的模糊度就比英语高着十个百分点呢(相当于试题难度高了十个百分点)?

白:
连parse结果长什么样都糊涂呢,说什么多少个百分点?

李:
那天在linkedin上 有人建议:你不是parsing牛吗 打败谷歌 为什么不去用标准集做大规模测试对比?我说 你要说服CEO给我资源 我不妨一做。 往标准集上靠 工作量不小。本来那集就走歪了,非得把走正的 往歪去靠 。

宋:
不止是时空混淆,其他度量空间也有问题:“机票从7折变成8折”,折扣是升了还是降了?“人民币汇率从7.0升到6.0”,居然是升。纽约时间比北京时间早13个小时还是晚13个小时?

李:
宋老师对语言 眼真毒。
回@梁 汉语裸奔对我不是难受 而是福气。太好受了 人皆可做 我如何寻找存在感呢?语言不幸语言学家幸啊。

宋:
@wei 不是我眼毒,真的是说不清楚。涉及到出国的事情,解释两地时间差别,只能具体说:北京现在是25号凌晨1点,纽约是24号中午12点。各位老师,你们如何表达这个关系?也许可以这样说:北京时间减去13个小时是纽约时间。反正不能说早晚。

梁:
真是好问题,北京和纽约时差13个小时。我有时跟朋友说,"北京在纽约前13个小时。"我真不知道怎么说。

李:
自然语言会有些莫名其妙的表达 gap 存在的。譬如 汉语是 第几 和 老几 ,在英语就没有简明的对等物。理论上 不就是序数词的wh疑问式吗?应该是 *how many-th
但就是没有。遇到这类翻译 英文总是转弯抹角:

What is your place in blah blah 这类

梁:
不可翻译,只能解释的情形挺多的。

董:
什么测试集、标准集,什么召回、精确,还没玩够呀?汉语分词现在似乎没人玩了?那个正确率是怎么算的? 语言不是可以这么玩的。看看这个分词:中国力避朝鲜遭到致命打击。

百度翻译:China in stead of North Korea was a fatal blow.
Google翻译:China's efforts to avoid North Korea have been fatal blows.

对于这个句子,这个分词的错误率,就是100%。

汉语什么是“词”,词频统计能像英语一样吗?还要计算分词的正确率,还要测试,比赛,如何能靠谱?老外玩他们的语言,我们不一定要跟着玩。你玩扑克,我推牌九。

李:
如果没有标准集的话 可能一多半玩parsing的专家就抓瞎了。其中看不起或看不懂语言学的 不为少数。带标数据是他们的命根子,至于这个“标”合适不合适,靠谱吗,有多少用,他们不管。雾里看花,只要有个花的模样,就可以绘画比赛了。就是如此。

董:
前些日子,机译群在聊,说今年的ACL,是深度学习的一统天下。我想起了20年前,如今统计似乎已经风光不再了。30年河东,用不了30年就河西了。

张:
坚持原则的勇气是智慧的全部就是崇拜中

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【立委兄:加拿大西部自驾山水游 (10/16)】

二十八天加拿大自驾游西部篇

路易丝湖luise lake被誉为被誉为落基山脉最美丽得湖,以维多利亚女王的女儿路易丝公主的名字为其命名。93号公路到路易斯湖附近就转入最著名横贯加拿大东西的1号公路,路易丝湖就在1号公路附近,也是去班芙镇Banff主干道。到路易丝湖时天气不好,又阴沉沉的了,没有出太阳,拍不出她的风姿,更拍不出落日下的路易丝湖景观来,我们决定明早再过来碰碰运气。于是我们去童话城堡一般的露易斯湖费尔蒙城堡酒店Fairmont转了转,露易斯湖城堡酒店历史十分悠久,最早建于公元1886年,它紧临湖畔,气派十分宏伟,从宾馆窗户眺望窗外迷人的露易斯湖,那真是享受。

露易斯湖费尔蒙城堡酒店 Fairmont

路易丝湖 luise lake

中国大妈打遍天下

 

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

 

【立委兄:加拿大西部自驾山水游 (9/16)】

二十八天加拿大自驾游西部篇

行使在93号公路,隔一段就有一个景点或者观景台。我们首先游览了米斯塔亚峡谷Misaya Canyon 峡谷。米斯塔亚峡谷没有玛林峡谷深,也没有它大,但米斯塔亚峡谷比较上镜,急流切割的岩石有漂亮的纹理和奇妙的冰臼,非常美丽壮观。

在93号公路有一个著名湖泊叫贝托湖 Peyto Lake,别名叫狐狸湖。贝托湖是镶嵌在群岭之中,很像加拿大国旗上的枫叶,几乎无路可以走近到湖畔,只能从山腰上的观景台向下俯瞰,可以看到湖的全貌。但去观景台须徒步半个小时,据说贝托湖很美,美艳温润宁静,我们怕累没上去。

我们在路边一个不知名的湖泊停留一下,景色也很美,在加拿大落基山脉将近有300座之多的湖泊,其实很多不出名的湖风景也是独有风味。湖光山色, 如在画中。不信?请看我们照片。

93号公路即冰川公路路边可见的最大湖泊是弓湖 Bow Lake,弓湖是因沿弓河岸生长着适合制造弓箭的道格拉斯冷杉而得其名。弓湖边有一座酒店,红顶黄墙,为弓湖增添了丰富的色彩。弓湖主要以大的雪山倒影闻名,弓湖矿物质和植被使得湖水呈现出各种蓝绿色,岩石、残雪与映照在湖面上的倒影完整地连结在一起,水天一色。风平浪静时,湖旁倒影是弓湖特色之一,可惜我们到的时候已经是下午,天气又不好,景致大打折扣。

路边一个不知名的湖泊

弓湖Bow Lake

 

【相关】

【立委兄:二十八天加拿大自驾游 前言】

【立委兄:二十八天加拿大自驾游 结语】

【立委兄:加拿大西部山水游 (1/16)】

【立委兄:加拿大西部山水游 (2/16)】

【立委兄:加拿大西部山水游 (3/16)】

【立委兄:加拿大西部山水游 (4/16)】

【立委兄:加拿大西部山水游 (5/16)】

【立委兄:加拿大西部山水游 (6/16)】

【立委兄:加拿大西部山水游 (7/16)】

【立委兄:加拿大西部山水游 (8/16)】

【立委兄:加拿大西部自驾山水游 (9/16)】

【立委兄:加拿大西部自驾山水游 (10/16)】

【立委兄:加拿大西部自驾山水游 (11/16)】

【立委兄:加拿大西部自驾山水游 (12/16)】

【立委兄:加拿大西部自驾山水游(13/16)】

【立委兄:加拿大西部自驾山水游(14/16)】

【立委兄:加拿大西部自驾山水游(15/16)】

【立委兄:加拿大西部自驾山水游(16/16)】

 

【立委兄:二十八天加拿大自驾游(9/n)】

二.加拿大西部山水游 (8)

因为没有订到冰原景观酒店 Glacier View Inn,我们在网上预订的住宿地是离冰原景观酒店约几十公里的可若酒店 Crossing,位于93号公路与11号公路交汇处。我们很晚才赶到可若酒店,没什么感觉。晚上到可若酒店时,我们做了一顿简单晚歺,赶紧睡觉,明早起床好去一个神秘地方去照日出。本来我们为没订到冰原景观酒店很是遗憾。但第二天一早我们从拍摄地返回时,却发现选择可若酒店太正确了。无心插柳柳成行,可若酒店四周真的是太美了。

30日一早,闹铃响了,天刚微亮,蓝天白云,好兆头,我们驱车前去神秘地方照日出。这个神秘地方是朋友Max介绍的,在11号公路旁,离住处约三四十公里。在起伏的山峦中出现一个很大的湖,朋友Max把它叫着泡泡湖,因为湖底有喷泉,到冬天结冰后,冰里全是泡泡,甚是美丽和奇特。后查地图,这是 Cline River 河的一段,只不过河面到这段十分宽阔,像湖面一样。在去的路上,我们终于碰到了大型野生动物-麋鹿,这是这二十八天行程中唯一一次撞见大型野生动物,让我们很兴奋一番。

朋友Max果然没让我们失望,太美了,是出大片的地方,我们赶紧去找制高点,等待日出,期盼今天有大收获。天有不测风云,山区的天孩子的脸,说变就变,刚刚还透着白光,云彩开始变红,突然间乌云翻滚,下起不大不小的雨来,在车里等了一会儿,不见雨停,只得失望的返回住宿地。

泡泡湖,这是Cline River河的一段

大型野生动物-麋鹿

快到住宿地时,天空像是补偿我们式的,太阳不声不响地冒了出来了。而我们住处,可若酒店四周云雾迷蒙,犹如仙境,美得让人不敢相信。我们顾不得吃早歺,拿起相机不停地拍,刚拍到一半时,天又阴了。我们在酒店吃了早歺,在忽晴忽阴的天空下,继续走这大气磅礴、令人荡气回肠的冰川公路即93号公路,向最令我们向往的班芙进发。

可若酒店四周

可若酒店

 

【相关】

【立委兄:加拿大西部山水游 (1)】

【立委兄:加拿大西部山水游 (2)】

【立委兄:加拿大西部山水游 (3)】

【立委兄:加拿大西部山水游 (4)】

【立委兄:加拿大西部山水游 (5)】

【立委兄:加拿大西部山水游 (6)】

【立委兄:加拿大西部山水游 (7)】

【立委兄:加拿大西部山水游 (8)】

【立委兄:二十八天加拿大自驾游(8/n)】

二.加拿大西部山水游 (7)

玛琳峡谷Maligne Canyon

从贾斯珀国家公园到班夫国家公园,走的是最著名的冰川公路93号公路。驾车行驶在这条绵延230公里号称世界上最美的公路上,是一场顶级视觉盛宴,美不胜收。车窗前常可看到高大巍峨的冰川雪山、迷人精致的湖泊瀑布、茂密挺拔的冷杉森林,交相辉映,景致多变,美丽如一幅画卷。

天继续阴沉,赶到哥伦比亚冰原已近下午四点。哥伦比亚冰原是贾斯珀国家公园最有名的景点,历经万年的巨大冰川,是整个洛矶山十七个冰原之一,也是太平洋、大西洋、北冰洋的大分水岭,是世界上极少能乘坐车辆直接到达的冰川,是北极圈以外世界上最大的冰原遗迹。据说冰河的冰层密度极高,阳光无法折射,会呈现晶莹剔透的蓝光,在晴空下十分瑰丽,但我们没看到。去晚了,关门了,没有搭乘巨型雪原车 SnowCoach,在哥伦比亚冰原上走一趟。只得步行到冰原的边缘。

我们与冰原隔着一条小溪与警戒线相对而视,没有那么震撼。靠近我们这边的冰原很脏,人踩的吧,人类战胜了自然,同时也在破坏着大自然。随着全球气候变暖,冰川正在急速后退,每年都在消融一些,也许百年之后,这条冰川将不复存在。赶到冰原边缘时,天气越发阴沉,一眼望去,灰不溜秋的。领导出来带着大量御寒衣裤和绵胶鞋总算派了点用场,不然从中国背到加拿大,岂不是亏大呢,其实这时到加拿大真不需带那么多衣物。在路上错过了冰川天空步道 Glacier Skywalk,但我们在冰原景观酒店平台上蹬守着,希望能有云开日出,晚霞印照冰川的景观。功夫不负有心人,在天色渐黑的那一瞬时,西边云稀了,露红了,晚霞照在冰川上方,美极了!在凄凉寒风中的苦等总算有了回报。

哥伦比亚冰原

全球气候变暖,冰川正在急速后退

 

【相关】

【立委兄:加拿大西部山水游 (1)】

【立委兄:加拿大西部山水游 (2)】

【立委兄:加拿大西部山水游 (3)】

【立委兄:加拿大西部山水游 (4)】

【立委兄:加拿大西部山水游 (5)】

【立委兄:加拿大西部山水游 (6)】

【立委兄:加拿大西部山水游 (7)】

【立委兄:加拿大西部山水游 (8)】

 

【立委兄:二十八天加拿大自驾游(7/n)】

二.加拿大西部山水游 (6)

去玛林湖Maligne Lake的路上,要路过玛琳峡谷 Maligne Canyon 和药湖 Medicine lake。玛琳峡谷号称是洛基山脉中最长、最深、最奇特的峡谷,但我们也看不出什么特别来,且徒步路线过长,只能走一点就返回直奔玛林湖。有人说:“不到玛林湖就等于没有到贾斯珀公园”,所以很期待。在路上,会经常看到大片大片被烧毁的森林,枯黄的牧草。(在住后走,我们看到被山火焚烧的松树林比比皆是。)紧赶慢赶,到了玛林湖,汽车只能到达湖的顶端。

玛琳湖是贾斯珀最大的湖泊,是世界第二大的冰河湖,也是贾斯珀国家公园中唯一一个开放游船的湖。我们去时游船已关门了。在贾斯珀镇时天还很蓝,云还很白。可现在天气却不是很好,所以我们看玛林湖真没感到什么特别。属于不来遗憾,来了更遗憾,盛名之下,有所失望。据说想要看到精华,只有乘游船。玛琳湖最美是湖水的颜色和位于湖中的小岛,曾被评为世界上最上镜的湖泊之一。小岛就是所谓精灵岛 Spirit Island,大名鼎鼎,是加拿大的一个标志性景点,照片经常会出现在加拿大的旅游宣传册上,但游客是禁止登这个小岛的。玩完玛琳湖后,我们必须立即掉头,一定要在傍晚落日前到达哥伦比亚大冰川,去观赏那著名的冰川景观。回来路上,在药湖停留了一下,虽然水少,但景色还是很美的。药湖是加拿大洛矶山中最神秘的湖,每年会消失一次。其水位受地下暗河系统的影响而时高时低,每年不同季节水位不断变化。自春天到夏天冰河水融化,湖水充盈;到了秋天山上的溶雪量减少,水位则开始下降,直至冬季完全干涸见底,整个湖消失。而到了来年春夏湖水又如约而至,如此循环往复。

玛琳湖

大片大片被烧毁的森林

药湖 Medicine lake

途中美景

 

【立委兄:二十八天加拿大自驾游(6/n)】

二.加拿大西部山水游 (5)

中午时分到达贾斯珀 Jasper 镇。贾斯珀镇是加拿大洛基山脉北边的门户,非常漂亮。小镇的建筑风格多样,色彩艳丽,风景优美。小镇位于贾斯珀公园的地理中心,这里聚集着公园内最全的服务设施。小镇没有那么多商业气息,保留着几分宁静,在宁静中让人们感受自然之美,享受生活之乐。小镇很有特色和魅力,被称为大落基山入口最美的小镇,倍受游客们的青睐。

古老的火车站、宁静的小教堂和随处可见的驯鹿和山羊(可惜我们在小镇上没见到),让你觉得贾斯珀似乎离喧闹吵杂的现代都市世界很遥远。我们在小镇一家快餐连锁店吃了午餐,然后去了火车站斜对面的游客信息中心 visitor information center,要了一张贾斯珀国家公园地图,按计划准备去游几个湖后再出发去冰原大道。由于时间紧张,还要去看神往已久的哥伦比亚大冰川(Columbia Ice field),所以决定只去玛琳湖,毕竟它被评为世界上最上镜的湖泊之一,不去怕会后悔的。

贾斯珀镇游客信息中心 visitor information center

贾斯珀Jasper镇

贾斯珀Jasper镇古老的火车站

贾斯珀Jasper镇土著图腾

 

 

【立委兄:二十八天加拿大自驾游(5/n)】

二.加拿大西部山水游 (4)

今天天气十分给力,人品好没办法。在落基山这段时间虽常碰到雨水,但很多时转眼阴转晴,常常给我们一个很大惊喜,而且多数的时候还有蓝天白云。

早上我们吃完早餐即牛奶、水果、面包和香肠后,就立即赶路向贾斯珀Jasper镇进发。在5号公路向北走上几公里,跨过一条河后就转入16号公路东行。

跨过一条河后就转入16号公路进入贾斯珀公园范围

亨茨维尔小城到贾斯珀镇有130公里,须开车一个小时多点。突然路前方一个庞大的雪山横在我们的前面,非常雄伟壮观。一查,那就是落基山脉最高峰,也是加拿大的最高峰罗伯逊山 Mt. Robson,海拔3954米。我们停下照了几张照片,继续赶路。不久就看到16号公路旁一个美丽的湖泊,名叫 Moose Lake 湖,这是进贾斯珀 Jasper 国家公园前见到的唯一湖泊,有停车场。我们下车快速欣赏了一下。不久我们就到了 Jasper 国家公园入口处,所谓入口处也就是在马路中间设一个收费站,是收落基山四大国家公园的门票的。一个车(含7人)一天费用是20刀(加元),是四大公园的通票,若你打算玩七天以上,买年票就更合算了。

加拿大的最高峰罗伯逊山Mt. Robson

Moose Lake湖

 

 

【立委兄:二十八天加拿大自驾游(4/n)】

二.加拿大西部山水游 (3)

闲话少话,我们先谈谈我们第一个落脚点亨茨维尔小城Valemount (中国有人把它译为山河镇)吧。亨茨维尔小城是个离贾斯柏Jasper国家公园很近的一个小村庄,小庄的目前居住人口不到1000人,这次至所以选择落脚地亨茨维尔小城Valemount而不选稍远的Jasper镇,一是因为怕开太长车过于劳累,二是价格相对便宜。亨茨维尔小城Valemount距Jasper镇130公里,离温哥毕有660公里。小村庒虽小名气那可不小,2010年八国集团峰会就是在这个小村庄召开的。而且小村庄该有的全都有,商店超市旅店饭馆银行一个都不少。我们预订的是汽车旅馆,名字叫Premier Mountain Lodge and Suites(普雷米尔高山旅舍及套房酒店),旅馆卫生环境位置都不错,不含税的价格为两间667元人民币。朋友Max是个有心人,他自带了液化汽炉,怕我们不适应洋鬼子的西歺,可以自已在房间烧点吃的。我们到达亨茨维尔小城比较晚,住下后立即去超市采购水果、肉菜、面包和牛奶,做了一顿较为丰盛的晚歺。这次行程开始的第一段路程距离较远,开车花费时间比较长,中午只吃了个汉堡填肚子,实在有点饿了,所以更觉得晚歺特别可口。

第二天,也就是九月二十九日一早,我们起床就在小村庄周围转了一下。亨茨维尔小城规模不大,这里只是去往Jasper国家公园的一个中转站。一些旅行团从温哥华到贾斯伯到班芙的线路上,往往把这里作为进落基山之前的首个宿营地,所以旅馆也不少。亨茨维尔小城还算是个有人气的小镇,旅游旺季时旅馆都是客满。村庄三面靠山,山间烟云缭绕,山谷森林茂盛,是个很美很静很懒散的小村庄,有着美丽的环境和悠然自得的生活!不然八国集团峰会也不会选在这个小村庄召开了,那可是世界最有实力的八个国家领导人呀,能选中这地方必有独到之处。

亨茨维尔小城 Valemount

【骨灰级语言学家开讲段子小品】

走在路上瞎琢磨,突然脑中冒出句俏皮话的段子:

天下无贼 贼有看头
why
好看啊
我是问 无贼 怎么有看头呢

白老师曰 相声的段子就是这么来的。

马:
"贼有看头",估计有人看不懂这句
想起一个段子。 一个人去东北出差,问东北人宾馆是否好找,答曰:东北宾馆贼多。于是吓得不敢去了。

哈 马老师这个更好。

今天有闲,侃侃这个即兴段子的语言学。这样的对话在语言学家眼中有些什么看点呢?

从语义计算的角度,并不是下述每一个点都那么容易形式化、模型化,但是人机对话要想逼近人类对话的高度,这些方方面面迟早要被 addressed。

看点 1. 专名与字面语义的纠缠:《天下无贼》

自从摈弃了上世纪30-40(?)年代流行过的书名号(一种括号)和专名号(下划直线或波浪线:据说后来嫌排版麻烦,就逐渐舍弃了)以后,这个纠缠就很 annoying。这是不同层次的纠缠,但没留下形式痕迹。通常的做法是指望有一部专名大辞典,搜罗进去的遵从 hidden ambiguity 的休眠原则。于是,“天下无贼”被词典识别为默认的电影专名,其内部的语义结构(小句结构)则被休眠。

2. 两个贼的纠缠

自然语言有一个广为人知的属于 discourse 范畴的 heuristic,叫做 one sense per token,说的是,一个token在同一个discourse里面重复出现,那么这个token的所指是相同的。有数据证明,这个 heuristic 的准确率非常高。于是,两个“贼”因为这个 heuristic,就埋下了一条伏线:同指(coreference)的 heuristic 一线与不同指的 heuristic 例外的一线。我们知道,凡 heuristic 一律有例外:再高的精确度,也有不灵光的时候。

其实,这个例外也有人研究过,例外里面还是有规则。规则就是,如果一个token隐藏在一个成语(计算语言学所谓成语包括术语、专名和其他的合成词)内部,那么这个token就不(必)遵循 one sense per token 的原则。

3. 贼的内部歧义

贼的标配定义就是 blah blah 的【human】。不知何时,好像是早先来自我们东北兄弟,开始用“贼”表达程度(副词),感觉贼形象、贼酷。这个用法显得别致、匪气、接地气,进而渐次推广到全国,尤其在网络用语里面。于是,贼的 hidden ambiguity 出现了,(i)默认的名词【human】和(ii) 程度副词。

4. “vt头”的语言学

(有).... 看头、吃头、玩头

这事儿咱从头说起。汉语是孤立语,一般认为没有欧洲语言的形态(词尾等),也没有严格意义的前缀后缀。如果n个词素(morphemes)组合成了一个词典单位,通常的说法就是合成词(compounding),而不是有明显主干枝叶之分的派生词(derivatives)。但语言是发展的,从古汉语甚至合成词都极少(这是“孤立语”的本义,孤立语的典型和极致是没有 morphology的)、一切都是 syntax,逐步发展到现代汉语,汉语的孤立特性在明显降低。有些所谓类语缀(quasi-affix)的语言学材料开始出现。换句话说,汉语有朝着印欧语言的方向演变的蛛丝马迹。

“头”就是一例。

“看头”,不是句法的动宾:看(了个啥)头
也不是通常的合成词的定中套路:(所)看(的)头
而是一个特别的后缀,其派生词的构词法与句法的接口,可以这样来做形式化的描述(by the way 我的博士论文专门有一节论汉语的类语缀现象):

NP 有/没有 Vt-头 ==》有/没有 VP{Vt NP} 的【value】,VP {Vt NP} 结构自然是典型的动宾式动词短语。

细究的话,这里面还有“学问”:

其一,Vt 不仅要求及物动词,而且要求是单语素(说白了就是一个汉字),两个汉字可能吗?也许由于灰色过渡的存在,可以找到个别的例子,但感觉不是很多:

? 这本书有学习头吗
? 这个课题没有研究头。
* 这个曲子有弹奏头。

到了二字以上,那就绝对违法了。(MD 想一个三字的及物动词还真不容易:汉语的双音化太突出了。算了,不想了。)

其二,这个搭配句式中的 有/没有 不是 “拥有” 的“有” 而是“存在”的“有”,相当于英语的 (there) be or (there) exist。因此这个 V  的唯一的 arg 前置到主语的位置和后置到宾语的位置,语义关系不变:

这本书有看头 ==》
(i)有看这本书的价值
(ii)看这本书的价值有。
(后者头重脚轻,稍微有些不顺,但句法上是可以自由语序的, cf:

(的确)存在看这本书的【价值】
看这本书的【价值】(的确)存在。

其他看点还有,譬如 “why” 和 “怎么”(字面意义是 how)的逻辑语义其实是一样的,问的是【原因】而不是【方式】。累了。歇了。只是记住一点:
自然语言里面的名堂,比我们每天说话的人想象的要丰富很多。希望年轻的 NLP 后学不要小看这门语言的学问。至于老人,那就不用指望了。傲慢与偏见,爱咋咋。

 

【相关】

【NLP主流的傲慢与偏见】 

【NLP主流的反思:Church - 钟摆摆得太远(1)】

【Church - 钟摆摆得太远(5):现状与结论】 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

【立委兄:二十八天加拿大自驾游(3)】

二.加拿大西部山水游 (2)

在机场去住处的路上,我们绕道去了温哥华漁人码头Steveston Fisherman’s Wharf。这原本是一座小渔村,八十年代由于渔业的衰落,这里的渔港已经转变成一个市民休闲的旅游景点。其实这里景点真的很一般,就是个海边渔市,不知为什么温哥华人大清早特意跑到这里来买鱼。外国人真是一根筋呀,城里的超市和肉店、水产店都能能购买到新鲜的海产,质量也很好。但是仍有不少市民固执地觉得这里的鱼虾与众不同,便宜且质量一流,其实与市内品质相差不大。我们去时,摊贩大都收市了,渔港已没有什么鱼在卖,尤其是非常新鲜的三文鱼,这种加拿大最常见最著名的品种,非常遗憾也没看到。

玩了漁人码头,去了当地一个中歺馆,吃了踏上加拿大国土上的第一顿饭。饭还算合口味,温哥华华人多,所以中歺馆也多,味道相对地道。吃完中歺就去超市购了一些必须品和水果、肉菜。温哥华超市食物很丰富,按当地收入来说,那是相当相当地便宜。即使换算成人民币,以中国人收入来比较,那也不算很贵,加拿大人民幸福呀。关键是没有食品安全问题,什么地沟油呀,农药菜呀,毒奶粉呀,镉大米呀,还有什么神农丹姜,瘦肉精,病死猪肉,假羊肉,速生鸡,毒豆芽,加拿大人民听都没听说过。加拿大人真没见过什么世面,太孤陋寡闻,缺乏见识了,完全没有中国人民远大的眼光、精明、灵活和手巧。没有头脑去设计这些惊奇的东西,也没有这些东西去磨练人的意志,真替加拿大人民担心哟。没有这些穿肠而过,怎么能练成百毒不侵的身体呀。苦难和毒物能使人成长,幸福而清洁的加拿大人民只能是温室里花朵,经不起风浪。这样一想,我的自豪感猛生,苦难和毒物万岁。

莫谈国是,书归正传。

从超市出来就去小别墅休息,晚饭是自己做的,主菜是Max做的红烧排骨,十分可口。

温哥华漁人码头

经过一夜休息,朋友Max一早来小别墅接我们。我们赶紧拿上行李,背起相机,正式开启了加拿大西部山水游,也就是落基山脉深度游了。

加拿大西部山水游行程为温哥华Vancouver-亨茨维尔小城Valemount-贾斯柏Jasper-冰原Glacier-班芙Banff-黄金城Golden-温哥华Vancouver,含盖落基山脉风景的精华。我们这次的游程是从温哥华出发,经5号公路进入落基山脉,过贾斯珀、班芙、优鹤三大国家公园,然后从1号公路返回温哥华,整条路线呈一个三角形,不走回头路。

加拿大境内的洛基山脉被美国的《国家地理》杂志评为一生最值得去的50个地方之一,是世界遗产。洛基山脉不是以奇、峻、险为特色。但洛基山有山有水,水有湖有河有瀑布,山有川有雪有峭壁。这里地形复杂多样,瀑布、急流、怪石、温泉,湖水与雪山森林相映,这种刚柔相济、动静交映的风光是一幅不可多得、引人入胜的美景。洛基山脉还是野生动物的天堂。有珍惜的黑熊、灰狼,也有驼鹿、麋鹿,回游的鲑鱼,旱獭等等。被划分为多个国家公园,其中最为知名的有四个世界级的国家公园,分别是班夫Banff National Park、贾斯珀Jasper National Park、优鹤Yoho National Park和库特奈Kootenay National Park国家公园。还包括三个省立公园,它们是:罗伯森山(MountRobson)、阿悉尼伯因山(MountAssiniboine) 和汉拔 (Hamber)。

从温哥华到亨茨维尔小城,我们走的是5号公路,虽然也叫高速公路,但并不完全封闭。虽限速90或100,但路上车子大都开在100至120的速度,大货车大客车也如此,而且常常不能不开90码以上,不然后面车子会堵成一排。二股道的公路,超车很不方便。当然加拿大本地人虽在高速都超速,但不会超过120码,而其他交通规则他们都严格执行,所以这才保证了行驶的安全,同时又提高了公路的效率,这一点值得我们好好学习。

路上风光:

二股道的高速公路

 

 

【立委兄:二十八天加拿大自驾游(2)】

二.加拿大西部山水游 (1)

我们九月二十七日早晨乘东方航空公司MU2019航班从武汉天河机场飞往上海浦东机场。一早我们就起床,由家人送至机场,打包托运登机,八点四十飞机正点起飞,准时抵达浦东机场。办理出关、安检等手续,一路紧紧张张,跑前跑后,直到踏踏实实坐在登机口的休息室里,方觉得安定下来。在休息大厅里意外碰到在美国工作的侄儿,他也是当天从浦东机场飞回美国。几年都未见过他,小伙子成熟不少,能够在机场相见很出乎我们意外。下午一点半东方航空公司MU581航班在浦东机场缓缓启动,正式开启了加拿大之旅。

飞机往东飞行,十几个小时说慢也慢说快也快,看看录像,间隔睡一会儿觉,不知不觉就过去了。当耳边传来飞机乘务员甜美的声音时,机窗下已是朝霞彩云,绿野悠悠的美景了。由于时差原因,飞机于当地时间九月二十七日早晨九点十分抵达温哥华国际机场Vancouver International Airport 。

温哥华机场不算大,但让人感觉亲切。机场的所有标识都有中英法三文对照,所以即便我这样英文不太好的人,也可以很清楚的找到要去的地方。据说温哥华华人已有一定规模,是一股不可忽视的力量。近年来大陆不少官员子女和富豪子女来此地学习定居,使加拿大不少人认定中国很富裕,中国人有钱。中国精英子女们大大长了中国人脸,给天朝添了不少光彩,让我等P民在国外也能扬眉吐气,得意一番。

今天温哥华的天气不错,早上有点寒意,入关时,海关一个白人小伙很亲切,只简单问了我们两个问题,就顺利放行了。

上海浦东机场

机窗下已是朝霞彩云

机窗下温哥华

温哥华机场

中国有句俗语:在家靠父母,出外靠朋友。为了逐渐适应加拿大自驾游,我们的朋友Max他开着日产讴歌SUV来机场接我们。后去加拿大六天西部游,我这位朋友全程陪同,承担向导兼司机的双重责任,朋友的热情令我们感动。

经我们要求,我们住在朋友在郊区Maple Ridge枫树岭的小别墅里。

朋友Max带我们穿过密集的树丛,走近了一栋似童话世界里才能看到的小别墅。那里很原始,很安静,没有公共的绿地花园,听不到公共汽车声,也见不到什么繁华商街。那就是个充满田野风光的美丽乡村。这个精致小木屋有一百多年历史,都是本地产的百年大树构筑,有二室二厅一厨一厕。在朋友本人精心打理下,显得温馨、平淡、安宁、舒适。这间小别墅离温哥华市中心不太远,开车四十几分钟就到加拿大广场。向导在城中心也有一栋二层楼的别墅,但我们更喜欢这乡下的世外桃源般的环境,非常有感觉,非常有特色。

Maple Ridge枫树岭的小别墅


小别墅园内小溪

【立委兄:二十八天加拿大自驾游(1)】

一.前言

老夫本人没什么爱好,但比较喜欢旅游,尤其喜欢不受约束、不受限制的自驾游,很不喜欢跟旅行团的出游,那是无法自由自在的飞翔,无法让人畅快淋漓的游历。对出国自驾游更是向往,所以我本人在国内大多是以自驾游为主,但对于国外自驾游,苦于自已英语只认识几个单词,无法与人交流,始终不敢贸然跨出那一步。2015年有一个英语不错的人愿与我们一同外出游玩,我顿时气壮,实现了我多年梦想,全程由本人担当司机,自驾在法国意大利希腊三国广袤美丽山水之中,玩了近一个月,虽中途状况连连,但有惊无险,顺利返回。自此,自驾游是我海外观光的不二选择。

2016年9月27日至2016年10月25日,本人和我的夫人两人一起完成了第二次国外自驾之旅。

这次旅游的策划、向导和司机是老夫本人,而领导、摄影和会计自然是我的夫人。二十八个日夜,我们流淌在地广人稀、景色秀丽、风光旖旎的加拿大,尽情地亨受大自然的恩赐。加拿大多姿多彩的高山雪峰,纵横交错的河流冰川与星罗棋布的湖泊岛屿,神秘、奇特、独具魅力,一切让人赞叹、惊艳,让人流连忘返。如此色彩斑斓、壮丽巍峨、广袤幽静,在在让我们感慨,实在不虚此行。

在加拿大,这天真他妈的蓝,那水真他妈的绿,空气也真他妈的清洁。用一句话说,那就是:真他妈的太漂亮了!上帝真是太眷顾资本主义这块土地了,忍不住我这样绅士的人也骂起粗话来。

对于加拿大,我从小在书本上就对它有所认知。

在闭关自守的那个年代,天朝当年灌输给我的印象是:加拿大是个地大人少经济发达的国家,风光秀丽,资源丰富,属于第二世界,是典型资本主义国家。垄断资本家控制国家,劳动人民受尽压迫,贫富差距悬殊。产业工人阶级被工人贵族忽悠,是个走向垂死没落腐朽的帝国主义国家。改革开放后,有关加拿大的信息渠道多样化,加拿大给国人印象大为改观,许多人把她美称为不是社会主义制度的社会主义国家,税收高、福利好,十分关照底层贫困阶层。总之,通过各种介绍,过去我们宣传的社会主义制度的所有优越性,国人突然发现,在这个资本主义国家得到了充分体现。这种认识上的巨大落差使我对这个国家产生了浓厚兴趣,更何况她还有传说已久的绝佳景色和殖民土著文化。

去加拿大游玩观光成了我埋藏心中已久的愿望。

我们今年初终于决定暂不去新西兰而改去加拿大。想去就去,说走就走。于是我立即着手准备资料,开始规划,保证秋天枫叶正红时完成我们这次期盼已久的自驾游。

去加拿大首先就面临签证问题,然后是订计划,购机票和确定住宿。

于是我上网观阅大量加拿大游记,收益不浅。很多行程都参考了他们的攻略,这是网络社会和热心游民带给我们的便利。感谢游友,感谢网络,让我们省了许多时间和精力,让我们加拿大之行更充实更完美。我就是根据自己的时间,参照网上攻略,再对照google地图制定的旅游路线,并排好每天的行程计划表。

有关签证问题,网上有很多详细介绍,很实用,这里不多述说。

这次我们不同的是几乎前后不间断地签了两个国家,先签加拿大后又去签了美国。加拿大是通过中介,美签是自己去办的,都过了。现在签证相对容易,准备的很多材料都没用上,我五年前曾被美国签证处拒签过,这次也没多问,都给了十年多次往返的签证。所以大家大可放心,过签率这几年有很大提高。

签完证后就开始做详细行程计划表,在完全自由行的情况,要去这么远的一个陌生地方,做行程计划表是件辛苦而又快乐的事。这次我们选择旅行计划概括为“两点两线”,哈哈有点当代天朝八股文模式。所谓两点两线的两点是指多伦多和温哥华都市游,两线是指加拿大西线山水游和东线枫叶游。

加拿大我选择从上海中转到温哥华,提前两个月浏览机票,在淘宝网订了往返机票。机票订得倒很顺利,结果发现临出发的十五天前,机票价格便宜了许多,我们多付了五千多元。这让心里着实堵得慌,人算不如天算。看来早订机票也不一定是最佳选择,尤其是在旅游淡季。我订了武汉→上海温哥华上海武汉联程往返票,每人13768元(含税),同时预订了温哥华→多伦多温哥华联程往返票,每人5752元(含税)。

住宿是在Booking网上预订,很方便,大多都是可以撤销更改的。我定酒店的原则就是,一,汽车旅馆,二,价格要相对便宜,三,客户评价要好。本来我最想预订B&B家庭旅馆,有厨房,有家庭氛围,当年在欧州我们就是订的B&B家庭旅馆,感觉非常好。只可惜我英语不好,怕无法与顾主沟通,不敢订B&B家庭旅馆,不得已只好去订汽车旅馆了。

自驾游所用的车辆是通过租租车网租的,是Enterprise公司。导航仪是用的佳明2508型,在国内购卖的,中文语音提示。这次自驾游如此顺利它起了很大作用,功下可没,整个自驾行程全程全靠它,没有它,那真就是寸步难行了。

导航仪是用的佳明2508型

虽然各住宿地都称有免费WIFI,但是我们还是不放心,在淘宝网上购了5G流量的一个月免费国际长途的北美电话卡,实际证明这个决定十分英明,为我们化解了行途中不少难题。

我们这次外出带了两部尼康单反相机和一部莱卡数码机,同时手机有时也充当照像机的角色。

 

【相关】

立委兄:二十八天加拿大自驾游系列

【立委兄:加拿大西部山水游 (1)】

【立委兄:加拿大西部山水游 (2)】

【立委兄:加拿大西部山水游 (3)】

【立委兄:加拿大西部山水游 (4)】

【立委兄:加拿大西部山水游 (5)】

【立委兄:加拿大西部山水游 (6)】

【立委兄:加拿大西部山水游 (7)】

【立委兄:加拿大西部山水游 (8)】

《朝华午拾:温哥华,我的梦之乡》

温哥华的美是骨子里的

《朝华午拾:哦,加拿大!》

《朝华午拾:甜甜诞生记》

 

 

 

【救人一亿,是怎样的功德?】

今天看比尔盖茨给巴菲特的信 还是有震撼。说比尔基金会这么多年累计拯救,一亿两千两百万(122 million)儿童的性命。地球上因此多出了这一亿多本来会死于贫穷 饥饿和疾病的人。同时这些家庭的计划生育开始奏效 也少生了亿万。 这大多是地球最贫穷的人群 主要在非洲 得到了地球最富有的私人基金的助益。盖茨以此作为对巴菲特慷慨捐赠的一个汇报。国家和国际社会 在这方面 效率的确不如私人基金。

有意思的是,盖茨强调了计划生育的奏效。的确,当上亿的人一举被拯救以后,社会如何持续,对任何国家都是一个巨大的人口难题。如果没有配套的计划生育,被拯救的亿万儿童终将面临悲惨的人生。在动物世界,这都不是问题,高生育高死亡保持一种自然淘汰的平衡。但人之所以为人,就是因为人类有不必践行自然淘汰森林法则的可能。文明社会大都在拯救生命与计划生育两方面,达到了符合人性的人类繁衍目标,这个世界因此显得有希望和意义。可是盖茨们致富以后没有忘记,世界上还有很多贫穷落后的地区,缺乏起码的卫生保障系统,生命的夭折无时无刻不在发生。于是他们把目光瞄准了这里,做出了常人难以想象的人道主义成就。

救人一命胜造七级浮屠,救人一亿 是一种什么感觉呢?这种盖世功德,至少盖茨和巴菲特是感觉到了。这比做上帝的感觉要棒的多吧。

以前对社会财富在现代社会的两极分化 非常不以为然 甚至 抱有社会主义者对资本现实的敌视与厌恶。至少在盖茨基金会的作为上 现在感觉到了分化后的重回人性和合理。貌似比社会主义的政府行为和财富再分配更有效率和积德 虽然并无真正意义上的社会财富的监督。

不知道中国的超级富豪有没有类似的人物和作为出来?马云有希望吗?从平时的论述看,在国内超级土豪俱乐部里,他倒似乎是个有情怀的。

 

One of the greatest values of our nation is the belief that the best investment any of us can ever make is in the lives of others. As Melinda and I explain to our dear friend Warren Buffett in our Annual Letter, the returns are tremendous: http://b-gat.es/2lrya05

【李白之34:汉语情态词和计划类动词的异同】

白:
“牛肉我要八分熟的。”
“他蔬菜要用清水泡过的才敢吃。”
“牛肉”和“八分熟”有subcat的相谐关系,但不是离合词。
“蔬菜”与“泡”的关系更加松散。

李:
前者主谓相谐。后者动宾相谐。“牛肉-熟”。“泡-蔬菜”。
顺便一提 先帝诗云 土豆烧熟了 再加牛肉。不知他老人家怎么想的。牛肉烧熟了 再加土豆 这是料理常识吧。反过来 土豆怕连泥都吃不着了。

白硕:
某次吃过韩风的凉拌生牛肉
@wei 做做看吧,不只是相谐那点玄机。

李:
好,先来一个难看的,等慢慢整形,看能不能成美人:

白:
水泡,名词

李:
改了。貌似好点儿:


白:
他和蔬菜没有mod关系啊
另外吃的逻辑主宾都没登场……

两句中的“要”,pos貌似是不同的。
前句向实,为动词(want之义);后句向虚,为连词(与“才”配对,表only if之义)。

李:
前者是 want+NP,后者是 want to + V,可以看成情态动词

白:
看成副词最方便,与“才”搭配,不一样。意思是,只有出现怎样的情况,才会如何如何。

李:
有些勉强。要+V 很常见。only if是 “要是”。

要用清水泡过的才敢吃。
用清水泡过的才敢吃。
要用清水泡才敢吃。
用清水泡才敢吃。
搭配性不强。

白:
“你到底要怎样才对他放手啊。”

李:
怎样 是 V 的疑问代表:

你要怎样?我又能怎样。

白:
雨要在旱天下才好。

李:
雨在旱天下才好
雨要是在旱天下才好
雨能在旱天下才好
雨得在旱天下才好

哈,原来。

白:
葛优的广告词:面要弹

雨是下的直接成分,不是“能、得、要”的直接成分,没有穿透继承关系,这种配置下的情态动词都可以当作副词。这时填坑关系少了一层,无比清爽。

It is preferred that S. S的内部填坑结构跟这个prefer一毛钱关系都没有。没有穿透,没有继承,完全就是松散的一顶帽子。用副词干这样的活儿最为顺理成章。It is possible that……同理。在逻辑上叫“模态算子”。但是,“他准备搭一个棚子”里面的“准备”不是这样。搭的过程中,“他”还要身体力行。这对谓词就是(外层)穿透(内层),对名词就是继承(施事角色)。不穿透的,当副词很好。

李:
情态词 是助动小词 与 副词 基本上是一个意思 尤其在汉语。只不过 副词 修饰 动在外 情态修饰在内 这在短语结构中 表达略有不同。从依存关系看 等价。副词总类太杂 情态单挑出来 有益。“洗个澡” 与 “【能洗】个澡”,搭配关系不变,因为“洗”是短语的 head,是 “澡” 的parent,而 “能” 实际被吃掉了。【能洗】作为 base 短语结构 与 【好书】作为名词短语,对 dg 是类似的 psg 表达的引入。x bar 理论上 前者比后者 少了一个杠。因此我们只好叫 vg (verb group)不叫 vp。后者指的是 动宾这类 saturated subcat patterns。基本短语因此是 三个p 一个g:np ap pp vg。(还有一个 rp 副词短语 有时也可以捎上, very rapidly 之类。)

白:
与副词唯一不同的是可被副词修饰:今天不会下雨吧?

李:


very 修饰的也是 副词 rapidly 呀。“不会” 就是情态词的否定式。情态词的肯定式 否定式,还有一个特别的中缀表达 在动补合成词里。

能睡着 和 不能睡着
睡得着 和 睡不着

这些统统是 vg,后者词典解决。用所谓 lexical rule 去扩展词典,把 head 确定在 “睡” 上面。

白:
我的意思是从句法上看,情态词可分两类,一类像副词没坑,另一类有坑而且有穿透性。在写pos标注的时候就是不同的:
“准备动手,进行动员……”
准备动手,head在“准备”

李:
计划 类一般不归入情态小词,而是动词的 subcat,带 vp:

当然 在汉语 情态小词 与 计划 类动词,有个模糊过渡地带。灰色地带的 靠哪边 系统内协调就好。在欧洲语言 界限是明确的。英语 plan 带不定式 加 to 的。can 后不加 to,possibly 与 can 语义同 但它是副词。到了汉语 这些界限都模糊了。

白:
准确说是带体谓两可:准备早饭,准备吃早饭

李:
一个词 有 n 个 subcat patteens,是 norm:

白:
能做,有可能做,八成做,说不定做

李:
都是封闭小词,标签或mod或adv,都差不多:

白:
“他准备唱歌”,“准备”是head,“唱歌”是宾语,“他”做“准备”和“唱歌”两个谓词的逻辑主语。“他会唱歌”,“唱歌”是谓语head,“会”是“唱歌”的修饰成分。是这样么?

李:
是的:

白:
汉语副词修饰副词的情况有合适例子吗?

李:
副词修副词 主要就是 very 类程度副词

白:
“我奇怪他们为什么要走这条路。”这里的“奇怪”是什么词性?

李:
奇怪 心理谓词,subcat 带从句,至于叫动词还是形容词 无所谓了。
英语等价物 wonder:

白:
我标注为S/N,S
“我就奇怪了,一个大活人还能被这事儿给难住?”

李:

白:
汉语,“很”能修饰副词吗?“很迅速地撤离了”里面,是“很迅速+地”还是“很+迅速地”?
“很迅速”还是形容词,加上“地”才变性。
“很+迅速地”,语感不对。

李:
无所谓。这些大多属于系统内的规定与协调 无关大局。

白:
“云不会永远不散。”这里一个变通做法就是把“不会”整体看成一个副词,避免出现副词修饰副词的问题。对于封闭集合,这是可穷尽的。

还有,多重否定与结巴,怎么区分:“你不不不不是个溜子,是个空子!”

Me:

(为了与其他的 Adv 区别开啦,有意用 X,为的是后去处理双重否定的便利,都是系统内协调啦。)

嘿嘿

白:
看不出来肯定否定

李:
当然是否定,那个 vg 就是【不是】,POLARITY: negative

只有你想不到滴,没有我做不到滴。开玩笑啦。
其实,对于重复和强调,可以单单处理。
very very very very very veryyyyyyyyyy good
这个我们在英语单单处理了,汉语还没。道理同。

 

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之33:从语言的毛毛虫特性聊到语文纠错的辅助工具】

梁:
记得以前阅读,有人说,人在语言里玩,就像鱼在水里游,鸟在天上飞一样自然。

李:
结巴和哲学家除外。前者器官障碍,后者思想太过微妙,语言不逮。

白:
“原因被李四冷落多年的张三找到了。”
“张三被李四冷落多年的原因找到了。”
前几天抛出的句子,还没有回应。

李:
一个都不对,各有不对的缘由:


后一句不难debug,也值得 debug,前一句也许就拉倒了吧。

白:
“多年”也可以是人名
但即使是人名,也没有体现“被”

梁:
白老师,"原因被李四冷落多年的张三找到了" 是 “原因被张三找到了”,我看了半天才看懂。

李:
白老师出那种句子,我老怀疑有 hidden agenda,就是误导大众,坐收渔利。
那样的毛刺刺的句子应该从测试集刻意排除出去的。否则积累效应,可能留下后患。

白:
模型对头,都是顺手的事情

李:
那类句子最多算毛毛虫的毛刺。不仅灰色,而且罕见。strech 的不仅仅是系统的弹性限度,也是人类表达和理解的限度。

李:
这大概算 debugged 了吧:


顺带把毛刺也抹平了。

白:
“他脚这么大,能穿得下这么小的鞋子吗?”
“盖子这么小,能盖得住这个箱子吗?”

李:

白:
做理解,原则上不需要考虑排斥性;做生成,最保险的方法就是问大数据。实际上,文学家的功底往往在于,既和大数据构成显著差异,又和大数据训练出来的神经网络不冲突。就是“人人心中有,人人笔下无”。就是说,假如“大数据中的裸出现”是初一,“基于大数据的推荐”是十五,文学家就是典型的“躲得过初一,躲不过十五”。
躲过十五,就是前卫作家了。

李:
理解和生成 我的理解是:理解单位之间是有区别性特征的。不需要克斤克锚地给一个语言现象画圈 不需要画得恰如其分。只要在需要区分的现象之间划线(大多可以模型成非常多的种种 classification 的问题)。因此 确定标配很重要,因为标配是娄底的 本身不需要条件 是 free ride 的大路货。也因此 数据驱动是开发的正道,因为在非标配的现象之间划线 没有数据 没法确定一个中庸的全局最优的边界。也因此 没有一成不变的系统 系统总是随着数据逐步逼近。

白:
这就是毛毛虫
句法解决毛毛虫的“包络”,大数据解决毛毛虫的细节。

李:
所以一个适合 debug 的模块化而且不太纠缠(譬如 弯不过三)的系统架构,极端重要。

生成不同。生成可以回避灰色地带 回避鸡零狗碎。如果一个思想有n个表达,其中m是规范清晰的,没必要去管 n-m。 在 m 中排序选优就够烦了 根本不用淌混水。一般来说 生成比解析难度低一个量级。以前的mt系统,生成的代码量比 parsing 的代码量,小太多了。分析完 目标语词汇代入以后,拼拼凑凑也生成了不赖的译文,特别是中文是目标语的时候。由于中文无形态 加上表达上的裸奔性灵活性,生成与分析完全不成比例。如今大数据了,nmt 生成根据数据决定,就显得更顺畅了。鸡零狗碎的那些表达,分析要对付的长尾,到了生成,根本浮不上水面。

白:
鸡零狗碎在理解可以中粗线条应对,在正儿八经的生成中可以粗线条绕行。只有在刻意求变的文学创作尝试中才会触碰到毛毛虫真正的毛刺的微妙所在。

朱德熙先生有一次跟我们讲,他的小孙女偶然说出一句“花灭了”,被他听到,顿感特有诗意。虽然当时说者处在对语言还未熟练掌握的阶段。这就在毛刺的微妙部位了。

消岐、纠(容)错、修辞三者的关系很有文章可做。更何况有一种修辞就叫将错就错。话说,有些组合,比如“烧脑”,不会是早就静静地等在那里供大家飙新词的,中间一定经历了若干铺垫,使得“推荐”已经到位了,但是语言实践还差临门一脚的状态。谁能破译这个推荐的密码,谁就有了创造新词的主动权。机器写作如能成功创造流通度很高的新词,才算真正的“写作”。目前只能算“套路”。在歧义资源没有用尽之前,修辞和纠错浮不上水面。在语用环境许可范围内,修辞资源没有用尽之前,纠错浮不上水面。如果语用环境排斥修辞或者修辞资源用尽时,才能引入纠错。纠错用早了,会让用户觉得系统“自作多情”。

李:
比较明显和容易的是词法纠错 对于形态语言 这个功能有助益
另一个有助益的是 习惯用法和搭配的纠错
这些都是很实用的。

白:
词法纠错是浅层技术就可以解决的。

记得一个有意思的案例。我输入“南摩”(“南京摩托罗拉”的简称),百度偏要把很多“男模”的搜索结果推给我。再不济,来自上海本地的搜索对“南模”(“南洋模范中学”的简称)也应该偏向程度更高吧?

鲁迅用搭配习语的纠错得气死:“屠戮妇婴的___”

李:
如今的纠错已经很友好了 都是交互式 而且一点儿也不 intrusive ,全自动纠错基本没有人买账。半年前装了英语的 Grammarly ,很实惠。虽然用的时候总在想,这玩意儿我要是有时间做,肯定做得更好更贴心。中文的 Grammarly 这样成熟的对等产品,还没见到,将来应该是个巨大的市场。虽然由于中文的毛毛虫更难缠,文法更弹性,纠错难度大很多,但是只要有 resources,这个工作是有把握做好的,只是有很多很多细活要磨。不知道 Grammarly 目前的盈利模式到我大唐可以不可以维持,来 justify investments。当然,帮助人写作,像 Grammarly 那样的 plugin 装了,可以随时随地,无处不在,做得好的话,这是惠及几亿人特别是几千万学生的功德无量的事儿,不仅仅看钱。我会关注这个领域的机会,最不抵,也可以退休以后做。

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【李白之32:从“没 de Vt” 聊开去】

李:
问一下各位老师 “没的吃”、“没的喝” ,算是个什么结构?与 “没吃的”、“没喝的” 有何异同?“没的害臊”、“没的不要脸” 这类大概是口语习惯表达法 不在此列。

没的 vt == have nothing to Vt
VP 动宾结构 否定式宾语前置

“没 vt 的” 或者 “没的 vt 的”,也是 动宾结构的 VP,但否定式落在 v 不落在宾语身上,而且是 的字结构 做后置宾语。

梁:
“没的” 应该是方言吧?wei老师,闽南话。

李:

不仅是闽南 好像各地都有 至少是都能听懂的句式 .

“没的吃” = “没有可吃的” = do not have anything to eat.

没吃的 意思有差别吗?

do not have what to eat ?

没的 vt == 没的 可vt ?

问:“过得怎么样?” 答:“不怎样,这些年没的折腾。”

“没的折腾” 怎么回事?跟 “没的害臊” 类似 也是成语用法 而不是有产生性的用法吗??

白:
没的折腾,不懂啥意思

李:
觉得就是 “净瞎折腾” 的意思。字面是 “没什么可折腾”。

没的害臊 是 真害臊
没的不要脸 是 真不要脸
嗨 别提了 没的生气呢,是 生气生不过来 的意思,太多气生了

咋回事 本来是说 nothing:没的生气 == 净生气了

白:
没的any more
先说这个“没”是副词还是动词。副词不好接名物化的“的”,所以是动词。如果“的”是“得”之讹误,更不具备结合条件

李:
“没” 是状态v,没有动作性,通常不带 【得字补语】

白:
这俩人有的一拼,这俩人有得一拼

李:
“没的 vt” 中 “没” 比 “vt”, 谁主谁副?
“没” 主,那就是 v:have nothing to eat;Vt 为主的话,可以看作否定式 “的字结构”做前置宾语:nothing to eat,eating nothing

白:
没的,更像是存在量词的否定
对比:有人来了
有和来,谁主?

李:
我处理成 “来” 为主。“有” 虚晃一枪:
有人来 = somebody 来

白:
我是把他俩合并,共享坑(不需要那么多萝卜),其他事情落地时再说。

李:
形式上看,自然是“有”为句法的主要谓词。带 【宾+宾补】的 subcat pattern 结构。但实际中,把宾补当做主要谓语,把句首的 “有” 当做小词,处理起来有诸多便利,也更靠近语义实质。

白:
当小词,处理变式需要当心

李:
有前条件的:必须位于句首。严格说是,跳过副词类小词,“有” 居于句首。有这么个约束。

白:
“酱油有买的吗?”
有时又及物,有时又折腾出一个主语状语两可的萝卜

李:
“有” 是个很讨厌的词。台湾国语可以表达完成体,倒是与英语平行了。这个台湾国语的用法如今已经推广到整个华人世界了,算是丰富汉语时体系统的一个小贡献。

白:
闽南话

李:
“我有学琴过,就是一直没上路。”
“你有看《长城》吗?据说巨烂,老谋子的好莱坞滑铁卢。”

还好紧随着动词,这种用法不太难识别。

白:
当助动词好了

李:
查了一下,“我们没得吃,没得喝”,还真是用 “得” 的,比用 “的”的多。想不出来,这 “得” 怎么冒出来的。

白:
没得到吃,没得到喝。
没东西得以吃,没东西得以喝

李:

我们没的(or 得)吃,没的(or 得)喝,已经好几天了。
这地儿没的(or 得)吃,没的(or 得)喝,我们来干啥?

从上例看,没 de Vt 作为谓语,可以要求一个 【human】 的主语,也可以要求一个 【location】 或 【org】 的主语。【human】或【location】常做主语。

【human】 have nothing to eat vs. 【@location】 there is nothing to eat

“没的 Vt” 相对于 “有的 Vt”:

入伙吧,保你从此有的吃、有的喝。

可是除了 “吃喝玩乐”,这个 Vt 也不好延伸而无歧义(歧义表现在“有的”做逻辑宾语还是作为不定代词【human】做逻辑主语,其实这种做逻辑主语歧义在上述吃喝玩乐的用法中也休眠隐藏在内,不过可能性较低而已):

有的喜欢,有的不喜欢:
1. there's some to like and some to dislike;
2. some (people) like it, some (people) dislike it

没的学习???
nothing to learn?

白:
没的项目做,散伙算了。

李:
想得脑仁疼。就为对付这么个简单的破说法。

有一个简单的办法就是,对于这些个模模糊糊的结构,产生性不强,介于习惯用法的成语与非成语之间,见一个扔一个,统统进词典。“没的Vt” 也就不用琢磨这个 Vt 集合到底有多大了,哪些该词典化,哪些该规则化,各自的标配分析和休眠的种子又是怎样。譬如,大数据挖一把,trigram 频率就搞定大部该词典化的现象及其合适处置。而鸡零狗碎里面琢磨规律性,真心难,不值得也没时间花那个力气了。

嗨,奏酱紫了,好歹它了。

白:
“酱油有买的吗?”这里有坑:

第一,“酱油”和“有”没有先结合,而是选择了Sh。第二,“有”和“买”没有立即结合,而是选择了Sh。

李:
买的 = 买的人?
如果换成“卖”:卖的 == 卖的东西,回指 “酱油”。

“酱油有卖的吗?”
“没有卖的,有赠的。”

白:
哈,卖的、送的,买的、偷的、拿的,

李:
酱油有买的吗 == 酱油有买的人吗?== 酱油有人要买吗?
这是最常见的理解。但不排除:
酱油有买的吗? == 酱油有买来的么?(还是全部是赠送的?or 全部是抢来的)。
这里,“买的” 回指 “酱油”。

有意思的是,如果是“买”,指人的概率大(hence 标配理解),回指的概率小。
如果是“卖”,则反过来,回指是标配理解,指人概率小。

白:
在我的处理里,都模糊掉了。

李:
hidden 歧义,句法模糊掉,是对的。

白:
在“卖”的场景下,不完全是回指,存在“整体-部分”关系。也许还有留一部分自用的、送人的。先行词是整体,含省略的搭配词+的是部分:

礼我只收脑白金。

也是同样。

李:
我所谓 “回指” 包括 整体部分的关系。是我用词不确。以前说过类似的: hit sb on the head:hit 的是人 还是 人的头?其实都对:hit 了头 就 hit 了人。头”回指到人。

白:
白马非马

李:
i love iPhone for its screen
I love the screen of iPhone

喜欢的是手机还是屏幕?我们做 sentiment 的认为 都算。喜欢部分就是喜欢整体。

白:
Among the horses you gave me, I love the white one.

讲点逻辑的话,不算。爱屋及乌是有的,只爱屋不及乌也是有的。

说某些议员是狗婊子养的是骂人,说某些议员不是狗婊子养的也是骂人。

李:
逻辑是这样的:

I like the screen of iPhone and hate its battery life

so this person has 2 votes for iPhone:1 positive and 1 negative。只有这样 sentiment 的统计才真正具有舆情的意义。世界上没有完美(脑残粉的视角不算)。喜欢一个 object 永远是喜欢它的(让人喜欢的)部分。有时候这个部分(Aspect)被明确表达出来作为理由。有时候不表达出来。从舆情的角度,就是投票。喜欢一个部分,就是对整体的正面的一票。喜欢整体,没有明确表达喜欢的部分,也算是一票,因为他心里其实是有部分的,理论上不可能是百分百从头到脚到细胞到令人讨厌的部分都喜欢。前者除了计入褒贬情绪(即舆情)的统计票数外,还提供了 actionable insight,具有具体的情报价值,后者只是舆情的发泄而已。

白:
往往,喜欢一部分而不提另一部分,就是委婉表示不喜欢另外部分

李:
那么想,就没法做舆情统计了。你那是言外之意,正话反说;不是没有,总体是少量。

有一次应邀到一家公司给个 sentiment 的 talk,听众有问,讽刺如何识别,我说,讽刺的确是挑战,不仅对我们是挑战,对大家都是挑战。讽刺中的形式痕迹,也有可以识别的,但更多是缺乏形式痕迹的,或者形式表现在语气和表情这些 text 以外的方面。

可以识别的形式有:

1.  thank you for 【BAD behaviour】
2. 【BAD behaviour】,great!

【BAD behaviour】是各种具体的负面表述或吐槽,而句首或句尾的正面情绪 thank you 或 great,形成反差,因此构成了形式上可捕捉的讽刺。通常的逻辑总是拿具体的正面(反面)证据来支持正面(反面)的情绪或评价。如果这个范式被打乱,就可以传达讽刺。

接着我说,但是很多讽刺是没有显式的文本痕迹。对于人的理解有时也构成困难,比较木的人或情商较低或经验不足的人,往往也无法 decode,对于机器自然也就难了。譬如 刚谈恋爱的愣头青 往往听不懂对象的话。但对象说 no 的时候,他不知道其实不一定是 no,很可能是 yes。

达令,给你买个你一直超喜欢的名包吧?
No,这包太贵。

这个傻瓜居然就真地不买了。三个月后,对象跟隔壁阿二跑le。阿二不仅仅有钱,也有心,懂得察言观色 body language,善于 read between lines,尤其擅长 decode 女性的话语。

马:
看得懂这标题吗? "曝国王将考神交易至鹈鹕 联手浓眉组双塔" 也许有背景知识的能秒懂,我是没懂,看了正文才懂

白:
这个例子好
“联手”的逻辑主语怎么确定很有看点。

李:
我完全看不懂。不知道我的 parser “看懂了”没有:

从模拟domain专家理解的角度,几乎肯定错得离谱,因为根本没有domain的知识训练和词汇外挂。我们 domain-independent parser 的是语言学分析的“合理”。在 domain 化(domain porting 90% 涉及的是词汇表术语及其本体的引入,其次才是边缘规则的微调)之前,上面的这个parse,看上去应该说是合理的。

白:
需要知道,“国王、鹈鹕”是org,“考神、浓眉”是individual,联手individual的只能是individual,等等。“a联手b组c”,有兼语的味道。组,是动词,组成的缩写。

李:
“浓眉组和细眉组,分头出击。”
“浓眉组双塔顶不过细眉组单塔,真是不可思议。”

白:
语义场在起作用
球队、球员、转会交易、阵型,暗中互相支持。这些命名实体很可能不用定义什么,就可以自动获得这些标签。大数据太丰富了。还需要知道,在NBA场景下,“浓眉组”是超低频的。

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之31:绕弯可以,弯不过三】

白:
“一定要在他家里没有醒过味来的时侯把生米做成熟饭。”
李:
词典:加入成语 醒过味来:
白:
填坑严重不全的,要减分啊……
“在他家里”这个,貌似掉进就近结合的陷阱了。
李:
“在他家里”不是主要问题,那个可以补救。“在” 本来就是可有可无的 P。
白:
在 和 时候 的间距,被你这么一弄弄短了。
李:
间距短不是问题,小词配对的目的就是把关系厘清。达到目的了,间距无所谓。“在。。。家里” 与 “在。。。时候” 是两个“在”共享了一个syntax。
白:
“在他家里还没有察觉到这一层利害关系的时候把生米做成熟饭。”
李:
白:
也是辖域问题
李:
“在” 比较特别,是个万能介词。做了补救唤醒,主语还是恢复了。
白:
“他家+里”,做主语的可能性就太小了。要是能搞成“他+家里”,就不一样了。
李:
关键还是怎样处置合算的考量。
“在(PRP)家里” 脱离上下文的时候 就是一个扩展的合成词。处置成更多做状语的PP 还是更多做主语的NP 就是一个强盗的规定。事实上目前的处置 “(PRP)家里” 已经是主语状语兼容了,因为方位词结构在汉语的确是大多做状语 像PP,少部分做 NP,因为方位词本身是从名词变过来的。可是前面出现了一个 “在”,因此就几乎决定了其状语特性 很难翻盘了。这时候再带入辖域的考量,说这个 “在” 被 overloaded 了,不能光看就近原则,它可能不就近。然后就要在两股力量里面去权衡。第一股力量是就近原则的  “在+方谓词结构”,非常常见。第二股力量是 方位词结构去填主语的空,这个其实不常见,因为主语是经常省略的。然后指望一个 “精巧” 的系统能在上面两股力量的权衡中,恰到好处地拿捏分寸,达到人的具体情况具体对待的灵活性。这样的要求不大现实 而且极易弄巧成拙。因为里面绕弯太多了,而且都不是确定性的。系统不能做得太精巧,正如人不能太聪明,有过很多这个教训。绕弯可以,但弯不过三是基本原则。
“弯不过三”是我实践中总结出来的开发原则。这个弯就是规则之间的 dependency。理想的系统,规则之间是完全独立的,相互不牵扯,这叫做“规则与规则分开”:否则规则系统就容易成一团乱麻,宁肯冗余,也不要把规则搅合在一起。但是,实践中,我们其实做不到完全的规则独立,分层处置的本身就已经隐含了某些规则之间的依赖关系(dependency):某些规则是 assume 另一些规则做了某事以后才有意义的。这时候,设计开发系统的时候,就需要一个原则性的掌控,那就是“弯不过三”。意思是说,相互牵扯的规则最多可以有三层,多于三层的,就违反原则了,容易造成系统的不鲁棒,最好不要到三层: a 依赖 b,b 依赖  c,这就已经危险了。c 如果 还指望 d 那就超出了系统逻辑链条可以承受的极限了。可以做出一个绕弯多于三层的系统,在某一个时候也调通它。但是这样的系统 几乎不可维护。弯不过三是针对具体规则而言的原则,并不是说 作为一个规则系统,只能做三层,那就太局限了。事实上 规则系统整体绕弯可以多达百层。至少几十层是常见的,那么在几十层的分层处理中,这个弯不过三的原则一定要坚守。模块之间总体的依赖不在此列,譬如做 PP 要求基本 NP 已经就位,做 VP (包括动宾、双宾、宾补等各种 subcat patterns)要求基本的 XP (NP,AP,PP,VG)等短语都已经形成,做主谓要求VP结构已经解析,等。
白:
为什么我的眼中昨天的把字句辖域和今天的在字句辖域是同一个问题
李:
因为你是从一个角度看,确实是同类问题。我说的不是辖域,辖域只是 弯不过三原则中的一个弯而已。如果这个弯与其他弯的交错中,造成了违背原则的危险,就要舍弃这个弯。
白:
都是介词跨定语从句,而且也可以规定跨不过三,那样的话同一个问题就可以在同一个框架下解决。
李:
你就是要说,有很强的可能应该: 家里还没有察觉到 --》 SVO,来让出那个 “在” 去找远距离的搭配。第一,“还没有察觉到”对主语的要求没有那么强烈。主语省略太常见了,以至于人类创造了显式和隐式的被动句。
“在还没有察觉到这一层利害关系的时候把生米做成熟饭”
上句没有主语,一样很顺:“还没有察觉到这一层利害关系的时候”。第二,“在 。。。里” 作状语,是压倒多数。甚至 “在 。。。家里” 也是压倒多数。这个是我毛姑姑 但八九不离十,可以统计验证的。第三 “在” 恰好遇到辖域的远近距离的歧义的情形,就是你现在关注的这个现象,其实没有那么普遍。这个也是我的毛姑姑,也许可以统计推翻。即便就这个辖域现象本身而论,远距离辖域控制 多于 就近原则的可能性有多大?感觉不超过一半。
白:
定语从句中,本来就有缺项,主语再省略就有点过了。所以,正常主句中主语省略状语强化占优我认,但定语从句中应该是主语填全状语弱化占优。
李:
听起来有理,但照你这些说法做,总觉得走偏的危险大。
白:
顺手而已
李:
感觉是属于过分聪明的思路。你又增加了一个维度: 主句 vs 从句。而且用 “占优”  这样的不确定性的平衡。说来归齐,主语和状语弄错了 有什么大后果么?
白:
填坑角度,这都是应有之义,根本就不用加维度。
李:
其实主语宾语弄错了 都没啥后果。因为主语、状语和宾语都是姐妹节点,都与 parent 有直接亲属的关系。弄错了,对于 IE 抽取,没啥影响(对于 MT 可能有些影响)。这是从语用考量。
白:
不是的,他家+里,没有这个意思。
抽不出来。
李:
从句法考量,就是一种关系弄错了,多大程度上影响其他部分的 parsing。如果影响小,就无所谓。在上面的例子中,是没有影响。第三个考量就是,弄错了,真要翻盘,可以不可以,就当是休眠了,可以唤醒不?当然可以唤醒,都是儿女,不过是标签有误,要翻等句法完成以后也可以翻。我不把句法看成是最终的语义理解,更多是把它看成桥梁和标配的语义理解。作为桥梁,有了架子,怎么改都可以,因为句型清晰了。作为标配,翻盘自然也是可以的。
怎么抽不出来?那么 “难过” 是怎么抽出来的?不能因为 “难过” 不是 “难/过”,于是作为非情感的后者就抽取不了?一样可以抽取,抽取出来说,标配错了,这个不是 sad 的情绪(emotion),这个是客观的困难(negative behaviour), 虽然都是负面的东西,情报上我们是当作不同的情报来抽取的。后者是 actionable insight,前者不过是情绪而已。
白:
翻盘多了,线速就是个笑话。
李:
QUOTE: Countless lessons learned over the years in the NLP system development show that a robust real life system should not be too sophisticated just as man should not be too smart.  As a rule of thumb,  anything involving more than 3 levels of dependency is too delicate.  You can "make" it work today, but it will break some day.
基本上如此。
翻盘是聚焦以后的动作,都到了雷达上了,还有什么可以影响线速?长尾在语用层面成为短尾了。这个以前论过。指望句法做长尾是劳民伤财,吃力不讨好。句法对长尾能有一个相对 “合理” 的安置,就已经很尽心了。譬如 都是 children,但是主宾有错位。其实,宾语很少错,主语有逻辑宾语的可能,不过是多了一种可能而已,对于语用是小菜,谈不上影响线速。譬如 我有一条语用规则要查宾语,instead of 查宾语,我不过就是查一下 “宾语 OR 主语” 而已。这个怎么可能影响速度?搜索空间没有任何实质变化。

【语义计算:汉语语序自由再辩】

“张三把眼睛哭肿了。”
眼睛都被张三哭肿了
张三眼睛被哭肿了
张三眼睛哭肿了
眼睛张三哭肿了
哭肿张三眼睛了
张三哭肿眼睛了
哭得张三眼睛肿了
张三哭得眼睛肿了
张三眼睛哭得肿了
张三的眼睛哭得肿了

眼睛 一句是主语 一句是宾语 句法不能说错。supposdly 到语义模块去统一到逻辑语义上去。

Me:
这一组图献给@刘群 老师
我们曾经争论过汉语语序的自由度问题,我说汉语语序除了极少数对svo有直接冲突的OVS(正解SVO)不被允许外,其自由灵活,到了几乎随心所欲、想啥说啥、有法无天的裸奔的程度。
刘老师颇不以为然,坚持孤立语的本性就是语序固定,汉语不会例外。

刘:
谢谢@wei 把这些图献给我
换个例子:猫咬了狗,狗咬了猫,猫狗咬了,狗猫咬了,咬了狗猫,咬了猫狗,……语序自由吗?

Me:
自由度是一个区间,不是二值吧
ovs 不被允许,是其不自由的一面,不过数量上不自由的变式远小于自由的变式。
总之,不看数据的话,我们不会相信汉语如此任性。

刘:
我那个例子,osv,sov,vso,vos都不行啊

Me:
猫狗咬了,狗猫咬了
听上去没啥问题啊,还是我耳朵有问题?

刘:
不知道谁咬了谁

Me:
不知道也没啥问题啊
都是合法的

刘:
意思变了,就不是语序自由了。语序自由的前提当然是意思不能变。

Me:
拿语义或常识来纠缠句法语序自由, 不是一个好的辩护汉语总体语序不自由的路子
窃以为。这样辩论的话,我就给你: 鸡我吃了,我鸡吃了。自由还是不自由呢?

刘群:
你也是用例子来证明语序自由啊?并没有统计数据
规则都有反例,个别反例不能推翻整条规则
语言规则吧

Me:
你举的更像是反例,弄了个猫和狗,恰好是本体上平行的概念,都食肉,也都被食。
这种例子更像是反例 而不是 norm,所以我以子之矛可以还给你否。
当然 到目前 控辩双方都还停留在例句阶段。都还没有统计数据。

刘:
我的例子一点都不特殊:特朗普会见安倍,俄罗斯占领克里米亚,……

Me:
克里米亚俄罗斯啥时占领了
特朗普安倍会见了吗?
安倍特朗普真滴会见了啊?
会见了安倍特朗普还见了谁呢?

我的例子也不是 outliers 呀。说出来听起来都那么接地气

刘:
就用这个例子吧:"我的例子也不是 outliers 呀":我的例子outliers也不是啊,outliers也不是啊我的例子,outliers我的例子也不是啊,也不是我的例子outliers啊,也不是outliers我的例子啊。

Me:
谢谢 & 欢迎刘老师站到我这边来!
这不正是语序自由的现身说法吗

刘:
嗯?你觉得上面那些句子都成立吗?我觉得大部分都不成立。
我是反驳你的说法

Me:
不成立?

刘:
不成立

Me:
看样子得 crowdsource 给 native speakers 去投票决定了。

我听起来无障碍,都理解了不算,感觉还蛮顺,至少是接地气:老百姓就是这么说话的。社会媒体更甚。

当然如果给新闻系教授, 他可能会教育学生不能这样写。在有很多个表达(不仅仅是语序自由)的时候,技术文献和新闻工作者会被教导去选择所谓规范的表达法。但语言事实和普罗通常不听这些指教。

其实 坚持汉语语序自由得不像话的观点,不是为论点而论点,而是提醒自己和同事,我们在写 parser 的时候,必须把语序自由作为一个重要的角度来看汉语。 否则无法做出一个鲁棒和召回率高的汉语解析器。

刘:
不管哪种语言,在社交媒体上,都不太讲究语法的,特别是短句子。这不能成为汉语语序自由的证据。英美人说话,口语、短句子、社交媒体上,不合法的句子比比皆是,不能因此说英语语法就要废除了。

Me:
我们当然希望语言都是语序固定的 这该省多少力气啊。线性pattern就是以次序(linear ordering)为基,语序灵活了,patterns 就成倍增长。非语序的其他因素可以在既定的pattern里面调控,无需增加patterns,唯有自由的语序是一件躲不过去的功/工。

刘:
即使是汉语,我们表达稍微复杂的内容的时候,一般都会用svo的,不会随便改语序,否则给自己添加麻烦

Me:
汉语操蛋就操蛋在这里: 你本来就没有形态,小词也是能省就省,你还要语序灵活自由,你还让人活不活?国人的投机取巧甚至在语言表达上也如此彰显。可是我们还是要面对现实。

刘:
没有这么可怕,汉语parser的准确率比英语并没有低太多

Me:
汉语 parser 比英语没低多少,是在新闻上么?
新闻是语言大海的三滴水。

刘:
其他领域没有确切的数据可比较。

Me:
还是可感觉的

这一回合,算是打平了,如果刘老师不坚持要我举白旗的话。

刘:
不能靠感觉。
@wei 老师客气了学术讨论,有争议很正常。
我也没有数据说服你。

 

 

 

【相关】

【语义计算沙龙:语序自由度之辩】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之29:依存关系图引入短语结构的百利一弊】

李:

至于基本短语的 Phrase Structure (PS) 边界迷雾(【长大的战友】),除非发现碍事(譬如不加修整地在产品 display这样的xp结果),不管他了。说到底,pure dependency grammar tree representation 本来是没有显性边界的,没有短语结构(PS) 的牵扯,一切都发生在词与词(terminal nodes)之间,只不过我们在实践中,把乔老爷的短语结构的概念,有限度地在 shallow parsing 阶段带入,成了一个 hybrid tree, 这才有了这个所谓的边界的问题。换句话说,这是一个系统内部在模型化过程中“人造”出来的问题。

白:
这是“坑”和“坑的坑”不加区别地混同的结果。

李:
这种 hybrid 的表达法的好处太多了,以前论过 (e.g.语义计算沙龙:基本短语是浅层和深层parsing的重要接口》),带来这么点副作用我觉得可以忍受。但我们应该记住,dependency 的本质原本就是独立于短语结构的(属另一个 very competitive 的 syntactic representation),所有的边界都可以通过父子关系,间接而完整地事后确定。譬如上图中“已经”和“儿女”都是【长大的战友】的children,“长大”也是 ,边界事后确定校正就包括了这些儿女,if needed。不影响核心逻辑语义及其理解是关键。

白:
如果站在填坑的角度,区别二者是理所当然的,并不需要刻意多做什么

李:
白老师是,站着说话啊。

白:
这只是说明“树”这种结构不如“坑-填坑”这种结构更接近语言的本质

李:
白老师上面这句话很妙啊:我个人的翻译就是,乔老爷的短语结构那一套(PSG及其表达法),不如词(概念)与词之间的依从关系更接近自然语言的(逻辑)本质。I honestly cannot agree more.

所谓坑与填坑的结构,就是依从关系建立的条件匹配与满足。“不需要刻意多做什么”是你心中的 approach。我现在的patching就不是这样了,在我这儿,为了人看着舒服的事儿,可以做,但不是必做。必做的事儿是在应用的时候碰到了不想要的后果,那就回过来再把屁股擦干净。

白:
他那些杀红了眼,刺刀上沾满血的战友们可管不了那些了。

“儿女”有坑,把“战友”捎带上还可以解释。“刺刀”的坑是“枪”,“枪”的主人是human,这弯儿拐的。句法非标配的坑,靠语义中间件凌空凿开一个坑,才能把定语从句的钩子钩上。

第一个“那些”如果去掉,好像不通了,或者说链条断开了:

?他杀红了眼,刺刀上沾满血的战友们可管不了那些了。

所以,凌空开凿的坑无法填装远距离的“友元”。

李:

白:
“刺刀上沾满血”是自足的,弄个S出来,似乎不能自圆其说。

李:
有那么自足吗?

战友们刺刀上沾满血
战友们沾满血
刺刀沾满血
刺刀上沾满血

这个后置词“上”字把本来可能的一个主语降格了,变成更像状语了。这就为 “战友们” 出场做主语创造了条件或坑。

白:
S,一定有填坑的关系。“战友们”究竟填了什么坑,不深究是看不出来的。
好像“刺刀”和“战友们”通过这种结构浑然成为了一个整体,“刺刀”成为了“战友们”的一个部件(body part)。

李:
虽然董老师那一层的逻辑语义,可以不管这些表层的 trigger 而保持 【human】 和 【physical object】二者的逻辑地位的稳定,但是 parsing 过程中,这些句法痕迹及其引致的句法“坑”的动态变化还是有迹可循的:PP 把潜在主语降格,让位给其他 NP:

他沾满血了?哪里沾满血?
他在(他的)刺刀上沾满血,身上滴血不沾

“战友” 是大物体,“刺刀” 是小物体。“刺刀” 在这个场景,就是大物体中的一个小物体,与 body part 功能很接近。“他刺刀上沾满血,可手上却没有”,这与前一阵子讨论过的英语表达 "hit sb on+bodypart" 类似,到了汉语就成为所有关系的表达了:

他击中了我的头

击中 的是 “我” 还是 “头”? 沾血的是“人”还是“刺刀”?当然,“上”也是一个讨厌的小词,在接近成语的表达法中不一定降格,譬如 用“组织上”代替“组织”做主语的情形。

组织上批准了你的建议。

对于战士,刺刀就是手脚的延伸,成为一个战士的不可或缺的部件。

白:
地方上,县上,州上
甚至“今上”

李:
这现象是词典化的了吗 还是相当地开放?

白:
他衣服上残留着油渍。他工位上挂着两条领带。他单位里流传着很多绯闻。
他桌子上永远整整齐齐。

可以肯定,1、这是一个系统性的现象,不是偶然或者活用。2、到底是主语还是应加但未加“的”的定语,似乎有个连续的谱系。3、一个具体用法在这个谱系中的定位,与形式状语和形式主语整合为一个整体、或者说形式主语延伸到足以包括形式状语的可接受性有关。整合越不可接受,形式主语越像定语;整合越可接受,形式主语越像逻辑主语。

李:

语言学理论中 主语与定语 地位很接近,虽然前者属于 arg 后者属于 adjunct。它们都是 external 的成分 有很多相通之处。乔姆斯基xbar 理论的起因之一就是要统一主语和(部分)定语,在句法结构的理论上给一个统一的说法(参见 乔氏 X 杠杠理论 以及各式树形图表达法)。

 

 

【相关】

【李白对话录系列】

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

乔氏 X 杠杠理论 以及各式树形图表达法

【语义计算群:句法语义的萝卜与坑】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之28:“天就是这样被聊死的”】

白:
“天就是这样被聊死的。”

李:
说谁呢 ?

梁:
@wei ,I also admired your "层次纠缠“ comment.

李:
哦 那是刘少奇主义, 吃小亏占大便宜。真的,反单层parsing的传统潮流,悄悄地不知道占了多少便宜了,不吃点亏都觉得不好意思了

白:
“的”可以“买一送一”或者“卖一送一”。比如“卖火柴的小女孩”中,“小女孩”既可以作为整个定中结构的代表正常对外填坑,也可以“无偿”填定语从句内部“卖”的坑;“这本书的出版”既可以作为整个定中结构的代表正常对外填坑,也“无偿”对内接受定语部分“这本书”的填坑。“无偿”的意思是,一个括号配一个反方向括号后,对方消失了自己还在。多“饶”了一次匹配机会。现在从坑的角度看,最不情愿的一个处理就是把形容词的使动用法处理成一可选的坑。如果坑可以强制出来就好了。

李:
多一次匹配机会,就是一个儿子可以有两个老子,类似一个是生父,一个养父。对外填坑是句法的显性 dependency,对内无偿就是逻辑语义的隐性 dependency,中外皆然。“小女孩”就是如此,“小女孩”做“卖火柴”的【逻辑主语】。而“卖火柴”其实是“小女孩”的【定语】:让自己的显性的儿子去做自己的隐性的逻辑老子。到了谓词指称化就不同了,对外填坑不变,爱啥啥。对内的逻辑关系则反过来,自己的显性的句法定语儿子(adjunct),被用来填充为自己的隐性的逻辑儿子(argument)。“这本书” 做 “出版” 的逻辑宾语。与英语平行。

this book‘s publication;girl selling matches
? the sell-matches girl

白:
这两件事,被我统一成一件事了。

李:
统一的好处是?

白:
词典化,没有规则,只有词典和原则,一条原则管两头。到原则层面,只需要解决什么条件下谁提供bonus。

李:
一边是 NP , 一边是 V 或 VP。如果是 NP 的 V,V有坑,尽管 V 指称化了。那么 NP 就去填坑(宾语,或主语),如果是 VP 的 N,那么 VP 有主语的坑,N正好填。

白:
根本不看POS,只有买单和卖单。一对多的订单、一对一的订单、可以提供bonus的一对一订单。

李:
POS 也没啥,不过就是填坑中几百上千个可能的约束条件的一个而已。我要 Human 来填坑,与我要名词来填坑,对系统不过就是条件的宽窄不同而已。这是从填坑的角度看 POS。对于设坑的一方,当然无所谓 POS,V 也好 N 也好 A 也好,他们有没有坑,有几个坑,都可以认为是词典化的 subcat 规定的。都直接量(词)驱动了,自然就不谈 POS 了,因为 literal 永远比任何抽象信息量更足。

据说当年一个叫 Small 的人首创专家词典(Expert Lexicon),里面全部是词例化的规则,没有任何抽象规则,可以想象这样的系统在一个狭窄的 domain 里面的可行性。譬如 在天气预报的 domain 里。词条 “下雨”里面规定 要到左边去找 “老天”,到右边去找 “很猛、很急”,等等。

白:
肯定不是这样的。

李:
在一个小词汇表中 是可行的的 而且准确 有点组合爆炸而已。这是没有任何抽象的本义。一旦有抽象,哪怕是词例化,也必须引入 features,而不是直接量之间的交易了。lexical-POS 就是最简单的一个 feature。

白:
原则不看POS,matcher要看。但原则不放水,matcher就没有bonus给。

“张三这两条建议是关于修宿舍的。”

这里面,“建议”有两个坑,“张三”填了一个,然后这个词的“母体”填给“是”了,剩下一个坑成了没娘的孩子。后面当“关于修宿舍的”作为一个整体与“修宿舍”剩下的没娘孩子(human)不匹配的时候,匹配点会迁移到前一个没娘孩子(info,建议的内容)进行匹配。

李:

白:
这不是说,建议的内容就一定是“关于修宿舍”,万一“是”换成了“不是”呢?只是说,这一萝卜一坑,存在着语义类型上的关联。至于肯定否定,那是由围绕着谓词的修饰语决定的。

李:
肯定否定是另一层次的东西,无需牵扯进来。说到底就是 “建议” 有 Subcat,里面有 human agent,和 “关于 content” 的 PP 的规定。human S 连上了,【关于】的坑暂时没连上,但也不难。

白:
建议谁修宿舍,文本中找不到,作罢

“他死去多年的战友就埋葬在这里。”

“他”要憋着不参加后面的VP,直到被定语从句修饰的中心语露面,填入中心语所带的坑,才算了结。什么样的“过程性”控制策略能给出这个选择?

宋:
他死去多年,儿女都已经长大的战友埋葬在这里。

白:
嗯,其实谓词部分是收束的,只有谓词部分对外需要消解。所以,需要栈,但栈不必很深。栈和RNN是不矛盾的。栈顶元素可以作为输入的一部分,对栈的操作可以作为本轮输出的一部分。

李:
查一下后条件不就解决了?在主谓规则中 ,一个 np 与 一个 vp 不着急结为 s,往后查一下条件再决定。

没问后条件,错了。可以加上:

白:
往前看一个,只能做等待与否的决策,不能做结合与否的决策。等待就意味着要记忆某种东西。

李:
等待与否与决策与否,这里不是一个简单的答案。因为涉及两个问题:一个是“他死” 的主谓问题,一个是“死”做定语(兼“战友”的逻辑谓语)的问题。如果不考虑二者相交,第一个问题当成一个独立的问题,当然可以决策,不过是问合适的条件包括后条件而已。这样“他死”本来的主谓错误可以避免,但还是需要有人(“埋葬”)接盘。从相交的角度看,关键是定从句型的处置安放在何处合适的问题,定从解决好了,顺带也就解决了“他死”要不要就近连主谓的问题。涉及的句型也不那么复杂:

NP+VP+de+N

就是一个四元组。把上述句型在做主谓之前 fine-tune 到正好涵盖【定从】,问题就解决了。宋老师的句子是难一些,难在那个 VP 复杂化了,VP 实际是两个 VP 用逗号并列了(其实应该用顿号的,可国人把逗号当万金油,没办法)。这倒也罢,第二个谓语本身也是一个主谓结构:“儿女都已经长大”。“儿女长大” 与 “身体健康” 类似,都是那种句型紧凑的典型的【主谓谓语】。这类主谓只能有限扩展,跟通常主谓的自由度无法比,也因此可以考虑先行解决,给个标签,作为整体,它有一个逻辑主语的坑(通常是其前的 Topic 去填):实质上是对付一层的中心递归(center recursion)。总之是有些难缠,但并非无迹可寻,要做也可以做,考验的是细活。等低枝果实都摘差不多了,再去磨这个细活好了,现在不必。

白:

他那些杀红了眼,刺刀上沾满血的战友们可管不了那些了。

“儿女”有坑,把“战友”捎带上还可以解释。“刺刀”的坑是“枪”,“枪”的主人是human,这弯儿拐的。句法非标配的坑,靠语义中间件凌空凿开一个坑,才能把定语从句的钩子钩上。第一个“那些”如果去掉:

?他杀红了眼,刺刀上沾满血的战友们可管不了那些了。

好像不通了。或者说链条断开了。所以凌空开凿的坑无法填装远距离的“友元”。

李:
看样子这个 “那些” 是个关键的小词,应该善加利用:

human+那些+[human action] + 的+human

麻烦的是 human action 的谓语的扩充性。如果这个句型足够的频繁(感觉上是的),那么一个策略是,对于那个【定从谓语】的界定可以放的很宽,一路扫描下去,直到发现 【的+human】,就把这个 【定从】 的性质卡住了。定语定性以后,再慢慢对付里面的monsters,这个策略可能管用。

他的那些blahblah的朋友们

管它 blah 有多长、多复杂。一个 token* 就卡住了。还有一个策略就是 patching,对上面的那颗“循规蹈矩”而出错了的树做修补:

S1[X那些] + Pred1 + Conj + Mod(Pred2)+S2+Pred3

要问五个链条才能修补全,也不知道能概括多少现象,值得费这么大力气,会不会弄巧成拙。道理上是可行,问了这五个链条了,然后

(1)离婚 S1 和 Pred1
(2)结合 S1 与 S2,让 S1 zuo S2 的定语
(3) 切断 Conj
(4) 用新的 Conj 链接 Pred1 和 Pred2

可以做个实验玩玩,看这条路可行不。
MY GOD 值不值得做先放在一边,可的确做成了!

这个太tm牛了。我都不得不崇拜自己了。

还是那句话,没有翻不了的案子,毛太祖钦定的文化大革命都彻底否定了。这样的翻案 patching 应该没有副作用,因为都是 word driven 和非常 restricted 的现象。

同一条规则略加微调(没有“那些”但原主语是 human),就把宋老师的难题一并解决了。休眠唤醒术好使,以后要多使,这比条件不成熟的时候霸王硬上弓轻松多了。

白:
不对呀……
怎么是“他”死去?应该是“战友”死去才对。另外,“战友”并没有“长大”,“长大”的是战友的“儿女”。

李:
鸡蛋里挑骨头啊。明明“儿女”是“长大” 的 S。长大的战友,不过是一个边界不合适的 XP 懒得在 patching 的时候再动手术去重新修理边界而已。

白:
就是说,定语从句的两个分句,第一个“死去”的坑被提取出来,由中心语“战友”反填;第二个“长大”的坑由“儿女”填充,同时“儿女”挖了一个新的human类的坑,由中心语“战友”反填。

李:
真要修理也不是不可以,但已经没有啥意义,因为逻辑语义上已经阻止了 “战友” 做 “长大” 的主语。对,“他” 不该是 “死去” 的 S,这个我去查查 code

白:
要简化也是“儿女长大的 战友”,而不是“长大的 战友”

李:
那是因为偷懒 共享了 “那些”的规则。得,我分开来一步步来。
目前的机制可以改关系,暂时不可改边界。有空了写个 specs 让工程师增加边界调整的功能。不该有的 S 没有删去,是个 bug,规则是对的。对数据结构做手术,要做干净、不拖泥带水、不留后遗症,还需要磨一阵子。不过苗头是好的。

白:

“目前尚未毕业、导师已经超过六十三岁且不是院士的博士研究生要来教务处登记。”

谁不是院士?导师,还是博士研究生?如何确定?两个conj并列,是一股势力;“导师”辖域延展,是另一股势力。

李:
不用 common sense 出场?

白:
后一股势力因为“导师”自带的坑得到“博士研究生”在右侧遥相呼应而得到加强。当然“博士研究生”自身也因距离更近参与“不是院士”的逻辑主语坑的争夺。定性分析这是打个平手。common sense之外似乎看不到一锤定音的结构性要素。或者换个说法,大数据里,“导师”和“院士”共现的频度,与“博士研究生”和“院士”共现的频度比起来,谁高?

一提common sense就有把问题搞复杂的嫌疑,提大数据则明显把问题简化了。

李:
不错。现在的问题是,应该怎么挖掘和表达大数据的这些隐含了常识的知识,使得需要用的时候,够得着。人手工费那么大劲精心构建的 ontology 和常识,目前用起来还是不能得心应手,挖掘的东西应该呈现怎样的形态才好用呢。

白:
词向量可直接反映共现。

李:
在两个词抢夺同一个词的时候,最简单的办法就是看他们的两两共现来决定力量对比。这个听起来简单,但这种三角争夺是 on-the-fly 的,共现数据可以预先计算并 index,三角计算必须是 at run time,感觉上有一个不小的 overhead

白:
现场直接变成算距离了,index出来是向量,向量的距离直接反映共现。而且是“应该的”共现而不是“现实的”共现,中间加上了互通有无。互通有无是数学模型帮我们做的。

李:
大数据出来的统计不都是“应该的”么?都只是一种趋向。增加一个砝码,不是铁定。(一定有违反大数据统计的反例在。)

白:
不是这个意思,是说很多数据是稀疏的

宋:

(1)应该做大数据挖掘,与专家的规则结合起来。白硕建议比较两对共现频次,我觉得比常识知识库靠谱。

(2)这种大数据中的知识挖掘应当是实时的。应该有某种大数据存放的中间形式,支持快速的实时统计。这种中间形式会比原始的线性字符串对于统计更高效,同时应当有一定的通用性。

白:
在降维中稠密化了,原来语料中直接没搭上钩的,经过降维处理也可以搭上钩了。

宋:
(3)恐怕会有一些问题不是单纯的词语共现所能解决的。

白:
算距离,复杂性主要跟维度有关。维度降下来了,不仅数据稠密了,而且计算开销也下来了。@宋 老师的(3)完全赞同。共现的数学模型,build和run的确是分离的。李:

李:
synonym 或 clustering 就是 降维 和 数据稠密化吧,但同时也抹平了。不知道目前有没有哪个系统真地在歧义判别时候用到大数据统计的。

白:
word embedding并不严格抹平,但可以拉近,而且如果只为了比较大小,距离算到平方和足矣,没必要再开方。

李:
对,根本不需要精确计算,只需要相对的结论,谁强谁弱,或打平。

康:【首届语言与智能高峰论坛会议邀请函】 ...

白:
这种会怎么不请伟哥啊……

阮:
第一届会议重在推动,伟老师估计会泼凉水。

白:
我们大家还在混圈子,伟哥已经高处不胜寒了。

李:
一觉醒来 左眼发跳 原来是白老师。冷不丁开个涮 由头却是啥高峰会议。
认真滴说 休眠唤醒是正道 开始尝甜头了 。感觉以前syntax下力可能太大太苦 ,不如把负担更多转嫁给语义唤醒。

 

【相关】

【立委科普:结构歧义的休眠唤醒演义】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义计算:耍一耍中文 SyntaxNet 和百度翻译】

我:
朋友终于装上了赫赫有名的谷歌 SytaxNet 中文自动分析器。随手试了一个例子。From syntaxnet, we have this parse:

From yours truly, this is the result:

To laymen's eyes, they look alike.  They are both dependency trees. Of course. They seem to have used the same or similar tools for drawing trees.  But beyond these, they are so different.  天壤之别 in data quality.

For the SyntaxNet:(1) the link between 啥 and 体验 is wrong: it is not conj;(2) subject is also wrong,公司 should not be subject, subject is 投; (3)object of 投 is wrong, it is not 人去楼空, it should be 公司; (4) 投-VP is 定语从句,where syntaxnet is wrong too.  Out of 8 dependencies, only 2 can be judged as right (了 is linked right; 的 might be judged as right as it is linked to 投 as relative clause marker) and they only involve 小词, all notional words are linked wrong and the function word 家 is also incorrectly attached, it should be linked to 公司.  This is from the parsing system which claimed most accurate a few months ago.

白:
这里涉及几个细节:1、凭什么断定“家”是量词而不是名词?在扫一个处理一个的工作模式下这很有些勉为其难,因为真正强关联的词“公司”可能隔着远距离才能看到。要明确大家的工作模式都是可以等到不管多远的距离才出现的,大家一起比才公平。

1、凭什么断定“家”是量词而不是名词?在扫一个处理一个的工作模式下这很有些勉为其难,因为真正强关联的词“公司”可能隔着远距离才能看到。要明确大家的工作模式都是可以等到不管多远的距离才出现的,大家一起比才公平。2、“投”和“体验”各空出一个未填充的坑,但这两个坑是有关联的----谁投,谁体验。两种分析结果都没给出这个结论。

2、“投”和“体验”各空出一个未填充的坑,但这两个坑是有关联的----谁投,谁体验。两种分析结果都没给出这个结论。3、“是”接受谓词主语时,对宾语(表语)进行了一次约束,即宾语要么也是谓词,要么是对谓词有概括能力或者收束能力的名词。最后进入宾语位置的,到底是动词“体验”还是名词“体验”,是有讲究的。

3、“是”接受谓词主语时,对宾语(表语)进行了一次约束,即宾语要么也是谓词,要么是对谓词有概括能力或者收束能力的名词。最后进入宾语位置的,到底是动词“体验”还是名词“体验”,是有讲究的。“什么”可以把动词强制名词化,也可以自然修饰一个本色名词。但这对“是”语义是有区别的。谓词 是 什么 + 谓词,说的是两个谓词在时间上的叠合、因果上的联系。谓词 是 什么 + 名词,说的是用后面的名词对前面的谓词进行分类。“投”与作为名词的“家”,有那么格格不入吗?如果语料中投张三家、投李四家、王家赵家都OK,这里仅看到“投了家”就断定不OK,也太武断了点。既然不能断定不OK,起决定作用的还是与“公司”的强连接。对于静态文本处理的场景,一次吃进一堆,把强关联的量名搭配挑出来不难,对于语音或动态文本处理的场景,确实需要等。即使是静态文本处理,如果确定pos和做match是两个分离的步骤,pos的确定不依赖于match的阶段性成果,那么确定pos需要用到的窗口就必须足够大——大到可以把远距离的量名搭配容纳进来。否则,“家”的名词义项会在概率上占优,同时在局部找不到推翻这种优势的硬证据。

wang:
白老师,这里引出了2个问题  1),POS 和match ,如何走的问题? 2)不同情形下,窗口多大要拉多大的问题?

本人的主张,是POS和match协调走 。或说是WSD和Parse协同进行。若不依赖match阶段性结果,单靠pos自己,可能窗口再大,效果也不见得好,除非支撑的语料能足够大。

“投了家去年还是公司业务额超过同行二倍,而今年公司利润却几乎是零的公司”

这里的“家”与最终的关联的“公司”,实在距离太长,而且其中还有干扰型的两个“公司”。要支撑这样的窗口长度的数据,--太难白硕:

白:
有“公司”出现就可以被wsd加分,真正修饰哪一个“公司”,只能靠matcher独立判断。除非构造一个受“公司”干扰、后面居然还不取“家”的“量词”义项的例子。比如,“没有家的支撑他不可能把公司做这么大。” 或者再离近一点,“没有家的支撑公司不可能被他做到这么大。”wei wang:

wang:
窗口长了,内容的处理只好粗糙些了白硕:

白:
如果是纯粹基于规则,可以耍个流氓,把“家”归入一个变色龙词类,见人说人话 见鬼说鬼话。但是基于关联,耍不得这样的流氓。N+和N不能用X来做wildcard。wang:

wang:
嗯,明白。基于关联的方法,虽然有点难,但走远还是有望的。白老师的例子,“没有家的支撑公司不可能被他做到这么大。”,感觉“家”也不能被“公司”挟持着
想了一下“没有家”做特征也不妥,“没有家支持公司开辟海外业务的保险公司”
这里“家”--又变了“量词”。解析不决问谷歌,或百度:Without the support of the company can not be done by him so much.

Without the support of the company can not be done by him so much.
wei wang:
谷歌解析,--把“家”弄丢了No home support company can not be so big.

No home support company can not be so big.
百度,家倒是出现了,“家”字面翻译wei wang:

“投了家人去楼空的公司是啥体验?”
百度:The family went to the floor of the empty company is what experience?
wei wang:
谷歌:Voted to empty the company is what experience?似乎,谷歌对量词“家”还是可以的

似乎,谷歌对量词“家”还是可以的
-----看来“家”是量词和名词,结果也是不尽人意

我:

@wang 你造句的时候能不能普罗一点儿?不带这样的。

wang:
李老师,第一个句子分析不错。第二句子是为了拉长“家“和关联的“公司“的距离,而造的,确实有点难为机器了。只是说明,距离长可很长。

我:
我是说你缺乏同情心, :=)

wang:
第三个句子,那个“家”没处理出来,有点遗憾。
认错,同情心对机器。“开辟海外业务的保险公司” 独揽了,导致断链。

白:
还没有见到用干扰项“公司”把“家”成功引走的例子。

wang:
说明这抗干扰能力,不是一般的强啊。

这家早就成为公司的临时办公室了。

刚才仔细模拟机器分析句子,“没有家支持公司开辟海外业务的保险公司” 分析出“家”为量词,这个确实太难了。好几处匹配都几乎坐实了“家”为名词,而翻盘的力量实在太微弱。当然基于规则的方法,可能会另有春天。
谷歌的翻译确实了!

There is no insurance company that supports the company's overseas business

以上这是百度的翻译

No home support company to open up overseas business insurance company

以上是谷歌翻译。百度的表现,真心不错

白:
本群就有百度的好几位大牛哦。
“难道就没家给公司提供像样的办公用品的公司吗?”

很赞!

wang:
向百度大牛学习!

白:
好几位百度从事NLP的专家在本群潜水。

“百度”没逃过去这个远距离相关的陷阱。

1024位素数作为模,应该够安全了。

digits没翻出来,prime也没用复数,捣浆糊啊。
模翻成model, 数学上也不算对。

三位整数做密码,太不安全了

又是捣浆糊。
但这里明显是三“个”整数的意思,只不过语法错了。原文是一“个”整数,有三个十进制位。

量词兼其他词类的情况,是很细的细活儿。
调戏完毕。

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【一日一parsing:#自然语言理解太难了# 吗?】

白宫命令司法部申请紧急冻结今天华州政府在西雅图联邦法院申请到的总统冻结穆斯林七国入境EO的临时冻结令。
如果成功的话,临时冻结令将被紧急冻结令冻结,穆斯林七国入境继续冻结
#自然语言理解太难了#

wang:
李老师这是要把机器累吐血啊!
不太理解为何要和这类超长难句对上了。
以前只顾着忙着单句,对篇章理解终未敢有奢望。
恩,到时句法分析,感觉可以分成若干小句来分析也不错。
只要把前继跟准了,把大树搞成森林,由若干棵小树构成,而每个小树分析结果表达清晰准确。也是一种选择

我:
不是跟难句过不去,是 parse 着玩。现如今凡是遇到 “绝妙的中文”、,#自然语言理解太难了#  这类标题,就忍不住想,我 parse parse 会怎样呢(e.g. 《立委科普:机器可以揭开双关语神秘的面纱》)。是一种类似于软件工程上 stress test 的心态,人说难,偏试试,看极限在哪里。哭笑不得的结果有之。喜出望外的也有,以为难仔细一想其实不难。总之都会有启发。不特意为这些 outliers 去动手术。不值当。

特别心烦意乱的时候,啥招都不管用,只有调系统可以安神。明知系统是个无底洞,以有涯对无涯。killing time,一点儿也不殆。

白:
“这些泡沫包装糟透了。”
“这些水果包装糟透了。”

我:

“泡沫包装”作为合成词词典化了。

白:
“这些学生宿舍都没回就一头扎进了图书馆。”

我:

第一句差强人意,层次纠缠。知道病源,不敢确定该不该修理。分层这事儿,你不能占尽了它的好处,一点不吃亏啊。主要是衡量亏的大小,值得不值得去打补丁或做高危微调的动作。观望。有时候需要时间和新的数据去驱动和决策开发和维修。

 

【相关】

【李白对话录系列】

《立委科普:机器可以揭开双关语神秘的面纱》

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

 

 

 

【李白之27:莫名其妙之妙,妙不可道】

李:
想到一个 minimal pair:

(1)他莫名其妙。
(2)我莫名其妙。

单说,第一感觉是(1)(2)均无歧义。但对比看,就看出“莫名其妙”的歧义来。查词典,原来有两个义项:

莫名其妙
【解释】:【1】说不出其中的奥妙,理解不了其中之巧妙,比喻深奥让人不明白, 可带讽刺意味。【2】不知道到底是怎么个情况。

根据主语人称的不同,默认的义项随之不同:感觉第三人称主语(1)的标配义项是【1】,而第一人称主语(2)的标配是【2】。非标配的义项,在没有更大的上下文的时候,休眠了。

从语言学的不同维度,这个区别可以说是:

(a)不及物动词 vi 【1】 和 及物动词 vt【2】 的歧义;
(b)也可以说是 形容词 adj 【1】和 动词 v【2】 的歧义(反正vi和adj在汉语也可算一家);
(c)成语义【1】与字面义【2】的歧义;
(d)黑箱【1】与白箱【2】的歧义;
(e)当然还可以说是情感色彩 sentiment (“莫名其妙”的黑箱有讽刺贬义色彩)【1】与 中性陈述 neutral 【2】的歧义;
(f)甚至还可以说是(隐式)被动【1】与主动【2】的歧义。

因为人的本性,通常不会自贬,因此第一人称做主语,贬义解的可能大为降低,因此(2)“我莫名其妙” 默认为白箱义。而当用于第三人称(其实是非第一人称)的时候,通常的理解都是黑箱,忽略了白箱的可能。这符合成语默认为黑箱的一般规律:毕竟第一人称是个案,而非第一人称则是常态。

白:
其实不是。“他莫名其妙”是“他使人感到莫名其妙”“我莫名其妙”是“我感到莫名其妙”前者是后者的使动用法。

李:
也好。又增加一个语言学范畴的维度:

(g)也可以说是使动【1】与自动【2】的歧义。

白:
当别人表示我使之感到莫名其妙时,我可以反问“我莫名其妙?blahblah”
一般情况下,“我莫名其妙”并无歧义。

李:
我的语感是:一般情况下,“他莫名其妙。” 也无歧义。
语感的差别?

白:

因为感到莫名其妙是主诉,无须代劳。

李:
他这人莫名其妙。你怎么会喜欢上他呢?

白:
只有这个。与非第一人称相配的,是使动用法。这是标配。

李:
成语一般不影响 parsing,是 hidden ambiguity,属于 WSD 范畴,可以在 parsing 后的语义模块去做,if needed。更多的有趣案例:

对于"莫名奇妙",我莫名其妙。

白老师洞若观火,黑老师莫名其妙。

谁莫名其妙?
你才莫名其妙。

当然,(1)和(2)也都可以是歧义。这一切,都可以在更大的上下文中,被反转过来:

(1a)对于此事,他莫名其妙,一片茫然,手足无措。
(2a)我承认我莫名其妙。(我就是个无厘头,不要理我好了。)

对于标配的无歧义,上例表现的另一线可以在句法后借词驱动来休眠唤醒(【立委科普:结构歧义的休眠唤醒演义】)。

白:
反转的桥段可以有。对非第一人称,如果明示相对的事物,则变成“对该事物感到莫名其妙”之意。对第一人称,如上所述,在反问、抗辩乃至退无可退的认账情景下,可以转化为“我令人感到莫名其妙”之意。这些都是只有特设性条件才能激活的非标配解读。

李:
总结来说,这一切一般不影响 parsing,是 hidden ambiguity,属于 WSD 范畴,可以在 parsing 后的语义模块去做,if needed。与人称有关,可以在句法后的模块check主语条件来做细(WSD),还可以细了再细,去进一步休眠唤醒。

白:
使动比非使动多一个坑,既是wsd问题也是句法问题

李:
【对 np】 莫名其妙:汉语中 arg 可以降格为 mod,尤其是当坑是 pp 为载体的时候,句法总体可以不受什么大的影响。

白:
这一条是有可能有副作用的

李:
同理 词典的自动词在活用为他动词的时候,冒出来一个后置宾语,萝卜出来了没有坑,鲁棒的句法就会现造一个坑,结构分析依然前行。

白:
做空。
允许未饱和坑数出现负值

李:
从句法主旨是把线性转为结构来看,都有应对之道:

幸福着你的幸福

“幸福” 的词典没留宾语的坑,生生被活用了。我的感觉还是 句法能简化则简化,以顺利建立结构为度。线性到结构 是一个飞跃。飞跃后 视野就开阔了 四通八达 做语义 做反悔 做落地 就游刃有余了。爱怎么死缠烂打都行。第一步的结构化 parsing 因而是重中之重。鸡零狗碎的语义细线条可以尽量搁置。这可算是老马识途的由衷之言。耍流氓 玩暧昧 粗线条 变色龙 休眠 隐藏 patching 默认 等,为了句法结构化,都可以。

道可道,非常道。莫名其妙之妙,妙可道,妙不可言。

【相关】

【立委科普:结构歧义的休眠唤醒演义】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之26:汉语动结式和情态式的隐式被动现象】

李:

这一句有点难有点难。

难在“相比”作为副动词,这口气太长了:里面混杂了并列小句的定从。

这句 tricky,实际上是有两个被动式:一个是“被关押”,一个是 “被...打死”。汉语中被动态可以而且经常不用显式“被”。这样一来,如果两个动词前面出现了一个 “被” 字,这个被字可以给第二个动词,近水楼台不得月的第一个动词没得到这个被,也并非就不可以是被动。

有点操蛋。算了,拉倒:就近原则,作“被关押”解。否则容易顾了东头顾不了西头:

wei wang:
是否有些武断?
双“被“不能同时出现在一个句子,不顺口,区别还是在“病死“or“打死“,语义制导了句法。若是“夹伤“又如何?可能夹伤己,也可能夹伤他,打死,病死排他性强。

李:
对,病死 vi;打死 vt。

白:
病死一个坑

动结式动词,两个坑都相谐的,只说一个,一般认为是逻辑宾。“张三赶走了”意思基本等同于“张三被赶走了”。

李:
动结式 被动态的常规是省略“被”,而且这种宾语提前,比宾语后置更常见。汉语中的 可能情态 也具有这个特点:宾语提前,或者说,隐性被动,更常见:

他可雇
== 可雇他
== 他可被雇

尽管 “雇” 是两个坑,而且都要求 【human】,但是 “他可雇” 里,只有一个 NP 处于主语位置的时候,常常是填逻辑宾语的坑,而不是逻辑主语的坑。机关就在这个“可” 上面。

白:
所以,处理到动结式了,可以把已经入瓮的“被”踢出来,让其重获自由。

记得有个古代的故事,别人给皇帝送的吃的,宫里守卫拦住了,问:“可食否?”送的人回答:“可。”守卫拿过去就把送来的东西吃了。

李:
这个故事妙。汉语的 【可+V】 是一种构词法,其实就是合成(or 派生)形容词(deverbal adjective:derived adjective or compound adjective)了,但是词源上来自动词的情态式。问的人是当动词情态式问的,回答的人是当形容词理解的。拧了。其实是历时语言灰色过渡阶段的现时反映,颇有意思的汉语语言学。

白:
可造之材,可塑性好,高可用

李:
类前缀“可-”,可比较英语的后缀派生词:-able

readable:可读
可行性,可读性:feasibility,readability

这是从形容词通过后缀“-性”进一步派生为名词了。非常有意思的现代汉语“类派生”现象(词法上介于 compounding and derivation 之间的语言发展苗头,我博士论文中谈到汉语类语缀现象时,特别论过: PhD Thesis: Chapter VI Morpho-syntactic Interface Involving Derivation

白:
要,也是:“已经放下武器的敌人不要打”

李:

白:
这些都带有决策性质,决策者就是说话者,执行者就是听话者,不言而喻。所以再有指名道姓的萝卜,一定填逻辑宾语的坑。执行者(听话者)是隐含的逻辑主语

李:
决策的语义对应的是语法的祈使句。当然祈使句在孤立语中有概念,少形式,也不好区分。

白:
如果特别对听话者指名道姓,往往用同位结构:你们三团要狠狠地打。

李:
“你们” 第二人称,可以另算。“我们”第一人称也算有痕迹 (lets)

白:
这是旁证

李:
“咱们” 就更棒了,作为祈使句形式痕迹,更加彰显。

白:
那是套近乎

李:
“咱们” 开头,几乎都是祈使句。

wang:
你们三团要很很打
这句,主动,被动都可能。刚才白老师说的“要打”一被动也成立:
部队一定要打压一些有骄傲的风气的单位,你们三团要狠狠打。
这个例子没举好,
还是不存在被动?只能是主动缺省宾语?看来得求教二位老师

李:
逻辑宾语的解读对于这类句式是一个蛮明显的趋向、heuristic, 总是可以找到反例

wang:
嗯,谢李老师解答,我这边太晚了,有空聊

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录