"快叫爸爸小视频" 的社会计算语言学解析 屏蔽留存

"快叫爸爸小视频" 的社会计算语言学解析

屏蔽已有 2529 次阅读 2016-6-21 11:35 |个人分类:立委科普|系统分类:科研笔记| 大数据, 社会语言学, 词汇演变

“快叫爸爸小视频” 这样的东西 有社会语言学的味道 随着时代和潮流翻滚。在微信朋友圈及其提供的小视频功能风靡之前 小视频不是术语 不是合成词 也没有动词的引申用法。它就是一个定中结构的 NP,在句型中等价于说”把爸爸叫做小视频”,虽然常识是 “人(爸爸)不可以等价于物(视频)”。在语言的强制性subcat结构(叫NP1NP2)里面,常识是没有位置的。句法不需要顾及常识 正如 “鸡把我吃了”的违反常识一样 也正如乔姆斯基千古名句的 green ideas。
可是 社会语言学登场了 语言被置于流动的社会背景之下,小视频成了 technical term,然后又从术语融入了语言共同体的动词用法,正如谷歌从术语(专名)变成动词一样: “我还是先谷歌一下再回应吧”,“快小视频呀”,“一定要小视频这个精彩时刻”。
白:
“一下”强制“谷歌”为动词。半个括号已经有了 另半个没有也得有。
我:
于是 subcats 开始 compete,有了 competition,有了结构歧义 就有了常识出场的理由。顺应常识者于是推翻了句法的第一个 reading。
白:
你是我的小苹果,怎解?
我:
“你是我的小苹果”是强制性的句法啊,无论怎么理解这个苹果(到现在我也没有理解为什么把爱人或意中人叫做小苹果,是因为拿高大上的苹果比喻珍贵吗?)都与常识无关:你是我的 x,就是强行的句法等价关系。
“一下”强制“谷歌”为动词 这一类看似临时的强制 在语言共同体中逐渐从临时变成常态后就侵入了词汇。换句话说,“谷歌”在以前的词典里面是没有也无需“潜在动词”的标注(lexical candidate POS feature),因为几乎所有的动词用法都是零星的 句法强制的 无需词典 support 的。但是随着语言的发展 “谷歌”的动词用法逐渐变成了语言共同体司空见惯的表达方式(其动词用法的流行显得简洁、时髦甚至俏皮),这时候 语言的用法被反映在语言共同体的集体词汇表中,我们模型这个共同体的语言能力的时候 就开始标注其动词的可能性了。
金:
厉害,这抠的!金融语义在一边看热闹
我:
或问:这词典里面标注了(反映的是共同体集体意识到这种用法的流行)和不标注 有什么区别?
当然有区别。标注了 就意味着其动词用法作为一个合理的路径 参与 parsing 的正常竞争;不标注 虽然也不能排除临时的动词用法 但是因为缺乏了底部的词典支持 其动词用法的路径是默认不合法,除非句法(包括词法)的context逼迫它成为动词,这就是 “一哈”的所谓强盗句法: 不仅词典是绑架的天堂,句法也可以绑架。
白老师说:“兼语理解(叫某人做某事)有谓词性的坑不饱和,双宾理解(叫某人某称呼)有体词性的坑不饱和。如果拘泥于结构,二者半斤八两。但如果结合语境,非兼语理解是颠覆性的,兼语理解是常识性的。放着常识性的理解不选选择颠覆性的理解,说明心头的阴云不是一天两天了。冰冻三尺。
重温一下白老师 作为对比,字字玑珠,而且妙趣啊。“冰冻三尺”就是社会语言学。

也可以说,冰冻三尺就是大数据
我:
我们学习语言学 模型句法 绝大多数都是针对现时的 把语言看成是一个静态的剖面 来研究它 模型它。这个也没大错 而且简化了问题。但是语言是流动的 社会语言学强调的就是这个流动性。流动自然反映在大数据中。因此对于静态的语言模型 需要不断的更新 如果有大数据 那就定时地 check 它。
白:
有个动态更新的中间件就够了
我:
陈原是个大家。他写的社会语言学很有趣味。在世界语场合 有幸聆听过陈原先生的世界语演讲:那个才华四射、感染力和个性特色 让人高山仰止。人家做语言学是业余 本职工作是出版商。据说是中国最权威的出版家,也是个左派社会活动家。
洪:
虽然解放初才入党,但应该早就是中共地下党员,三十年代初就在三联当编辑,胡愈之邹韬奋的部下,以前《读书》上一直有陈原的《在语词的密林里》
我:
陈原的那次演讲 与 黄华(我做翻译的那次)的演讲 都有一个共同的特点,就是表情丰富、富于感染力,能感受到人的 personality,都是“大家”。
aaa

【相关】

我的世界语国》《朝华午拾:欧洲之行

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-985924.html

上一篇:【河东河西,谁敢说SMT最终一定打得过规则MT?】
下一篇:Deep parsing 每日一析:内情曝光 vs 假货曝光

 

2  李颖业 张云

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据