《立委随笔:汉语自动断词 “一次性交500元”》

《立委随笔:汉语自动断词 “一次性交500元”》 (2824 bytes)
Posted by: 立委
Date: April 27, 2007 10:56PM

 

请教一下立委,这过滤词的语法能提高吗。 (15409) 
Posted by: oztiger 
Date: July 12, 2006 11:03PM 

我初看xj这帖子,很不明白 北大法学院 怎么会变成 北 大法 学院,想想又挺好笑。然后想是否xj毕竟不是专业的,可能过滤法不够智能。特意用百度去搜北大法学院,竟然死掉,看来网上长城也没解决这个问题。 

正好就近就是一个专家,问问老李有没有现成的code识别中文字词断句。 

说真的看来老李的专业前景无限。我不是说老李去帮网上长城打补丁,只是想想正火的data mining里面肯定也要解决这个问题,不然搜出来意思都变了 

===================================================================== 

这是切分歧义问题。目前汉语自动分词的水平可以解决 (15421) 
Posted by: liwei999 
Date: July 13, 2006 01:30AM 

90%以上这样的歧义区分问题。现成的code应该有,不过往往很笨重,overhead不小,不是很容易integrate。 

My friend Dr Guo has a demo Chinese tokenizer at: 
[www.jplusk.com] 

He is a real expert in this area. 

比如: 

Chinese Tokenization Demo 

Enter a Chinese string and hit the Run button, then tell me how I can do better for you! 

Input 

很 不 明 白 北 大 法 学 院 怎 么 会 变 成 法 轮 大 法 的 大 法 

Output 

很 < 不 [ 明 白 ] > < [ 北 大 ] [ 法 ( 学 院 ) ] > < [ 怎 么 ] 会 > < 变 成 > < [ 法 轮 ] [ 大 法 ] > 的 < 大 法 > 

===================================================================== 

张了见识。 (15422) 
Posted by: oztiger 
Date: July 13, 2006 02:11AM 

我是什么都想知道一下,真翻开论文看了几段又懒了,但总算知道了一下目前解决这种问题的思路。他能把‘结合成分子’正确断出来不容易。 

不过你跟他反馈一下,我让他的程序断‘一次性交500元’(不准笑!正经的科学研究),结果是< 一 次 > < 性 交 > 5 0 0 元,跟我的原意不符。 

另外网上长城为什么不采用你们这样的最新技术之类的,他们把北大/法学院当成大/法来屏蔽还是挺落后的。可是我用google搜大/法,第八个网页就已经是北大/法学院了,怎么他们的算法也那么差? 

====================================================================== 

没有断错呀,至少把最常见的意思断出来了。 (15423) 
Posted by: liwei999 
Date: July 13, 2006 02:34AM 

引用: 
oztiger 
不过你跟他反馈一下,我让他的程序断‘一次性交500元’(不准笑!正经的科学研究),结果是< 一 次 > < 性 交 > 5 0 0 元,跟我的原意不符。 

你真开玩笑,程序又不是道德法官,怎么知道这个年头还会碰上你这么一个正人君子并揣摩出你的原意呢(何况是不是原意也很难说,又不是你肚子里面的蛔虫)。他的程序是以统计为基础的,从统计上说,你的“原意”绝对是少数派,在 threshold 以下,机器学不出来。 

===================================================================== 

是有小毛病 (15424) 
Posted by: Hirsch 
Date: July 13, 2006 02:56AM 

 

input 
一次性交款500元 

Output 
< 一 次 > < 性 交 > 款 5 0 0 元 

 
Input 
一次性交费500元 

Output 
< [ 一 次 ] 性 > < 交 费 > 5 0 0 元 

立委按: 
其实 < 一 次 > < 性 交 > 款 5 0 0 元 
选择也不错,合乎汉语语法。

 

《立委随笔:语素、汉字、单词以及音译意译》 (2797 bytes)
Posted by: 立委
Date: April 22, 2007 09:24AM
这个题目似乎很多人感兴趣,也存在很多误解,做点语言学的科普吧。 

由于对语言学基本概念语素(morpheme,也叫词素)的不了解,很多人拿汉字和西语的词比较,这是不科学的,等于拿苹果跟樱桃比较。语素是语言中音义结合的最小单位,是词法(morphology,也叫形态学)分析的起点,而词是词法分析的终点,同时也是句法(syntax)分析的起点(基本单位/最小单位)。汉字大体对应于语素(即 morpheme, 有例外,比如“葡萄"中的“葡”和“萄”,以及音译词如“沙发”中的“沙”和“发”,这些字就不是独立的语素,但总体而言汉字和语素的吻合度很高),可英文单词是等于或者大于语素的单位(否则就没有morphology了)。所以,不能这样比较。正确的比较是用现代汉语词典中的词条数目,跟英文词典的词条数比较,就没有那么悬殊了。 

英文的语素包括词根,前缀(pre-,non-,anti-),后缀(-ize,-er, 也包括语法后缀,如-s, -ed, -ing)。比如: 

read-abil-ity/in-comprehens-ible/ir-regular-ity/relat-ed-ness 是一个单词(派生词),3个语素,相当于汉语中的三字词。 

是不是学会2000汉字,就基本掌握汉语词汇(vocabulary)学会汉语了呢?显然不是。因为由字成词并不一定具有semantic compositionality(很多是半透明), 也就是说,一个单词的意义并不总是语素的简单相加,1+1并不总等于2。多字词(现代汉语词汇主要是双语素词,表现在书面语就是双字词)也还需要一定的死记。比如,“语素”这个词,并不因为你认识“语”和“素”两个汉字,而自然理解,否则汉语只需要一本小字典就够用了,没有必要编纂汉语大词典和众多的专业词典。再举一例,我女儿汉字学得很快,但是让她独立阅读中文论坛就很困难,很多字认识了,可还是不明白讲什么,因为她不认识有些多字词,她的字汇量够了,可词汇量不够。 

当然,相对于英语而言,现代汉语的词汇大多是多语素词,而不是由词根独立成词为主,这就给人一种不陌生的印象。即便遇到新词,由于语素构词的半透明性质,加上上下文,理解起来,也可能八九不离十。从这个意义上,学汉语比学英语,词汇的记忆负担确实减轻了一些。 

最后说一个有关的议题:外来词(比如laser)的意译(比如“激光”)和音译(比如“雷射”)问题。从语素分析的角度,意译实际上是利用汉字的语素性质创构多语素新词,而音译就是利用汉字的音节性质构成单语素多字词(多音节词)。两种方法各有利弊:意译词一定程度减轻了记忆负担,让人似曾相识。这个优点同时也是缺点,常常导致望文生义,“秀才识字认半边”,给不求甚解者开了绿灯。权衡利弊,一般而言,对于需要精确定义的专业术语,音译(或者不译,直接用原文)比意译要好,可以避免误解。但是对于已经进入大众生活的外来新词,意译比音译好一些。 

感谢小日本,很多现代汉语意译词汇(现在大多已经进入大众词汇),是由他们先行利用汉字语素创造合成,然后我们拿来就用的,节省了我们的先辈翻译家“一名之立,旬月踟躇”的麻烦,也避免了现代汉语蜕变成中西混杂的怪物,试比较下列文字: 

(1) 俱乐部已经邀请名讲师来举办青少年生理和心理健康的讲座,这是本俱乐部青春期性教育的重头戏。 

(2) 克辣布已经邀请名莱克切入举办青少年菲锐澳勒基和塞靠勒基的莱克切,这是本克辣布青春期塞克司爱纠开心的重头戏。 

-------- 
立委名言:一名之立,三月踟蹰。近代日本先我拥抱西方,至少从立名而言,我们是占了便宜的。

Re: 《立委随笔:语素、汉字、单词以及音译意译》 (2291 bytes)
Posted by: 立委
Date: April 27, 2007 10:29PM


ZT: 实在忍不住,到隔壁插了一句 (16228) 
Posted by: liwei999 
Date: July 26, 2006 05:35AM 

前几天看到江老弟在黑暗中摸索,想用汉字表达他琢磨出来的语素的概念,就想好为人师一下。想还是等别的语言学家出来给他点拨一下吧。结果没有。质疑他汉字说的人,逼迫他重新修正概念,提出了近似语素的基本概念。 

隔行如隔山,聪明人往往喜欢琢磨其他专业的事情。但必须承认,再聪明,这样做也基本是徒劳。这是个很有意思的过程。 

引用: 
关于汉字拼音化(修正稿,放弃广义汉字说法) 
大脑思维时,虽然表现出来像是以语音进行,但实质上是一种意识流;此意识流由某种意识元素组成。意识元素,从物理上说,表现为大脑神经网链;这些神经网链体现出意识内容、发音以及文字之间的联系。对于西语,意识元素对应于word;对于汉语,意识元素对应于字(一个汉字相当于英文小word)和词所表达的概念。下面主要讨论汉语的情况。 
意识元素的三要素(意识内容、发音以及书写文字)中,意识内容是最重要的。 

声音虽然是语言的一大载体,但思维并不就一定是声音流。比如对于先天聋人来说,思维纯粹就和声音无关。 

再比如,当你脑子里想“可疑”二字时,你清清楚楚知道是“可疑”而不是“可移”;也就是说,思维是在用“意识元素”进行,只是一般感觉上表现出语音形式。 

汉语在脑中的意识元素常常是“图声并茂”,其中图只是存图的特征信息,人脑并不存图的全部。 

人们学汉字时,实质上是在建立一个从这个意识元素到字形的映射库;学拼音时,则是在建立从意识元素到混淆了同音字的拼音这种映射库。 

1。汉语意识元素的图表示即汉字的书写形式。显然,其与汉字一一对应。 
2。汉语意识元素的声表示即拼音。显然,汉字意识元素表达为拼音时,混淆了大量同音字;属于多对一的对应关系。 

以上两点为汉语构成的两个基本特点。 

(在目前汉语拼音方案基础上的)汉语拼音化实质上是把汉语用一种不精确的方式表达,可读性大为下降。 

江毅 

引用: 
语言学上,这是个基本概念,叫morpheme 
所有跟贴·加跟贴·新语丝读书论坛 
送交者: liwei999999 于 2006-07-26, 04:41:11: 

翻译成词素或者语素,它是语言中音义结合的最小单位。关于morpheme的理论和实践,有很多定论了。 
不过还是很佩服你在显然没有怎么接触语言学的情况下,独立琢磨出近似语言学里面的概念和理论。不过,大多是重复劳动,用词不同而已。 

你的思路是对的(但在语言学中是常识,Course 101一级),开始用汉字作为你思维成果的载体,虽有缺陷(所以你不得不放弃),也不无道理。 

在古汉语,汉字、音节和语素有很大的重合面。最科学的概念,能够适应人类所有语言的概念,还是语素。研究语素构词的学问叫morphology (研究由词构句的学问叫 syntax)。

 

http://blog.sciencenet.cn/blog-362400-293475.html

上一篇:《立委点评:听不够的童丽》

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据