《科普随笔:汉语自动断词 “一次性交500元”》
屏蔽 |||
Posted by: oztiger
Date: July 12, 2006 11:03PM
我初看xj这帖子,很不明白 北大法学院 怎么会变成 北 大法 学院,想想又挺好笑。然后想是否xj毕竟不是专业的,可能过滤法不够智能。特意用百度去搜北大法学院,竟然死掉,看来网上长城也没解决这个问题。
正好就近就是一个专家,问问老李有没有现成的code识别中文字词断句。
说真的看来老李的专业前景无限。我不是说老李去帮网上长城打补丁,只是想想正火的data mining里面肯定也要解决这个问题,不然搜出来意思都变了
=====================================================================
这是切分歧义问题。目前汉语自动分词的水平可以解决 (15421)
Posted by: liwei999
Date: July 13, 2006 01:30AM
90%以上这样的歧义区分问题。现成的code应该有,不过往往很笨重,overhead不小,不是很容易integrate。
My friend Dr Guo has a demo Chinese tokenizer at:
[www.jplusk.com]
He is an expert in this area.
比如:
Chinese Tokenization Demo
Enter a Chinese string and hit the Run button, then tell me how I can do better for you!
Input
很 不 明 白 北 大 法 学 院 怎 么 会 变 成 法 轮 大 法 的 大 法
Output
很 < 不 [ 明 白 ] > < [ 北 大 ] [ 法 ( 学 院 ) ] > < [ 怎 么 ] 会 > < 变 成 > < [ 法 轮 ] [ 大 法 ] > 的 < 大 法 >
=====================================================================
涨了见识。 (15422)
Posted by: oztiger
Date: July 13, 2006 02:11AM
我是什么都想知道一下,真翻开论文看了几段又懒了,但总算知道了一下目前解决这种问题的思路。他能把‘结合成分子’正确断出来不容易。
不过你跟他反馈一下,我让他的程序断‘一次性交500元’(不准笑!正经的科学研究),结果是< 一 次 > < 性 交 > 5 0 0 元,跟我的原意不符。
另外网上长城为什么不采用你们这样的最新技术之类的,他们把北大/法学院当成大/法来屏蔽还是挺落后的。可是我用google搜大/法,第八个网页就已经是北大/法学院了,怎么他们的算法也那么差?
======================================================================
没有断错呀,至少把最常见的意思断出来了。 (15423)
Posted by: liwei999
Date: July 13, 2006 02:34AM
引用:
oztiger
不过你跟他反馈一下,我让他的程序断‘一次性交500元’(不准笑!正经的科学研究),结果是< 一 次 > < 性 交 > 5 0 0 元,跟我的原意不符。
你真开玩笑,程序又不是道德法官,怎么知道这个年头还会碰上你这么一个正人君子并揣摩出你的原意呢(何况是不是原意也很难说,又不是你肚子里面的蛔虫)。他的程序是以统计为基础的,从统计上说,你的“原意”绝对是少数派,在 threshold 以下,机器学不出来。
=====================================================================
是有小毛病 (15424)
Date: July 13, 2006 02:56AM
如
input
一次性交款500元
Output
< 一 次 > < 性 交 > 款 5 0 0 元
但
Input
一次性交费500元
Output
< [ 一 次 ] 性 > < 交 费 > 5 0 0 元
立委按:
其实 “< 一 次 > < 性 交 > 款 5 0 0 元”
也合乎汉语语法。
PS.
< 一 次 > < 性 交 > 5 0 0 元
< 一 次 > < 性 交 > 款 5 0 0 元
< [ 一 次 ] 性 > < 交 费 > 5 0 0 元
I mean I agree with you fully. And by today if I have a bit more added info in dictionary, I think I can do 'shallow parsing' better.
很 < 不 [ 明 白 ] > < [ 北 大 ] [ 法 ( 学 院 ) ] > < [ 怎 么 ] 会 > < 变 成 > < [ 法 轮 ] [ 大 法 ] > 的 < 大 法 >
At that time I have entity but no event.
Fun to talk about these!
http://blog.sciencenet.cn/blog-362400-496806.html
上一篇:《朝华点滴:我的中小学学生生活》
下一篇:《科普随笔:汉字和语素》