《科普随笔:汉语自动断词 “一次性交500元”》 屏蔽留存

《科普随笔:汉语自动断词 “一次性交500元”》

屏蔽已有 4527 次阅读 2011-10-14 17:41 |个人分类:立委科普|系统分类:科普集锦| 中文, 切词, 语言处理

《立委随笔:汉语自动断词 “一次性交500元”》 (2824 bytes)
Posted by: 立委
Date: April 27, 2007 10:56PM

请教一下立委,这过滤词的语法能提高吗。 (15409)
Posted by: oztiger
Date: July 12, 2006 11:03PM

我初看xj这帖子,很不明白 北大法学院 怎么会变成 北 大法 学院,想想又挺好笑。然后想是否xj毕竟不是专业的,可能过滤法不够智能。特意用百度去搜北大法学院,竟然死掉,看来网上长城也没解决这个问题。

正好就近就是一个专家,问问老李有没有现成的code识别中文字词断句。

说真的看来老李的专业前景无限。我不是说老李去帮网上长城打补丁,只是想想正火的data mining里面肯定也要解决这个问题,不然搜出来意思都变了

=====================================================================

这是切分歧义问题。目前汉语自动分词的水平可以解决 (15421)
Posted by: liwei999
Date: July 13, 2006 01:30AM

90%以上这样的歧义区分问题。现成的code应该有,不过往往很笨重,overhead不小,不是很容易integrate。

My friend Dr Guo has a demo Chinese tokenizer at:
[www.jplusk.com]

He is an expert in this area.

比如:

Chinese Tokenization Demo

Enter a Chinese string and hit the Run button, then tell me how I can do better for you!

Input

很 不 明 白 北 大 法 学 院 怎 么 会 变 成 法 轮 大 法 的 大 法

Output

很 < 不 [ 明 白 ] > < [ 北 大 ] [ 法 ( 学 院 ) ] > < [ 怎 么 ] 会 > < 变 成 > < [ 法 轮 ] [ 大 法 ] > 的 < 大 法 >

=====================================================================

涨了见识。 (15422)
Posted by: oztiger
Date: July 13, 2006 02:11AM

我是什么都想知道一下,真翻开论文看了几段又懒了,但总算知道了一下目前解决这种问题的思路。他能把‘结合成分子’正确断出来不容易。

不过你跟他反馈一下,我让他的程序断‘一次性交500元’(不准笑!正经的科学研究),结果是< 一 次 > < 性 交 > 5 0 0 元,跟我的原意不符。

另外网上长城为什么不采用你们这样的最新技术之类的,他们把北大/法学院当成大/法来屏蔽还是挺落后的。可是我用google搜大/法,第八个网页就已经是北大/法学院了,怎么他们的算法也那么差?

======================================================================

没有断错呀,至少把最常见的意思断出来了。 (15423)
Posted by: liwei999
Date: July 13, 2006 02:34AM

引用:

oztiger
不过你跟他反馈一下,我让他的程序断‘一次性交500元’(不准笑!正经的科学研究),结果是< 一 次 > < 性 交 > 5 0 0 元,跟我的原意不符。
 
你真开玩笑,程序又不是道德法官,怎么知道这个年头还会碰上你这么一个正人君子并揣摩出你的原意呢(何况是不是原意也很难说,又不是你肚子里面的蛔虫)。他的程序是以统计为基础的,从统计上说,你的“原意”绝对是少数派,在 threshold 以下,机器学不出来。

=====================================================================

是有小毛病 (15424)
Date: July 13, 2006 02:56AM

input
一次性交款500元

Output
< 一 次 > < 性 交 > 款 5 0 0 元


Input
一次性交费500元

Output
< [ 一 次 ] 性 > < 交 费 > 5 0 0 元

立委按:
其实 “< 一 次 > < 性 交 > 款 5 0 0 元”
也合乎汉语语法。

 
【补记】原作者反馈:

PS.
< 一 次 > < 性 交 > 5 0 0 元
< 一 次 > < 性 交 > 款 5 0 0 元
< [ 一 次 ] 性 > < 交 费 > 5 0 0 元

I never responded to this. Actually please notice that I have a space between 性 and 交. Furthermore, please notice the difference between the last one (where I have < [ 一 次 ] 性 >winking smiley and the first two. What behind is, I have the assumption (a truth I think) that ALL (well, except for 葡萄, 玻璃 and the like) multi-character 'words' are ambiguous (so-called hidden ambiguity) and hence have to be handled with dictionary at 'application' time (在‘用’字上狠下功夫). This is consistent with your 词汇主义 and your rule-of-thumb "keeping ambiguity untouched". I actually pushed that one step further by keeping ambiguity only one level (that is, you only need to look ONE level deeper). This is consistent with your 自底而上 but more concrete/specific -- whenever I see potential ambiguity at my level, I keep them there (as in < 性 交 >winking smiley and then 断链.

I mean I agree with you fully. And by today if I have a bit more added info in dictionary, I think I can do 'shallow parsing' better.
很 < 不 [ 明 白 ] > < [ 北 大 ] [ 法 ( 学 院 ) ] > < [ 怎 么 ] 会 > < 变 成 > < [ 法 轮 ] [ 大 法 ] > 的 < 大 法 >
At that time I have entity but no event.

Fun to talk about these!

http://blog.sciencenet.cn/blog-362400-496806.html

上一篇:《朝华点滴:我的中小学学生生活》
下一篇:《科普随笔:汉字和语素》

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据