大数据挖掘问答1:所谓数据完整性 屏蔽留存

大数据挖掘问答1:所谓数据完整性

屏蔽已有 3472 次阅读 2013-12-27 11:12 |个人分类:立委科普|系统分类:科研笔记| 大数据

到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了
作者: 立委 (*)
日期: 12/26/2013 18:54:07
关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意针对它都不成。阴谋(家)没有出场的可能。

以前我写博文论过这个完整性迷思/迷信。有100种可能损失部分“理想状态”的完整数据:server down,发围脖的人改主意了决定不发了,或者发了以后又撤了删了,数据库的bug,处理器的bug,为成本考量有意随机取样一个子集,等等。总之,不完整是常态,完整是奇迹,不能指望的。

都大数据了,少一些就少一些呗。其实,损失数据通常不会影响分析挖掘的质量和结论。

我们做过评估,一年的社会媒体和随机取其中10%的内容做index,挖掘结果没有统计意义的差别,可成本节省很多。

就更不用说垃圾数据,或者疑似垃圾数据(门槛可以高一点)。那只会提高数据质量和结论。

顺便说一下一人一票的民主制度。几亿人去投票唱票算大数据尺度吧。其实随机剥夺一半,甚至90%,公民的投票权,其选举结果是不变的。注意,我说的是随机,譬如所有姓名以S开头的人都不允许投票。被剥夺投票的人也不用担心,作为人民一分子,大海一滴水,你的那份权利已经被恰当地代表了,结果反正也不会因为你不参与而改变。从结果看,经济上应该这么做,当然没有任何民主政府这么做,因为里面牵涉到公民权利和意识等,不仅仅是结果的问题。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-753349.html

上一篇:大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》
下一篇:大数据挖掘问答2:会哭的孩子有奶吃

 

4  许培扬 刘钢 薛宇 邱嘉文

发表评论评论 (4 个评论)

删除 回复 |赞[3]邱嘉文   2013-12-29 09:41
谁能告诉我这个“尺度”要大到什么程度,可量化吗?才符合“最大似然原理”?

删除 回复 |赞[2]闵应骅   2013-12-27 16:02
从信息安全的角度讲,数据完整性是个大问题。

删除 回复 |赞[1]许培扬   2013-12-27 11:19
小数据解决不了的问题,大数据也一样。发现问题,不一定解决问题,奥巴马是个典型。
 回复  : 我觉得,大数据挖掘看全貌(森林),小数据分析看细节(树木),这是很多应用场合都需要的互补的步骤。

2013-12-27 22:051 楼(回复楼主)

“大数据与认识论”研讨会的书面发言(草稿) 屏蔽留存

“大数据与认识论”研讨会的书面发言(草稿)

屏蔽已有 7417 次阅读 2014-2-10 12:55 |个人分类:立委科普|系统分类:科普集锦| 大数据, 自然语言, 挖掘, 社会媒体

【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】和【立委科普】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外,学界业界,“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲,科学网编辑还特地录了像,高挂在【科学网公开课】里,与那些世界级大师的讲座并列,与有荣焉,不胜惶恐(倒不是要自我矮化,说自己的大数据工作不在世界水平之列,但科学大讲堂这座庙里请的都是何等人物?面对的是科学殿堂让人高山仰止的大牌科学家和诺贝尔奖得主,在下乃区区一介匠人而已,何德何能,登堂入室)。无独有偶,去年流行大数据,硅谷科学家和工程师举行一系列关于大数据的讨论会,被邀请作为 panelist 参加了两个大数据研讨会,现场问答热烈,气氛很活跃。旅美华人科学家协会最近征集出版了一期大数据专刊,也发表了几篇论文。硅谷的【丁丁电视】也很早就邀请立委在其《创新频道》做一个大数据的科技访谈,一直抽不开身准备,推迟到三月左右。一来二去,俨然是大数据专家了。其实,立委所长不过是大数据之一部,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、交易数字记录等),对于大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社会媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

(1) 大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 、云计算(cloud computing),移动互联网(mobile web)和大数据(big data)情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

2011年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿(1.5 billion).  HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors(3.4 billion),并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。

在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle.

对于中文社交媒体大规模处理的应用型软件,目前才刚起步。然而中文网络信息的增长速度却是扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。

有问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

20多年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么?
Big data intelligence (大数据情报挖掘)

很多人这样预测。 Google 首席科学家也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

(2)什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社会媒体火热以后的专指,是已经与施事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社会媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,文本挖掘(text mining,from social media big data)是数据挖掘(data mining) 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂百倍,也因此 big data scale up 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 

除了与社会媒体以及施事背景密切相关以外,大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力,为大数据时代的到来提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。Of course, In God We Trust. But in everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也是如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫其所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

(3)大数据挖掘技术及其挑战

  社会媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

  面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析; 2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

  社会媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth),则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

  在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据更能将就不完美的引擎。

(4)客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,拜科学技术所赐。

(5)自动民调: 社媒大数据挖掘的重要应用

社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终 取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,总统选情的检测,等等。

自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。

高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示,对社会媒体的自动民调清楚显示出美国几家主要零售店在消费者心目中的相对位置)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence

民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。
      对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

(6)实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时监测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要运用场景(use scenarios),其中危机管理(risk management)最容易打动企业客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间并不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据(新浪微博和腾讯微博),想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

 

好在必胜客管理层公关应对迅速,及时道歉,逐渐平息了事态。

(7)大数据及其挖掘的局限性

说说它的不宜和禁忌。

这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水里。

大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据,就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,这样的大数据,其挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

(8)大数据创业的苦和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

高新技术创业的痛苦不仅仅在技术研发以及实用化过程中的辛劳,更让人困惑的是来自新兴市场的挑战。尚未成熟的新兴市场好比性感女郎,时髦而善变,适应这样的市场需要的不仅仅是技术,而是善于在技术与市场之间牵线搭桥的红娘。具体说来,这决定于企业老总的眼光、产品经理的敏锐以及技术创新者随机应变的能力。技术人改变世界的宏图大志如果单纯靠自己一亩三分地的耕耘,无论你多先进和辛勤,也只能是美梦一场。

然而,如果你有幸找到了市场切入点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是时常发生的时候(所谓 tipping point),你不可能无动于衷,也不可能不加入客户成为大数据及其创新的吹鼓手。

【相关篇什】:

【喋喋不休论大数据(立委博文汇总)】

Social Media Big Date, anther bubble? 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-766229.html

上一篇:为什么叫“上”厕所,“下”厨房?
下一篇:从分辨率与精度的话题,到单位和认识论

 

23  许培扬 马磊 刘淼 曹聪 强涛 陈楷翰 雷蕴奇 陈辉 武夷山 彭真明 刘钢 麻庭光 刘全慧 李大斌 陆泽橼 章成志 曹君君 唐常杰 王云龙 seeker99 tuner rosejump bridgeneer

发表评论评论 (8 个评论)

删除 回复 |赞[6]mirrorliwei   2014-2-12 09:25
按2楼武老师的意见,题目改成《大数据与舆论分析》就顺了。

删除 回复 |赞[5]吕乃基   2014-2-11 11:12
李老师好文!
大数据主要说的是“量”,有没有“质”,譬如大数据中的“二八定律”?

删除 回复 |赞[4]李冬   2014-2-11 09:48
对大数据以前只是听说,恰巧年前读了《大数据时代》一书,总算有了点认识。如今看到博文,进一步学习了。谢谢李老师。

删除 回复 |赞[3]刘伟   2014-2-11 09:04
认识论部分的撰写建议参考哈耶克的自由秩序之原理 ,会很有味道

删除 回复 |赞[2]武夷山   2014-2-10 17:25
李老师这个发言很好,但是没有谈大数据与认识论的关系。
 回复  : 对不起了,武老师,炒的是冷饭。没时间做热饭。

2014-2-10 23:081 楼(回复楼主)赞|回复

删除 回复 |赞[1]itellin   2014-2-10 16:50
转贴一个对大数据吐槽的文章。

吐糟为什么说Hadoop是个渣。

最近大数据概念流行,有个笑话曾经戏虐流行的也可能是感冒。除了那几个V被涛哥吐糟:原文是“大数据的4个V”,只是不痛不痒生搬硬套的无病呻吟”http://blog.sciencenet.cn/blog-3075-603325.html 。按下不表。

在国内有个现象“一窝蜂”上,好在我们人口基数多,指数现象明显,提及大数据,处理平台就须是Hadoop。好吧,就先说下Hadoop集群,国内用得起千台以上规模主机的大概也就只有BATS(百度 阿里 腾讯 新浪),某易某狐某搜都别捉急,也欢迎其他够资格的加入。Hadoop 中三个基本构成要件 HDFS BigTable MapReduce,涉及某goo的篇论文。算了,抄别人概念这事儿就不接着吐了。

逐个来,先说HDFS,为了提高数据可靠性,所谓就近计算,将数据复制三份。即将整体数据存储的空间加三倍存。在运维时,如果主机存储空间利用率超过80%,一般都要开始考虑扩容了,如果是三倍的冗余,其实这里就有近四倍的物理空间需求。

考虑某宝实际运营中硬盘的损坏率10%/年,(还有网络损坏、内存损坏、和极少的CPU损坏),合并出来运营的成本是很惊人的。增加设备同时也增加了网络接口,就算每个网络接口100元,蚊子也是肉啊。

机房空间,42U机柜,理论上能装到21台2U的主机,除去网络设备、电源控制所占空间,方便按20台主机算。如果1000台规模,需要50个机柜。但是其中2/3都是多出来的。本来需要一整个机房的空间,其实只用一排机柜。

电力消耗,平均5台机架式服务器,24x7运行1年,就需要1台机架式服务器的电费,(工业用电那叫一个贵)。1000机器开一年就需要消耗200台机器的购置费,大概也就是才多出来超过千万点点/年吧。当然,还有财务上的设备购置费或者设备折旧费用比这个数额只多不少。

解决方法:
1.压缩。提及压缩,性能指标需要看压缩时间、解压时间、压缩比,还有不是很容易注意到的内存消耗和CPU消耗。
具体的技术比较细节猛击 http://compressionratings.com/sort.cgi?rating_sum.brief+6n
最快的LZ4解缩时间,比Copy 仅多20%多一点,平均压缩率是0.5倍原始空间大小。压缩不仅意味着存储空间需求的降低,还意味着磁盘IO时间的节省,网络传输时间的节省。看似费时费力,总体应该还是节省。且如果是列式的数据,压缩效率那是惊人的。我有用 LZ4 完成超过 10:1压缩的经验。

2.HDFS的效率,为了提高所谓整柜离线的可靠性保障,就随意地将数据放了三份,某虎,你这是极不负责任地,也是动辄几千万的随意。
古代,在单机多硬盘环境下,通常使用RAID提高数据可靠性,但是在分布环境下,一样也有分布式RAID,十几年前就有的分布式RAID论文:http://www.docin.com/p-70821444.html 都没有人看到过吗?

3.如果嫌弃2太学术,实现起来比较远,glusterfs听说过了没有?从3.3开始就能支持Hadoop直接挂接了,分布式RAID,不用三份数据的。不负责任脚注:如果用glusterfs 碰到全局共享锁的问题,别怪我没有提醒。其实实现一个远程分布式RAID对那些动辄就上千万人工费的开发队伍真的就很难么?

4.BigTable, 暂时还没什么好吐的,先冷着。

5.Map-Reduce,开发中使用MR有个方便之处,写一个模块,部署到各个节点,然后其并发运行。这个看似很不起眼的功能,其实后面隐含存在着模块分发、任务调度、数据的分布和计算系列的功能。数据分布计算不说,用C写一个模块分发、并能动态调度的过程就几十行代码的事啊。用的着大费周折地用则么不高效的实现么?

6.吐糟重点来了:国内的IT行业,已经从古老的习惯敏捷开发、到互联网的习惯快速迭代,已经没有意愿进行基础平台开发了,要么快,快到干脆用Rails,其实Java当初也是打着快速应对开发的旗帜而来的;要么死,裁撤。这是一个浮躁的时代,也就注定没有耐心的基础开发。一切也如毒瘤,尾大不掉。

 回复  : 这是批评大数据的处理手段及其工程架构是否合理有效,纯粹技术层面,不涉及大数据情报挖掘的内核。

2014-2-25 19:001 楼(回复楼主)

嫖还是没嫖,这不是语言学的问题 屏蔽留存

嫖还是没嫖,这不是语言学的问题

屏蔽已有 2994 次阅读 2013-8-31 03:07 |个人分类:立委科普|系统分类:科研笔记| 社交媒体, 语言学, 嫖娼, 挖掘, 薛蛮子

【置顶:立委科学网博客NLP博文一览(定期更新版)】

薛蛮子的嫖娼事件,由于其社交媒体的高知名度以及主流媒体包括央视的渲染,在网络上传得沸沸扬扬。堂吉诃德曰,鸟大了,什么林子都有,网络世界见怪不怪。甚至有卫护者抱怨薛蛮子空有千万粉丝,居然没有女粉给他送温存,以致老顽童不得不寻花问柳,养成“特殊癖好”。

这些都不当紧,当紧的是我们做媒体自动挖掘的,对热点话题不能放过。热点话题是技术人小试牛刀(或吹破牛皮)的机会。

于是,用自家研发的系统一挖,傻了,难道真是成也嫖娼,败也嫖娼?

See,老顽童的短处(cons,左图)是嫖娼,老顽童的长处(pros,右图)居然是(不)嫖娼(那个小圈圈是远距离否定的一个图示)。另一个长处是“(不)是官吏”,似乎是说,既然不是官吏,也就无需私德无暇,也是常见的替他辩护的一种说法。

到底嫖还是没嫖,这不仅仅是哈姆雷特的天问,这更是语言学的拷问。难道地球人都知道的嫖娼事件,还有广泛流传的他本人供认不讳的视频等,系统居然挖掘出否认事件的情报?吹破大天的语言技术就这么颠倒黑白,歪曲事实?

作为系统设计者,本能的第一反应是,这一定是一个 bug,技术层面的 bug。不管怎么说,挖掘出的反面情报前15中的第一位就是嫖娼,多达 4861 条,占 95.6% 呢,比起否认嫖娼的仅有 44 条的情报,即便44条全抓错(反)了,精确度也远超 90%,还有什么好说的,咱的中文系统就是牛!

虽然这么说,心里还是一个疙瘩。灰色地带的挖掘,不准确也就罢了,这黑白分明铁板钉钉的铁案,如果抓错,是可忍,语言学不能忍。一定要查个究竟,到底是在社交媒体说话的人信口胡说,还是代码化了的中文语言学出了问题?Drill down,看看原句都是怎么样的(见【附录】)。

原来、原来是酱紫的:V大了,什么粉丝都有,一些确实是他的粉丝真滴在矢口否认(“早知道薛蛮子不是嫖娼被抓”,“说薛蛮子嫖娼会有人信吗”,“我认为薛蛮子没有嫖娼”),另一些是以否定或疑问的口气在反讽(“薛蛮子不是嫖娼好吧! 是去为性工作者谋取利益”,“谁说薛蛮子就一定是去嫖娼的? 楼主不要造谣哦, 也许人薛老汉是去买淫呢”:这不是坑我嘛,机器再聪明再语言学,也难琢磨你的言外之意呀),再有就是句子太绕,把如此冰雪聪明的系统也给绕进去了("薛蛮子就不会嫖娼吗? 薛蛮子嫖娼你怀疑个屁, 除非你能证明他没嫖娼或者他性无能")。

总而言之,言而总之,检查结果是事出有因。中文系统虽然不完美,却也非常不赖:晚上可以睡个安稳觉了,天下太平。中文是复杂的;语言学是工作的;而工作着是美丽的。

【附录】否认情报的挖掘来源样本(随机):

这个帖子是不是没有薛蛮子嫖娼案子性质恶劣? (原因)各大媒体没有报道!

 

weibo.com  2013-08-26 09:24:54

 

早知道薛蛮子不是嫖娼被抓, 而是此鸟人殷建光所说:"薛蛮子被抓获, 实际上就是对网络文化中虚伪丑陋的的严厉打击; 同时, 对于我们广大网民也是一个提醒, 读其微博, 观其言行, 思其自己, 千万不要盲冲, 盲目, 被情绪化控制.."

 2013-08-26 19:51:48

 
  • 福耀大中华小号

我认为薛蛮子没有嫖娼, 这样的栽赃陷害太弱智了吧。 怎么 这么巧, 接到群众举报?

2013-08-25 15:01:36

 
  • 大师梦话

薛蛮子不是嫖娼好吧! 是去为性工作者谋取利益, 为一个22岁的无知少女当人生的校长导师, 为一个在中国受到歧视的弱小群体维权!

 

1 similar    2013-08-25 23:06:30

 
  • 佳悦banana

薛蛮子是宣传宪政被抓的? 这么说薛蛮子没有嫖娼? [哈哈] //@唐巴马_tangbama:[嘻嘻] //@良心于-20://@玳簋三世://@钟鼎文无声: [偷笑]再宣传宪政, 你也快了

 

2013-08-25 17:27:24

 
  • 过来人近山看海

薛蛮子就不会嫖娼吗? 薛蛮子嫖娼你怀疑个屁, 除非你能证明他没嫖娼或者他性无能、或者他根本就是个女的。

    2013-08-25 13:03:51

 
  • 坏坏野男人

你怎么就知道梦鸽的儿子就一定是强奸而不是嫖娼? 凭什么薛蛮子就不是嫖娼? 有立场没原则啊。

 

2013-08-25 06:29:3

 
  • 不露哥Blue

薛蛮子不是嫖娼被抓了吗? 呵呵, 你李庄敢说你没嫖过?

 

2013-08-27 09:54:51

 
  • 边塞诗与随想曲

谁说薛蛮子就一定是去嫖娼的? 楼主不要造谣哦, 也许人薛老汉是去买淫呢。

 

2013-08-25 05:19:51

 
  • 心情很悲伤的毛毛虫

回复@迈步twitter: 对呀, 薛蛮子不也是嫖娼。 别只拿美国说事, 美国有美国的法律, 中国有中国的法律。

 

http://blog.sciencenet.cn/blog-362400-721104.html

上一篇:小学生“减负”成了一个话题
下一篇:北京富人的郊外生活

 

7  曹聪 武夷山 刘洋 陈辉 李宇斌 bridgeneer qqlisten

【科普随笔:NLP主流的傲慢与偏见】 屏蔽留存

【科普随笔:NLP主流的傲慢与偏见】

屏蔽已有 5613 次阅读 2013-5-9 17:33 |个人分类:立委科普|系统分类:科普集锦| NLP, 偏见, 机器学习, 傲慢, 规则系统

上篇博文【科普随笔:NLP的宗教战争?兼论深度学习】匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。

需要说明一句,那篇里面关于深度学习的notes,是信口发挥,各位不要认真,因为对于这样崭新的东西我是老外,是想当然地瞎议论,难免牵强。万一从某个角度让人看出了“道理”,那也纯粹是瞎猫撞死耗子,不足采信。

不过关于NLP过去20年两条路线的宗教式斗争,我和很多同时代人都是亲历者,这方面的每一句话都是有根据、负责任,经过深思熟虑的,有过惨痛的经历或胜利的喜悦。

虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it

摘自【科普随笔:NLP的宗教战争?兼论深度学习】

近来浏览几篇 NLP (Natural Language Processing) 领域代表人物的综述,见其中不乏主流的傲慢与偏见,令人惊诧。细想之下,统计学界的确有很多对传统规则系统根深蒂固的成见和经不起推敲但非常流行的蛮横结论。这些一览众山小的大牛聪明绝顶,居然如此偏见蛮横,可见宗教式思维定势的危害之深,深入骨髓,对青年学子个更是贻害无穷。(主流掌门人中也有有识之士,以后再论。)可怕的不是成见,成见无处不在。真正可怕的是成见的流行无阻。而在NLP这个领域,成见的流行到了让人瞠目结舌的程度。不假思索而认同接受这些成见成为常态。因此想到立此存照一下,以后再一条一条细论。下列成见随处可见,流传甚广,为免纷扰,就不列出处了,明白人自然知道这绝不是杜撰和虚立的靶子。这些成见似是而非,经不起推敲,却被很多人视为理所当然的真理。为每一条成见找一个相应的 crappy 规则系统的案例并不难,但是从一些特定系统的缺陷推广到对整个规则系统的方法学上的批判,乃是其要害所在。

  • 【成见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:没有知识瓶颈)。

  • 【成见二】规则系统的手工编制导致其移植性差,转换领域必须重启炉灶,而机器学习因为算法和系统保持不变,转换领域只要改变训练数据即可(言下之意:移植性强)。

  • 【成见三】规则系统很脆弱,遇到没有预测的语言现象系统就会 break(什么叫 break,死机?瘫痪?失效?),开发不了鲁棒(robust)产品。

  • 【成见四】规则系统的结果没有置信度,鱼龙混杂。

  • 【成见五】规则系统的编制越来越庞杂,最终无法改进,只能报废。

  • 【成见六】规则系统的手工编制注定其无法实用,不能scale up,只能是实验室里的玩具。

  • 【成见七】规则系统只能在极狭窄的领域成事,无法实现跨领域的系统。

  • 【成见八】规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档。

  • 【成见九】规则系统是上个世纪的技术,早已淘汰(逻辑的结论似乎是:因此不可能做出优质系统)。

  • 【成见十】从结果上看,机器学习总是胜过规则系统。

   所列“成见”有两类:一类是“偏”见,如【成见一】至【成见五】。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型,浅尝辄止,然后遽下结论(jump to conclusions)。盗亦有道,情有可原,虽然还是应该对其一一纠“正”。成见的另一类是谬见,可以事实证明其荒谬。令人惊诧的是,谬见也可以如此流行。【成见五】以降均属不攻自破的谬见。譬如【成见八】说规则系统只能分析规范性语言。事实胜于雄辩,我们开发的以规则体系为主的舆情挖掘系统处理的就是非规范的社交媒体。这个系统的大规模运行和使用也驳斥了【成见六】。

上述每一条都可以写一大篇或一个系列来详细论证其荒谬蛮横,描述学界主流中存在的傲慢与热昏。可是不用着急,血泪账今后一笔一笔诉 :)

【系列姐妹篇】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

【科普随笔:NLP主流偏见之二,所谓规则系统的移植性太差】

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

【其他相关篇什】

【科普随笔:NLP的宗教战争?兼论深度学习】

坚持四项基本原则,开发鲁棒性NLP系统

why hybrid? on machine learning vs. hand-coded rules in NLP

《立委随笔:语言自动分析的两个路子》

《朝华午拾:在美国写基金申请的酸甜苦辣》

《立委随笔:机器学习和自然语言处理》

【立委科普:从产业角度说说NLP这个行当】

不得不承认,看完这些偏见之后,我有点乱了。我同意“每一条都可以写一大篇”都可以引起大的讨论,对于是否偏,一时还难明。有些我已经不知何时“采纳”了,有些也不接受。---究竟是正是偏,也是引领方向的大问题。一方面应深入讨论,示明于众,纠偏于正时。另一方面,应采实践检验的标准以实证。
米拉宝鉴:确实应该展开讨论,不着急,慢慢来。所罗列的“偏见”有两类:一类是谬见,可以证明其荒谬,譬如说规则系统不能处理社会媒体,只能分析规范性语言。另一类就是“偏”见,盗亦有道,情有可原,虽然还是应该对其纠“正”。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型。 浅尝辄止,然后 jump to conclusion

【置顶:立委科学网博客NLP博文一览(定期更新版)】

原载 《W. Li & T. Tang: 主流的傲慢与偏见:规则系统与机器学习》
【计算机学会通讯】2013年第8期(总第90期)

http://blog.sciencenet.cn/blog-362400-688230.html

上一篇:后发优势的新学科——失败学
下一篇:米拉围脖:不能把底稿给人看

 

2  李伟钢 李宇斌

发表评论评论 (4 个评论)

删除 回复 |赞[2]胡上峰   2013-7-31 20:48
从应用的角度,当然可以手工设定规则,但是从解决自然语言根本性问题的角度,手工编写的规则还是越少越好。基于手工规则的系统也只能是过渡性方案。
 回复  : 为什么“只能是过渡性方案”?

这个说法基本等价于说:

从应用角度来看,有病当然可以找专家大夫看病,但找大夫看病只能是过渡性方案,最终还是要找机器看病(不是完全没有理由啊:机器可以学习的累积病例的数量比人可怜的头脑和时间所能经验到的,不是一个量级)。

2017-2-26 03:161 楼(回复楼主)赞|回复

删除 回复 |赞[1]srrc   2013-5-9 22:09
有些论点确是研究者的体会,比如规则方法的跷跷板现象。此时正好碰上统计的新思路,加上不错的结果,很自然就改弦易辙了。
 回复  : 改弦易辙没有问题。从一个 school 转学到一个新 school 很自然,我要是年轻20岁,也一定加入 converting 的潮流。本文揭示的是偏见为什么如此流行,被很多高智商学者视为理所当然,乃至于不得不怀疑宗教疑似的世界观在作祟。至于翘翘板现象,又称按下葫芦起了瓢的问题,以后单论,其实是有有效对策的。当然,也必须承认统计路线的性质决定了它们比较善于在多种因素中玩平衡。

2013-5-10 14:521 楼(回复楼主)

作为公开课的大数据演讲 屏蔽留存

作为公开课的大数据演讲

屏蔽已有 11195 次阅读 2013-5-23 18:34 |个人分类:立委科普|系统分类:科普集锦| 大数据, NLP, 北京, 演讲, 立委

【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【科学网公开课】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯粹是一场精神折磨。主要是,人长得丑,从小就不爱照镜子,积重难返。后来有了镜子也自己不用,从来都是拿 mirror 照别人。如今看录像就是逼一个怕镜子的人照镜子,那种对自己的不满,恨石不成器,不说也罢。就事论事,首先是太长,近两个小时,成裹脚布了。口音也重(一辈子也没改成)。语速太快,含混不清,还夹杂了太多的发音很不堪的 English。虽然意思基本都传达出来了,但是想来作为听众大概是跟自己一样很受罪的,不熟南方口音的估计不太搞清楚这个委员在说什么。再有就是台风不正,老揉鼻子、扶眼镜,身体晃动太厉害。没治了。不过,透过这些表层,应该可以看到磨难、坎坷、血汗和鸿运,还有一些NLP和大数据的鸟瞰式介绍 -- 如果您有足够耐心的话。感谢热心听众忍受我的口音做出来的 transcript,并允许我校正后在自己博客发表。

 

立委大数据演讲公开课】链接:

http://video.sciencenet.cn/20130521/

首先谢谢各位今天光临。愚人节好!(笑)

今天的题目是《大数据时代中文社会媒体的舆情挖掘》。这个工作我一直在做,现在已经做出了一个 Alpha product,可以使用了,下面可以介绍更详细的东西。

首先做一点自我介绍。实际上我的一生就是一个流浪。几个 milestones是,1976年高中毕业,插队。1977年文革结束,77级,第一次跳龙门。83年跳第二次龙门到社科院,读硕士。我真正入行,如果从 83 年开始,学 machine translation,师从刘倬老师和刘涌泉老师,这两位都是我们中国NLP界的开山鼻祖。他们从1958年、1957 年开始做机器翻译,从俄国那边引过来。我同事傅爱平老师也在这儿。当时我和傅爱平跟着刘倬老师在一起做。从 1983 年到现在整整 30 年。所以我说有30年的NLP经验。

1986年硕士毕业,留在语言所继续做机器翻译方面的工作。当时跟中文信息学会都有很多交流。然后就在中关村搞合作,算是半下海。一起做了一个机器翻译系统。在高立公司,做了四五年。1991年的时候,我身边的同学都出国了。大家都走了,就觉得有点不舒服,应该走。就洋插队到了 UK,英国当时处于最不好的时期。失业率百分之十几。我在短短一年在英国时期,两次被抢,大白天被抢,你看我的博客(《朝华午拾:警察抓小偷的故事》),一些 stories 非常有意思:他大白天抢你,他要钱,"摸你,摸你"(Money Money),我说,你摸我也摸不出钱来,我是穷学生,没钱。然后他说,O,I am sorry,一溜烟就跑走了。所以,他们是比较礼貌的这种强盗。(笑)不管怎么礼貌,危邦不居。我觉得不行,赶快跑。那是1993年。

93年闯关东一样地到了加拿大。加拿大是非常漂亮的国家,鲜花和牛奶。所以在那里就觉得有点意识,这是一个可以移民的地方,就开始生孩子、读博士、办移民。可是,再鲜花再牛奶,它的机会不多。整个加拿大的工作机会也比不上美国一个加州。它是博大,但并没有多少工作机会。所以,1997 年南下。南下到美国。那时候赶得很好,正好是美国大跃进的时候,网络泡沫最盛的时候。别说你有 technology,你就没有 technology,你只是有个 idea,哎呀,我现在看到好多人都养宠物,那么我就开个网上商店,专门为那些宠物提供食品,然后列举我有多少有利条件,投资人就会给你投钱。这不错,这个 idea 很新颖。我当时是带着 NLP 的idea,NLP是在中国磨了四五年,跟着刘倬教授跟傅爱平一起做的,我是有背景的。然后就很容易地到华尔街拿了一千万。当时做的最热的叫做 question answering,问答系统。

问答系统很热。因为那时候 Google 搞 keyword search,它一统天下,该尝试的已经都尝试了。投资人在想,技术方面还有什么新的突破。当时有一家公司叫 Ask Jeeves(【 IT风云掌故:金点子起家的 AskJeeves 】),正在最发红的时候,因为当时它自称自己是搞 NLP 的,有一个 Natural Lanuguage Interface,它有个自然语言接口,说你问问题,我可以给你回答。你 Google 呢,你 search 是一个 term,给一个关键词,你拿出来的东西也不是答案,它只是给你相关的文件,说你要的那些关键词这个最相关,它并不回答你的问题,它不满足我们大众的信息需求。你有信息需求,你一定是有一个疑问在心里,你想问出来,希望机器给一个回答。Ask Jeeves 在这样一个思维的背景下,它有一个 million-dollar idea,非常妙的 idea,它实际上本身的技术含量并不高,它的 idea 非常好。结果一下子就得宠了。它的 idea 实际上很简单。Question answering 实际上是有两部分。一部分是你要去answer他,answer 那边你要面对互联网的大海。那么多网页啊,语句啊,隐含的可能的对问题的答案。它不做那一块。它那个所谓NLP,什么都不做,面对大海的不做。它雇了两百多语言学家、词典学家和 domain specialists,总而言之,语言学学完了也找不到工作,把那些人招来,很高兴。两百人干什么呢?就是天天在那里研究老百姓都有什么疑问。如果有了疑问,比如你喜欢问诺贝奖金获得者、喜欢问风景地、喜欢问好莱坞电影明星的故事啊,它就了解大众的心理。FAQ,frequently asked question,它就把你了解出来以后,然后就想,如果问题是这样的话,那么互联网哪个网页最相关,最可能存在答案。然后就把这个信息用人工的方法存到一个数据库里去。如果遇到这样的问题,你就调这个 URL,遇到那样的问题,你就调那个 URL,一调一个准,因为它事前研究过嘛。它以不变应万变。它怎么以不变应万变呢?他另一头做了点NLP:他说你们都是query么,我现在不讲 query,我说 question,natural language,你只要问一个问题,我就可以给你找到答案。实际上它的 NLP 很 shallow,根本就没有可能真地去理解问题。问题对于整个语言,只是一个子集。语言中还有很多其他现象。一个问题,一般不会太长,问题也有一定的格式,who,what,when,它都有一定的格式。实际上,问题对 NLP 来说,门槛不是特别高。尽管如此,在当时的条件下,它其实做得更加浅陋。大体上做了一个很模糊、浅层的NLP,然后他以不变应万变的 million-dollar idea 是,他把你的问题做了粗浅的分析以后,他把你的问题 rephrase back to you,他把你重新解释一遍,然后给你十个所谓问题模板。这 question templates,他拿你的那些词去填空,它针对你的这些词的痕迹,做一点粗浅的语法结构,他估计你问的问题不会出八个到十个 templates 的范围之外。然后他说,你是不是问的这个问题?你是不是问的那个问题?一个反馈以后,你可能觉得这个机器很聪明啊,它似乎了解我要问的问题,举手之劳,按一下,问题就解决了。实际上机器没有任何理解,他不需要理解,因为他的问题已经得到了 user 的 confirm,一 confirm 以后,往数据库一调动,问题答案就出来了。就这样,你问什么常见的问题,他都能回答。说,you have questions,I have answers,非常地牛啊,牛得不得了。万一你那十个、八个模板,正好一个屏幕,是吧,结果并没有针对他的问题,有可能啊,譬如 5% 到 10% 可能性,你的问题超出了它模板能概括的范围,那机器在那一点就露馅了。但最初大家都很吃惊,认为这是 next generation,下一代的系统,能够取代 Google,这就使得 Ask Jeeves 当时一下子得到华尔街的青睐。是 NLP 第一次牛气。整个华尔街到处都在谈 NLP,NLP 不得了。

它这样一个成功故事,在 Bubble 破灭以后,Ask Jeeves 当然是一落千丈,但是它被华尔街已经捧那么高了,有那么多资金,确实也做了一些事。到现在还存在,你还可以看 ask.com (今天的Ask.com), 当然是一直处于不死不活不景气的状态。Anyway,它给我们创造了一个条件,给我们学 NLP 的人。就是说,以前,在 Ask Jeeves 之前,NLP 只在很窄很窄的领域、很小的范围运用。当然,(NLP中)machine translation 是个例外,因为它做得年头比较多嘛,当时有一家公司叫 Systran,它可以把它商品化,还卖了很多机器翻译系统。但总体上来说,NLP 是象牙塔里学者的玩具。大家做玩具系统,没有人真想到这东西哪天能够卖钱,能够得到工业界、投资者的青睐,觉得不可能。但是,等到 Ask Jeeves 把这条路给闯出来了以后,我们再到华尔街,说,啊呀,我们要做一个问答系统,比 Ask Jeeves 高明多了。很容易有这个卖点。怎么比他们强呢?当然比他们强啊。当时我领导的组,做了一个系统参加 question answering 一个组,信息检索这个领域,有个 TREC,Text Retrieval Conference, 这个 TREC 是很大的规模,因为搜索在工业界影响很大,所以每年大家在一起做一次切磋。其中呢,他们就在 1999 年还是 1998 年,他们做了第一次的 Question Answering 的 track,单单做了这么个 Track,说,我们想看下一代的人机交互是个什么样子的。因为这一代大家都知道,key word,你 type,然后你得到一些东西。说老实话,我们都用 Google,确实在 80% 的时候,我们的问题得到了答案。我们有什么想寻求的东西,差不多都能得到。如果得不到,我再换一种方式,你要是聪明的话,一般可以得到。也有 20% 的时候,你觉得很困惑。你说,呀,这个问题,不管我怎么做 query,总是找不到答案,实际上是这种情况。但不管怎么说,系统要往前走。所以业界就开始提出这么个概念,说,query 和 relevant documents 不是我们真正的解决方案。人机必须自然,这是第一条。必须回答问题的那个点。如果问你 who,你就要把人名找出来。你如果问的是 when,我就要把时间给找出来。要的是答案,你不能说给一个 paragraph,一个 document,然后说,你自己去看去吧,那不是真正的下一代系统。在这么一个概念下就有了 question answering competition,去鼓励大家朝这个方向发展。当时,我们这个组正好有 NLP,我去的时候是 1997 年开始做的,我们当时也是随着潮流做了 Named Entity,Named Entity 是信息抽取的一个基石,是一个 foundation,你首先要把名字搞清楚嘛。我们有了这两条以后,做 question answering,就比较好办。因为当时第一届 question answering 设计得比较简单,比较黑白分明,问的问题都是一个点一个点的问题,都是问那个 when,where,who,这些比较容易回答的问题。然后我们就得了第一名,怎么说,你不用找投资人,是投资人追着你。所以很容易地一千万美金拿到手。当时就糊涂了,一千万怎么用,用不了啊。每两周与投资人开一次董事会,他们说你要大跃进啊,给钱,你要想办法招到人。当时最害怕不能扩招的话,没法给一个交待,钱一定要花出去。Anyway,那是我们的 golden time,until 1990,还是 1991 年的时候【谢谢网友更正:应该是2001年】,那个 bubble 破灭,Nasdaq 垮了,整个美国至少股价是跌了一半,很多公司都关闭了。还好,我们公司没有关闭,还继续做下去,也做出了产品。这是那一段故事,我在我的博客里面你可以看,叫《朝华午拾:创业之路》,做了八年,直到我们公司后来被卖掉了。当然了,under water,并没有赚钱卖出,不过总是有一个善终,系统、产品还在用。

然后,我就觉得是一个转机了,就要进一步南下。我第一次是到 Buffalo,是在美国的的东北部,冰天雪地。当时创业,也没感觉到。后来,大家都向往的地方就是硅谷,就到硅谷去了,在现在的公司,做了七年。现在做的是这个舆情分析。

Anyway,我的生涯与 NLP 在工业界 penetrate 的这种节奏是基本上一致的。整个一个主题就是,流浪,流浪,还在流浪。

OK,我们回到正题,品牌,社会舆论和大数据。

【待续】

【相关篇什】

 北京演讲幻灯片上网(1/3)

北京演讲幻灯片上网(2/3)

北京演讲幻灯片上网(3/3)

愚人节大数据演讲 无片无真 移山愚人

【朝华午拾集锦:立委流浪图】

愚人节听立委报告

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-692826.html

上一篇:半导体的单晶硅
下一篇:照镜子的“效果”

 

37  肖重发 魏东平 蔣勁松 刘立 许培扬 李伟钢 庄世宇 陈安 武夷山 高建国 廖晓琳 杨华磊 陈筝 黄富强 袁贤讯 张文增 李宇斌 李本先 苏德辰 张能立 孔梅 闵应骅 徐大彬 李汝资 陈冬生 曹建军 章成志 何承林 张利华 刘淼 刘全慧 刘艳红 crossludo yangwencao EroControl bridgeneer tuner

发表评论评论 (26 个评论)

删除 回复 |赞[17]EroControl   2013-5-25 21:37
确实呢,有钱的话去加拿大开公司,人力资源应该比较充沛 

删除 回复 |赞[16]刘艳红   2013-5-25 18:52
不知道我的理解对不对: 美国人造原子弹,造航天飞机,我们也可以做出自己的原子弹,造自己的航天飞机,但美国人做出来个google, 我们不可能做自己的google.

删除 回复 |赞[15]tuner   2013-5-25 07:39
“Anyway,那是我们的 golden time,until 1990,还是 1991 年的时候,那个 bubble 破灭,Nasdaq 垮了”——似乎应该是2001年。
 回复  : 谢谢更正,泡沫破灭确实是 2001。也引起了一波海归潮。

2013-5-25 18:101 楼(回复楼主)赞|回复

删除 回复 |赞[14]吴全丰   2013-5-25 01:18
非常不错。但是信息太多, 能给一个总结?
 回复  : 本来就是30年生涯、至少也是3年舆情研发的总结,还总结啥呢。看多少算多少吧。

2013-5-25 18:131 楼(回复楼主)赞|回复
 回复  : 真要总结,就八个字:大数据不全是忽悠。

2013-5-25 20:592 楼(回复楼主)赞|回复

删除 回复 |赞[13]肖陆江   2013-5-24 22:24
学习了,下面要讲Watson 吗?
 回复  : 不,下面专讲大数据自然语言挖掘。至于 Watson, 以前提过一点儿, 【立委科普:问答系统的前生今世】http://blog.sciencenet.cn/blog-362400-436555.html,它是把 factoid QA scale up 推向极致。

2013-5-25 18:191 楼(回复楼主)赞|回复

删除 回复 |赞[12]EroControl   2013-5-24 21:12
反馈一下,视频播放比较卡,看其它网络都没问题的。
ps:加拿大是好地方,是个适合“思考人生”的所在。
 回复  : 加拿大的美丽与大气是无与伦比的,是世界上最友好的移民天堂。正因为此,全世界移民蜂拥而入,造成了很多技术移民和投资移民的堆积,它消化不了。很多高端人才找不到合适的工作,很多投资移民做亏本生意,有的只好苦熬日子,坐移民监,然后南下美国或杀回东土再寻发展。对于囊中羞涩又找不到工作的新移民,心理压力和生活压力使得他无法、无心、无福欣赏加拿大的美丽,是不可承受之美。

2013-5-25 18:301 楼(回复楼主)赞|回复

删除 回复 |赞[11]EroControl   2013-5-24 21:01
视频的布景方面 明显吃亏了吧 ?感觉没有饶博主的书房明媚呢。 

删除 回复 |赞[10]陈冬生   2013-5-24 16:49
谢谢

删除 回复 |赞[9]吕喆   2013-5-24 16:46
》》Anyway,
~~~~~~~
俺内喂? 

删除 回复 |赞[8]闵应骅   2013-5-24 15:44
讲得比较实在,没有夸夸其谈。比较可信!

删除 回复 |赞[7]喻平   2013-5-24 14:42
声音太小,不知在讲什么。。。

删除 回复 |赞[6]宋昌   2013-5-24 13:58
我们每个人都想分析自己,现在缺少一种个人数据分析工具,不知道李老师有什么好的想法?

删除 回复 |赞[5]向贤   2013-5-24 12:22
声音有点小。。。  ,也许是我的电脑有问题
 回复  : 声音不小,就是太含混。快语加清晰还可能是长处,可我这样快语+含混+口音 就让人糊涂了。不过老毛老邓甚至老华(国锋)也都好不了太多,红色中国有传统的。

2013-5-24 14:381 楼(回复楼主)赞|回复

删除 回复 |赞[4]陈筝   2013-5-24 11:36
故事讲的很好:)
 回复  : 生活比故事往往更奇特。直叙就可了。

2013-5-24 14:401 楼(回复楼主)赞|回复

删除 回复 |赞[3]廖晓琳   2013-5-24 11:34
老师的[按]读出了点新东方俞敏洪的味道。看老师的录像,说“1991年的时候,我身边的同学都出国了。大家都走了,就觉得有点不舒服,应该走。”更有点俞式感觉了。外行的觉得:带口音的讲座很有魅力,老师的笑容也很迷人。呵呵~
 回复  : thanks,俞老师的东西没看过。 只知道他是英语教育产业化的教父。

2013-5-24 14:251 楼(回复楼主)赞|回复

删除 回复 |赞[2]陈安   2013-5-24 10:32
现场录的效果往往不是特别好,除非象CCTV百家讲坛那样,观众是挑选好的,摄像机是多个机位的。
 回复  : 不错啦。再好的话,消受不起呢。
保留了陈博士听到的几个 anyway,虽然很多余。

2013-5-24 14:301 楼(回复楼主)赞|回复

删除 回复 |赞[1]mirrorliwei   2013-5-24 06:45
要录像的话,照明、化妆和音响是必须要做的。应该是个好事情。试想想,花两个小时把博主二十年的东西都“听”懂了的话,岂不是“赚”大发了?

大数据NLP论 屏蔽留存

大数据NLP论

屏蔽已有 10922 次阅读 2013-7-27 20:50 |个人分类:立委科普|系统分类:科普集锦| 大数据, processing, 自然语言处理, language, natural

由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范,要想编制一套查准率(precision)和查全率(recall)两项指标综合水平(所谓 F-score)都很高的NLP(Natural Language Processing)系统非常不容易。但是,研发实践发现,自然语言系统能否实用,很多时候并不是决定于上述两个指标。还有一个更重要的指标决定着一个系统在现实世界的成败,这个指标就是系统对于大数据的处理能力,可以不可以真正地 scale-up 到大数据上。由于电脑业的飞速发展,云计算技术的成熟,大数据处理在现实中的瓶颈往往是经济上的羁绊,而不是技术意义上的难关。其结果是革命性的。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据 更能将就不完美的引擎。

对于大数据,缺失部分数据也不是大问题,只要这种缺失对于要挖掘的话题或品牌没有针对性。缺失数据的原因很多,譬如,服务器或数据库故障,由于成本考量只取一定比例的样本,还有垃圾过滤系统的误删,当然也有系统本身查全率的不理想,等。总之缺失是常态,而求全则是不现实也是不必要的。大数据追求的是有影响力的信息和舆情动态,而这些原则上都不会因为数据的部分缺失而改变,因为动态和影响力的根基就在信息的高冗余度,而不是大海捞针。重要的是,冗余本身也是情报的题中应有之义。这与同一个情愿诉求为什么要征集成千上万的签名道理一样,至于最终是10万签名还是9万五千人签名了,完全不影响诉求的内容及其整体效应。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-711780.html

上一篇:On Big Data NLP
下一篇:为什么做大数据的吹鼓手?

 

15  李伟钢 曹建军 曹聪 许培扬 陈福强 陈辉 刘洪 李培光 徐晓 李宇斌 白图格吉扎布 翟自洋 bridgeneer lilojoan rosejump

发表评论评论 (8 个评论)

删除 回复 |赞[6]白图格吉扎布   2013-7-28 22:58
有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。
 回复  : 不是说“孤本”就没有价值,大海里面的那颗特定的针也许真地价值连城。但是,不能指靠自然语言系统能够捞到那针,事实上,不能指靠任何系统有这种能力,原因在文章中也提到了:对于孤本的无能,不仅仅是技术难关,不仅仅是引擎查全率的缺陷,一个“孤本”完全可能由于系统以外的众多原因而够不着它:server down,database problem,经济羁绊而未进入index,等等等等。因此,所谓不能遗漏情报,遗漏了系统就不可靠,就不能使用,完全是不切实际的。必须接受大海捞针多半捞不着的现实,捞着了是运气,捞不着是常态。那么大数据系统情报挖掘的真正价值何在呢?那就是揭示冗余度支持的有统计意义的情报及其关联。

2013-7-29 00:351 楼(回复楼主)赞|回复

删除 回复 |赞[5]白图格吉扎布   2013-7-28 22:56
这个指标就是系统对于大数据的处理能力,...。由于电脑业的飞速发展,云计算技术的成熟,大数据处理在现实中的瓶颈往往是经济上的羁绊,而不是技术意义上的难关。

删除 回复 |赞[4]李红雨   2013-7-28 22:44
大数据离自然语言的理解还远,但是的确走在一条非常可行的路上,下一步应该是基于大数据的知识重构问题,那样会成为理解自然语言的突破。当前的IT技术及算法只是在逻辑的圈子里打转,还不能真正理解知识的本质

删除 回复 |赞[3]郑新奇   2013-7-28 16:41
维克托•迈尔•舍恩伯格(Viktor Mayer-Schönberger)认为:大数据时代更关注相关关系、全样本分析、模糊分析。

删除 回复 |赞[2]闵应骅   2013-7-28 08:52
根本没有论及自然语言理解。
 回复  : 呵呵,那就把题目改为《大数据NLP结缘论》、《大数据NLP应用论》、《大数据NLP条件论》,实在不行就《大数据NLP应用条件论》吧

2013-7-28 11:501 楼(回复楼主)赞|回复

删除 回复 |赞[1]郭文姣   2013-7-27 22:30
大数据的两个典型特征:要全不要精、要关联不要因果!

北京演讲幻灯片上网(3/3) 屏蔽留存

北京演讲幻灯片上网(3/3)

屏蔽已有 3389 次阅读 2013-4-5 05:36 |个人分类:立委科普|系统分类:教学心得| 北京, 幻灯片

民调自动化:实时监测

Obama won the debate, see our evidence

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

技术改变世界,甚至总统

对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。
人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

 

《大数据时代的购物策略:洗衣机寻购记(1)》

 

《大数据时代的购物策略:洗衣机寻购记(2)》

《大数据时代的购物策略:洗衣机寻购记(3)完结篇》

行业品牌自动民调:国际快餐品牌舆情图

 【社媒挖掘:外来快餐店风光不再】

行业品牌自动民调:手机市场品牌对比图

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

总体统计数据如下:
 

【社媒挖掘:臺灣政壇輿情圖】

【立委名言:民主總統不好玩,當家五年狗都嫌】

【社媒挖掘:臺灣政壇輿情圖】

这是近一周的媒体评价。

【社媒挖掘:第一夫人光彩夺目赞誉有加】

更多的热点话题,见立委科网博客

立委科学网博客有【社媒挖掘】专栏

寻立委博客,请搜索:立委  liwei999

更多立委“创业”故事,见:

立委科普】【朝华午拾】专栏

【立委名言:傻子过年看隔壁,凡事不决问社媒】

谢谢大家!再祝各位愚人节愉快!

下面是Q&A

 北京演讲幻灯片上网(1/3)

北京演讲幻灯片上网(2/3)

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-677015.html

上一篇:北京演讲幻灯片上网(2/3)
下一篇:长安街白兰花开,夜色如水

 

4  罗春元 鲍得海 李竞 bridgeneer

【科普随笔:NLP的宗教战争?兼论深度学习】 屏蔽留存

【科普随笔:NLP的宗教战争?兼论深度学习】

屏蔽已有 12222 次阅读 2013-5-7 23:18 |个人分类:立委科普|系统分类:科研笔记| 机器学习, 自然语言处理, 深度学习, 规则系统, 深度分析

有回顾NLP(Natural Language Processing)历史的大牛介绍统计模型(通过所谓机器学习 machine learning)取代传统知识系统(又称规则系统 rule-based system)成为学界主流的掌故,说20多年前好像经历了一场惊心动魄的宗教战争。其实我倒觉得更像49年解放军打过长江去,传统NLP的知识系统就跟国民党一样兵败如山倒,大好江山拱手相让。文傻秀才遭遇理呆兵,有理无理都说不清,缴械投降是必然结果。唯一遗憾的也许是,统计理呆仗打得太过顺利,太没有抵抗,倒是可能觉得有些不过瘾,免不了有些胜之不武的失落。苍白文弱的语言学家也 太不经打了。

自从 20 年前统计学家势不可挡地登堂入室一统天下以后,我这样语言学家出身的在学界立马成为二等公民,一直就是敲边鼓,如履薄冰地跟着潮流走。走得烦了,就做一回阿桂。

NLP 这个领域,统计学家完胜,是有其历史必然性的,不服不行。虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it

甚至可以极端一点这么说,规则系统的成功看上去总好像是个案,是经验,是巧合,是老中医,是造化和运气。而机器学习的成功,虽然有时也有 tricks,但总体而论是科学的正道,是可以重复和批量复制的。

不容易复制的成功就跟中国餐一样,同样的材料和recipe,不同的大厨可以做出完全不同的味道来。这就注定了中华料理虽然遍及全球,可以征服食不厌精的美食家和赢得海内外无数中餐粉丝,但中餐馆还是滥竽充数者居多,因此绝对形成不了麦当劳这样的巨无霸来。而统计NLP和机器学习就是麦当劳这样的巨无霸:味道比较单调,甚至垃圾,但绝对是饿的时候能顶事儿, fulfilling,最主要的是 no drama,不会大起大落。不管在世界哪个角落,都是一条流水线上的产品,其味道和质量如出一辙。

做不好主流,那就做个大厨吧。做个一级大厨感觉也蛮好。最终还是系统说了算。邓小平真是聪明,有个白猫黑猫论,否则我们这些前朝遗老不如撞墙去。

就说过去10多年吧,我一直坚持做多层次的 deep parsing,来支持NLP的各种应用。当时看到统计学家们追求单纯,追求浅层的海量数据处理,心里想,难怪有些任务,你们虽然出结果快,而且也鲁棒,可质量总是卡在一个口上就过不去。从“人工智能”的概念高度看,浅层学习(shallow learning)与深层分析(deep parsing)根本就不在一个档次上,你再“科学”也没用。可这个感觉和道理要是跟统计学家说,当时是没人理睬的,是有理说不清的,因为他们从本质上就鄙视或忽视语言学家 ,根本就没有那个平等对话的氛围(chemistry)。最后人家到底自己悟出来了,因此近来天上掉下个多层 deep learning,视为神迹,仿佛一夜间主导了整个机器学习领域,趋之者若鹜。啧啧称奇的人很多,洋洋自得的也多,argue 说,一层一层往深了学习是革命性的突破,质量自然是大幅度提升。我心里想,这个大道理我十几年前就洞若观火,殊途不还是同归了嘛。想起在深度学习风靡世界之前,曾有心有灵犀的老友这样评论过:

To me, Dr. Li is essentially the only one who actualy builds true industrial NLP systems with deep parsing. While the whole world is praised with heavy statistics on shallow linguistics, Dr. Li proved with excellent system performances such a simple truth: deep parsing is useful and doable in large scale real world applications.

我的预见,大概还要20年吧(不是说风水轮流转20年河东河西么),主流里面的偏见会部分得到纠正,那时也不会是规则和知识的春天重返,而是统计和规则比较地和谐合作。宗教式的交恶和贬抑会逐渐淡去。

阿弥陀佛!

【相关篇什】

【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】

[转载]ZT: 2013突破性科学技术之“深度学习”

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-687627.html

上一篇:解读“独立之精神、自由之思想”
下一篇:【科普笔记:没有语言结构可以解析语义么?(之二)】

 

26  蔣勁松 陈安 廖晓琳 赵星 张婷婷 彭思龙 李兵 徐晓 孙平 陈楷翰 李明富 崔小云 宋健敏 武夷山 王涛 李天成 岳金星 刘锋 何应林 邱嘉文 孙学军 李伟钢 何祥 李宇斌 bridgeneer yunmu

发表评论评论 (8 个评论)

删除 回复 |赞[8]胡上峰   2013-7-31 21:22
我可能算比较乐观的,个人认为对自然语言语义的深度理解,基于语义理解的机器学习,3-5年应该可以看到突破。5-10年可以体现在应用上。

删除 回复 |赞[7]胡上峰   2013-7-31 21:18
深度分析和统计方法其实不矛盾。最后解决问题需要靠把这两者良好地整合起来。

删除 回复 |赞[6]苏晓路   2013-5-9 03:13
解决了目的性和组合机制,统计学习就和规则接上了,或者换个说法,规则就是人脑以目的性为指导,自动组合统计学习模型形成的。说起来简单,我看没有十年搞不定。我还是比李老师乐观了 

删除 回复 |赞[5]袁贤讯   2013-5-8 19:46
这个也是没办法。rule-based有时也叫heuristic,但heuristic与eureka同根。好是好,就是让投资家觉得有点不太靠谱。所以,真正的专家也只好委屈一段时间了——尽管一段可能是20年,50年。

删除 回复 |赞[4]何伟   2013-5-8 11:31
哪个走到最深处是否会殊途同归?
统计要深入走,恐怕还是要多考虑四参数曲线法则,多多超越能级,而不是死循环浪费能量。

删除 回复 |赞[3]郭辉   2013-5-8 09:44
NLP是不是莱布尼茨提出的那个办法?学工科的不太懂,只是觉得莱布尼茨的方法虽匪夷所思,但总算没有明显的漏洞

删除 回复 |赞[2]李兵   2013-5-8 09:11
现在热门的大数据,貌似也是统计为王。

删除 回复 |赞[1]章成志   2013-5-7 23:52
貌似过于悲观,几年前国内NLP界关于规则和统计学习共生,基本上达成共识。不过说归说,目前在工业界和学术界,能出活的东西基本上貌似还是以统计为主。

【立委科普:基于关键词的舆情分类系统面临挑战】 屏蔽留存

【立委科普:基于关键词的舆情分类系统面临挑战】

屏蔽已有 5414 次阅读 2013-2-15 22:47 |个人分类:立委科普|系统分类:科普集锦| NLP, 挖掘, sentiment, 语言技术, 舆情抽取

    [Abstract] Five challenges to keyword-based sentiment classification: (1)  domain portability; (2)  micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based on the users' needs quickly becomes mall, and  a precision-challenged classifier is bound to have trouble; (4) association of sentiments with object:  e.g. comparative expressions like "Google is a lot better than Yahoo"; (5) too coarse-grained: no actionable insights, this is fatal.
 
                                  
 
做自动舆情挖掘(sentiment mining)已经好几年了,做之前思考这个课题又有好多年(当年我给这个方向的项目起了个名字,叫 Value Tagging,代码 VTag,大约2002年吧,做了一些可行性研究,把研发的 proposal 提交给老板,当时因为管理层的意见不一和工程及产品经理的合作不佳,使得我的研发组对这个关键项目没能上马,保守地说,由此而来的技术损失伤害了公司的起飞),该是做一个简单的科普式小结的时候了。本片科普随笔谈机器分类系统在舆情抽取中的应用,算是这个系列中的一篇。
 
首先对大数据的舆情挖掘是建立在对具体语言单位的舆情抽取(sentiment extraction)的基础之上。只有当语言海洋中千千万万的舆情表达被抽取存贮到某个数据库以后,我们才有条件针对具体的舆情问题(如某特定品牌的网络形象或某话题的舆情走势),搜索有代表性的舆情资料,并将搜索结果整合提炼,然后以某种方式(譬如《品牌舆情图》或《话题晴雨表》)表达给情报使用者。
 
舆情抽取的主流是利用机器学习基于关键词的分类(sentiment classification),通常的做法非常粗线条,就是把要处理的语言单位(通常是文章 document,或帖子 post)分类为正面(positive)和负面(negative),叫做 thumbs up and down classification。后来加入了中性(neutral),还有在中性之外加入一类 mixed (正反兼有)。这种做法非常流行快捷,在某个特定领域(譬如影评论坛),分类质量可以很高。我们以前的一位实习生做过这样的暑假项目,用的是简单的贝叶斯算法,在影评数据上精度也达到90%以上。这是因为在一个狭窄的领域里面,评论用语相当固定有限,正面负面的评价用词及其分布密度不同,界限清晰,识别自然不难。而且现在很多领域都不愁 labeled data,越来越多的用户评价系统在网络上运转,如 Amazon,Yelp,积累了大量的已经分类好的数据,给机器分类的广泛应用提供了条件。
 
但是,上述分类遇到了以下挑战。
 
首先,领域移植性不好,影评数据训练出来的分类器换到电子器件的客户评价分类上就不管用。要对多个领域训练出多个分类器,很耗时,效果也不能得到保证。于是有人开始研究独立于领域(domain-independent)的舆情分类,其假设前提是舆情表达各个领域之间既有领域独有的表述方式,也有共通的表达(比如,好/good 在任何领域都是正面的形容词,坏/bad 在任何领域都是负面的),而且二者有相当的信息冗余度。这个假设在语言单位较大(譬如长的帖子或文本)时,是成立的。因此,这个挑战不算是致命的。但是很多应用领域,语言单位不大,譬如社会媒体中风行的微博/tweets,就很短,这一点构成第二个挑战。
 
第二个挑战就是,语言单位的缩小使得分类所需要的词汇证据减少,分类难为无米之炊,精度自然大受影响。从文件到帖子到段落再到短句,语言单位每一步变小,舆情分类就日益艰难。这就是为什么多数分类支持的舆情系统在微博(tweets)主导的社会媒体应用时文本抽取质量低下的根本原因(一般精度不过50%-60%)。当然,文本抽取精度不好并不表明不可用,它可以用大数据来弥补(由于大数据信息天生的大冗余度,利用sampling、整合等方法,一个大数据源的整体精度可以远远高于具体文本抽取的精度),使得最终挖掘出来的舆情概貌还是靠谱的。然而,大数据即便在大数据时代也不是总是存在的,因为一个真实世界的应用系统需要提供各种数据切割(slicing n dicing)的功能,这就使得很多应用场景大数据变成了小数据,这是下面要谈的第三个问题。
 
第三是大数据切割的挑战。本来我们利用机器来应对大数据时代的信息挑战,起因就是信息时代的数据量之大。如果数据量小,蛮可以利用传统方式雇佣分析员,用人的分析来提供所要的情报,很多年以来的客户调查就是如此。可是现在大数据了,别说社会媒体整体的爆炸性增长,就是一个大品牌的粉丝网页(fan pages)或一个企业的官方网页,每时每刻所产生的数据也相当惊人,总之无法依靠人工去捕捉、监测情报的变化,以便随时调整与客户的互动策略。这是机器挖掘(无论分类还是更细致的舆情分析)不可不行的时代召唤和现实基础。但是,观察具体应用和情报需求的现场就会发现,用户不会满足于一个静态的、概览似的情报结果,他们所需要的是这样一个工具,它可以随时对原始数据和抽取情报进行各种各样的动态切割(slice/dice 原是烹饪术语,用在情报现场,就是,"to break a body of information down into smaller parts or to examine it from different viewpoints so that you can understand it better", 摘自 http://whatis.techtarget.com/definition/slice-and-dice)。舆情切割有种种不同依据的需求,譬如根据舆情的类别,根据男女的性别,根据数据源,根据时间或地理位置,根据数据的点击率等。有的时候还有多次切割的需求,譬如要看看美国加州(地理)的妇女(性别)对于某个品牌在去年夏季(时间)的舆论反映。最典型的切割应用是以时间为维度的《动态晴雨表》,可以反映一个研究对象的情报走势(trends)。譬如把一年的总数据,根据每月、每周、每日,甚至每小时予以切割,然后观察其分布走势,这对于监测和追踪新话题的舆情消长,对于新产品的发布,新广告的效用评估(譬如美式足球赛上的巨额品牌广告的客户效应)等,都有着至关重要的情报作用。总之,大数据很可能在具体应用时要被切割成小数据,一个分类精度不高(precision-challenged)的系统就会捉襟见肘,被大数据遮盖的缺陷凸显,被自然过滤净化的结果在小数据时会变得不再可信。
 
第四个挑战是找舆情对象的问题。在几乎所有的舆情分析应用中,舆情与舆情的对象必须联系起来,而这一基本要求常常成为舆情分类系统的软肋。当然,在特定数据源和场景中,可能不存在这个问题,比如对 Amazon/Yelp 这类客户评价数据 (review data) 的舆情分析,可以预设舆情的对象是已知的(往往在标题上,或者其他 meta data 的固定位子),每一个review都是针对这个对象(虽然不尽然,review中也可能提到其他的品牌或产品,但是总体上是没问题的,这是由 review data 的特性决定的)。然而在很多社会媒体的自发舆情表述中(譬如微博/脸书/论坛等),在舆情分类之后就有一个找对象的问题。这个问题在比较类语言表达中(比如,"谷歌比雅虎强老鼻子啦" 这样语句,正面评价“强”到底是指雅虎还是谷歌,这看似简单的问题,就难倒了一大帮机器学家,道理很简单,机器分类系统依靠的是keywords,一般没有语言结构的支持,更谈不上理解)。与青春躁动期的小屁孩也差不多,满腔情绪却找不到合适的表达或发泄对象,这几乎成了所有褒贬分类系统的克星。在随兴自发的社会媒体中,这类语言现象并不鲜见,一边夸张三一边骂李四更是网络粉丝们常见的表达(譬如方韩粉丝的网络大战)。
 
第五个挑战是颗粒度的问题。这是分类系统的致命伤,它们只知道数翘大拇指还是伸出中指的数量,这对舆情的总体概览有点意义,但是这远远不是最有价值的舆情情报,关于这一点,我在以前的科普随笔中论述过:
 
褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。
 
上面列举的机器舆情分类系统的挑战,并不是要否定机器学习在舆情领域的价值,而是要阐明以下的观点:粗线条的机器分类只是舆情自动分析的开始,万里长征的第一步,一个真正有价值的舆情挖掘系统还需要更多更细致的舆情自动抽取和挖掘的技术来支持。鉴于学界和业界 90% 以上自称做 sentiment 的系统,都是以机器分类作为基础支撑的,明白这一点尤其重要。那么什么是舆情抽取和挖掘系统所需要的完整的技术基础呢?且听下回分解吧(如果兴起的话)。
 
白马非马,人非人民。人民的呼声通过冗余才能听得见,否则就不是人民的声音,只是可有可无、可以忽略、听不见也不用听见的个体意见
日期: 02/15/2013 12:41:53

[1]zdlh 2013-2-16 01:08对于网络预审删帖这样的样本缺失和数据缺实,你怎么办 ?
博主回复(2013-2-16 02:03):不关我的事儿。铁路警察各管一段。但愿中国随着国家现代化民主化进程,随着新领导人倾听人民呼声的新政的实施,这个问题自然消解。
从技术上讲,在大数据的尺度下,不管什么原因缺失部分数据(server down,数据库 bug,数据提供人改主意突然把发出的帖子又很快删除,非民主社会的政府censorship,还有由于成本原因有意排除一些原始数据而只取一定比例的样本,还有垃圾过滤系统太aggressive的误删,或者我们系统本身查全率 (recall) 不理想,比如明明有褒贬却没有识别出来,等等等等:缺失是常态,而求全则是不现实也是不必要的),都不是大问题,as long as 这种缺失对于要挖掘的话题或品牌没有歧视性/针对性。大数据追求的是舆情动态和salient情报,而这些原则上都不会因为数据的部分缺失而改变,因为动态和 salience 的根基就是信息的高冗余度,而不是真正意义上的大海捞针。不亲手做系统,你难以想象互联网的大海里面,冗余的信息有多少。重要的是,冗余本身也是情报的题中应有之义。所谓舆情就是人民(客户)的呼声,而人民的呼声只有通过个体信息的大量冗余才能听得见。这与同一个情愿诉求为什么要征集成千上万的签名道理一样,至于最终是10万签名还是9万五千人签名了,完全不影响舆情的内容及其整体效应。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-662101.html

上一篇:不错的话题——对技术社会价值的评价
下一篇:什么是分子?As2O3是个啥模样?

 

9  陆俊茜 李伟钢 刘洋 武夷山 章成志 陈熹 庄世宇 yunmu bridgeneer

《眼睛一眨,来了王子,走了白马》 屏蔽留存

《眼睛一眨,来了王子,走了白马》

屏蔽已有 4000 次阅读 2012-11-9 22:04 |个人分类:立委科普|系统分类:科普集锦| 科学, 编辑

【置顶:立委科学网博客NLP博文一览(定期更新版)】

科学网编辑MM也有走眼的时候

 
一定是忙于18大做代表或美国总统大选做报道了,否则编辑MM睁着那双如此动人的眼睛,怎么可能,怎么可能没有看见白马王子呢?
 
居然、居然没有加精,那不是的立委的失败,那是科网的损失。
 
(为一个专门的科技领域 NLP 就写下了88篇,方方面面,不遗余力,这是什么精神?这是小车不倒尽管推,一直推向科普共产主义圣殿的圣人精神。不得一个科普终身成就奖也便罢了,连这篇集88之大成的 super-科普也没上得台面,这科网还在奉行科学普及,我党所宗么?)
 
几天前做过预告,也夸下海口:这两天在撰写科普“大作”,对NLP相关术语做一次地毯式梳理,发觉科普不容易。。。
日期: 11/05/2012 16:12:36

要想在堆积如山的术语中,把“科学”普及到普 罗大众,哪怕这个大众只包括大学以上资历者,也很不简单。光是做到有条理、不枯燥就殊为不易。

可是已经开始了,预告了,就必须做下去。也了了一桩心愿,也好把《立委科普》专栏各篇以此串起来。

 
因忙于18大的“科普”爱好者网友们,请看原文,绝对不会让您失望:
 
它绝不是人云亦云的进口转卖品,也不是别处可寻的 yet another piece,it is unique and insightful, based on essence extracted by years and years of thinking & practice.  
 
WARNING: 非净手焚香者慎入!
 
此系列未完待续,再做一次广告。
 
 

立委名言:阿基米德说,给一个支点,我将翘起地球。今天的NLP技术官僚和工程师们可以说,给我一片云,一片足够大的云,我将鸟瞰整个儿信息世界。

引自【科研笔记:big data NLP, how big is big?

 
 
 
 
余致力NLP凡26載,其目的在求交流之通暢,資訊之自由,
 
語言之歸一,世界之大同。
 
積26年之經驗,深知欲達到此目的,必須啟蒙后進,科學普及,
 
同心協力,共筑通天之塔,因著文88篇鼓而吹之。
 
處理尚未成功,同志仍需努力。
 
 
立委科普:NLP 白皮书 】(姐妹篇,in English)
 
 
1. 关于NLP方法论:
 
 
2. 关于NLP分析:
 
 
3. 关于NLP抽取:
 
 
 
4.关于NLP挖掘:
 
 
 
5. 关于NLP应用:
 
 
6. 关于 Chinese NLP:
 
 
7. 关于NLP的掌故趣闻:
 
 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-630930.html

上一篇:讲究的各类瓶子
下一篇:《OVERVIEW OF NATURAL LANGUAGE PROCESSING (1/5)》 by Wei Li

 

18  蔣勁松 柳海涛 吕喆 吴国胜 苏德辰 王水 杨正瓴 陈熹 肖重发 陆俊茜 张玉秀 庄世宇 李天成 李伟钢 赵美娣 张雪峰 赵斌 鲍得海

发表评论评论 (19 个评论)

删除 回复 |赞[12]王水   2012-11-12 18:01
mark...先推荐。。想清楚后再来读。

删除 回复 |赞[11]鲍得海   2012-11-11 14:19
洋洋大观啊!赶紧收藏,慢慢学习之。。。
对了!那个【NLP】是啥意思?
---“不知道多少次电脑输入 NLP,出来的都是“你老婆”。。。 
 回复  :   

2012-11-11 16:121 楼(回复楼主)赞|回复

删除 回复 |赞[10]李天成   2012-11-10 20:13
赞一个。。。。科网也就这么回事

删除 回复 |赞[9]陈熹   2012-11-10 10:10
阳春白雪, 下里巴人 您选择的是哪一个?高山流水只有知音能懂,乃因曲高而和寡也,

删除 回复 |赞[8]陈熹   2012-11-10 10:05
haha,我是第一个推荐并评论立委老师科普88的科网MM! 
 回复  : 谢不止一个字。

2012-11-10 12:241 楼(回复楼主)赞|回复

删除 回复 |赞[7]赵明   2012-11-10 09:18
我一直在关注李老师的NLP博文 
 回复  : 不敢当。谢谢

2012-11-10 12:271 楼(回复楼主)赞|回复

删除 回复 |赞[6]闵应骅   2012-11-10 08:52
自然语言处理恐怕不是一个科普的问题。
 回复  : 不是。

2012-11-10 12:321 楼(回复楼主)赞|回复

删除 回复 |赞[5]吴国胜   2012-11-10 07:08
一群没有网民没有文化 -》一群网民没有文化  

删除 回复 |赞[4]吴国胜   2012-11-10 07:07
科学网MM大概受科学网一帮老男人的影响太深,喜欢废话连篇的基金和SCI,喜欢风花雪月,喜欢男女网友之间不断地暧昧,搞聚会找朋友套近乎。显然,立委不属于那个一人发贴就有无数网民等着发嗲的圈子里的人,受到冷落不奇怪啊。

这就是科学网的基本文化:一群没有网民没有文化  

 回复  : 确实如此,满篇术语的科普看上去一点儿也不性感。
不过,才发现编辑还是加精了哎。哇塞。

2012-11-10 12:311 楼(回复楼主)赞|回复

删除 回复 |赞[3]文峰   2012-11-10 06:27
科学网是MM还是男人啊? 封了我博客,也不说明哪条违反了规定
这么搞下去,迟早会让人耻笑的

删除 回复 |赞[2]吕喆   2012-11-10 06:22
1)常事儿。
2)精选如竞选。
 回复  : 竞选要取悦选民,精选应取悦编辑,有钟南山捷径么?
开玩笑啦。就是再做一次广告而已。总是费了心力的。需要做一些 marketing

2012-11-10 12:271 楼(回复楼主)赞|回复

删除 回复 |赞[1]mirrorliwei   2012-11-9 22:27
不要奢望大众有很高的理解能力。

【朝华午拾:安娜离职记】 屏蔽留存

【朝华午拾:安娜离职记】

屏蔽已有 4619 次阅读 2012-11-19 18:29 |个人分类:立委科普|系统分类:生活其它| 朝华, 二次创业

安娜是个很可爱的俄罗斯上进女青年,从小弹钢琴跳芭蕾,小学没毕业即随父母移民美国。她身材高佻,曲线优美,性情温和,举止得体,善解人意,给人一种古典但不古板,现代却不俗艳,阳光而浪漫的印象。大家知道,虽然俄罗斯大嫂大多偏胖粗线条,但俄罗斯姑娘却多有迷人的风采,老帮菜耳熟能详念念不忘的就有钢铁怎样炼成里面的资产阶级小姐冬妮亚,芭蕾舞天后乌兰诺娃,风华绝代的花样滑冰艺术家 Ekaterina Gordeeva。安娜也是这样一位俄罗斯女郎,每天就在身边,给满屋大多是 boys 的办公室带来了温馨柔和的气息。自然地,大家都喜欢她。

然而,安娜辞职了,很快就要离开,大家都舍不得。我心里也不是滋味,想到午餐时不再有她的说说笑笑,餐后也不能邀她打乒乓球了,失落落的。我问她一定要离开么,你不是说很喜欢这个环境么?You know this office is already too crowded with boys, and we are trying to change this situation, trying to find some girls with affirmative action, and you are leaving?

她回说,我喜欢这个环境,是因为在这里我接触的都是你这样的世界上最聪明的人,因为你们太聪明了,结果我的发展道路堵死了,只好痛下决心离开了,我还是去 consulting company 做我擅长的分析工作去吧。两年来,我亲眼目睹我的20小时的人工怎样被你的20秒的全自动搜索所替代,而且结果往往比人工更好更全更有一致性。

她说的不假。确实是技术的转移抢走了她的饭碗,但公司不想辞她,决定让她转型做在线客户服务,可她思前想后,觉得年轻轻不能放弃自己的专长,只好决定离开了。

作为技术带头人,她的离开与我直接相关。这是一个活生生的机器取代人工的例子。

两年前我加入公司的时候,公司基本上是一个 professional service 类型的公司,虽然也开发了一个内部使用的系统,但系统的输出只是缩小了人工范围,必须有长时间的后编辑,手动增删修补,分析归纳,才能提供给客户。编辑人员我们称为信息分析员,要求语言能力强,阅读理解一目十行,并具有分析综合的技能。安娜就是信息分析员中的佼佼者。经她过手的分析报告,客户特别满意。

可是公司需要成本核算。核算的结果是,肉工可以,要适度,否则入不敷出,是亏本买卖。当时平均每个搜索分析的订单需要肉工22小时方能完工,这22小时叫做 pain time (既是分析员的pain, 更是公司的pain)。要想赚钱,理想的 pain time 支出需要控制在两个小时之内,在当时有点天方夜谭。老板找我谈的时候,就把它定为主要目标,但并没有设置时间限度,因为没有人知道其可行性以及达成这样的目标需要多少资源。我自己也不明白,只是感觉到了这个重担。我以前做过的工作,都是先研究,后做原形引擎,然后寻找应用领域,最后开发产品。而这家公司与多数技术创新公司截然相反,它是先有客户,后有粗糙的引擎,最后才引进人才和技术,把希望寄托在技术的快速转移身上。这条路子让我觉得新鲜和刺激,觉得可以试一下,我的技术转移技能能不能如鱼得水,发挥出来。先有客户和应用领域的好处是显而易见的,就向搞共产主义有了遵义会议的明灯一样,省却了在黑暗中的漫长摸索。道路是光明的,就看路怎样走才能赚钱了。

长话短说。我上马以后,三个月把系统的核心部分替换了,半年下来结果明显改善,到一周年的时候,肉工的痛苦时间已经缩短到两小时以下,老板喜不自禁。

人心不足蛇吞象,老板告诉我,Wei,你知道,你的技术给我们的业务带来了革命性变化。我们的立足已经不成问题,只要我们愿意,维持一个机器加人工的服务,发展成年入几千万的企业指日可待。但是,只要有人工,就不能 scale up, 赚钱就有限,盘子就做不大。我知道你是有雄心的人(我心里说,子非鱼),肯定不满足小打小闹。不管多大风险,我们还是决定放弃这条道路,而走全自动的路子,让系统可以服务所有的分析客户,而不是只供我们内部人工(安娜这样的)或者需要专门训练的 power users 使用。我们的目标是让世界上每个分析员都离不开我们,就如大家离不开Google一样。为此,我们必须做到 pain time  为零,这是着险棋,但是前景不可限量。

好家伙,这个口气,就梦想称霸全世界了。美国是个很有意思的地方,这方水土盛产百折不挠,心比天高的企业梦想家。但美国并非梦想家的乐园,95%的梦想家牺牲了,不到5%得以生存,其中不过1%最终做大,真正是一将功成万骨枯。虽然如此,美国造企业梦想家仍然前赴后继,生生不息。我其实很喜欢这些梦想家,他们的坚韧豪情很感染人。

一年又过去了。我们实现了在一个主要分析领域完全铲除痛苦时间的目标(pain time 0),把搜索分析从两年前的22小时人工,发展成为如今的20秒钟全自动立等可取,无需任何人工编辑。

得之桑榆,失之东隅, 两年的奋战取得了超出所有人预料的成就,但同时也失去了一位可爱的俄罗斯女郎。

【二次创业笔记】 记于2008年四月

 
【后记】关于安娜,还有一个小插曲。大家知道,创业公司的人都爱做梦数小鸡,股票期权则是催梦剂。
有一天,公司哥们跟往常一样数小鸡玩儿,安娜跟我说:Wei, come here, I got something to show you. 我走近一看,是一辆轿车。她跟我一字一板地说:

I like this car. I just love it. It is my dream car. I want to buy it.
Guys, work hard so I can own this car.

及至仔细一看价码,吓了一个筋斗,百万以上,她可真敢想啊,乖乖隆的东,here it is:

http://abcnews.go.com/GMA/Moms/story?id=1406161

http://blog.sciencenet.cn/blog-362400-634076.html

上一篇:【创业故事:技术的力量和技术公司的命运】
下一篇:【欢迎你,丰田油动混合车 V】

 

10  赵明 李学宽 曹聪 陆俊茜 武夷山 赵凤光 褚昭明 李世春 zzjtcm sz1961sy

发表评论评论 (7 个评论)

删除 回复 |赞[4]曹聪   2012-11-19 21:04
什么时候IPO?
 回复  : 君问O期未有期,矽山夜雨涨秋池

2012-11-20 05:461 楼(回复楼主)赞|回复

删除 回复 |赞[3]MrHouse   2012-11-19 20:32
"三个月把系统的核心部分替换了"
"一年又过去了。"
如此短暂的时间,可以完成一个个软件产品,真心佩服。
深知软件产品和大学里Research写Demo有着天壤之别,
不知道李老师有空能不能写写研发项目管理方面的回忆录,让我们跟着领悟下
 回复  : 没规矩,不方圆,想到哪里,写到哪里 ba。

2012-11-21 03:211 楼(回复楼主)赞|回复

删除 回复 |赞[2]陈熹   2012-11-19 20:14
确实让人感慨。会有越来越多人被技术剥夺工作。
怎么样创造工作机会?也许是政治家们面临的最大考验。

删除 回复 |赞[1]赵明   2012-11-19 18:41
李老师技术牛人。
 回复  : 不敢当。关起门来在自家菜园子吹牛呗。十男九吹一傻,随大流吧。

2012-11-20 05:481 楼(回复楼主)

【科研笔记:big data NLP, how big is big?】 屏蔽留存

【科研笔记:big data NLP, how big is big?】

屏蔽已有 3369 次阅读 2012-10-31 19:03 |个人分类:立委科普|系统分类:科普集锦| 大数据, NLP, Big, Data, 语言技术

Big data 与 云计算一样,成为当今 IT 的时髦词 (buzzword / fashion word). 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花,big data 呈爆炸性增长。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 
对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供大海捞针的搜索服务已经很多年了。我们每一个网民都是big data搜索的受益者,很难想象一个没有搜索的互联网世界。可是对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。不说整个互联网,光社会媒体这块,也够咱喝一壶了。
 
目前的状况如何呢?
 
我们的语言系统每天阅读分析五千万个帖子。如果帖子的平均词量是30,就是 15 亿词的处理量。This is live feed,现炒现卖,立等可取。 至于社会媒体的历史档案,系统通常追溯到一年之前,定期施行深度分析并更新数据库里的分析结果。我们的工程师们气定神闲,运筹帷幄之中,遥控着数百台不知身处哪块祥云的虚拟服务器大军,令其在“云端”不分昼夜并行处理海量数据,有如巨鲸在洋,在数据源与数据库之间吞吐自如,气派不凡。
 
when we talk about NLP scaling up to big data, it is this BIG
 
This is the progress we have made over the last two years.  I feel extremely lucky to work with the engineering talents and product managers who made this possible.  It is hardly imaginable that this can be done at this speed in other places than the Valley where magic happens everyday.

Where are we?

deep parsing 50 MILLION posts a day!!!  

For one year NLP-indexing of social media data we use to support our products, we have

11 billion tweets (about 6-7% of the entire sample from twitter)
1 billion Facebook posts
1 billion forum posts from 5 million domains
430 million blog posts from 160 million domains
30 million reviews from 300 domains
55 million news reports from 55,000 domains
225 million comments from 100 million domains

回看这些数据,感受到的震撼与我第一次在纽约某科学馆看巨型科教片【宇宙起源】类似:不可思议。个体真是太渺小了。宇宙之大超过想象极限。

And that is by no means the limit for our NLP distributed computing: the real bottleneck comes from the cost considerations rather than the technical barriers of the architecture.  Money matters.  Archimedes said, "Give me a place to stand on, and I will move the Earth."  With the NLP magic in hands, we can say, give me a large cloud, we can conquer the entire info world!
 
阿基米德说,给一个支点,我将翘起地球。今天的NLP技术官僚和工程师们可以说,给我一片云,一片足够大的云,我将鸟瞰整个儿信息世界。
一年社会媒体档案的 Big data,比起搜索引擎面对的整个互联网,自然是小巫见大巫。然而,对于 NLP,这已经远远超过我们当初可以想象的极限。令人兴奋的是,处理数据之大虽然超过想象,但却不再自惭渺小,因为渺小如我及其外化的系统已然溶入 big data 的海洋,体验的是弄潮儿的刺激和爽快。

曾几何时,大约25年前吧,我们守着 IBM-PC 测试 parsing,大约每句话需要30-35秒处理时间。我抱怨说太慢了,导师笑道:你知足吧。你们这一代开始学这行,是撞上大运了,小小的 PC 可以放在办公室调试,没有比这个更方便了。

 
原来,30几年前,在前 PC 时代,我的导师要做一个试验那叫一个难,常常需要深夜到计算中心排队轮值。当时的机器体积超大,可存储和速度都无法与 PC 比。导师说,一次去东北鉴定某教授的机器翻译系统,一个句子输进去,系统硬是绕不出来,鉴定组一行于是出去喝咖啡吃早点,折腾半拉小时回来,才见到结果。
 
再往前,我的导师刘先生与另一位高先生(我入行的时候他已去世),在上世纪50年代末期(当时我还没有来到这个世界呢),于1959 年开创了中国机器翻译的事业,测试了10个句子,上机试验获得成功(没有汉字fonts,输出的自动翻译译文是汉字编码)。当时的科学报道我读过,是高先生写的,字里行间洋溢着的兴奋之情,穿越时空深深打动了弱冠之年的我。
 
导师说过,在NLP这一行,我们在60年代初真真确确属于世界领先,得益于汉语机器处理的难度以及汉外之间的差异。我理解的他的言下之意是:我们何时再现辉煌?
 
天降大任,此其时也。
 

http://blog.sciencenet.cn/blog-362400-628017.html

上一篇:回答一个压力的问题
下一篇:需要有些靠谱的思考。而“科普”往往是不靠谱。

 

4  曹聪 欧阳峰 吴飞鹏 任胜利

发表评论评论 (1 个评论)

删除 回复 |赞[1]mirrorliwei   2012-11-1 07:46
同感:【你们这一代开始学这行,是撞上大运了,小小的 PC 可以放在办公室调试,没有比这个更方便了。】

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破 屏蔽留存

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破

屏蔽已有 8056 次阅读 2011-12-29 00:27 |个人分类:立委科普|系统分类:科研笔记| NLP, 汉语, 中文处理, POS

严格说起来,这不能算是迷思,而应该算是放之四海而皆准的“多余的话”:任何学科的理论突破都可能引起应用层面的长足进步,不说也罢。其所以归类到这个迷思系列,是因为这样的高论在中文处理界常常甚嚣尘上,有严重误导青年学子的危害。其结果是喊了多年理论突破,理论并没有突破,反而造就了一批民科妄想家(只是指出这个现象而已,对事不对人,有对号入座者,后果自负)。单这个后果还不算要紧,要紧的是这一说法为应用家的无能提供了心理挡箭牌,使得他们多年来畏畏缩缩,裹足不前:不是我们无能,是汉语太“个别”了(国民党的败将的口头禅就是如此:不是国军无能,是中共太狡猾了)。
 
汉语语法与西文语法真地如此不同,以致现有的语言学理论对它束手无策或难以实行了么?这是一个可以永远争论下去,没有绝对答案的问题。然而从应用层面,我们可以回答的问题是:在西文的语言处理中所使用的各种形式化手段和机制(formalism, mechanism and devices)对于汉语是否适用?
 
立委集20年NLP经验,可以负责任地回答这个问题:西文处理的机制和手段对于中文处理大多是适用的、可行的,也许有不够用的时候,需要机制的拓展(not necessarily 理论的突破),但总体而言是用得不够,是不会用、不善用的问题。语法虽然因语言不同而不同,但NLP武器库里的轻重火器大多是独立于具体语言之上的(language independent)。俗话是语糙理不糙的:拉不出矢,不能怪茅坑。
 
拿英语处理与中文处理的比较为例。诚然,由于汉语比较灵活,语言表达对形式化手段倚赖较弱,总体而言处理起来确实比英语要难。英语表达的形式化手段除了功能词(介词等),还包括词尾(如:-ed,-ing,-s,-able,-er),汉语没有完全对应的词尾形式,只有一些功能小词(譬如:了,着,过,们),而且这些词还常常省略。尽管英语在欧洲语言里面词尾是非常少的了,但是别小看这几个词尾对于简化词法语法分析的作用。中文处理较少这种便利。回到功能词上看,譬如介词连词,虽然英语有的,汉语基本都有,但是汉语省略功能词的时候远远多于英语,这是有统计根据的,也符合我们日常的感觉:往坏里说,中国人比较偷懒,说话不严谨;往好里说是,中国人很懂低炭,能省则省,汉语很灵活。举一个例子,可见汉语的省略是普遍的:
 
(1)对于这件事,依我的看法,我们应该听其自然。
(2)这件事我的看法应该听其自然。
 
上述句子(2)译成英语,省去功能词是难以想象的。
 
这种缺少形式化手段的所谓汉语的“意合”式表达方式确实使得中文的电脑处理比英语处理困难。
 
这只是问题的一个方面,是从量上考察,即汉语的表达比英语往往更省略,更不严谨,更需要上下文。问题的另一面是从难点的性质上来看,中文处理遇到的问题究竟有多少是英文处理中没有遇到过的?我的答案是:很少。很多歧义问题省略问题,英语同样存在,只是不如汉语那么普遍而已。既然问题的性质基本相同,处理问题的机制和手段就同样适用。逻辑的结论就是:英语处理领域积累的经验和手段在中文处理中大有可为。如果有核武器攻下了英语这个堡垒,就没有道理攻不下汉语。只要不做上帝(因为只有上帝才是完美的),就没有裹足不前静待理论突破的道理。
 
其实,真正做过西文处理也做过中文处理的同行应该不难认同上述看法。我说的是“真正”,对西文处理浅尝辄止的不算(浅尝辄止的包括NLP硕士课程中的语法形式化游戏:S: NP VP; NP: Det? Adj* NN+; VP: V NP?)。如果你比较深入地implement过一个英语分析器,针对的是大批量的真实语料,你会发现:英语的深入分析所遇到的难点需要调动很多手段,需要很细致的工作,而这些手段和工作也正是中文处理所需要的。我常常这样跟朋友说英语处理和中文处理的异同:如果你做硕士作业,导师给你一周做出一个语言处理系统能够处理50%以上的语言现象,在英语是可行的,在汉语是不可行的。因为你可以下载一个免费POS Tagger,在POS基础上编制一套粗糙的语法交差。然而,如果你要面对真实语料做一个实用的语言分析系统,如果英语需要开发N个月,调动 M 个手段,那么用同样的时间和手段,中文开发也大体可以到位。形象地说就是,中文这座山是陡坡,英文的坡则比较平缓,但是两座大山的高度其实是相差无几的。如果电脑爬坡只求到达山腰,在英文是比较容易的,在汉语则很难。然而, 如果电脑爬坡的目标是山高80%以上的地带,所需资源和手段相差并不大。
 
中文处理有没有特有的难点,甚至难以踰越的障碍,需要不需要理论突破?回答是肯定的,但是很多难点是可以绕着走的,个别难以企及的问题是可以搁置的,因为上帝允许不完美的系统。无论如何,中文处理不能长足进步,是我们应用学家的耻辱和失败,而决不能嫁祸到理论家的头上。
 
处理尚未成功,同志仍需努力,立委与工匠同仁共勉。
 

http://blog.sciencenet.cn/blog-362400-523130.html

上一篇:孩子对圣诞老人的评价
下一篇:专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

 

2  武夷山 马建强

发表评论评论 (2 个评论)

删除 回复 |赞[2]马建强   2013-3-22 08:17
哎,中文parsing,貌似不少学术界的工作都只是笼罩在Stanford/Berkeley Parser的阴影下...

删除 回复 |赞[1]赵家平   2011-12-29 07:43
google asia 的吴军老师貌似对中文的NLP做得不错。Johns Hopkins 的Ph.D, 导师也是自然语言处理大师

《科普随笔:汉语自动断词 “一次性交500元”》 屏蔽留存

《科普随笔:汉语自动断词 “一次性交500元”》

屏蔽已有 4527 次阅读 2011-10-14 17:41 |个人分类:立委科普|系统分类:科普集锦| 中文, 切词, 语言处理

《立委随笔:汉语自动断词 “一次性交500元”》 (2824 bytes)
Posted by: 立委
Date: April 27, 2007 10:56PM

请教一下立委,这过滤词的语法能提高吗。 (15409)
Posted by: oztiger
Date: July 12, 2006 11:03PM

我初看xj这帖子,很不明白 北大法学院 怎么会变成 北 大法 学院,想想又挺好笑。然后想是否xj毕竟不是专业的,可能过滤法不够智能。特意用百度去搜北大法学院,竟然死掉,看来网上长城也没解决这个问题。

正好就近就是一个专家,问问老李有没有现成的code识别中文字词断句。

说真的看来老李的专业前景无限。我不是说老李去帮网上长城打补丁,只是想想正火的data mining里面肯定也要解决这个问题,不然搜出来意思都变了

=====================================================================

这是切分歧义问题。目前汉语自动分词的水平可以解决 (15421)
Posted by: liwei999
Date: July 13, 2006 01:30AM

90%以上这样的歧义区分问题。现成的code应该有,不过往往很笨重,overhead不小,不是很容易integrate。

My friend Dr Guo has a demo Chinese tokenizer at:
[www.jplusk.com]

He is an expert in this area.

比如:

Chinese Tokenization Demo

Enter a Chinese string and hit the Run button, then tell me how I can do better for you!

Input

很 不 明 白 北 大 法 学 院 怎 么 会 变 成 法 轮 大 法 的 大 法

Output

很 < 不 [ 明 白 ] > < [ 北 大 ] [ 法 ( 学 院 ) ] > < [ 怎 么 ] 会 > < 变 成 > < [ 法 轮 ] [ 大 法 ] > 的 < 大 法 >

=====================================================================

涨了见识。 (15422)
Posted by: oztiger
Date: July 13, 2006 02:11AM

我是什么都想知道一下,真翻开论文看了几段又懒了,但总算知道了一下目前解决这种问题的思路。他能把‘结合成分子’正确断出来不容易。

不过你跟他反馈一下,我让他的程序断‘一次性交500元’(不准笑!正经的科学研究),结果是< 一 次 > < 性 交 > 5 0 0 元,跟我的原意不符。

另外网上长城为什么不采用你们这样的最新技术之类的,他们把北大/法学院当成大/法来屏蔽还是挺落后的。可是我用google搜大/法,第八个网页就已经是北大/法学院了,怎么他们的算法也那么差?

======================================================================

没有断错呀,至少把最常见的意思断出来了。 (15423)
Posted by: liwei999
Date: July 13, 2006 02:34AM

引用:

oztiger
不过你跟他反馈一下,我让他的程序断‘一次性交500元’(不准笑!正经的科学研究),结果是< 一 次 > < 性 交 > 5 0 0 元,跟我的原意不符。
 
你真开玩笑,程序又不是道德法官,怎么知道这个年头还会碰上你这么一个正人君子并揣摩出你的原意呢(何况是不是原意也很难说,又不是你肚子里面的蛔虫)。他的程序是以统计为基础的,从统计上说,你的“原意”绝对是少数派,在 threshold 以下,机器学不出来。

=====================================================================

是有小毛病 (15424)
Date: July 13, 2006 02:56AM

input
一次性交款500元

Output
< 一 次 > < 性 交 > 款 5 0 0 元


Input
一次性交费500元

Output
< [ 一 次 ] 性 > < 交 费 > 5 0 0 元

立委按:
其实 “< 一 次 > < 性 交 > 款 5 0 0 元”
也合乎汉语语法。

 
【补记】原作者反馈:

PS.
< 一 次 > < 性 交 > 5 0 0 元
< 一 次 > < 性 交 > 款 5 0 0 元
< [ 一 次 ] 性 > < 交 费 > 5 0 0 元

I never responded to this. Actually please notice that I have a space between 性 and 交. Furthermore, please notice the difference between the last one (where I have < [ 一 次 ] 性 >winking smiley and the first two. What behind is, I have the assumption (a truth I think) that ALL (well, except for 葡萄, 玻璃 and the like) multi-character 'words' are ambiguous (so-called hidden ambiguity) and hence have to be handled with dictionary at 'application' time (在‘用’字上狠下功夫). This is consistent with your 词汇主义 and your rule-of-thumb "keeping ambiguity untouched". I actually pushed that one step further by keeping ambiguity only one level (that is, you only need to look ONE level deeper). This is consistent with your 自底而上 but more concrete/specific -- whenever I see potential ambiguity at my level, I keep them there (as in < 性 交 >winking smiley and then 断链.

I mean I agree with you fully. And by today if I have a bit more added info in dictionary, I think I can do 'shallow parsing' better.
很 < 不 [ 明 白 ] > < [ 北 大 ] [ 法 ( 学 院 ) ] > < [ 怎 么 ] 会 > < 变 成 > < [ 法 轮 ] [ 大 法 ] > 的 < 大 法 >
At that time I have entity but no event.

Fun to talk about these!

http://blog.sciencenet.cn/blog-362400-496806.html

上一篇:《朝华点滴:我的中小学学生生活》
下一篇:《科普随笔:汉字和语素》

【立委科普:从产业角度说说NLP这个行当】 屏蔽留存

【立委科普:从产业角度说说NLP这个行当】

屏蔽已有 9232 次阅读 2011-4-19 08:25 |个人分类:立委科普|系统分类:科普集锦| NLP, 自然语言处理, 查全率, 查准率, precision

前面一篇博文的本意,是想借题发挥,从工业运用的角度说说 NLP(Natural Language Processing:自然语言处理)这个行当。不好意思,我算是这个行当在工业界的老古董了(学界不算,学界有的是NLP师爷和大牛)。跟我同期学习这行的同门学长们有小20位,由于这个行当不能在工业界形成规模,他们无一例外都在不同时期改行了,我几乎是幸存在工业界的仅有的化石级元老,赶上了工业应用的末班车。我运气比较好,1986年硕士毕业不久就兼职中关村搞机器翻译的开发,1997年博士快结束又赶上了dot康泡沫的美国大跃进,技术资金源源不断。就是在泡沫破灭后的萧条年代,我也一直对这一行抱有信心,但是从来没有像现在这样信心满满。我的预计,今后20年是 NLP 大显神威的时机,NLP 技术支撑的包括搜索在内的各类信息系统是真正的朝阳产业。(卖瓜的说瓜甜,据说连饶教授这样的大牛都不免。所以读者诸君为免在下误导,可在此打个折扣。)
 
NLP技术的工业可行性我认为已经完全被证明了(很多人也许还没有意识到)。证明的实例表现在我们解决了三个信息搜索的难题:1 是解决了搜索 how 的难题;2 是解决了搜索 why 的难题;3 是解决了对客户反馈情报及其动机的抽提(譬如客户对一个产品的好恶)。前两个问题是问答搜索业界公认的最难类型的题目,第三个题目涉及的是语言现象中较难把握的主观性言语(subjective language),并非NLP通常面对的对象(objective language,事实描述的客观性言语),因此成为语言处理最难的课题之一(叫 sentiment extraction)。从问答系统角度来看,回答who/when/where等实体(entity)事实(factoid)的问题比较简单,技术相对成熟,最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军,电脑打败了人脑,见 COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS)。这是因为 JEOPARDY! 的大多数问题是属于实体事实类的问题。具体细节就不谈了,以后有机会再论。总之,这三大公认的难题在过去五年中被我们一个一个解决,标志了作为实用技术的 NLP 已经过了需要证明自己的阶段。
 
很长一段时间,我们在学界测量一个系统,使用的是两个指标:1 查准率(precision:准确性, 即抓到的有多大比例是抓对了的);2 查全率(recall:覆盖面,即所有该抓到的有多大比例真地抓到了)。Precision 和 recall 的定义如下:
 
Precision 查准率 = correct 查对数 / (correct 查对数 + spurious 查错数)
Recall 查全率 = correct 查对数 / (correct 查对数 + missing 查漏数)
 
由于自然语言的歧义(和诡异),要想编制一套两项指标综合水平(术语叫 F-score)都很高的系统非常不容易。这跟打假也差不多,宁肯错杀一千,也不放过一个的蒋中正野蛮政策保证的是查全率;而宁肯放过一千,也不错杀一个的西方文明世界的准则保证的是查准率。要想兼顾二者,做到打得准也打得全,那是很难的。于是我们挖煤工人有时不得不叹气,面对汪洋大海的语言自觉渺小,吾生也有涯,口水没有涯,殆矣,觉得没什么指望了,疑惑红旗到底可以打得多久?
 
但是,事实是,自然语言系统能否实用,很多时候并不是决定于上述两个学界公认的指标。在信息爆炸的时代,在面对海量数据的时候,还有一个更重要的指标决定着一个系统在现实世界的成败。这个指标就是系统的吞吐量(through-put),系统可以不可以真正地 scale-up。由于电脑业的飞速发展,硬件成本的下降,由于并行分布式运算技术的成熟,吞吐量在现实中的瓶颈主要是经济上的羁绊,而不是技术意义上的难关。运行一个 farm 的 servers,只要有财力维护,能耐的工程师完全可以做到【立委补注:其实,在云计算时代的今天,不少运算可以按照需要随时租赁虚拟主机,operations team 可以从物理维护上解放出来。】。其结果是革命性的。这种革命性成功的最突出的表现就是 Google 和 Facebook 等公司的做大。
 
在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如50%,两个只能抓到一个),只要可以scale up,一样可以做出优秀的实用系统来,创造应用程式的奇迹。为什么?根本原因在于两个因素:一是爆炸时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住一两次,是没有区别的,信息还是那个信息,只要准确就成。问题是一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,吃的是五谷杂粮,用的是一目最多十行的双眼,靠的是总比电脑慢三万拍的人脑,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受,simply overwhelmed,就好比再超人的皇帝也无法应对360后宫720殿一样。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程可以保证最终结果的质量远远高于系统的个案质量。
 
总之,size matters,多了就不一样了。那天跟镜子提到这个在黑暗与半明半暗中摸索了几十年悟出来的体会,镜兄气定神闲地说:“那自然,大数定理决定的”。好像一切都在他的预料之中!!
 
信息的关键载体之一是语言。只要有语言,就需要NLP,你说说NLP该不该有光明的前景?
 
 
Quote:
NLP is not magic, but the results you can get sometimes seem almost magical.
(“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”)

引自:http://www.confidencenow.com/nlp-seduction.htm

 
 
 
 
 

http://blog.sciencenet.cn/blog-362400-434811.html

上一篇:据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率
下一篇:也说说方夫人的论文抄袭门

 

8  张婷婷 吕乃基 吴吉良 朱新亮 陈安 谢鑫 欧阳峰 anonymity

发表评论评论 (18 个评论)

删除 回复 |赞[11]闵应骅   2011-4-20 08:28
搜索似乎和自然语言处理还不是一回事。不过,搜索的确是一个热门话题,很需要。

删除 回复 |赞[10]徐迎晓   2011-4-20 05:43
先看了标题NLP,不知道是哪个行业的哪个东东,就没点进去。
看到加精了,就点进去看看,原来是在说自然语言处理。如果标题不用NLP会更吸引人,不过也可能你本来就想借用NLP的双关语把看你上一篇博文的读者引进来 

删除 回复 |赞[9]朱新亮   2011-4-19 22:55
原来搜索引擎就是这么骗过我们的啊。。。 哈哈  看来概率还是非常有用滴!!

删除 回复 |赞[8]huayuwujie   2011-4-19 21:44
评论李维的博文:《【立委科普:从产业角度说说NLP这个行当】》
游戏我不懂,也从来不玩。你说的这个,听上去趣味似乎不足,“就怕没人玩”。不过,话说回来,facebook里面那农场种菜的游戏,看上去多么无聊,不是也风靡全球么?不懂。
 博主的回复超级经典,copy

删除 回复 |赞[7]吕乃基   2011-4-19 16:17
是否可以这样理解,站在电脑和网络的立场上看人这个菜鸟,用不着做到十全十美,否则人消受不起。所谓人机界面友好还得考虑人,不要做过了头。
 回复  : 可以这么说吧。

就说Google吧,分析发现99%的客户99%的时候浏览不超过三页,大多数人只看第一页的结果。也就是说,虽然一个搜索完成以后,Google告诉你发现了500万个相关网页,并且帮你排好序等着你浏览。但实际的情况是,最大的精力应该放在第一页的结果上,后面的结果好坏对搜索产品的影响甚微,根本不能影响用户的接受度。

2011-4-19 17:221 楼(回复楼主)赞|回复

删除 回复 |赞[6]张婷婷   2011-4-19 14:28
   广告不带这么打的。。。话说03年NSA狂招了一批NLP...嘿嘿,您不会。。。

Watson做的大部分还是dissemination,query,和retrieval. 不知道他们的feedback learning做的怎样。
比如前几年在看人介绍的听说开车指路系统,有了耳朵和GPS等sensor的语言处理系统。
另一个很好玩的发展是消费品公司预测未来的客户需要的开发。
不过它在科技领域面临的问题不小,大部分科学文献context太多。而且科学进步就意味以前的很多文章会变成错误。

 回复  : “消费品公司预测未来的客户需要的开发”,正是我们所做的主打之一,在那里,了解why客户喜欢或不喜欢某种产品至关重要。科技文献检索方面的应用我们也做过,主要是帮助解决 how 的问题。至于文章的错误或者信息的过时,说到底是人的判断,机器最多可以帮助排一下序,比如把最新的文献信息排在前面。一个问题出来了,解决问题的答案分门别类给你列出来就完成使命了。根据这些信息做判断或决策,那是万物之灵自己的事儿。

2011-4-19 17:151 楼(回复楼主)赞|回复

删除 回复 |赞[5]苏晓路   2011-4-19 13:25
能不能详细说说你们怎么解决了三个难题,效果如何
 回复  : 以后看机会吧。在能展示效果之前,权且当做网上神侃吧,反正吹牛不上税,科学网亦不例外。

2011-4-19 17:071 楼(回复楼主)赞|回复

删除 回复 |赞[4]邱嘉文   2011-4-19 10:11
我设想了一个这样的文字游戏,李老师看看值不值得做一下,其实程序编起来很容易,就是怕没人玩,就懒得动手了。

网上任意三人随机组合形成一个游戏小组。轮流充当角色A,B,C参与游戏,三人之间除了通过游戏程序相互联络外,不可能存在其他相互联络的方式。
     1.A角色,通过游戏程序写给B角色一个词汇W1,告诉C角色词汇已经给出。
     2.B角色,收到A给出的词汇W1后,任意设想能够帮助C角色猜出该词汇的三个词汇E1,E2,E3,词汇中不能有和W1中相同的字,把这三个词汇发给C角色。
     3.C角色,收到B角色给出的E1,E2,E3之后,根据E1,E2,E3的提示,猜测W1是什么词汇,把猜测的结果W1'发给A和B.
     4.程序判断W1和W1'是否相同,如果相同,则程序请B角色给出三个词汇R1,R2,R3,分别用来描述E1,E2和E3与W1之间的关系。然后给A,B,C分别加2、8、4分奖励。程序用一个网络模型累积地记下结点E1,E2,E3分别通过三条边(关联源边)连到R1,R2,R3,再从R1,R2,R3分别通过另三条边(关联目标边)连结到W1的网,如果某边曾经经历过,则对该边的使用次数计数值进行累加。(Ei为关联源,Ri为关联桥,W为关联目标,累积下来,就形成一个以词汇为结点,以类关联关系之一是边的有向图)。
     5.自动轮流更换角色,原来的A当C,B当A,C当B.回到1继续,如果有人退出,自动从在线等玩的人中补充人担当此人角色继续。
     如果在线等待玩的人数达到3人,自动建立一个新的游戏小组,如此实现游戏小组的随机性和最大可持续性,每一个参与游戏的人都可以随时退出,随时再加入,但感觉不到小组成员在变化,定期对得分排行榜前十名进行实质奖励,以确保游戏的生存。

 回复  : 游戏我不懂,也从来不玩。你说的这个,听上去趣味似乎不足,“就怕没人玩”。不过,话说回来,facebook里面那农场种菜的游戏,看上去多么无聊,不是也风靡全球么?不懂。

2011-4-19 17:041 楼(回复楼主)赞|回复

删除 回复 |赞[3]邱嘉文   2011-4-19 09:42
对于搜索,我一直想不通,为什么不做一个“关联递进搜索”的算法呢?不是说,这世界上任何两个人之间,最多只要通过6个人就可以拉上关系吗?我推算一下:这地球上有人类历史以来,算5000年吧,算平均年龄60岁,有效交错认识时间10年,那么纵向有100个人就够认识任何年代的人了。然后在那个年代找6个人,就可以认识任何年代的任何人了。也就是说最多只要106人,全球所有曾今活着或正活着的人,就可以相互认识。

还是有点多,还是回到现代来吧:让我点6次鼠标就可以精确找到我想要的信息,还是可以让我很喜欢的。呵呵。

 回复  : 同志弟,点六次鼠标找到要找的答案,那是太落后了吧。对于90%的问题,平均点两次鼠标就应该可以找到答案应该是完全可以想象的。

2011-4-19 16:591 楼(回复楼主)赞|回复

删除 回复 |赞[2]邱嘉文   2011-4-19 09:32
看了半天,一头雾水。NLP原来可以是:自然语言处理。
这个NLP更有意思。

删除 回复 |赞[1]李维   2011-4-19 08:53
自顶一哈:不用谦虚,这个应该加精。也不枉我费了大半天的时辰。

《朝华午拾:“数小鸡”的日子》屏蔽留存

《朝华午拾:“数小鸡”的日子》

隐藏已有 2367 次阅读 2009-12-13 18:06 |个人分类:立委科普|系统分类:生活其它| 回忆录, 幻想, 轶事, 吹牛

这是一个很久远的动人故事,只是结局有些让人扫兴。说是一位爱幻想的村姑,左手一只老母鸡,右手一篮子鸡蛋,走在冰天雪地里。她开始幻想这些鸡蛋都孵出小鸡,小鸡长大又下更多的蛋,这些蛋再孵出更多的小鸡,直到她拥有了全世界。她正数小鸡数不过来,一不小心滑倒在地,鸡飞蛋打。
 
太太最近问我:“我们上次数小鸡是什么时候?你现在怎么不数了?” 我苦笑。经历太多的风雨跌宕,已经难有心情了,而且无论如何也超不过当年的想像力了。可太太说:我就爱听你数小鸡。是的,我们都很怀念以前数小鸡的日子。
 
那是20年前,改革开放初见成效,解放区的天是明朗的天。我硕士毕业留社科院,事业顺风,提前一年获得助理研究员职称,又巧遇太太,喜结良缘,新婚燕尔,生活温馨甜蜜(见《朝华午拾:爱情自白》,《朝华午拾:牵手》)。
 
导师成为老板,项目正要用人,自然百般呵护。除了不愿意让我出国外,其余一切均有照应,还主动介绍我到师母所在的中国音乐学院教授研究生英语,可以挣点外快。真是背靠大树好乘凉,免除了很多为分房职称而你争我斗的烦恼,没有后顾之忧,项目又能发挥专长,我当然一门心思扑在工作上。老板,太太和我皆大欢喜。
 
说起教英语,我当年的学生中名人可不少,皆因中国音乐学院是中国民族音乐的最高学府,能够攻读研究生的都不是等闲人物,甚至名冠中外的作曲家金湘(当时是作曲系主任,曾创作歌剧《原野》,华夏文摘当年为他出过专集,说他集古今中外之大成)也是我的编外学生。其他学生如今有的官至音乐学院副院长,有的是中国琵琶皇后,还有的被誉为某少数民族偶像级“夜莺”。最知名的当然是彭丽媛。平时聊起来,她对媒体恭维她是歌唱皇后或巨星什么的很不以为然,她 preferred 的称号是歌唱艺术家。其实彭丽媛一个学期也就能上5-6节课意思意思。就这样,常常她在上课,门外就有记者等着采访她。因为长期缺课,她实际上跟不上进度,但她到堂了,总不能晾在一边。所以,当我循环提问时,就找比较容易的给她,比如让她重复我的句子。让人惊异的是,无论句子多长,我说得多快,她都可以八九不离十的复述出来。有些句子显然她并不理解,看来她的音乐训练培养了她敏感的听觉。这样一学期下来,到期末我开始犯愁,怎样给这个特殊人物评分呢?跟学院教导处一商量,说特殊情况,特殊处理,你看着办吧。我体会的言下之意是,总不能不让她及格吧。音乐学院的公共外语虽然是研究生必修课程,毕竟不是他/她们 career 的重要内容。后来,我网开一面,期末给她单独出题,允许查词典,让她带回家做,第二天交来。她大概是熬了夜认真做的,可以看出是个很有天分的人,也确实花了功夫。里面存在一些低级错误,可以判断她是诚实的(其实她那样的地位请人代劳是很容易的)。看在她对这份试卷的认真态度上,我最终给了65分。
 
除了音乐学院代课,我还先后在社科院夜校和建国饭店讲授英语,学生有饭店招待,出租司机和社会上的三教九流。有些课太太也去听,她坐在后排,观察学生对我讲课的反应,回来跟我说,你就是纸糊马大嗓,没想到学生还挺服你。我当年年轻气盛,精力充沛,教英语不过是小打小闹,从来不认真备课,主要精力还是放在专业上。在年轻人中,我的成绩出类拔萃,在导师的支持下,我开始申请破格提拔副研究员。
 
太太是双倍开心,因为我不但专业上受到重用,前景光明,而且在经济上也比同类知识分子强很多。社科院名声在外,却是清水衙门,在那个年代,多数人就靠每个月百十来块钱的工资。而我总有外快,头两年教授英语,后来兼职在中关村公司,做技术转移,开发机器翻译的产品,兼职的收入比工资还高,更不用提还曾挣到外汇,一不留神一夜成了万元户(见《朝华午拾:一夜成为万元户》)。当年也没有去银行的习惯,挣来的工资和外快全是现金,就压在枕头下面。记得每次拿钱回来上交太太,太太总是把新钱跟老钱放在一起,然后细细数它三遍,无误后再放回枕头底下。我开始不理解,提醒太太只要把新挣来的钱数对就好,不用麻烦整个再数,还容易出错。太太笑而不答,我行我素,很enjoy的样子,我才明白原来数钱正是妙处所在。后来到海外很多年,起起落落,也有一贫如洗的日子,也有挣钱较多的时候,太太感叹道,银行是好,不管什么钱都直接入账,可再也没有以前数钱的乐趣了。
 
钱来得快,花得也快。当时我们在岳母家住,岳父母辛劳一辈子把四个孩子带大,三个送入大学,一个进了中专,个个都很有出息,在四合大院百多户人家成为美谈。可是,光靠老俩口的工资,勉强度日可以,大件是没有能力置办的。太太是四个孩子的老大,最先工作和结婚,自然当仁不让。百废俱兴,家庭基本建设正需要钱的时候。所以,厚厚一叠的票子,买个大冰箱,哗,下去了一多半。钱很快又长高了,岳父弄来一张很难得的彩电票,全家买台彩电热闹热闹,哗,又下去一截,如此反复。让太太特别得意的是,不管怎么花,这钱总会再涨回来。太太告诉我,还是你们研究所大姐那天说的对:不能找金山,因为总有坐吃山空的一天,要找就找立委这样的金钥匙。
 
当年工作真是刻苦,尽管社科院不需要坐班,而我差不多每天都在单位干到很晚,直到饥肠辘辘顶不下去了才骑自行车匆忙回家。一边骑车,一边想着岳母做的炸酱面、烙馅饼和其他家常美味(岳母和太太总是把我那一份留出来)。太太全力支持,对我晚回来从无怨言,可是看到我天黑未归,总是惦念。当年,整个大院才有一部传呼电话,很难互相沟通。很多时候,都是她等不及了,就出胡同去迎我,有时走出去好几条街也不见。好多次,我们俩走岔了,回到家,一看人没在,赶紧骑车回找。找到就带在车后回转,进入长长的胡同时,总是小俩口牵着手,一路聊着天回家,感觉温馨而浪漫。
 
岳母家在东城区鼓楼附近的老四合院里面。周末我们常常在胡同散步,一边胡吹乱侃地“数小鸡”。太太常说,连想都不敢想的人,还会有什么出息。她坚信我无所不能,总是鼓励我解放思想。我逐渐发现,无论我怎么海吹,她都很开心。而且吹得越神,她就越开心。不就是图个开心么,反正吹牛不用上税,又没有外人听见,所以我就可劲地吹。从茅盾故居门前过,我就说,赶明儿把这座保存完好的四合院揽下来吧。后来一商量,觉得茅盾的四合院毕竟太小家子气,家门口的乌兰夫府上倒挺大,可外观也太寒碜,围墙上还有铁丝网,跟个监狱似的。于是开始把眼光瞄向北海附近的郭沫若旧居和宋庆龄的宫殿。终于有一天,小鸡数到了我们当年能够想像的极限:“干脆把十里长安街包下来得了。”
 
太太问:“包括紫禁城和中南海么?”
我说:“当然”。
 

记于2006年九月一日劳动节前夕

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

http://blog.sciencenet.cn/blog-362400-278311.html

上一篇:《朝华午拾:我的考研经历》
下一篇:mirror - 镜兄絮叨故旧家常

 

3  武夷山 吕喆 蔣勁松

发表评论评论 (2 个评论)

删除 |赞[2]蔣勁松   2009-12-13 21:35
以前讀過,再讀還是覺得很好。

删除 |赞[1]李小文   2009-12-13 19:09
》包括紫禁城和中南海么?
作为立委,就不应该这么想,更不该这么说。影响两岸关系,后果有可能会很严重。:)

《朝华午拾:一夜成为万元户》 屏蔽留存

《朝华午拾:一夜成为万元户》

屏蔽已有 5199 次阅读 2009-12-13 18:11 |个人分类:立委科普|系统分类:人物纪事| 回忆录, 惊喜, 轶事, 万元户

我1986年硕士研究生毕业留语言研究所,受到导师器重,春风得意。除了组里的日常研究开发外,每个周末都泡在所里,干些自己感兴趣的项目,都与世界语(Esperanto)的研究和应用有关。第一个项目是把自己的硕士毕业设计从封闭系统转为开放系统。这是我用 BASIC 编写的一款从世界语自动翻译成汉语和英语的系统 E-Ch/A。麻雀虽小,五脏俱全,是当年少有的一个一对多系统,也算填写了“空白”。这项工作的直接结果有三。一是在演示后,受到德国控制论专家 Frank 教授激赏,除了决定在他的控制论杂志发表该系统的论文外,教授还写了长信,要资助我到他的实验室去继续开发这个系统(“我非常希望,北京的立委硕士能到德国工作数月以便使他的国际语到民族语的翻译程序能适应我们的需要”)。这本是一个千载难逢的出国机会,又不用考TOFEL, GRE和到处发信申请。当年出国热已经持续升温,而我和太太却浑然不觉,自得其乐。并没有把这次机会认真当回事,加上我的老板和导师刘教授巧妙劝阻,说要继续开发可以,让Frank教授出钱,承包到语言所来。知道自己走不成(觉得中途离开,跟导师面子抹不开),我就做顺水人情,把我的同事兼师兄乔毅介绍给 Frank 教授,成就了他的出国。研发世界语系统的第二个结果是,我发表在El Popola Chinio(中国报道)上的世界语语言学特点的粗浅论文引起了一个著名的西班牙教授 Juan Regulo 的注意。这位老先生是世界语界老前辈,在他的大学和城市威望极高,以他名字命名街道、广场等。正值他退休,学校决定给他出四大卷印制精美的专辑,表彰他的贡献。其中一卷是关于世界语学(Esperantologio)的论文专集,于是老先生邀请我在《中国报道》的论文基础上,扩展加工,单成一章。我文思泉涌,洋洋洒洒写了17页,有老先生来来回回多次校改修正,发表了我平生第一次的Book Chapter ” Lingvistikaj trajtoj de la lingvo internacia Esperanto”(发表时老先生已经过世,他的去世在国际世界语界引起很多纪念,老先生千古!)。 我的世界语活动的第三个结果,是使我一夜之间成了万元户。在那个年头,市场经济刚刚萌芽,开始出现了第一批市场经济催生的万元户,但与多数知识分子无关。我们这些助理研究员,每月工资100元左右,即便加上工余的兼课外快(我由导师和师母引荐,在中国音乐学院兼职教授研究生英语,每课时不到10块钱,还要备课和自理交通),做梦也不敢指望哪天成为万元户。

话说当年荷兰有一家软件公司 BSO,从政府申请到一笔科研资金,公司本身补足另一半,做一个以世界语为媒介语的分布式多语机器翻译项目 DLT。五年下来,成绩斐然,开发了一个很像样的原型系统(但是分布式翻译的设想有点超越时代,最终没有找到后续资金去做商业开发)。为了对多语言机器翻译做可行性研究,BSO 要求按照一个统一的依存关系句法的理论框架,对十几种主要语言编写形式句法,用来支持媒介语和自然语言的相互转换。他们看到我在世界语机器翻译上有研究,于是请我承包汉语的依存句法的编写项目。也算他们找对了人,我周末日以继夜,努力工作五六个月,编写了一部比较完整的汉语形式句法-现代汉语依存关系句法(A Dependency Syntax of Contemporary Chinese),给他们交活,极受欣赏。他们先给了我1000荷兰盾的支票作为报酬,于是拿到中国银行托收。大概是荷兰太遥远,需要通过多次银行间的中转,结果三个月了,钱还收不到,我就写信抱怨。过了一周,突然接到中国银行通知,让我去取一笔电汇。我跟太太去王府井中国银行,惊奇地发现在我的名下有1000美元汇款。拿到这笔折合人民币约万元的“巨款”,当时没有顾上高兴,一路走一路嘀咕,难道钱真可以从天上掉下来。太太甚至坚持这肯定是搞错了,说要回去把不义之财退还。第二天接到荷兰公司的信,才明白是他们电汇的,作为对我的工作的额外奖赏,同时对支票不能及时兑现致歉(后来还是兑现了)。汉语是主要语言,我承包的项目对于他们的多语研究和寻找后续资金意义重大。后来乘我1989年去德国开机器翻译高峰会议,他们还特地邀请我和我的导师去他们实验室访问一周,进一步探讨汉语用于多语机器翻译的一些问题。

我跟太太开玩笑:“你不是说不义之财要退还么?” 太太感觉一夜之间成了“万元婆”,又是正当收入,甭提有多开心了。接下去好几周,她一个人逛遍了北京城的首饰店,仔细观赏品味各种首饰,但并没有购买。后来,太太告诉我,尽管只是 window shopping, 也很开心,因为以前想去看首饰,囊中羞涩,不好意思进去。如今成了万元婆,感觉好极了:我可以不买(当然还是舍不得),不是我买不起。太太对首饰的爱好就此培养出来,各种宝石如数家珍,平生最大梦想是做宝石生意,成为宝石鉴赏家。后来乘访问荷兰公司之机,在阿姆斯特丹的珠宝大街左看右看,终于咬牙,花了100多美元,给太太买了一枚红宝石戒指(我的导师也跟我一样,给师母买了一枚钻石戒指),她珍藏至今。后来太太笑着告诉我,经济上我是绝对被宰了,那么一点大的红宝石嵌在12k金的戒指上,无论在国内还是国外市场,也就值20美金左右。我一辈子挨宰次数很多,没有少受太太奚落,可这次做冤大头,反倒成了光荣业绩。

06.03.29

~~~~~~~
附录 Frank 教授的长信的译文:

尊敬的同事:

这封通函除了给您以外,我还寄送给信尾列出的其他中国同事.我在贵国
逗留期间就关于教育控制论和语言控制论的研究和发展问题方面的合作与这些
同事交换了意见.前天我在汉诺威详细地谈了为这种合作取得足够的经济资助
的可能性.结果形势很好,如果该项目的提议可以在今年十一月提交的话,可
望在1987年二月得到肯定答复,四月取得第一笔钱.

我想提出两项建议:
1) "中德教育控制论工作领域的合作".取得的资助将用于:1.请
广州(师范大学),上海(师范大学)和北京(师范大学和/或中国科学院管
理干部学院和/或中国社会科学院语言应用研究所)的科学家到我们研究所工
作几个月(5-16个月)(到德国的往返机票应由中方负担);2.配置必
要的设备材料(这些设备合作者最后可以作为本单位的财产带回中国);3.
(较少的部分)作为必要的德语工作者的支出.
2) "中德教育控制论和语言控制论工作会议".取得的资助用于:1
.4-6名中国科学家在1987年九月来德参加为期1-2周的工作会议的
机票和逗留费用;2.4-6名德国科学家可能在1989年春季(需要的话
也可安排在1988年)来中国参加第二期工作会议的机票钱(希望中方能承
担逗留期间费用).
根据我将要做出的提议(该提议已经取得口头同意),其目的是:
1a) 基于在很大程度上我们这儿已经现存的材料,进一步发展用中文
和国际语的有关教育控制论的图书形式的,视听和计算机辅助形式的教学材料
,包括语言(国际语,汉字)入门班,以便将来在中国应用.
1b) 基于(1a)取得的成果实现教学效率的比较性测量.
1c) 在中国实现关于在小学进行语言教学的学校实验,以便测量由于
后来学习英语(或俄语一一如可能的话还有德语)而导致的语言学习的容易度
,进一步发展在我们研究所指导下我们在欧洲所做的关于在3年级和4年级进
行国际语教学的效果的研究和理论.
2) 实现运用国际语举行高水平的中德专家学术会议,以便促进科学合
作并出书汇集这方面的成果(附德语和汉语摘要).

北京和广洲的师范大学的AN Wenzhu和FENG Zhengy
uan同事已经了解了我的(德语的)暂时的上述第一项提议,这项提议正是
我前天交谈的基础,到十一月下旬我必须根据所收到的汉诺威方面的意见和您
的建议对该提议作一些修正.如果您准备合作(整个计划只有在至少一个中国
单位一一科系或研究所一一参加并提供必要的信息的情况下才真正可行),我
应该加上贵方的信息.所索取的信息是对下列问题的回答:
1) 您可能参加的项目的中文题目(同时请译成国际语)是什么?这个
题目应该适于向您的上司呈报信息,并且表达出您将参与整个第一项项目中的
哪一部分,如果您只对该项目的部分感兴趣的话.
2) 对于您可以实现的项目,无论是(a)在中国本身,作为贵单位的
贡献,还是(b)按照您的希望由您或您的代理人在我们研究所的逗留期间去
做,其目标应是什么?您现在已经可以作出怎样的工作计划或设想(包括所需
时间)?
3) 按照您的预计需要多少钱(包括召开学术会议,旅费,以及在中国
由您指导将要做的实验等等开支)?其中贵方本身可以负担多少?需要哪些物
质上的帮助(譬如录有教学程序的视听磁带材料,需要的话还有其他的仪器设
备等)?(这些设备材料预计大约需要多少钱?)
4) 一般地说,贵单位的任务是什么?人员,科室,仪器设备各有多少?
5) 贵单位有哪些科学家可能参加?他们的姓名,在贵所的职务和专业
情况.他们中哪些可能来我所工作几个月?哪些将参加所提议的第二个项目(
当然工作会议在内容上应与第一个项目相适应).对于每一位将参加合作的科
学家,我们还需要几行科学研究简历和所发表的科学著述的清单(按照发表时
的语言一一显然最可能就是汉语或英语一一列出著述的题目,尽可能也把题目
翻译成国际语置于括号中).

关于来德合作的中国科学家的语言知识,我无法使人同意完全放弃对其德
语的要求(这只有在纯粹的自然科学和技术的合作项目中才有可能达到),但
是我们的下述要求取得了同意,即前来与我们进行几个月合作的中国科学家只
需具备足够基本的德语知识(借助词典能大致看懂一张便条或简单的专业文章
),但是他必须具有很好的国际语知识(能用国际语参加专业讨论,能够一一
当然借助于世界语插图大词典PIV或其他语言工具书一一用国际语撰写学术
论文).如果相反,该科学家有非常好的德语知识,其国际语知识稍差一些也
无妨(能阅读,而且一一虽然很不熟练一一也能写和说).至于参加我们的工
作会议的人(会议当然是用国际语),只要有很好的国际语知识和一点关于德
语的概念就足够了.(对于我们的教育控制论和语言控制论项目,英语知识当
然并不重要.)

取得这笔钱的条件是,需有青年中国科学家参加.我非常希望,北京的李
维硕士能到德国工作数月以便使他的国际语到民族语的翻译程序能适应我们的
需要.除了他,我在汉诺威磋商时还提不出已经有具体印象的其他具有极好的
国际语知识的青年科学家.说到有极好的德语知识并具备迅速学会国际语的才
能这一点,我倒想到一位上海讲师,她大约30岁,参加了我在那儿所做的一
次讲演,后来跟我用德语讨论了问题.在汉诺威有人告诉我,这可能是古慧民
(GU Hui-ming)女士.

如果您能参加合作项目并为此为贵单位就前面的问题作出回答,我就太高
兴了.

此致敬礼!

寄: 陈原教授/GU Yijan/Men Guang-bin/欧阳文
道/北京师范大学教育系主任/WAN Jiaruo教授/LI Yunl
in教授/LI Kedong

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-278312.html

上一篇:《朝华午拾:我的考研经历》
下一篇:mirror - 镜兄絮叨故旧家常

 

7  武夷山 吴飞鹏 杨秀海 吕喆 魏东平 蔣勁松 饶海

发表评论评论 (1 个评论)

删除 |赞[1]吕喆   2009-12-14 09:05
想发财,就应该做有用的东西。

《朝华午拾:欧洲之行》 屏蔽留存

《朝华午拾:欧洲之行》

屏蔽已有 4885 次阅读 2009-12-16 10:09 |个人分类:立委科普|系统分类:生活其它

1989年夏天,我和导师去德国慕尼黑应参加第二次国际机器翻译最高级会议。此前,我跟荷兰BSO(Buro voor Systeemontwikkeling BV)公司的机器翻译研究组一直有联络,应约为他们的以世界语作为媒介语的多语机器翻译系统 DLT,编写了一部现代汉语依从关系的形式句法。他们听说我们要来欧洲,就邀请我和我的导师,还有中国机器翻译界知名人物董老师,会后顺道访问他们的实验室一周,做学术交流,共同讨论汉语句法里的一些疑难问题。这次活动,他们称作 Chinese Week.

我们是应慕尼黑机器翻译峰会的召集人,西门子公司的S先生特邀,提交论文,介绍我们的JFY英汉系统。这是我第一次出国,一切陌生而新鲜。大会在大酒店的拱圆形讲演大厅举行,气派豪华。我的导师是俄语出身,所以派我上台宣讲论文。初生牛犊不怯场,我报告完后,回答了两个问题下场,正赶上中场休息时间。大概东方面孔的报告人很少,慕尼黑电台的记者现场采访了我,询问我的观感,还好没有涉及64的问题(当时64刚过,风声很紧,我们办到一半的出国手续,又重新审查一遍,险些泡汤)。

大会以后,我们乘火车沿莱茵河往阿姆斯特丹,一路风景如画,赏心悦目。河岸高地上屹立着一座座中世纪古城堡,引人遐想。我们在大学城 Karlsruhe 停留两天,访问两个刚认识的电脑专业的留学生。德国小城的整洁优美、绿地成片和德国人的彬彬有礼给我留下很好的印象。当时感到不解的是,为什么这样一个小城也有一条红灯街,而且就在大学生宿舍楼门前。后来到了号称世界“性都”的阿姆斯特丹才明白,这是小巫见大巫了。当时,本室同事傅大姐正在阿姆斯特丹进修,她请了一位留学生带领我们参观举世闻名的红灯区。这是来阿姆斯特丹的人必游项目之一,对荷兰旅游业很重要(几个月前,报载争议已久的阿姆斯特丹红灯区终于关门大吉)。

运河边的红灯区好像台北的夜市和北京的庙会,熙熙攘攘,热闹非凡。见到有导游打着小旗,带领一队队游客。不时有骑着摩托的警察穿过。红灯区占据了运河边纵横七八条大街,沿街的房子,有一串串布置得很讲究的橱窗,每个橱窗里面有身着三点式的小姐坐台亮相。妓女有各种肤色和体态,有的小巧,有的肥硕,大部分都不好看,甚至倒胃口,但一律打扮得光鲜妖艳。第一次来参观的游客,不大敢正眼看妓女,因为她们总盯着游客频抛媚眼。我们的导游同学显然是老油条了,一路跟这些妓女打招呼,送飞吻,你来我往,但并不进门。看到一位日本人好像在门口讨价还价,等再回头时,这位买春客已经登堂入室,橱窗的帘子也拉上了,表示正在营业。不过,多数橱窗是没有业务的,毕竟众目睽睽之下招徕买春客似乎不是好的商业模式。我怀疑她们也许有政府旅游局的补贴,否则怎么可能经营下去。红灯区还有很多性商店和录象馆。走进一家商店,满目都是各式各色的硕大的性器官模型,吓得我赶紧逃离。

游览阿姆斯特丹后,我们按计划去Utrecht的BSO公司访问一周。DLT 项目研究组十几个人,一半是语言学家,一半是工程师,看得出来,这是个气氛融洽的团队。德国世界语者 Klaus Schubert 博士是系统枢纽“依存关系句法”(dependency grammar)的设计人,在项目第二阶段继 Witkam 成为项目组长。71届大会后招进来的美国世界语者 Dan Maxwell 博士,负责东方语言的句法项目的承包、质询和验收,是我的直接领导(十年河东,十年河西,后来我成为他的 boss,这是后话,见《朝华午拾:水牛风云》)。Dan一看就是老实人,照顾我们客人殷勤有加。我看到他早上骑自行车来上班,笑着跟他说:“我在北京上班跟你一样”。

研究组的骨干还有国际世界语协会的财务总监,知名英国籍世界语者 Victor Sadler 博士,我在71届国际世界语大会上跟他认识。作为高级研究员,他刚刚完成一项研究,利用 parsed (自动语法分析)过的双语对照的语料库(BKB, or Bilingual Knowledge Base)的统计信息,匹配大小各异的翻译单位(translation unit)进行自动翻译,这一项原创性研究比后来流行的同类研究早了5-10年。显然,大家都看好这一新的进展,作为重点向我们推介。整个访问的中心主题,仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人,预备下一步大规模的商业开发,汉语作为不同语系的重要语言,其可行性研究对于寻找投资意义重大。

期间,Victor以世界语朋友身份,请我到他家吃晚饭。他住在离公司不远的一栋公寓里,太太来开门,先跟丈夫轻吻,然后招呼我进来。太太也是世界语者,忘了哪国人了,总之是个典型的世界语之家,家庭用语是世界语。Victor告诉我,太太实际上会一些英语,但是用英语对她不公平啊。太太很和善,跟我说,他们俩非常平等,她做饭,Victor洗碗。我说,这跟我家的分工一样,我最爱洗碗这种简单劳动。她笑着说,“Victor, vi havas helpanton hodiau (你今天有帮手了)”。饭后Victor洗碗,并没有让我插手,我站在旁边陪他聊天,一边看他倒进大把的洗涤液,满是泡沫把餐具拿出来,用干布擦
干。我告诉他们,这跟我的做法不同,我们总是怀疑化学制品有毒或副作用,最后必须用清水涮净才好。太太不解地问:“洗涤液如果有毒,厂家怎么能生产呢?” 这倒把我问住了。Victor夫妇和蔼可亲,我感觉在老朋友家一样,饭后一边吃甜点和水果,一边闲聊,尽兴而归。

记于2006年6月21日

立委《我的世界语国》入《世运人物志》

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-278995.html

上一篇:《朝华午拾:与白衣天使擦肩而过》
下一篇:mirror - “知识改变命运”的前提条件的“误区”

 

1  饶海

《立委科普:语素、汉字、单词以及音译意译》 屏蔽留存

《立委科普:语素、汉字、单词以及音译意译》

屏蔽已有 2766 次阅读 2010-1-27 03:53 |个人分类:立委科普|系统分类:科普集锦| 汉字, 汉语, 语言学, 语素

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《立委随笔:语素、汉字、单词以及音译意译》
Posted by: 立委
Date: April 22, 2007 09:24AM

这个题目似乎很多人感兴趣,也存在很多误解,做点语言学的科普吧。

由于对语言学基本概念语素(morpheme,也叫词素)的不了解,很多人拿汉字和西语的词比较,这是不科学的,等于拿苹果跟樱桃比较。语素是语言中音义结合的最小单位,是词法(morphology,也叫形态学)分析的起点,而词是词法分析的终点,同时也是句法(syntax)分析的起点(基本单位/最小单位)。汉字大体对应于语素(即 morpheme, 有例外,比如“葡萄”中的“葡”和“萄”,以及音译词如“沙发”中的“沙”和“发”,这些字就不是独立的语素,但总体而言汉字和语素的吻合度很高),可英文单词是等于或者大于语素的单位(否则就没有morphology了)。所以,不能这样比较。正确的比较是用现代汉语词典中的词条数目,跟英文词典的词条数比较,就没有那么悬殊了。

英文的语素包括词根,前缀(pre-,non-,anti-),后缀(-ize,-er, 也包括语法后缀,如-s, -ed, -ing)。比如:

read-abil-ity/in-comprehens-ible/ir-regular-ity/relat-ed-ness 是一个单词(派生词),3个语素,相当于汉语中的三字词。

是不是学会2000汉字,就基本掌握汉语词汇(vocabulary)学会汉语了呢?显然不是。因为由字成词并不一定具有semantic compositionality(语义组合性,因为很多合成词语义上只是半透明的,甚至是不透明的黑箱), 也就是说,一个单词的意义并不总是语素的简单相加,1+1并不总等于2。多字词(现代汉语词汇主要是双语素词,表现在书面语就是双字词)也还需要一定的死记。比如,“语素”这个词,并不因为你认识“语”和“素”两个汉字,而自然理解,否则汉语只需要一本小字典就够用了,没有必要编纂汉语大词典和众多的专业词典。再举一例,我女儿汉字学得很快,但是让她独立阅读中文论坛就很困难,很多字认识了,可还是不明白讲什么,因为她不认识有些多字词,她的字汇量够了,可词汇量不够。

当然,相对于英语而言,现代汉语的词汇大多是多语素词,而不是由词根独立成词为主,这就给人一种不陌生的印象。即便遇到新词,由于语素构词的半透明性质,加上上下文,理解起来,也可能八九不离十。从这个意义上,学汉语比学英语,词汇的记忆负担确实减轻了一些。

最后说一个有关的议题:外来词(比如laser)的意译(比如“激光”)和音译(比如“雷射”)问题。从语素分析的角度,意译实际上是利用汉字的语素性质创构多语素新词,而音译就是利用汉字的音节性质构成单语素多字词(多音节词)。两种方法各有利弊:意译词一定程度减轻了记忆负担,让人似曾相识。这个优点同时也是缺点,常常导致望文生义,“秀才识字认半边”,给不求甚解者开了绿灯。权衡利弊,一般而言,对于需要精确定义的专业术语,音译(或者不译,直接用原文)比意译要好,可以避免误解。但是对于已经进入大众生活的外来新词,意译比音译好一些。

感谢小日本,很多现代汉语意译词汇(现在大多已经进入大众词汇),是由他们先行利用汉字语素创造合成,然后我们拿来就用的,节省了我们的先辈翻译家“一名之立,旬月踟躇”的麻烦,也避免了现代汉语蜕变成中西混杂的怪物,试比较下列文字:

(1) 俱乐部已经邀请名讲师来举办青少年生理和心理健康的讲座,这是本俱乐部青春期性教育的重头戏。

(2) 克辣布已经邀请名莱克切入举办青少年菲锐澳勒基和塞靠勒基的莱克切,这是本克辣布青春期塞克司爱纠开心的重头戏。

——– 立委名言:一名之立,三月踟蹰。近代日本先我拥抱西方,至少从立名而言,我们是占了便宜的。

~~~~~~~~~~~~~

ZT: 忍不住到隔壁插了一句 (16228)
Posted by: liwei999
Date: July 26, 2006 05:35AM

前几天看到江老弟在黑暗中摸索,想用汉字表达他琢磨出来的语素的概念,就想好为人师一下。想还是等别的语言学家出来给他点拨一下吧。结果没有。质疑他汉字说的人,逼迫他重新修正概念,提出了近似语素的基本概念。

隔行如隔山,聪明人往往喜欢琢磨其他专业的事情。但必须承认,再聪明,这样做也基本是徒劳。这是个很有意思的过程。

关于汉字拼音化(修正稿,放弃广义汉字说法)
大脑思维时,虽然表现出来像是以语音进行,但实质上是一种意识流;此意识流由某种意识元素组成。意识元素,从物理上说,表现为大脑神经网链;这些神经网链体现出意识内容、发音以及文字之间的联系。对于西语,意识元素对应于word;对于汉语,意识元素对应于字(一个汉字相当于英文小word)和词所表达的概念。下面主要讨论汉语的情况。
意识元素的三要素(意识内容、发音以及书写文字)中,意识内容是最重要的。

声音虽然是语言的一大载体,但思维并不就一定是声音流。比如对于先天聋人来说,思维纯粹就和声音无关。

再比如,当你脑子里想“可疑”二字时,你清清楚楚知道是“可疑”而不是“可移”;也就是说,思维是在用“意识元素”进行,只是一般感觉上表现出语音形式。

汉语在脑中的意识元素常常是“图声并茂”,其中图只是存图的特征信息,人脑并不存图的全部。

人们学汉字时,实质上是在建立一个从这个意识元素到字形的映射库;学拼音时,则是在建立从意识元素到混淆了同音字的拼音这种映射库。

1。汉语意识元素的图表示即汉字的书写形式。显然,其与汉字一一对应。
2。汉语意识元素的声表示即拼音。显然,汉字意识元素表达为拼音时,混淆了大量同音字;属于多对一的对应关系。

以上两点为汉语构成的两个基本特点。

(在目前汉语拼音方案基础上的)汉语拼音化实质上是把汉语用一种不精确的方式表达,可读性大为下降。

江毅

语言学上,这是个基本概念,叫morpheme
所有跟贴·加跟贴·新语丝读书论坛
送交者: liwei999999 于 2006-07-26, 04:41:11:

翻译成词素或者语素,它是语言中音义结合的最小单位。关于morpheme的理论和实践,有很多定论了。
不过还是很佩服你在显然没有怎么接触语言学的情况下,独立琢磨出近似语言学里面的概念和理论。不过,大多是重复劳动,用词不同而已。

你的思路是对的(但在语言学中是常识,Course 101一级),开始用汉字作为你思维成果的载体,虽有缺陷(所以你不得不放弃),也不无道理。

在古汉语,汉字、音节和语素有很大的重合面。最科学的概念,能够适应人类所有语言的概念,还是语素。研究语素构词的学问叫morphology (研究由词构句的学问叫 syntax)。

 

http://blog.sciencenet.cn/blog-362400-289131.html

上一篇:《立委随笔:名校情结 (续)》
下一篇:《立委随笔:怎样组建团队创业?》

 
 

收藏

[转载]ZT:差太远了:关于美国留学的28个误传 屏蔽留存

[转载]ZT:差太远了:关于美国留学的28个误传

屏蔽已有 2447 次阅读 2010-4-12 14:57 |个人分类:留学资讯|系统分类:海外观察| 美国留学, 误传 |文章来源:转载

立委按:朋友转给我这个,看了一下,觉得有理。录此作为留学资料之一种。

1.没听说过的大学一定不是好大学

  答案:不是事实。美国有很多大学,有的大学曝光率比较高,例如排行榜、体育比赛等,所以这些大学常被人们所熟知。但也有很多大学,学术非常优秀,由于曝光率不高,人们对它的了解相对少些,既便如此,这些大学仍然是好大学。

  2.大学排行榜是选校的依据

  答案:不是事实。只有46%的美国大学回答了U.S.News & WorldReport的排行榜的问题,很多美国大学并不参与这个排行榜。

  3.大学申请越早提交越好

  答案:不是事实。大多数美国大学并不考虑学生递交申请的早晚,申请只要在截止日期前到达学校就可以,但是及早做好准备,有助于大学申请的完善。

  4.分数高比选难的课程强

  答案:不是事实。选择有挑战性的课程并且通过,意味着你可以胜任大学的课程,在申请竞争性强的大学时,AP课程将有助于申请成功。

  5.少数族裔学生的录取机会大

  答案:不是事实。事实上少数族裔学生并无明显的录取优势,然而许多少数族裔学生讲述自己如何克服族裔困难并取得的成功的申请文,令录取老师印象深刻。

  6.校友子弟的录取机会大

  答案:不是事实。校友子弟的录取机会,依具体的学校而定,不同的学校校友政策不同,同一学校录取机会也与父母的捐赠密切相关,学校不是对所有的校友都是一视同仁的。

  7.体育明星大学免费

  答案:不是事实。大学每年都录取很多体育明星,由于学校经费有限,体育明星的奖学金竞争激烈,所以体育明星绝不是大学的免费凭证,大学除了看重体育特长外,还同时注重明星的学习成绩。

  8.只有最优秀的学生才能获得资助

  答案:不是事实。美国大学一旦录取学生,一般都会协助学生解决费用方面的难题,学校会在赠款、奖学金、贷款等多方面提出综合建议和方案,资助与学生是否优秀无关,但是,奖学金(不同于资助)的确与学生的优秀程度有关。

  9.公立学校比私立学校便宜

  答案:不是事实。只看学校的收费标价,公立学校看起来比私立学校便宜,但是很多私立学校给学生较多的资助,所以综合来看,公立学校不一定比私立学校便宜。

  10.被录取后参观学校

  答案:不是事实。申请学校是一个复杂的过程,如果录取后看学校发现所申请的学校并不适合自己,那么很多申请工作就浪费了,最好是能在申请前和申请后都参观一下学校,因为这毕竟是人生的重要决定。

  11.入学前要选好主修

  答案:不是事实。学生对自己喜欢的方向有所了解是正确的,这有助于寻找到理想的大学。但大学一般要求学生在2年级末才选择主修,大学的前两年学习,使学生有充足的时间,来选择自己意向的主攻方向。

  12.选择大学前要决定职业

  答案:不是事实。大学是学生探索的阶段,不要轻易做出职业决定,很多学生在毕业后的职业与主修并没有什么联系。

  13.工作、收入与大学密切相关

  答案:不是事实。大学学习对学生寻找工作有帮助,但大学并不是职业培训基地,大学不保证学生就业,而且学生毕业后的工作收入,与大学本身并无直接关系。

  14.如果你的室友自杀了,你会得到较多的A

  答案:不是事实。误传来自电影《Dead Man onCampus》

  15.最好的朋友绝不要住在一起

  答案:不是事实。真正的答案完全取决于你自己和你的朋友,如果你和你的朋友一时都拿不准确切的答案,那么不妨尝试一下,和你的朋友住在同一楼层或宿舍楼,这样各自都有回旋的空间。

  16.到了大学就不会想家了

  答案:不是事实。事实上很多学生到了大学后更加想家,想念父母、兄弟姐妹和家乡的食物。

  17.远距离的友谊会有很大的帮助

  答案:不是事实。在大学读书最好不要花整晚的时间与家人或朋友通电话,尽量多余身边的同学交往,在远处的亲朋好友常常不如身边的同学老师更容易了解你的实际情况,身边人的帮助会来得更快也更有效果。

  18.大学新生的体重都会增加

  答案:不是事实。在大学里确实有新生增加15磅的传统说法,这一现象主要发生在男生身上的较多,很多男生入学的年龄正好是身体“长胖”的时候,所以很多学生就误传“大学新生体重都会增加”。

  19.盟春藤学校都是富家子弟

  答案:不是事实。很多盟春藤的学生家境并不富裕,但他们都是极其聪明的学生,盟春藤大学对许多学生给予全额资助。所以不要因为家里的经济情况不理想,就轻易放弃申请盟春藤学校。如果你认为自己足够优秀,不妨尝试一下盟春藤,可能你会发现,一但被录取,所花费用可能比公立学校还便宜。

  20.盟春藤学校都很贵

  答案:不是事实。盟春藤学校贵是人们的误解,好货不便宜在这里行不通,事实上,盟春藤学校的收费是合理的,物超所值的,哈佛在全美国大学最贵大学排名中仅列第118名,另外,盟春藤学校的资助,相对来说也比其他大学优厚。

  21.Party大学学生不会好好学习

  答案:不是事实。大学里的很多party是非常有益的,同学们通过party可以相互认识与了解,在学习生活中互相帮助。但也有一些party的确是浪费时间,大学期间要敢于对一些party说“不”。

  22.大学是人生中最美好的时光

  答案:不是事实。大学生活是艰苦的,在大学里你要认清楚你是谁,将来要做什么,在大学的每一分钟你都要花费的,大学生活仅仅是你以后新生活的基础和起步阶段。

  23.大学与中学相差不大

  答案:不是事实。美国大学与中学相差甚远,大学是学生独立生活的开始,老师不会告诉你该做什么或应该去做什么。

  24.美国大学需要读4年

  答案:不是事实。在美国只有1/3的学生会在4年内完成本科学业,大约有一般的学生需要6年的时间才能完成大学本科。如果你想在4年时间完成学业,最好在事情前搞清楚该大学的毕业率,在美国学生花5年时间取得本科学位是非常普遍的现象。

  25.拿好分比选难的课好

  答案:不是事实。大学阶段的GPA固然重要,但学到真正有用的课程比拿高分更主要,虽然有些课程是比较难学的。

  26.课外活动越多越好

  答案:不是事实。在大学阶段课外活动并不一定越多越好,选择少而精的课外活动是比较明智的做法。美国大学阶段课程已经很繁忙了,所以在选择活动时应重质不重量。

  27.大学学位是理想工作的保证

  答案:不是事实。很多学生由于毕业时缺乏实际工作经验,而不能得到较理想的工作,所以很多大学生在校期间就开始实习工作,期望获得竞争优势。

  28.主修决定了未来的职业

  答案:不是事实。许多大学生毕业后的工作与主修关系不大,许多工作是大学主修所不能包括的,所以职业的选择与主修有联系,但不是绝对的关系。

http://news.creaders.net/immigration/newsViewer.php?nid=427056&id=973760

http://blog.sciencenet.cn/blog-362400-311279.html

上一篇:《甜甜花絮:Practice Makes Perfect》
下一篇:《方府艺术收藏鉴赏幻灯成形记》

 

1  杨正瓴

[转载]ZT: 流落海外的中国精英 几乎就是一部苦难史 屏蔽留存

[转载]ZT: 流落海外的中国精英 几乎就是一部苦难史

屏蔽已有 2477 次阅读 2011-10-12 19:03 |个人分类:留学资讯|系统分类:生活其它| 留学生 |文章来源:转载


立委按:作者说话有些极端,但确实从一个侧面反映了海外留学生艰辛的人生之路。所述现象是比较现实的。 转载到《留学资讯》专栏来。

-------------------------------------------------------------------------------- 

2008-11-20 10:44:04 

流落海外的前中国精英,尤其是生物系的毕业生,几乎集中了人类自出现以来的一切苦难史。 

常年单调,重复,无聊的低端体力脑力劳动,洗瓶子,高温消毒,配制溶液,给成千上万个管子里加样,喂老鼠,杀耗子,伺候细菌,需要对detail有非常集中的注意力与超人的短期记忆力,还需要平行进行多项任务的统筹安排能力,跟个陀螺一样奔走于实验室的楼层里,象餐馆里端盘子的侍者,或者大厨,好处是不会长IT一族令人羞耻的啤酒肚,坏处是下班以后身心俱疲,倒在床上象跟木头。而白天动了一天脑子写程序的IT人,至少身体还是有些过剩精力需要在球场上发泄一下的。 

有个师兄说的好,中国人里面,没有什么人真正对研究感兴趣的,埋头于Research and lab work,本身就是对生活中许多需要直面的问题的一种自我摧残式的回避。多年未见的,曾经在北大里气吞万里如虎的少年,如今目光呆滞, 衣着古怪,面有菜色,当年的理想已经不再提起。 

当年冰雪聪明的,周旋于男生中的系花美少女,曾经以工于心计,善于出没于社交场合闻名于北大。而今也被长年的实验室生活与米国中部小镇封闭简单的社会生活所残害阻滞, 于公共场合两眼在天花板,桌面与人群中躲闪扫射, 仿佛刚从农村进城打工的妹子,没见过世面。 

牛人当然有,可是一将成名万骨枯,哪些穷的连孩子都不敢生的大把80年代就入学北大的博士后们,恐怕远远多于迷漫着智慧与灵气的北大出身的教授们。 

持续3年的经济危机,沉重的打击了美国。从事生命科学研究的中国博士与博士猴们,命运也戏剧性的出现了转机。当年风光无限的IT人,做到头也就是公司里最危险的最容易被裁的中层管理人员,年薪8-15万不等,35-45岁被裁,年轻力壮的岁月已过,家里上有老下有小,房子车子正在供,象巨大的吸血机器,依附在人到中年的已经出现各种劳损的肌体上。 

过河拆桥的美国公司不仅把你们一脚踢开,而且也不愿意招这些高不成低不就的中年IT人。于是灰溜溜卖掉在湾区,大波士顿地区的房子,租个Uhaul向美国中部或者加拿大进发,寻找便宜的住房与可能的机会。家破人亡,妻离子散的活局在不断上演,极端的例子就是夫妻二人拔枪互射。还好,这次老赵没有杀自己的老婆孩子。详细情况请见:直播:硅谷Jing Wu因被裁杀三同事 

此时女人们的目光眇上了这些她们从前都注意不到的博士们, 至少他们办绿卡快, 身价可能会随着年龄不断增长,尤其是30岁之前拿到博士的男生, 更加是受人青睐。 

人在北美, 于夹缝中求生存, 中国千百年的古训“嫁汉嫁汉, 穿衣吃饭” 变得更加生动,淋漓,直白与无奈。北大人接受的理想主义,英雄主义的教育,与生俱来的豪情壮志与跟现实之间的反差让北大人在北美的生存相比起其他所谓“烂校”毕业的,不仅不具备什么优势,有时反而更加的成为掣肘的因素。 

胡乱罗嗦两句, 洗洗睡了, 希望不要打扰大家的周末的心情。平步青云的,为你们高兴,也不比砰。混得灰头土脸的也不必骂街,人生就象玩麻将,小屁和就不必和了,年轻时候的小钱也不必计较, 三十年河东,三十年河西,猛的和一把大的,连本带利都回来了, 吃得喝得都有了。 

说得多了,实际的意思是大家没有必要在美国这么干耗自己的青春年华,仰天大笑出门去,从此投军从戎,回到中国多快好省建设社会主义也不错,兴许还能和一把大的,比自己在北美30岁就可以看到自己60岁是什么样子好得多,无非就是住House跟Condo的区别,开大奔与开Focus的区别,别人儿子女儿上哈佛耶鲁,自己的孩子因为学区不好只能上个洋野鸡,其实说白了有什么区别,都是一嘴听着巨恶的ABC英文,中国人不是中国人,洋人不是洋人的怪物,而且大部分都有心理阴影,对自己的root and identity怀疑。特别是男孩子, 在学校受很多欺负,精神上就是一侏儒,搞不好成为新的VT小赵。

http://blog.sciencenet.cn/blog-362400-496087.html

上一篇:留学问题: 本科还是研究生?
下一篇:《朝华点滴:千年的铁树开了花》

 

4  施泽明 肖重发 徐迎晓 dunkelblau

【留学资讯:北美移民、学位与职业前景杂议】 屏蔽留存

【留学资讯:北美移民、学位与职业前景杂议】

屏蔽已有 5322 次阅读 2013-6-29 03:23 |个人分类:留学资讯|系统分类:海外观察| 职业, 留学, 移民, 学位, 资讯

限于知识面的局限,我对很多行业不了解,最多是雾里看花。不过岁数在这里摆着,耳闻目睹的印象有,分享出来,抛砖引玉,造福后辈。尽量减少他们在黑暗中探索北美求学就业的诸多问题,少走弯路。Again,一孔之见,仅供参考,欢迎指正。

先说移民思维的变迁。我们那个年代,凡是出来的,就没人想回去,所有人都是奔绿卡来的,绿卡拿不到,甚至宁愿黑下来,也不要回去。后来中国经济腾飞了,到你们一代,我的观察是,多数人对移民不执着,多是机会主义。如果留学毕业顺利找到好工作,可以考虑留下来。否则留洋镀了金,打道回府。当然,移民生活和回国发展,的确各有利弊,一言难尽。

不过,如果国外定居是主要目标的话,不要忽略直接来美国留学的可能。主要是美国的留学机会(学校和programs的数量多)、工作机会和移民机会都比加拿大要大得多,没必要分两步走。表面上看,加拿大的移民门槛低,而美国的移民时间长而繁琐(不过奥巴马移民改革正在进行,今后会更加容易)。但是也要考虑两步走的时间成本以及加拿大整体机会不够。(我很喜欢加拿大。而且到了加拿大,美国大门也基本打开了。)不过,既然申请,还是要申请一下美国,然后看录取情况再定来美还是加拿大。

毫无疑问,美国机会和活力比加拿大强。如果真是读博士的话,最好到美国来。因为美国加拿大的博士都一样漫长,即便你已经有了硕士,也还是至少要耗费你4-5年的光阴(6-7年才拿到也多的是)。这么长的时间里面,你有足够的时间调整筹划你的移民和工作目标。北美是这样,真要想留下的,一定能留下来。你想想,连非法移民都几百万几千万地留下来了,有高等学位的人想留下来怎么会不可能。

再说了,今后四五年的时间尺度里,你一定会找对象,筹划成家和定居。你在这边找对象的话,一多半会遇到美国人(包括亚裔美国公民或绿卡持有者),那么你的移民定居的目标根本就不是问题。结婚移民是水到渠成的事情。你这么早自己筹划移民不是瞎操心吗。话说回来,如果你看中的对象没有移民身份,也不是问题。到时候是你们俩计划今后的生活的问题,不是你一个人的计划。也许是两个人共同筹划找工作和办绿卡,两个人的机会自然增加一倍(不管哪个先办成先立足,另一位就搭顺风车)。也许你的那一位决定回国,因为回国有更好的前景和机会,那么如果你认同他/她的能力和判断,很可能会自己改变主意,一同回去,也不一定呢。总之,不要为很多年以后过多筹划每一个步骤。关键是要先出来,出来了就好办。

多申请一些学校。虽然申请材料很繁复,但是很多资料稍加修改都可以重复使用。那么就选择不同档次的多申请一些,名牌的,次名牌的以及中上的各来两个。美国选八九个,加拿大选三四个。到时候看有没有multiple offers,以及有没有资助,再决定去哪里。

如果家里有经济实力资助两年,我觉得选择一个master的program更加合理,因为培训与工作市场更加紧密。会计专业硕士我见过一些,她们开始找工作也不容易,但最终也找到了。会计的好处是,一旦走上职业,以后再把注册会计师的证书考下来,那就是铁饭碗了。不管企业大小,哪一家离得开会计呢?会计是越有经验,工作年头越长,越容易挑选工作。缺点是工作有些沉闷琐碎,工资也不是很高(稳定的代价就是工资不如那些吃青春饭的IT工匠高)。我觉得对于女孩子,这是个不错的职业选择。

至于金融投资行业,我的印象是与会计的按部就班完全相反,那是一个竞争激烈但回报很高的行业。高强度、高节奏。有的人喜欢这种挑战和节奏,也有的人更喜欢安逸平淡一些的职业。

IT 中除了软件硬件工程师外,还有一些专门的方向工作前景也不错。一种是 DBA (data base administer  数据库管理员),还有 graphic design,包括网页设计、产品UI设计等,都是需要一定编程能力、operations support 或更多的设计技能,都是有职业市场的行当。DBA要保证DB的运行,要随时处理出现的问题,要做performance tuning。现在稍大的DB就是TB级的,而且很多都是要7x24不间断运行,这里面名堂多了。网页设计产品界面设计,也有很多才华、经验和技能成分。以前我们引擎开发出来以后需要做应用,就高价请过一个有名的UI设计家,对用户体验有深刻的理解,他的蓝图做得那个漂亮,工程师实现的时候基本就是照葫芦画瓢。所以,DBA和图形设计在IT行业中也是收入比较高的。高级DBA和设计者都是稀缺人才。

MBA 其实没必要有多年工作经验。有更好,但是也有从学校到学校去修这个的。不过,MBA 在专业学位中,是属于万金油性质。将来的职业发展,主要是做项目经理、产品经理、marketing 宣传、sales 销售、物流管理、分析员等,也有做到高级管理CEO/COO/CMO等的(老中能做到的很少)。能把这条路走通,需要很强的沟通能力、严谨的办事风格,这些素质不是短短一年的 MBA 培训可以学到的。因此,职业顺利发达与否,一多半决定于本人的素质, MBA 最多就是一个敲门砖。后去更多决定于个人素质和实际职场上的磨练。有些人适合,有很多人不适合。(我就不行。)另外要注意的是,MBA programs 特别讲究牌子,名牌学校的很难进,但出来前景好。也有很多杂牌的 programs,混一个牌子而已,后去如何,看造化了。

 

http://blog.sciencenet.cn/blog-362400-703632.html

上一篇:评一下“相信未来的人类会有效利用雷电的”的臆想
下一篇:【成长花絮:作为家长,咱可以骄傲一下么?】

 

8  曹聪 吴吉良 雷海鹏 罗春元 李宇斌 徐索文 赵凤光 biofans

发表评论评论 (3 个评论)

删除 回复 |赞[3]biofans   2013-6-29 21:47
以前俺们实验室的同事绝大部分去了美国,再也没有回来。

删除 回复 |赞[2]罗春元   2013-6-29 13:47
比较中肯的建议!

删除 回复 |赞[1]吴吉良   2013-6-29 09:47
毫无疑问,美国机会和活力比加拿大强。如果真是读博士的话,最好到美国来。因为美国加拿大的博士都一样漫长,即便你已经有了硕士,也还是至少要耗费你4-5年的光阴(6-7年才拿到也多的是)。这么长的时间里面,你有足够的时间调整筹划你的移民和工作目标。北美是这样,真要想留下的,一定能留下来。你想想,连非法移民都几百万几千万地留下来了,有高等学位的人想留下来怎么会不可能。
==========================================
现在北京一些技术人才的技术移民也相对容易,只要达到一定的高度。俺看到美国本土对技术蓝领的要求目前都提高不少。

[转载]到美国上大学需要多少钱? 屏蔽留存

[转载]到美国上大学需要多少钱?

屏蔽已有 2097 次阅读 2013-7-3 23:15 |个人分类:留学资讯|系统分类:海外观察| 大学, 美国 |文章来源:转载

【立委按】转载这篇留学资讯。现在小留学生越来越多,我觉得总体是不合适的。除了巨大的经济压力外,从观察到的案例看,相当比例的小留学生很迷茫。这与国内上完本科以后,来留学读研究生成了鲜明对比。后者的适应能力和目的性都强了很多,花钱花得值。主要原因是年龄,19岁的孩子虽然法律上属于成人,实际上还是孩子,对于世界很惊恐无措,一下子进入完全陌生的异国环境和文化,远离父母和故国,心理适应很难很难。而23岁的孩子走出家门,经过大学四年,成熟许多。自己想学什么,将来要做什么,都比较明确了。有钱送孩子出来念本科或社区学院甚至高中,对于多数情况而言,真地不如等孩子大学一毕业就送出来念个硕士好。

http://heller10.blog.sohu.com/266168639.html

到美国上大学需要多少钱?

图文:心路独舞

因为我在美国大学工作,近年来有很多人以各种方式向我打听到美国留学具体需要哪些花费、一年到底需要多少钱、勤工俭学又能挣多少钱和相关的渠道等,我一直想为此专门写几篇文章,但却一直都没有顾上。不久前一个偶然的机会中,我看到了启德教育集团发布的《中国学生留学意向调查报告》,其中的数据显示,在即将或有意出国留学的学生中,家庭年收入在30万元以下的占被调查人群的52.28%,这导致得直接结果是,家长花了不少钱把孩子送出来了,岂不知更难的还在后面,因为一到了每年的六、七月便是美国大学账单飞来的时候,现在美国学费不仅是年年在涨,而且涨幅可观,导致有些家长不得不卖房卖车,还有全家三代人一起筹钱来付账单等,让我看着一时很唏嘘。

尽管送孩子出国留学之风盛行背后的原因很复杂,但不管出自什么目的,只要选择了这条路第一件事就得筹钱(当然巨富的人家除外),因为这绝对不是一个小数目,到美国留学的费用主要有以下几个部分:

学校收的部分:这其中包括学费(Tuition)、住宿(Room charge)、伙食(Board rate)、书本(Book)、和日用杂项(Miscellaneous expenses)等。

个人必须消费的部分:车旅费(含国际机票)、手机等通讯工具、非移民身份文件含签证等费用、医疗和人身保险等。

而在美国留学可能得到的收入包括类似中国的奖学金、助学金、贷款、和勤工俭学等,这个我在本文中只会简单涉及,以后专门撰文详述。

根据我自己在美国上学和在大学工作十几年的经验,以下我分别展开谈谈这些费用。

一、美国大学的收费

美国公立大学的学费(Tuition)在本州和外州(含国际)学生之间是有着巨大差别的,而私立大学则一视同仁,其中的主要原因是公立大学的部分预算来自州政府的税收,而外州或外国学生的家庭没有在所在州纳税,所以不能享受这种福利。对本州生的规定各州大同小异,多指的是考生和父母在申请学校之前已在学校所在的州居住了一年以上,有报税记录。而国际学生因需要学校出具签证文件支持在美国的学生身份,因此全是用外州生的标准来收费的,个别学校甚至会向国际生单独收费,数目比外州生还高。

我先做一个公立大学本州和外州(国际)生学费之间的简单对比,你马上就可以理解在经济不好的现在美国大学特别喜欢招收国际学生的原因了。以弗吉尼亚大学2012-13年度为例:

本州生

学费(Tuition): 12,224宿Roomcharge:12,224住宿(Roomcharge):5,170

伙食(Board rate): 4,270BooksandSupplies4,270书本(BooksandSupplies):1,220

各种杂费(Estimated miscellaneous expenses): 2,4702,470总额:25,354

注:这一数字指的是本州学生住校的费用,如果住在校外 (绝大多数学校一年级不准住在校外,二年级后允许)自己开伙可以省一些钱。

外州生(含国际学生)

学费(Tuition): 38,236宿Roomcharge:38,236住宿(Roomcharge):5,170

伙食(Board rate): 4,270BooksandSupplies4,270书本(BooksandSupplies):1,220

各种杂费(Estimated miscellaneous expenses): 3,7103,710总额:52,606

上面显示的这种学费之差在美国各大学里是大同小异的,很显然,现在经济不好导致了各大学得到的税收拨款减少,外州和国际学生马上变成了美国公立大学的摇钱树。

下面再来看一个有代表性的著名私立大学杜克大学2012-13的学费:

学费(Tuition): 44,101宿Roomcharge:44,101住宿(Roomcharge):6,140

伙食(Board rate): 5,630Estimatedmiscellaneousexpenses:5,630书本日用杂项(Estimatedmiscellaneousexpenses):3,472

总额: $59,343

对比这组数据可以看出,私立和公立大学之间的费用差别在国际学生这里就不大显著了,
所以那种上公立可以省钱的说法对留学生是不存在的。我同时把另外几所著名私立大学
2012-13的全部费用也罗列在这里,供有兴趣的人参考:

哈佛(Harvard University) 54,496YaleUniversity54,496耶鲁大学(YaleUniversity)58,600

斯坦福大学(Stanford University)54,506ColumbiaUniversity54,506哥伦比亚大学(ColumbiaUniversity)61,642

布朗大学(Brown University )55,016·CarnegieMellonUniversity55,016卡内基·麦隆(CarnegieMellonUniversity)59,710

从这些数据不难看出,到美国留学的话,每年开学之前先要交给学校5-6万美元,才有机会走入美国的校门。

二、个人消费

1、车旅费:

美国国内和往返国际机票费用等,按北京和华盛顿之间的往返机票算,按季节不同经济舱可以在1000-3000美元(含税)之间不等,学生放假期间恰是旅游热季,如果不是很提前购票的话常常价格奇高。

2、非移民身份文件含签证费用:

学生多数持F-1学生签证,这是一种非移民签证,一旦签证过期离境后需要凭借有效I-20表格再签证回到美国,所以在考虑国际旅费的同时还要考虑相关签证的费用。

3、手机和上网等费用:

美国大学到处都有无线上网,若是住在校园内则学杂费已经包括了这一部分,住在校外的需要考虑,电视缆线上网一般一个月四十美元左右。手机取决于所签的方案,每个月可以从三十美元到一百多美元不等。

4、汽油和行车保险:

美国是一个车轮上的民族,处于郊区的大学没有车的话几乎寸步难行,买车是一笔固定支出,修车则很难预计,汽油现在每加仑在三美元上下,取决于每年开多少英里支出可能不等,未婚的年轻人行车保险很贵,在汽车这一块上一个月支出四、五百美元几乎不费吹灰之力。

5、医疗和人生保险:

这是极其重要的,也是很多中国家长和留学生忽略了的部分,尤其最近发生的一系列案件促使美国大学加紧了对这一方面的要求。今年4月加州州立大学北岭分校中国留学生王柯遭遇车祸瘫痪,尽管肇事者被绳之于法,而与此案相关的医疗和保险问题却随之浮出水面。同样,中国留学生玛合日娜因为腰病不能上学而失去了学生身份,父母要探亲不能获得签证,同时又面临了经济和医疗问题。针对这一系列棘手的问题,很多美国大学出台了一系列硬性的新规定,比如哈佛大学就要求国际学生必须出具美国保险公司的医疗保险证明,否则必须缴纳$2,168美元的健康保险年费才能入学,而且自己购买的医疗保险要涵盖紧急情况下国际医疗运输的费用。一年两千多的医疗保险在美国实在算不上很贵,但是一旦生病的话,没有保险看一个简单的感冒发烧都要四、五百美元,更别说其它的了

三、美国大学的奖学金,助学金、贷款、和勤工俭学

如前所述,这一部分在本篇我只简单叙述,以后会专门撰文。

1、基于成就的奖学金 (Merit Based scholarship )

这有点类似中国的奖学金。美国有部分大学提供这类奖学金,其中包括:约翰霍普金斯、杜克大学、南加州大学、西北大学、芝加哥大学、华盛顿大学等。学生需要额外单独申请这一类奖学金 (写申请作文,提供推荐信等)。但这些年经济不好,这类奖学金严重缩水,而且竞争惨烈,入校后的四年之内要保住这一类奖学金的话,还必须保持一定的成绩(GPA)和其他的附带条件。

2、基于需求的奖学金 (Need Based Scholarship )

这有点像中国的助学金,美国大多数的学校都提供这种奖学金,只要够录取标准,是否获得这种奖学金只取决于家庭条件,与学习成绩,才艺,体育表现等无关,但国内媒体常一锅粥把它也称为奖学金。美国几乎所有的常春藤盟校、斯坦福、MIT、加州理工等只设立这种基于需求的奖学金,而没有基于成就的奖学金。非常值得注意的是,这几年这种奖学金也在严重缩水,美国学生能拿到的机会也越来越少了,颁给国际学生已经招来美国学生的抗议和媒体的关注,因为在美国纳税人的权益是不容侵犯的,所以对中国留学生的前景极不乐观。

3、贷款:

这是需要偿还的资助,所以对国际学生来说基本上是不大可能的。

4、勤工俭学:

学生签证是不准在校园外打工的,一旦违反被发现的话,会直接被吊销学生签证,因为这触犯了移民法。在校园里打工是允许的,但在校园找工作是和美国孩子在竞争,语言和经验都处于劣势;另外全时学生每周工作时间规定不准超过20小时,这类工作一般支付联邦最低工资,一小时7.5美元,这样算下来一个月税前最多能挣五、六百美元,大学的开学时间一共有八个月左右,理论上一年税前能挣不超过5,000美元,比起庞大的学费来说实在是杯水车薪。而且,以我几年来每学期带将近20个学生助理的经历来看,美国学生一个星期工作10个小时已经有点力不从心,要是工作20个小时的话,对语言尚有压力的外国学生来说,能保持住不错的成绩简直是不可能的。

四、学费连年调涨的趋势

根据最大的私人学生贷款机构Sallie Mae的统计,美国大学最新的趋势不仅是奖学金和助学金日趋减少,而且学费每年都在不断攀升,据美国教育部国家统计中心最新公布的一项调查显示,在过去的一学年里,美国公立大学学费平均增长了9%,其中加州竟高达21%,公立大学学费连年调涨已是一种无法逆反的趋势。而非营利性的私立大学也提高了4%,由于私立大学学费的基数比较大,这4%的绝对值绝对不是小数目。

五、结束语

考虑到以上各种因素,我认为在美国读四年大学下来,30万美元是一个保守的基数,这还是万事顺利、孩子比较节俭的情形。所以留学的家庭每年至少能有7.5万美元的进项再来考虑这项选择,否则家长真的是捉襟见肘也凑不够这笔钱的,而且一出点什么事情你便是拿孩子在赌博了。

近年来,尽管面临着学费高、连年调涨、和资助少的三重打击,中国的家长和留学生们却并没有气馁,据国际教育协会统计,2011年美国的中国学生比2010年增加了23%,达到157,558人,占留美学生总数的21.8%,比总数第二的印度学生多了50%,其中南加州大学拥有全美最多的外国留学生,中国留学生有2,515人,在该校外国留学生群体中遥遥领先。

与此同时,国内的媒体也逐渐爆出了海归出现了就业难、超四成海归月入只有三至五千的现实。而同时在美国,我也看到了不少留学生念的是一般或者条件较差的学校,虽然投资不小,但本科毕业后既升不进研究生院,又找不到工作,结果无法维持身份而不得不黯然回国。在目前经济不好的情况下,别说本科生了,就是硕士和博士也面临着移民身份和找工作的双重制约,这个我会在以后专门叙述。

最后我还想提醒的是,美国大学遵循的是著名的“宽进严出”的原则,几乎每所大学都有一定的淘汰率(drop out rate),尤其是第一学年过后。我执教的学校在20-30%,而有些知名大学淘汰率甚至超过50%,所以记住,把孩子送出来了,不过是仅仅开始,将来面临的是什么,对家长和学生都将会是不小的考验。

http://blog.sciencenet.cn/blog-362400-705036.html

上一篇:超级电容什么样子?
下一篇:围脖:去瑞士希腊,有啥好玩的?

 

2  吴吉良 李宇斌

发表评论评论 (1 个评论)

删除 回复 |赞[1]虞左俊   2013-7-4 06:40
如今中国人不差钱 

美国高中生的吹牛单和推荐信:brag sheet & rec letter 屏蔽留存

美国高中生的吹牛单和推荐信:brag sheet & rec letter

屏蔽已有 5282 次阅读 2013-9-3 15:53 |个人分类:留学资讯|系统分类:生活其它| 美国, 推荐信, Letter, 高中生

美国的孩子一进入最后一年高四就要着手大学申请了,全部申请圣诞节前搞定,来年春天逐步发榜。一般是选择8-10所大学分别申请,包括自己梦寐以求的名校(dream school),理想也现实的学校,以及几所保底的学校。申请过程很繁琐,很多 paper work,因此各种助学机构遍地开花。尤其是在亚裔社区,大家为尽量考取名校都不惜血本。

其中一个环节是请老师和顾问写推荐信(rec letter),可是老师们面对很多学生,学校的顾问要服务上百学生而平时也没多少接触,怎样避免千人一面的程式化推荐信呢?一个普遍的做法是,给顾问和老师写一张 brag sheet,专门吹嘘自己的成就,给推荐信提供素材。这样看来,学会吹牛和推销自己可说是美国孩子必修的功课啊。看看这个吹牛的单子上都有那些条目要填写:

1) Please list the public and private colleges/universities that you will be applying to.

2) For each of the schools listed, please indicate the average GPA and test scores for admissions.

3) Which college is your first choice and why?

4) Describe your educational goals and possible career(s) you envision for yourself.

5) Why do you want to go to college?

6) What are three adjectives that best describe you? Please explain.

7) Which high school courses have you enjoyed most and why?

8) Is your high school record an accurate measure of your ability and potential? If not, why not?

9) How do you spend your time outside of school?

10) Describe your volunteer/community service and approximately how many hours you have completed.

11) What accomplishments are you most proud of?

12) What are you passionate about?

13) Please explain if there are any unusual or personal circumstances that have affected your educational experiences in a positive or negative way?

14) What points or qualities would you like to be included in your letter of recommendation? Responses can include traits from academics, personal life, activities, athletics, community, religious, work experience, special talents, etc.

转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。
链接地址:http://blog.sciencenet.cn/blog-362400-722008.html

上一篇:【科研笔记:系统不能太精巧,正如人不能太聪明】
下一篇:说说什么是不成功的提案事例

收藏修改删除|

当前推荐数:3 推荐人: 蒋迅 曹聪 李宇斌

推荐到博客首页

发表评论评论 (3 个评论)

删除 回复 |赞[2]刘苏峡   2013-9-4 08:44Thanks for share. Is religious very important? Besides athelets, communities, special talents, what on earth do the activities mean?

李维 回复 刘苏峡 : leadership experience is important.  
prizes or winners on all events, especially at national or international levels, are shining.

2013-9-4 10:281 楼(回复楼主)赞|回复

删除 回复 |赞[1]虞左俊   2013-9-3 16:16Each school is different. In my son's case, he was told to identify and contact the teachers who knew him well. So, during the junior year each student should have a list of the teachers for writing him/her recommendation letters

加大(UC)系统以及 SCA5 宪法修正案的出笼背景 屏蔽留存

加大(UC)系统以及 SCA5 宪法修正案的出笼背景

屏蔽已有 2509 次阅读 2014-3-17 16:05 |个人分类:留学资讯|系统分类:海外观察| 加大, SCA5

以前说过,在美国加州,由研究型加大(UC)、教学型加州州大(CSU)和两年大专的社区学院(community college)三级组成的公立大学系统备受推崇,其中加大UC九个分校是全美公认最好的公立大学系列。一般认为,全美排名前100就是好学校,进入前50就算名校。看看加大的排名吧:

UCB 加大伯克利   [排名21,工程排名3,企管排名3,公立大哥大]

UCLA 加大洛杉矶  [排名24]

UCSD 加大圣地亚哥  [排名38]  

UCD 加大戴维斯   [排名38]

UCSB 加大桑塔芭芭拉   [排名41,化工排名9,物理排名10]

UCI 加大 Irvine   [排名44]

UCSC 加大桑塔克鲁兹  [排名86]

UCR 加大 Riverside  [排名 112]  

UCM 加大 Merced [暂无排名,2005 新建]

加大前六所学校都进入全美前50的名校行列,第七所UCSC也进入前百。由于多数一流名校都是私立大学,加大的地位在公立大学中可算是首屈一指了。不怪很多人羡慕加州教育资源的得天独厚。

最近闹得沸沸扬扬的 SCA5 加州宪法修正案,就是代表西班牙裔的墨西哥移民利益的参议员,鉴于西裔学生在公立大学(特别是在加大)的比例与其巨大的人口不成比例,提出来的一个平权(Affirmative Action)法案,试图改变目前加州公立大学的学生比例,照顾西裔和非裔。这是历史的倒退,本质上就是要亚裔子女让出名额给他们,所谓平权就是施行合法的种族歧视,因此引起了亚裔社区的强烈反弹。最新的好消息是,这个反弹如此之大,这个宪法修正案基本上无法获得众议院三分之二多数通过。当然,不容忽视的是,随着时间的推移,老墨移民数量日益增加,西裔选民对政治的影响力会日益增强,类似的法案在文化多元族裔多样化的旗帜下还有出笼的土壤。

在美国的种族熔炉里,不同族裔争抢公共资源和机会是难免的。就那么大饼,你多一口,我就少一口。亚裔的理论是反对种族歧视和照顾。这符合当代美国的意识主流,公平的竞争应该不分族裔背景、年龄、性别和性趋向。就教育而言,老中家庭普遍重视教育,华人又比较勤奋和善于学习,只要遵照禁止公立大学考虑族裔因素的现行加州宪法,自然而然地华人子女上加大的比例就大,在加大伯克利和加大洛杉矶高达40%之多。墨西哥移民的家庭完全无法竞争。老墨很多都是非法移民来美国从事最繁重的低端工作(农场采摘、超市收银、洗车、清洁等),在他们身份合法化以后,其子女的教育环境与大多从事科技白领工作的华裔家庭仍然无法比拟。再加上观念上的不同,老墨家庭更加随遇而安,及时行乐,愿意苦读的人不多。因此,只要不考虑族裔照顾,加州公立大学这种亚裔为主西裔极少的学生分布状况就很难改变。据传加大董事会对这种状况有忧虑,试图绕过现行法律使校园多元化,其做法就是无论学校质量如何,加大确保招收每所高中的前 9% 的学生,这样亚裔占压倒多数的好学区学生在这个自动配额下吃亏一些,而很少有亚裔学生的较差学校的学生则增加上加大的机会。对这个曲线救国的政策,吃亏的亚裔社区虽然不满,但也不好说什么,算是吃了哑巴亏:谁叫大家都不惜代价赶往好学区呢。SCA 5 则不同,这是明目张胆的修宪,试图使种族歧视合法化。这才有亚裔社区空前团结,齐心打压 SCA 5 的种种宣传和行动。

【相关】

[转载]SCA 5 背景资料 2014-03-03

你知道美国存在的 “合法” 种族歧视么? 2014-03-03

转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。
链接地址:http://blog.sciencenet.cn/blog-362400-776782.html

上一篇:女校的理由,兼论男女平等、平权
下一篇:加州校园之旅:加大戴维斯

收藏修改删除|

当前推荐数:1 推荐人: rosejump

[转载]多少钱才能买到一张进入常春藤盟校的门票 屏蔽留存

[转载]多少钱才能买到一张进入常春藤盟校的门票

屏蔽已有 2307 次阅读 2014-3-26 23:36 |个人分类:留学资讯|系统分类:海外观察| 博雅学院, 美国名校, 长春藤 |文章来源:转载

多少钱才能买到一张进入常春藤盟校的门票
时间:2014-03-26 08:21:40 来源:上海书评 作者:
▍根据金的调查,只要赞助两万美元,一个学生就能被一 般的博雅学院优先录取。比较出色的大学,这个数目就达到了五万美元,而且学生家长需要许诺未来会投入更多的捐款。排名前二十五名的大学,十万美元是必须 的。而到了前十名,二十五万美元只是及格线,父母往往要投入上百万美元来为子女铺平道路。

▍捐款与录取,已经成为美国大学的一种潜规则。并不仅仅是大学会在富豪捐款后投桃报李,具有野心的大学,往往也会主动录取富豪的子女,并不停地讨好富豪,从而希望能够获得丰厚的捐款。

▍体 育特是大学录取的关注重点之一。然而,如果人们以为诸如篮球、长跑等能够帮助自己录取,那就大错特错了。穷人之中擅长这些运动的实在是太多了。因此为了 “多样性”,大学“不得不”去招录一些具备独特体育特长的学生,比如划艇、马术、击剑、马球等等。至于为什么这都是富裕家庭才能负担得起的运动,美国大学 也许会说这只是巧合。

《大学潜规则: 谁能优先进入美国顶尖大学》︱[美]丹尼尔·金著︱张丽华 张驰译︱商务印书馆︱2013年5月版︱385页,49.00元

托克维尔在《论美国的民主》中提到,由于美国社会没有长子继承制,所以永远不会分化出世袭贵族。美国人也是这么认为的。在一片机会均等的土地上,最优秀的人总会脱颖而出。那些仅仅占据家族财富的庸人则缺乏必要的竞争力。所以,这总是一片充满活力的土地。

然而,据《时代周刊》2011年报道,美国的阶层流动性已经明显低于它曾经鄙视的旧大陆。一个新的世袭贵族阶层已然在美国形成。

在《大学潜规则》(The Price of Admission)一书中,普利策奖得主、《华尔街日报》调查记者丹尼尔·金(Daniel Golden)为我们揭示了美国贵族赖以达成世袭的秘诀之一。

1995 年,提摩西,格罗顿中学(Groton School)的一个学习水平中游的学生,申请了斯坦福大学。他在中学里是一位优秀的橄榄球运动员,主打防守位置。斯坦福把他按照顶尖运动员特招入校。奇 怪的是,斯坦福并没有授予提摩西运动员奖学金(每一个特招橄榄球员都有的奖学金)。而时任斯坦福队总教练的泰隆·威灵汉(Tyrone Willingham)也声称他并没有招募提摩西。实际上提摩西也缺乏防守队员所必需的速度。他虽然在1995年至1997年间效力于斯坦福队,却极少上 场。作为一个防守队员,他在大学的职业生涯中也只有一次成功擒抱。

三年以后,格罗顿中学1998年度共有九人申请斯坦福大学。斯坦福最后只招录了玛格丽特。她在班级中仅是中游水平,SAT分数逊于其余八个申请者中的七人。在被斯坦福拒绝的八人中至少有一人在学术领域全面超越了玛格丽特。

那么,为什么斯坦福对他们情有独钟呢?

这两位幸运儿的父亲,罗伯特·贝斯(Robert Bass)是得克萨斯石油大亨,1991年他曾经向斯坦福捐款两千五百万美元。

美 国顶尖高校为了证明自己的公平,总是强调自己的录取都是“无视需求”(即录取时不管学生是否能支付学费),哈佛等大学甚至会免除贫困或中产学生的学费。但 这些学校往往不是“无视财富”。捐款与录取,已经成为美国大学的一种潜规则。并不仅仅是大学会在富豪捐款后投桃报李,具有野心的大学,往往也会主动录取富 豪的子女,并不停地讨好富豪,从而希望能够获得丰厚的捐款。

1993年杜克大学主动录取了罗伯特·贝斯的大儿子克里斯托 弗。1996年罗伯特向杜克大学捐款一千万美元。在这一年的杜克大学学报上,编辑如是写道:“谈到今年贝斯家族的赠礼,齐敖汉(杜克校长Keohane) 对该家族的‘示爱’从三年前本校录取其子的时候就开始了。父母二人受邀成为圣三一学院(杜克最古老的学院)访客委员会的成员。这个委员会类似于一个小型信 托委员会,其工作是支持学校招收其百分之八十的本科生。杜克而后又经常赠与各种小礼品,比如篮球赛门票。”

不仅仅是知名私立大学有这种考量。公立大学如弗吉尼亚大学同样注重捐款。曾经以平等为宗旨的贝茨学院(Bates College)在1980年代由于资金来源萎缩,也逐渐放弃了过去的信条,转而开始在富裕的市郊地区以及私立贵族中学寻找未来的学生。

根 据金的调查,只要赞助两万美元,一个学生就能被一般的博雅学院(Liberal Arts Colleges)优先录取。比较出色的大学,这个数目就达到了五万美元,而且学生家长需要许诺未来会投入更多的捐款。排名前二十五名的大学,十万美元是 必须的。而到了前十名,二十五万美元只是及格线,父母往往要投入上百万美元来为子女铺平道路。赤裸裸地向学校提议以捐款来换取子女的录取,在美国上流社会 看来,实在是粗鲁不文。这些见不得光的口舌功夫,都是由私立预科学校(Prep School)的毕业咨询人员、亲朋好友或是受雇的大学入学咨询师来完成。

而这些活动,则包裹在层层谎言之中,成为了不可明言的潜规则。

 
谎言

长久以来,美国大学体系都以精英教育著称。大学都宣称主要根据学生的水平,而不是其他要素,来进行录取。美国左翼推行的平权法案(Affirmative Act),曾受到右翼的激烈抨击,认为这伤害了美国的竞争力。

然而事实上,美国大学体系之中极少有谁真的是这么做的。那么,美国大学又是如何避免大众反感的呢?

主要的策略是包装。美国大学一般把校友子女称之为“传承”(Legacy)。美国大学一般会说,他们在两个势均力敌的候选学生之中,会选择有“传承”的那一个。他们说,这是为了校友的情分和褒奖这个家族对学校的“忠诚”。

事 实真相是,美国大学的校友群体是一个学校获得捐款的主要来源。而捐了款,校友自然期待学校的回报。很多捐了巨款的校友,即便其子女的水平明显低于很多被淘 汰的申请者,却还是脱颖而出。一些捐款甚巨的校友,如果其子女实在无法满足要求,还可以得到延迟入校的优待。也就是说,他们可以先被预定在下一年录取,然 后用这一年时间来加强自己。而其他那些贫寒子弟,几乎没有谁曾经获得如此的优待。如果这种校友的子女被拒绝,那么他们就会感到非常愤怒,甚至动用其影响力 来改变学校政策。

哈佛大学的录取率仅为百分之十。但是“大学资源委员会”(哈佛大学主要捐款者组成的筹款组织)成员子女的录取率却在百分之六十以上。

另一方面,即便是校友,如果对学校没有什么贡献,那么学校也不会因为其“忠诚”而对其子女有任何优待。当学校为自己的录取公平性辩护时常说:“即便是校友子女,也经常有被拒绝的案例。”这时候,他们往往指的就是这种案例。

诸如杜克这种新兴名校,仅仅依赖校友是不足以快速发展的。而即便是哈佛、耶鲁这样的学校,虽然有着非常庞大、富有的校友群体,有时候也需要在其他方面补充资金。因此各个学校往往都有一个他们常常会否认存在的领域,叫做“发展事项”(Development Case)。

所 谓发展事项,就是专门为筹集资金而对非校友子女进行的录取。相比于“传承”,这种录取往往缺乏冠冕堂皇的借口,因此大学常常会否认其存在,或至少刻意低估 其数量。“发展事项”不仅要求出动校长、招生主任直接结交富豪、招揽其子女,还要求招生人员到各个私立贵族中学去宣传、寻找潜在的捐款人。

为 了能让“发展事项”名正言顺地入学,大学在招生中有着种种的“伪公平”举措。比方说,大学会强调希望校园具有多样性,也希望学生具备各种特长。比方说体育 特长,就是大学录取的关注重点之一。然而,如果人们以为诸如篮球、长跑等能够帮助自己录取,那就大错特错了。穷人之中擅长这些运动的实在是太多了。因此为 了“多样性”,大学“不得不”去招录一些具备独特体育特长的学生,比如划艇、马术、击剑、马球等等。至于为什么这都是富裕家庭才能负担得起的运动,美国大 学也许会说这只是巧合。

社会活动同样是大学招生的一个关注点。而这恰恰是贫困学生的短处。富裕家庭子女可以自费飞到肯尼亚去从事志愿活动,可以到十几个不同的国家游历,而贫困或中产子女却往往要用课外时间打工赚取零花钱或生活费。

丹尼尔·金在书中不禁问道,既然富裕家庭子女在私立贵族学校中接受着第一流的初等教育,为什么一个号称精英主义的大学却要为他们而放弃学习环境比他们差、学习成绩却更好的学生呢?

有 时候得益的甚至还不仅仅是这些富裕家庭子女。美国大学录取中有一个行话叫做“语境”(Context)。这是指与权贵子弟来自同一个学校的申请者。“语 境”处理不好将导致严重的公共关系危机,该大学录取的公平性将可能被公众质疑,使得名誉受损。美国政客比尔·弗里斯特(Bill Frist)的儿子哈里森在申请普林斯顿时,有四个同校的学生也申请了这所美国顶尖大学。但是这四人的成绩都比哈里森好。为了避免这些“语境”带来的公关 麻烦,普林斯顿不得不把他们全部录取。

更可怕的是,这些学校一方面要照顾权贵子弟,一方面还要服从法律,招收黑人、西班 牙裔子弟。其结果就是挤压其他人群的招收规模。这时受损最为严重的,莫过于亚裔。亚裔要进入美国顶尖大学,必须拥有比别人高得多的分数、强得多的特长。而 美国大学对此的辩护是:“亚裔都是考试机器”、“亚裔缺乏创新力”,这大概是美国最公开、最“政治正确”的种族歧视了  

录取信

一 封薄薄的录取信中包含着大学太多的利益与太多的野心。大学所关心的,甚至仅仅是金钱。一些大学还专门优先录取名人子女,换取名人在校内举办活动,与师生、 家长互动。这能吸引更多的“潜在捐款者”,也能提高大学的名望。大学还优先录取教职员工的子女,从而提高大学的知名度。

所 有这一切,都破坏了美国高等教育长期以来宣扬的精英教育理念。当招生人员在讨论“发展事项”的录取时,他们常常争论的不是这个学生是不是足够优秀、未来是 不是能成功,而是这个学生是否能正常毕业以及能带来多少捐款。当金钱的力量可以让一个大学把招生标准降低到“能不能毕业”的水平时,我们不由要问这一纸录 取信难道真的不得不承载这样的重担吗?择优录取难道真的就这么难?

从哈佛、杜克、布朗以及圣母大学来看,似乎没有钱大学就发展不好,似乎要有钱就要有交易。而大学能用来进行交易的,当然是录取信。也许这根本就不是丑闻,而只是无奈的现实?

具 有讽刺意义的是,丹尼尔·金在《华尔街日报》上登载的一系列披露美国高校招生丑闻的文章,在某些人群之中,非但不是一份对教育不公的调查报告,反而是走后 门的指南。金提到,在文章发表后,曾有一位高科技企业的老板找到他,希望金能帮助他们成绩平平的女儿。他们希望知道究竟多少钱才能买到一张进入常春藤盟校 的门票。

如果仅仅阅读前半本书,读者可能会倾向于把书名翻译为《录取的价格》。但是最后几个章节我觉得才是整本书最具力 量的部分。因为金证明了,大学的权钱交易并不是必要的。他想要讲述的,不单是录取的价格,更是美国现存大学招生体制所带来的代价,以及为什么这些代价都是 不必要的。

加州理工学院,一直秉承绝对的精英主义教育,没有人可以因为父母捐了钱而被优先考虑。这所学校的入学申请表之 中,虽然要求填写申请者父母的母校,但是在录取时有“传承”的申请者的录取标准却要高于一般申请者。这使得加州理工新生之中的校友子弟往往不到百分之十, 大大低于其他顶尖大学。也就是说,“传承”和“发展事项”在加州理工学院是被完全无视的。不为任何财富折腰,使得加州理工的学生素质在顶尖名校之中高居榜 首。该校贫困和中产阶级学生比例远高于其他名校。

远在肯塔基的拜利亚学院(Berea College)与加州理工持有共同的理念。这所学校甚至比加州理工更激进:除教职员工子女外,它拒绝任何家庭收入过高(2006年时上限为五万一千美 元)的学生入学。这使得该校学生家庭收入平均仅为二万七千美元(低于美国平均家庭收入)。拜利亚学院在美国博雅学院之中排名第七十六,本科教育水平排名第 十一。它曾经培养出诺贝尔化学奖得主约翰·F.芬恩(John F. Fenn)。

位于纽约的库珀联盟是一所顶级艺术学 院,曾有学生被库珀联盟因为资质不够而拒绝,却被耶鲁录取。他们也有着类似的做法。前招生主任理查德·伯利(Richard Bory)说他会确保每个录取的学生都是最好的,而每个被拒绝的学生都有正当的拒绝理由。他说他当了十八年的招生主任,只有三四次有人打电话来问为什么自 己的子女没有被录取。很多纽约名门子弟都被拒绝了,而他们自己很清楚是为什么。

在资金方面,这些学校把筹款活动回归到了本质——支持教育的慈善活动,他们拒绝那种“录取信采购大会”式的筹款活动。

有 人说典型常春藤盟校的筹款和加州理工的筹款具有本质差异。常春藤盟校在向某公司筹款时会问“这个公司里谁是校友”,然后与该校友联系。他们会对校友说: “您在本校度过了一段愉快的时光。您难道不想让其他某个人也享受类似的时光吗?”而加州理工的筹款人员会说:“我们有着最棒的项目,如果您支持我们,您就 是在支持科学发展和国家繁荣。”

加州理工的筹款规模在美国约排名第十八位。拜利亚学院和库珀联盟的学费全免,完全靠筹款和学生勤工俭学维持收支平衡。脱离了美国大学传统的录取信交易,他们仍然获得了充足的经费。

所以,大概录取信原本不必如此沉重、如此复杂。钱与谎言原本也不必与录取信扯上任何关系。

▍本文作者冷哲,文载2014年3月9日《东方早报·上海书评》。

http://blog.sciencenet.cn/blog-362400-779496.html

上一篇:米拉围脖:生孩子是头在先还是脚?
下一篇:三说“天平平衡原理问题”

 

1  王晓明

发表评论评论 (3 个评论)

删除 回复 |赞[2]ykmch   2014-3-27 11:50
社会不公也许永远都会存在,无论古今中外!

删除 回复 |赞[1]ch555   2014-3-26 23:50
《东方早报·上海书评》是美国主流刊物吗?你总不能住在美国转中国货吧?
 回复  : 我爱转什么是由我的兴趣点决定的。

The Price of Admission)一书是不是普利策奖得主、《华尔街日报》调查记者丹尼尔·金(Daniel Golden)写的?
这里的内容有什么疑问,请指出。

2014-3-27 00:441 楼(回复楼主)

[转载]泰晤士世界名校牛排榜 屏蔽留存

[转载]泰晤士世界名校牛排榜

屏蔽已有 2540 次阅读 2014-5-3 19:13 |个人分类:留学资讯|系统分类:博客资讯| 名校, 牛校, 泰晤士 |文章来源:转载

【立委按】英国泰晤士报的世界名校排名据说更加客观公正,调查的范围之广和问卷之多,无出其右。可它与美国的排名相差真不小。要说英国也是老牌权威了,不时想表现自己的不俗,可多少人信他呢?不过美国排名也明显 favor 私校了。二者应该折中一下。美国公校大哥大加大伯克利(UCB)排名老六(去年是老八),加大洛杉矶(UCLA)也高居第10(去年是12),居然超过老牌长春藤哥大(Columbia)和宾大(UPenn)呢。真长社会主义志气,灭资本主义威风啊。可是其实在美国的百姓眼中,这种排法是倒置了,不是说一流公校不好,但论师资比例和生源等条件,无法与一流私校比。泰晤士看重的是科研,其次才是教学,说是2比1的权重差,所以这个排名似乎更适合研究生做参考。另外,美国人青睐的与长春藤比肩的一流文理学院(liberal arts schools),由于其规模较小,研究能力不足,虽然其本科被广泛认为是超一流的个性化教育,也几乎无一入围。而在美国,进入一流文理学院的难度和光荣,绝不亚于进入长春藤牛校。

 

2014泰晤士报世界大学声誉排行榜发布(图)

2014年3月5日,《2014泰晤士报高等教育》周刊世界大学声誉排名新鲜出炉。前十名的学校毫无悬念地被英美所垄断,哈佛大学仍然高居榜首,麻省理工以90.4的评分紧随其后;亚洲排名最高的为东京大学,得分为27.7,该校同样也是非英美高校的第一名,亚洲高校共有17所进榜,其中中国高校有6所;相比于去年,清华大学下降一名排在全球第36位,而北京大学则升至41位。以下就是是Top50学校的榜单:

 

 

这次《泰晤士报高等教育》周刊还是运用比较独特的统计方法,新浪教育[微博]第一时间综合编译解析此次世界大学声誉排行榜排名的依据及统计方法:

调查来源分布情况
《泰晤士报高等教育》周刊世界大学声誉排行榜评判标准
  “地球上最好的大学是哪一个?”可能你看了这份《泰晤士报高等教育》周刊的大学榜单的算分方法之后,就不会再觉得这个问题是个无稽之谈了。

  《泰晤士报高等教育》周刊世界大学声誉排行榜使用独特的研究方法,只参照特邀专家的意见。该调查利用联合国提供的数据,确保了其能正确反映世界学术的分布状况,榜单被翻译成10种不同国家的语言,这也遵循着平均化跨学科研究的原则。受邀参与调查的专家既代表了他们的国家、同时也代表着他们所处的学科领域。

  这份调查由汤森路透负责,数据来源于调查公司益普索集团。他们只针对经验丰富的、学术成果久负盛名并且能够为研究和教学领域提供尖端观点的专家发放问卷。

  2014年的问卷发放时间为2013年的3月至5月,这项调查从全世界133个国家中收到10536份回复。受调查者的平均学术“工龄”为18年

  该榜单首次于2010年发布时共得到了13388个回复,2011年和2012年回复数量则分别为17554和16639,而这次(2014年)从超过150个国家的收集了共58000多份详细的专家回复,这比前四年加起来还要多。

  这些反馈基本覆盖了所有的学科。在2014年,这些反馈中关注最多的来自于社会科学以及工程技术(22%),随后是物理学(18%)临床学科(16%),生命科学(13%),然后艺术与人文(9%)

  而在覆盖的区域方面该榜单也比较均衡, 25%来自北美,19%来自西欧,13%来自东亚,10%来自大洋洲,10%来自东欧,5%来自中东,4%来自南美。

  在调查之中,学者们提出了自己的质疑。他们并不希望看到一份涵盖许多学院的榜单,但是他们愿意根据自己的经验列出15所专家心中的最佳学府。

  为了得到更多有意义的反馈,受访者被问到了很多基于行为的问题,比如:“你会将你最优秀的学生送到哪个大学读研[微博]究生”。

  调查的数据作为去年十月发布的2013-2014世界大学排名[微博]的11项客观指标的主要来源,并且单独用于每年都要发布的世界声誉排名。

  算分标准

  声誉排名综合了各学校在研究和教学领域声誉方面的数据,用全面的统计方法得出学校声望的分数值。

  这两部分的分数按照2:1的权重比例来计算,而研究部分占据了更大的比重。专家们在反馈中表示:他们有信心根据研究水平这一标准做出公正准确的评判。

  榜单中所列出的学校是被访者们认为在同领域之中最为优秀的。榜单头名的哈佛大学最为热门(被提名次数最多),所以排行将哈佛大学设置为满分100分,其他大学将以之为参考。例如牛津大学获得的提名数量为哈佛的67.8%,所以牛津和哈佛的得到的分数为67.8分与100分。这个评分系统不同于其他世界大学排名,在声誉评判领域、它将独立提供一个更为清晰、更有意义的视角。

  在前100名的大学声誉排名中,《泰晤士高等教育》周刊和汤森路透只是打出了前50名学校的分数,因为后面的大学相对“小众”。后半部分的学院(top50至top100)被分成了10组单独列出,按字母顺序排列。为了计算更为精确、分数精确到小数点后一位。

点击进入《2014泰晤士报高等教育》周刊世界大学声誉排名排行依据及51名至100名学校榜单
http://edu.sina.com.cn/a/2014-03-07/1715240400.shtml

2013-2014英国"泰晤士报高等教育副刊"世界大学排名前200强

时间:2013-11-25 来源:互联网 作者: 编辑:刘碧华

近日,最受中国留学生关注的英国《泰晤士报高等教育》2013-2014学年世界大学排名榜出炉,立马成为留学界的热点话题。

这是泰晤士报连续第10年发布世界大学排名,排名主要考评参选院校的科研实力。来自五大洲15个国家的17500多名学术人士接受调查访问,50多位教育界权威人士参与了对排名的审核。此次世界大学排名依旧从5大类13项考评指标得出各个大学的总评分数:科研(30%)、教学(30%)、论文引用数量(30%)、国际视野(7.5%)以及产业收入(2.5%)。

在2013-2014世界大学排名中,全球教育总体实力格局变动不大,美国依然独领风骚,加州理工学院连续三年蝉联榜首,哈佛大学与牛津大学并列第2,斯坦福大学第4。TOP10中,美国大学占7席;TOP200中,美国大学占得77席。

可喜的是,亚洲的教育实力正在崛起。本届榜单中,共有6所亚洲大学进入TOP100,日本有5所大学入围200强,其中东京大学排名第23位列亚洲霸主;4所韩国大学进入200强,香港地区3所。北大和清华双双进入50强,且排名均有上升,大陆院校总体表现不俗,共有10所大学进入400强。

以下是TIMES 2013-2014年世界大学排名TOP200:

世界排名Institution学名称Country / Region 国家/地区总评得分

1 California Institute of Technology 加州理工学院 United States 美国 94.9

2 Harvard University 哈佛大学 United States 美国 93.9

2 University of Oxford 牛津大学 United Kingdom 英国 93.9

4 Stanford University 斯坦福大学 United States 美国 93.8

5 Massachusetts Institute of Technology 麻省理工学院 United States 美国 93

6 Princeton University 普林斯顿大学 United States 美国 92.7

7 University of Cambridge 剑桥大学 United Kingdom 英国 92.3

8 University of California, Berkeley 加州大学伯克利分校 United States 美国 89.8

9 University of Chicago 芝加哥大学 United States 美国 87.8

10 Imperial College London 帝国理工 United Kingdom 英国 87.5

11 Yale University 耶鲁大学 United States 美国 87.4

12 University of California, Los Angeles 加州大学洛杉矶分校 United States 美国 86.3

13 Columbia University 哥伦比亚大学 United States 美国 85.2

14 ETH Zürich - Swiss Federal Institute of Technology Zürich 瑞士联邦理工学院-苏黎世 Switzerland 瑞士 84.5

15 Johns Hopkins University 约翰.霍普金斯大学 United States 美国 83.7

16 University of Pennsylvania 宾夕法尼亚大学 United States 美国 81

17 Duke University 杜克大学 United States 美国 79.3

18 University of Michigan 密歇根大学安娜堡分校 United States 美国 79.2

19 Cornell University 康奈尔大学 United States 美国 79.1

20 University of Toronto 多伦多大学 Canada 加拿大 78.3

21 University College London 伦敦大学学院 United Kingdom 英国 77.6

22 Northwestern University 西北大学 United States 美国 77.1

23 University of Tokyo 东京大学 Japan 日本 76.4

24 Carnegie Mellon University 卡耐基梅隆大学 United States 美国 76

25 University of Washington 华盛顿大学 United States 美国 73.4

26 National University of Singapore 新加坡国立大学 Singapore 新加坡 72.4

27 University of Texas at Austin 德克萨斯州大学奥斯汀分校 United States 美国 72.2

28 Georgia Institute of Technology 佐治亚理工学院 United States 美国 71.6

29 University of Illinois at Urbana Champaign 伊利诺伊大学厄巴纳-香槟分校 United States 美国 71.4

30 University of Wisconsin-Madison 威斯康辛麦迪逊大学 United States 美国 71.1

31 University of British Columbia 英属哥伦比亚大学 Canada 加拿大 70.8

32 London School of Economics and Political Science 伦敦政治经济学院 United Kingdom 英国 69.8

33 University of California, Santa Barbara 加州大学圣芭芭拉分校 United States 美国 68.4

34 University of Melbourne 墨尔本大学 Australia 澳大利亚 68.2

35 McGill University 麦吉尔大学 Canada 加拿大 68.1

36 Karolinska Institute 卡罗林斯卡学院 Sweden 瑞典 67.8

37 ?cole Polytechnique Fédérale de Lausanne 洛桑联邦高等工业学院 Switzerland 瑞士 67.7

38 Kings College London 伦敦大学国王学院 United Kingdom 英国 67.6

39 University of Edinburgh 爱丁堡大学 United Kingdom 英国 67.5

40 New York University 纽约大学 United States 美国 67.4

40 University of California, San Diego 加州大学圣迭戈分校 United States 美国 67.4

42 Washington University in St Louis 圣路易斯华盛顿大学 United States 美国 67.2

43 University of Hong Kong 香港大学 Hong Kong 中国香港 65.3

44 Seoul National University 韩国首尔国立大学 Republic of Korea 韩国 65.2

45 Peking University 北京大学 China 中国 65

46 University of Minnesota 明尼苏达大学 United States 美国 64.9

47 University of North Carolina at Chapel Hill 北卡罗来纳州大学教堂山分校 United States 美国 64.5

48 Australian National University 澳大利亚国立大学 Australia 澳大利亚 64.4

49 Pennsylvania State University 宾州州立大学 United States 美国 64.2

50 Tsinghua University 清华大学 China 中国 63.5

50 Boston University 波士顿大学 United States 美国 63.5

52 Kyoto University 京都大学 Japan 日本 63.2

52 Brown University 布朗大学 United States 美国 63.2

52 University of California, Davis 加州大学戴维斯分校 United States 美国 63.2

55 Ludwig-Maximilians-Universit?t München 慕尼黑大学 Germany 德国 63.1

56 Korea Advanced Institute of Science and Technology 韩国先进科技学院 Republic of Korea 韩国 62.9

57 Hong Kong University of Science and Technology 香港科技大学 Hong Kong 中国香港 62.5

58 University of Manchester 曼彻斯特大学 United Kingdom 英国 62.3

59 Ohio State University 俄亥俄州立大学 United States 美国 62

60 Pohang University of Science and Technology 浦项科技大学 Republic of Korea 韩国 61.7

61 KU Leuven 鲁汶大学 Belgium 比利时 61.3

62 Purdue University 普渡大学 United States 美国 60.7

63 Georg-August-Universit?t G?ttingen 哥廷根大学 Germany 德国 59.9

63 University of Queensland Australia 昆士兰大学 Australia 澳大利亚 59.9

65 Rice University 莱斯大学 United States 美国 59.8

65 ?cole Normale Supérieure 巴黎高等师范大学 France 法国 59.8

67 Leiden University 莱顿大学 Netherlands 荷兰 59.4

68 Universit?t Heidelberg 海德堡大学 Germany 德国 59.2

69 Delft University of Technology 代尔夫特理工大学 Netherlands 荷兰 59.1

70 University of Southern California 南加利福尼亚大学 United States 美国 59

70 ?cole Polytechnique 巴黎高等理工学院 France 法国 59

72 University of Sydney 悉尼大学 Australia 澳大利亚 58.8

73 Erasmus University Rotterdam 鹿特丹大学 Netherlands 荷兰 58.1

74 Universit?t Basel 巴塞尔大学 Switzerland 瑞士 57.7

74 Utrecht University 荷兰乌特列支大学 Netherlands 荷兰 57.7

76 Nanyang Technological University 新加坡南洋理工大学 Singapore 新加坡 57.2

77 Wageningen University and Research Center 瓦格宁根大学 Netherlands 荷兰 56.8

78 University of Pittsburgh 匹兹堡大学 United States 美国 56.7

79 University of Bristol 布里斯托大学 United Kingdom 英国 56.3

80 Emory University 埃默里大学 United States 美国 56.1

80 Durham University 杜伦大学 United Kingdom 英国 56.1

80 Tufts University 塔夫斯大学 United States 美国 56.1

83 University of Amsterdam 阿姆斯特丹大学 Netherlands 荷兰 55.9

83 Michigan State University 密歇根州立大学 United States 美国 55.9

85 Ghent University 根特大学 Belgium 比利时 55.5

86 Freie Universit?t Berlin 柏林自由大学 Germany 德国 55.3

87 Technische Universit?t München 慕尼黑工业大学 Germany 德国 55.2

88 Case Western Reserve University 凯斯西储大学 United States 美国 55

88 Vanderbilt University 范德堡大学 United States 美国 55

90 University of Notre Dame 圣母大学 United States 美国 54.7

91 Monash University 莫纳什大学 Australia 澳大利亚 54.6

92 McMaster University 麦克马斯特大学 Canada 加拿大 54.5

93 University of California, Irvine 加州大学欧文分校 United States 美国 54.1

94 Humboldt-Universit?t zu Berlin 柏林洪堡大学 Germany 德国 53.8

95 University of Rochester 罗彻斯特大学 United States 美国 53.6

96 Université Pierre et Marie Curie 巴黎第六大学 France 法国 53.5

97 University of Colorado Boulder 科罗拉多大学波尔得分校 United States 美国 53.4

98 University of Groningen 格罗宁根大学 Netherlands 荷兰 52.9

98 Maastricht University 马斯特里赫特大学 Netherlands 荷兰 52.9

100 University of Helsinki 赫尔辛基大学 Finland 芬兰 52.6

100 University of York 约克大学 United Kingdom 英国 52.6

102 Royal Holloway, University of London 伦敦大学皇家霍洛威学院 United Kingdom 英国 52.5

103 Rutgers, The State University of New Jersey 罗格斯,新泽西州立大学 United States 美国 52.4

103 Stockholm University 斯德哥尔摩大学 Sweden 瑞典 52.4

103 University of Arizona 亚利桑那大学 United States 美国 52.4

106 University of Montreal 蒙特利尔大学 Canada 加拿大 52.3

106 Eindhoven University of Technology 荷兰爱因霍芬科技大学 Netherlands 荷兰 52.3

108 University of Maryland, College Park 马里兰大学帕克分校 United States 美国 52.2

109 Chinese University of Hong Kong 香港中文大学 Hong Kong 中国香港 52

109 University of Alberta 阿尔伯塔大学 Canada 加拿大 52

111 Uppsala University 乌普萨拉大学 Sweden 瑞典 51.9

112 University of Virginia 弗吉尼亚大学 United States 美国 51.8

112 University of Sheffield 谢菲尔德大学 United Kingdom 英国 51.8

114 University of New South Wales 新南威尔士大学 Australia 澳大利亚 51.7

114 Université Paris-Sud 法国巴黎第十一大学 France 法国 51.7

114 Queen Mary, University of London 伦敦大学女王学院 United Kingdom 英国 51.7

117 KTH Royal Institute of Technology 瑞典皇家理工学院 Sweden 瑞典 51.6

117 University of St Andrews 圣安德鲁斯大学 United Kingdom 英国 51.6

117 Technical University of Denmark 丹麦科技大学 Denmark 丹麦 51.6

117 University of Glasgow 格拉斯哥大学 United Kingdom 英国 51.6

121 University of Sussex 苏塞克斯大学 United Kingdom 英国 51.2

121 University of Zürich 苏黎世大学 Switzerland 瑞士 51.2

123 Lund University 隆德大学 Sweden 瑞典 51.1

124 University of Geneva 日内瓦大学 Switzerland 瑞士 51

125 Tokyo Institute of Technology 东京工业大学 Japan 日本 50.8

126 Dartmouth College 达特茅斯大学 United States 美国 50.5

126 University of Cape Town 南非开普敦大学 South Africa 南非 50.5

128 University of Florida 佛罗里达大学 United States 美国 50.4

129 RWTH Aachen University 亚琛工业大学 Germany 德国 50.3

129 Trinity College Dublin 都柏林圣三一学院 Republic of Ireland 爱尔兰 50.3

131 Radboud University Nijmegen 内梅亨大学 Netherlands 荷兰 50.2

132 Université de Lausanne 洛桑大学 Switzerland 瑞士 50.1

132 Indiana University 印第安纳大学 United States 美国 50.1

132 University of Massachusetts 马萨诸塞大学 United States 美国 50.1

135 Boston College 波士顿学院 United States 美国 50

136 University of California, Santa Cruz 加州大学圣克鲁兹分校 United States 美国 49.9

137 Lancaster University 兰卡斯特大学 United Kingdom 英国 49.7

138 Aarhus University 奥胡斯大学 Denmark 丹麦 49.6

139 University of Leeds 利兹大学 United Kingdom 英国 49.5

139 Colorado School of Mines 科罗拉多矿业大学 United States 美国 49.5

141 University of Warwick 华威大学 United Kingdom 英国 49.4

142 National Taiwan University 国立台湾大学 Taiwan 中国台湾 49.2

143 University of Utah 犹他大学 United States 美国 49.1

144 Osaka University 大阪大学 Japan 日本 49

144 VU University Amsterdam 阿姆斯特丹自由大学 Netherlands 荷兰 49

146 University of Southampton 南安普顿大学 United Kingdom 英国 48.9

146 Arizona State University 亚利桑拿州立大学 United States 美国 48.9

148 University of Exeter 埃克赛特大学 United Kingdom 英国 48.7

148 University of California, Riverside 加州大学河滨分校 United States 美国 48.7

150 Tohoku University 东北大学 Japan 日本 48.5

150 University of Copenhagen 哥本哈根大学 Denmark 丹麦 48.5

152 Albert-Ludwigs-Universit?t Freiburg 弗莱堡大学 Germany 德国 48.4

153 University of Birmingham 伯明翰大学 United Kingdom 英国 48.3

154 Karlsruhe Institute of Technology 卡尔斯鲁厄大学 Germany 德国 48

155 Université Joseph Fourier, Grenoble 格勒诺布尔第一大学 France 法国 47.8

156 ?cole Normale Supérieure de Lyon 里昂高等师范学院 France 法国 47.5

157 University of Bern 伯尔尼大学 Switzerland 瑞士 47.4

157 University of Nottingham 诺丁汉大学 United Kingdom 英国 47.4

159 Texas A&M University 德克萨斯A&M大学 United States 美国 47.2

160 Georgetown University 乔治城大学 United States 美国 47

161 University of Iowa 爱荷华大学 United States 美国 46.7

161 University College Dublin 都柏林大学 Republic of Ireland 爱尔兰 46.7

161 University of Leicester 莱斯特大学 United Kingdom 英国 46.7

164 University of Antwerp 安特卫普大学 Belgium 比利时 46.6

164 Pompeu Fabra University 庞培法布拉大学 Spain 西班牙 46.6

164 Brandeis University 布兰迪斯大学 United States 美国 46.6

164 University of Auckland 新西兰奥克兰大学 New Zealand 新西兰 46.6

168 University of Western Australia 西澳大学 Australia 澳大利亚 46.4

169 University of Liverpool 利物浦大学 United Kingdom 英国 46.3

170 University of Twente 荷兰屯特大学 Netherlands 荷兰 46.2

170 University of Vienna 维也纳大学 Austria 奥地利 46.2

172 Yeshiva University 叶史瓦大学 United States 美国 46.1

172 Université Catholique de Louvain 鲁汶大学 Belgium 比利时 46.1

174 University of Delaware 特拉华大学 United States 美国 46

174 University of East Anglia 东英吉利大学 United Kingdom 英国 46

176 University at Buffalo 布法罗大学 United States 美国 45.9

176 Université Libre de Bruxelles 布鲁塞尔自由大学 Belgium 比利时 45.9

178 Université Paris Diderot - Paris 7 巴黎第七大学 France 法国 45.8

178 Stony Brook University 纽约州立大学石溪分校 United States 美国 45.8

180 Wake Forest University 威克森林大学 United States 美国 45.7

181 Universit?t Bonn 波恩大学 Germany 德国 45.6

181 Rensselaer Polytechnic Institute 伦斯勒理工学院 United States 美国 45.6

183 Iowa State University 爱荷华州立大学 United States 美国 45.5

184 Northeastern University 东北大学 United States 美国 45.4

185 University of Oslo 奥斯陆大学 Norway 挪威 45.3

185 University of Miami 迈阿密大学 United States 美国 45.3

185 University of Ottawa 渥太华大学 Canada 加拿大 45.3

188 University of Aberdeen 阿伯丁大学 United Kingdom 英国 45.2

188 University of Texas at Dallas 德克萨斯大学达拉斯分校 United States 美国 45.2

190 Yonsei University 延世大学 Republic of Korea 韩国 45.1

191 Hebrew University of Jerusalem 耶路撒冷希伯来大学 Israel 以色列 45

191 University of Illinois at Chicago 伊利诺伊大学芝加哥分校 United States 美国 45

193 Mines ParisTech 巴黎高科矿业学校 France 法国 44.9

194 University of Reading 雷丁大学 United Kingdom 英国 44.8

194 George Washington University 乔治华盛顿大学 United States 美国 44.8

196 University of Dundee 邓迪大学 United Kingdom 英国 44.7

197 Florida Institute of Technology 佛罗里达科技大学 United States 美国 44.6

198 Newcastle University 纽卡斯尔大学 United Kingdom 英国 44.5

199 Bo?azi?i University 海峡大学 Turkey 土耳其 44.3

199 Tel Aviv University 以色列特拉维夫大学 Israel 以色列 44.3

http://www.igo.cn/2010/news/lxxw/dxpm/2013/11/25/81711.shtml

【相关】

 留学资讯:美国牛排榜

http://blog.sciencenet.cn/blog-362400-790967.html

上一篇:虎妈虎女羊爸录
下一篇:米拉围脖:研究“石头剪子布”的技术含量

[转载]柏克萊本州生錄取率 降至13.5% 屏蔽留存

[转载]柏克萊本州生錄取率 降至13.5%

屏蔽已有 4453 次阅读 2014-5-4 21:59 |个人分类:留学资讯|系统分类:博客资讯| 学费, 公立, 伯克利, 加大, 国际学生 |文章来源:转载

【立委按】全世界公立大学的大哥大伯克利加大可能是最为国人熟悉的公立美国名校,是很多人的梦想。伯克利加大由于政府补贴的减少(富可敌国的加州,前几年州政府债台高筑,濒于破产,无力顾及教育,教育经费不增反减),财政逐步吃紧,不得不收紧本州招生,扩大外州和国际学生的比例。因为公立大学对于外地学生所收的学费远远高出本地:本州学生在近几年大幅调涨以后的学费才一万二千美元,而外州和国际学生则需缴纳三四万美金(大约比私立大学便宜一万多,美国私立大学的学费本地外地一律四五万美金,唯一不同是,很多助学金的申请不对国际学生开放)。这一改变,外地欢喜本州愁,是国际学生的福音。今年两所最牛的加大名校,加大伯克利(UCB)和加大洛杉矶(UCLA) 本州录取均创下新低。身边就见到很多非常优秀的孩子被拒。

5月1日是加大今年錄取生決定所選學校的限期,但無論被錄取者選擇那一所加大分校,今秋能夠入讀加大的本州生人數都比前減少,因為今年符合入學資格而又被加大拒絕入學的人數打破了紀錄。

單單以位於中谷的麥賽德加大而言,今年就有1萬1183名符合資格的申請者,因為被柏克萊加大、洛杉磯加大、聖地牙哥加大和聖他芭芭拉加大等所拒,再轉給麥賽德加大。麥賽德加大建於2005年,是最年輕的加大分校。

柏克萊加大今年的本州生錄取率跌至13.5%(1996年為40%),洛杉磯加大也跌至16.3%(1996年為43%),其他加大分校今年錄取的本州生比例都比以前大為下降。

本州生錄取比例大降,反映出加州學生越來越難入讀加大;資料顯示,1994年時加大的本州生比例占了96%,但2012年已減至86%。

與本州生競爭的是外國學生和外州生,1994年加大的外國學生只占1%,但2012年增至8%,1994年外州生只占3%,但2012年增至6%。

高中成績和SAT成績好,再加上一連串的出色活動,現在已不能保證入讀柏克萊加大;由於申請者眾,而錄取率又低,柏克萊加大今年拒絕的學生人數竟然比史丹福拒絕的人數還多了2萬人;史丹福今年的錄取率只有5.1%,成為全美最低。

外國學生和外州生繳交的學費是本州生的三倍,為增加收入,以維持學校的競爭力,柏克萊加大於2012年所收的外國學生和外州生比前增加了三倍,在該年的5070名大一新生中,占了1150人。

柏克萊校長德克斯上月已表示,該校的外州生和外國學生還會增加,將由今年的20%增至23%。本州生今年的學費為1.3萬元,而外州生和外國學生則是3.6萬元。

原文:[世界日报]柏克萊本州生錄取率 降至13.5%

圣荷西水星报 By Katy Murphy

[email protected]

The promise of an elite public university education for California’s top high school students continues to fade as record numbers of qualified in-state applicants are being rejected from every UC campus they applied to.

Admission rates at UC Berkeley, UCLA, UC San Diego and UC Santa Barbara have plummeted to less than half of what they were in the mid-1990s, a new analysis by this newspaper shows. This year, 11,183 freshman applicants who qualified for UC admission had no offers from their chosen campuses and were referred to UC Merced, the Central Valley campus that opened in 2005.

Some strove mightily and successfully in high school but found their aspirations opened few doors.

Student tour guide and Cal senior Sam Kirschner, right, leads a tour group past South Hall for students that have been accepted to the University of

Student tour guide and Cal senior Sam Kirschner, right, leads a tour group past South Hall for students that have been accepted to the University of California in Berkeley, Calif. on Tuesday, April 29, 2014. Kirschner, originally from Louisville, CO, but now a California resident, is part of the trend to accept greater numbers of out-of-state students at the university. (Kristopher Skinner/Bay Area News Group) (Kristopher Skinner)

Aman Shergill — an A student who juggled an after-school job with a boatload of Advanced Placement classes and extracurricular activities — applied to seven UC campuses and got into one: UC Santa Cruz.

“It was within two weeks that I got all my rejections. It was pretty bad,” the Folsom teen said. “I just thought that with what I had done and all my hard work, I was hoping for a little more.”

Every year, more college-bound Californians feel the sting of rejection as spaces for the state’s college-bound students lag further behind the soaring demand for Cal and other popular UC campuses.

The ease of applying to many campuses online, the relatively low sticker price for in-state students compared to private colleges and population growth have radically changed the outlook for applicants. Growing numbers of out-of-state and international students, who pay nearly three times the tuition and fees, also fuel the competition for a spot in the class.

By Thursday, students must make the difficult decision about where to go in August. UC Berkeley gave thousands of fall applicants another option to consider: Wait until the spring term for a spot, when graduating students free up more space.

The options are more limited than parents and educators from past generations might assume, one expert said.

“Students need to be exposed to the truth,” said Lisa Garcia, director of outreach projects for USC’s Pullias Center for Higher Education. “I tell all my students, even the valedictorians, ‘You can’t just apply to Berkeley and (UCLA) and San Diego and Santa Barbara.’”

Excellent grades, solid SAT scores and a long list of activities these days might not be enough to get you noticed by Cal, which turned away some 20,000 more applicants this year than Stanford, the nation’s most selective campus.

Berkeley’s admitted class, as described in a campus announcement, included national robotics and debate winners, “a ballerina who has danced internationally,” Junior Olympics athletes, a Disney Channel series actor and “musicians, dancers and other artists who have performed at prestigious venues around the world.”

http://blog.sciencenet.cn/blog-362400-791349.html

上一篇:围脖:洗碗的浪漫
下一篇:幸福和金钱关系研究de新突破?

 

0

发表评论评论 (3 个评论)

删除 回复 |赞[2]yuelushan1   2014-5-5 09:28
邻家小妞,去了伯克利,第二年就是加州本州学生待遇了。

美国的公立大学只对本州居民优惠学费,以加州为例,必须是在加州住满一年以上的美国公民才可以享受本州公立大学优惠。

美国公民移居外州,立刻可以获得选举权和被选举权,没有任何拖延,驾照也可以立马进行改变,当然缴税也是不会落后的。唯有补助优惠,要等满一年。

最近看一个纪录片《Inequality for all》,得知加州伯克利分校是个自由派大本营。

删除 回复 |赞[1]yuelushan1   2014-5-5 07:52
外州生第二年就是本州生学费待遇,(因为成为加州居民),所以还要继续增加外国学生比例,敲外国学生竹杠。
 回复  : 是这样么?有没有住满三年这样的要求?
也谈不上敲竹杠,愿意被敲的人太多,比起私校至少还便宜一万一年呢,当然资源和条件比私校也差了不少,但毕竟名气在那里。

2014-5-5 08:221 楼(回复楼主)

[转载]血流成河:从数字看今年伯克利新生录取 屏蔽留存

[转载]血流成河:从数字看今年伯克利新生录取

屏蔽已有 3075 次阅读 2014-5-14 01:55 |个人分类:留学资讯|系统分类:海外观察| 名校, 伯克利 |文章来源:转载

血流成河:从数字看今年伯克利新生录取

作者:白露为霜  于 2014-5-12 22:16 发表于 最热闹的华人社交网络--贝壳村

作者分类:升学爬藤|通用分类:留学生活|已有41评论

关键词:血流成河伯克利录取

随着5月1日来了又走了,除了少数还在等待名单(waiting list)上的,美国高中毕业生应该都已经知道自己去哪里上大学。2013年度大学申请季节也告结束。回顾大学申请的过程,我想经历过的人都不会很快忘记。几家欢乐几家愁,历来都是这样,但今年的情况似乎是愁的比欢乐的多了不少。有些被认为有冲大藤实力学生的连一个小藤也没有;有些被认为稳进伯克利,UCLA的被两个都拒绝。如果说是“血流成河”可能太夸张,但想进好学校越来越难是不争的事实。

每年4月18日左右伯克利公布本年度的大学录取数据,这份文件在加州的大学升学行业(college prep)内都被认真地研究。升学指导们希望从中找出新的趋势以便在下一年的工作中加以调整。为什么伯克利的数据这么重要呢?第一:申请的人多。在加州乃至西海岸,好一点的学生很少有不申请的。斯坦福申请的人也很多,但大多数都知道希望不大。第二:伯克利在加州系统中有指标的意义。作为加大旗舰和美国最好的公立大学,伯克利对趋势最敏感,也最具有代表性。第三:由于种种原因,伯克利在国内名头很响。如果你说达特茅斯(Dartmouth)也许知道的人不多,如果说伯克利,稍微对美国教育有点了解的人都知道。

那今年的数据又给我们透露点什么呢?外行看热闹,内行看门道。让我们去看看。

 

申请人数飙升、录取率猛降

表1列出过去4年加州大学伯克利分校的申请人数,录取人数,录取率,预计上学人数的变化。

作为家长,你也许对大学是怎样决定应该录取多少学生感兴趣。这当然不是一拍脑袋产生出来的数字。招生官员(admission officer)首先决定预想上学的人数,这个数目每年有所变化,主要取决于经费,校舍,师资等情况。如果由于预算问题能开的课少,只能少招些学生。有了预想上学人数,比如5120人,再根据估计的产出率(yield)反推出录取的人数。

产出率对中国人来说可能是陌生的概念。在美国,高中生多数会被多个大学录取,因此不是每一个录取的学生都会来上学的。根据经验,伯克利每年有40%左右的录取新生注册上学,那么就需要录取13000人左右才能达到这个目标。当然产出率并不是一成不变的,每年招生办需要根据趋势调整产出率。

今年伯克利分校录取的人数有所下降,是4年来最低的,这主要是因为预计的产出率会有3个百分点的上升。也就是说学校预计更多的录取学生会来注册上学。如果招生办预计错误,产出率没有按预期上升,那可能就需要动用“等待名单”。

 

2014-15年度

2013-14年度

2012-13年度

2011-2012年度

申请总人数

73711

67665

61695

52900

录取总人数

12813

14103

13027

13670

录取率

17%

20.8%

21.1%

27%

预计上学人数

5120

5250

5200

5150

表1:申请人数,录取人数,录取率的变化

从过去4年的数据来看申请人数飙升,从2011年度的52900人涨到2014年度的73711人,增加4成左右。录取率猛降当然是意料之中,从4年前的27%降到2014年的17%。这也部分地解释了为什么进伯克利这样的好学校越来越难。

2014同2013年相比申请人数增加了9%,这是相当大的增加。加州学生申请伯克利的数量增加了3.2% (基本上同高中毕业人数的趋势相吻合),增加的大部分来自另外两个来源 – 外州学生和外国学生。非加州学生申请伯克利增加了19.9%,而外国学生的申请增加了18.3%。从这点可以看出加州学生的竞争对手不仅仅是邻座的同学,那些远在德州或德国的优秀学生也是看不见的对手。

进好学校越来越难的另外一个原因是所谓“军备竟赛效应”。冷战时代,你有洲际导弹,我就开发逆火式轰炸机;你有核动力航空母舰,我就来个DF21航母杀手。爬藤升学就是今天的新冷战。要保持竞争力,今天的学生必须做的更多、更好。光是GPA和SAT高显然是不够的,课外活动,社区服务,领导能力,比赛得奖,升学作文一样都不能少。

 

谁动了加州学生的奶酪?

从过去4年的数据来看,录取学生中加州学生的比例有所下降,从70%左右降到了今年的65%以下。外国学生在9%上下徘徊,变化不大。而非加州学生占录取学生的比例则提高到25%,也就是说4个学生中有有一个是外州学生。

伯克利是加州的公立大学,培养加州子弟理应是它的首要目的。那伯克利为什么要招这么多外州和外国学生呢?台面上的理由招收这些学生有助于提高伯克利的声望,帮助学生括大视野,等等。另外这些外州和外国学生总体的GPA和SAT成绩也高于加州录取学生的平均水平(也就是说没有为他们降低标准)。

 

2014-15年度

2013-14年度

2012-13年度

2011-2012年度

录取总人数

12813

14103

13037

13670

加州州内学生

8290(64%)

9100(64%)

9278(71%)

9267(68%)

外国学生

1218(9.5%)

1638(11.6%)

1137(9%)

1280(9.3%)

外州学生

3205(25%)

3365(24%)

2622(20%)

3123(22%)

表2:州内,州外,外国学生录取人数的变化

伯克利没有说出的理由同钱有很大关系。3年前我写过一篇博文“伯克利大幅增收外州学生”对此有详细解释。长话短说,收一个外州或外国学生,伯克利可以比收加州学生每年多收入2万美元。要说它对学校没有吸引力恐怕是不符合事实的。2008年经济危机后加州政府对加大的经费一再消减,伯克利这样自救也无可厚非(不然就要增加更多的学费),问题是现在加州政府的财政支持逐渐恢复,伯克利也应该回到传统的录取加州子弟的水平。现在看来,这个回归并没有发生。

如果你问我,我的看法是伯克利录取学生80-90%是加州学生的日子一去不复返了。加州政府财政周期性的陷入危机,伯克利也意识到靠着政府经费日子很难过,还是靠自己的好。1987年的时候,伯克利一半的预算来自州政府,到了2013年,经过一系列的开源节流,州政府的拨款在伯克利预算中只占12%。不拿你的钱就不受你的管,伯克利在某些意义上讲已经不再是加州公立学校,财政的独立给了它很大的自主权。

 

四面受敌的亚裔学生

 

表3列出各个族裔的人数和在国内学生(包括加州和外州学生)比例的变化。从表上可以看出亚裔是伯克利学生中人数最多的族群,占到43%。虽然比3年前有些降低,但并不明显。这个数字还不包括外国学生中的亚裔人数(中国,韩国,印度是伯克利外国学生最大的来源国)。如果加上他们,伯克利本科学生亚裔的比例可以轻松地超过50%。

另一个受人关注的比例是“未充分代表的少数民族”(under-represented minority或URM)的比例。这包括美国印第安人,黑人和拉丁裔。他们在伯克利录取学生中的比例从3年前的18%上升到今年的接近20%。

加州在1996年通过禁止在大学入学时考虑种族的209号提案后,加大洛杉矶分校和伯克利分校的亚裔学生分别增长19%和28%。可以想象,亚裔占这样大的比例别人不眼红是不可能的。这也是前一阵在华裔中引起激烈反应的SCA5提案出现的原因之一。

 

2014-15年度

2013-14年度

2012-13年度

2011-2012年度

美国印第安人

95

80

87

90

非洲裔

392

417

392

406

拉丁裔

1933

1838

1819

1703

亚裔

5017(43%)

5566(44.6%)

5427(45.6%)

5565(44.9%)

白人

3518(30%)

3988(31.9%)

3683(30.9%)

4152(33.5%)

未标明

540

576

492

474

国内学生总数

11495

12485

11900

12390

URM

1794(19.7%)

1861(18.2%)

1919(19.7%)

1813(18.0%)

表3:各个族裔学生录取人数的变化

后来事情的发展有点出乎意料。因为亚裔,特别是华裔的强烈反对,SCA5的作者决定暂时收回提案进行修改。加州民主党可能不会在今年底中期选举之前再推出这个有争议的议题,以免影响到亚裔对它的支持。我的感觉是在选后SCA5很有可能卷土重来。另外非洲裔和拉丁裔也可以收集足够多的签名,直接推动修改209号提案的公投。最近非洲裔和拉丁裔在伯克利校园举行了抗议活动,抱怨他们的孩子进不了伯克利。这些都在显示事情远没有结束

其实伯克利和加州大学系统一直在致力与将亚裔的比例压下来。到现在为止,它已经尝试过取消SAT II考试增加ELC录取学生,增加外州录取学生等手段,但效果并不明显。如果SCA5通过,将会进行全加州的公投来推翻209号的限制。考虑到近年加州人口结构的变化,公投通过的可能性相当大,届时加州大学可以将族裔作为因素之一在录取时加以考虑。这对亚裔特别是华裔有多大的影响还很难量化,不过亚裔在伯克利录取学生中比例下降则难以避免。

白露为霜注:加州亚裔在升学方面是相当成功的,这充分体现在伯克利亚裔学生的比例上。亚裔也是209提案受益最大的族群。前面的道路却十分困难。他们面临外州学生,外国学生的激烈竞争。同时,加州其他族裔也虎视耽耽。说他们四面受敌并不为过。古有关云长过五关斩六将,今天加州的亚裔孩子也要有这样的斗志才能杀出一条血路来。

俯瞰伯克利校园 (背景是海湾大桥和旧金山)

from http://www.backchina.com/blog/299872/article-200996.html 

评论 (41 个评论)

回复钓鱼城 2014-5-12 22:34看来外国学生还未像南加大一样多。据说USC仅国内来的学生就有几千。回复徐福男儿 2014-5-12 22:37第一次听到有大藤、小藤的区分,有趣。请教哪几家是大藤?哈佛、耶鲁、普林斯顿、哥伦比亚吗?其他都算小藤? 回复白露为霜 2014-5-12 22:40

徐福男儿: 第一次听到有大藤、小藤的区分,有趣。请教哪几家是大藤?哈佛、耶鲁、普林斯顿、哥伦比亚吗?其他都算小藤? 

通常的说法里大藤是HYPSM,其他5所藤校是小藤。回复白露为霜 2014-5-12 22:42

钓鱼城: 看来外国学生还未像南加大一样多。据说USC仅国内来的学生就有几千。

伯克利还没有到达USC这样,还披着公立学校的外衣。回复徐福男儿 2014-5-12 22:47我觉得华裔的孩子没有必要死盯着伯克利、UCLA等几家加大,从而同人家争得血淋淋的。应该把眼光转向一些非常好的文理学院,比如Pomona College一类的学校。这些学校的教育质量绝对不输于加大,小班制对学生的照顾甚或胜过加大(加大往往一个班几百学生,老师根本照顾不到你)。本科毕业后,考研的时候再攻藤校或伯克利,实际收益会高很多。
很多华裔家长实际并不很了解美国的高等教育系统,往往是冲着学校的名气,或者甚至抱着攀比心理在知道孩子的选择。他们都应该多读读LZ的文章。回复白露为霜 2014-5-13 00:11

徐福男儿: 我觉得华裔的孩子没有必要死盯着伯克利、UCLA等几家加大,从而同人家争得血淋淋的。应该把眼光转向一些非常好的文理学院,比如Pomona College一类的学校。这些学

谢谢推荐。我自己一直很喜欢文理学院(藤校其实多数是文理学院)。  
加州的学生以前一直是要么进藤校,进不了就进加大。现在看来还需要申请一些其他州的公立学校比如UVA,UM,UT,UIUC,等。外州的学生杀到家门口了,加州学生只能逆袭。回复fanlaifuqu 2014-5-13 00:52一亲戚孩子获多校录取,最后选了普林斯顿。回复白露为霜 2014-5-13 00:56

fanlaifuqu: 一亲戚孩子获多校录取,最后选了普林斯顿。

Congrats!    普林斯顿不会让他失望的。回复light12 2014-5-13 01:43SCA5通过法院会怎么看?回复白露为霜 2014-5-13 01:51

light12: SCA5通过法院会怎么看?

最高法院对Michigan的裁决似乎认为这事应该由选民决定。这个消息让SCA5的支持者很振奋,他们似乎认为如果公投通过,最高法院也不会挡路。

But three justices in the majority, Chief Justice John Roberts, Anthony Kennedy and Samuel Alito. concluded that the lower court did not have the authority to set aside the law.

"This case is not about how the debate about racial preferences should be resolved. It is about who may resolve it," Kennedy wrote.

"Michigan voters used the initiative system to bypass public officials who were deemed not responsive to the concerns of a majority of the voters with respect to a policy of granting race-based preferences that raises difficult and delicate issues," he added.

http://www.cnn.com/2014/04/22/justice/scotus-michigan-affirmative-action/回复金竹陶器 2014-5-13 02:24谢谢大作。社区耳语也是今年更难进了。回复light12 2014-5-13 02:25

白露为霜: 最高法院对Michigan的裁决似乎认为这事应该由选民决定。这个消息让SCA5的支持者很振奋,他们似乎认为如果公投通过,最高法院也不会挡路。

But three justices i

这样就给种族主义敞开大门 回复wcat 2014-5-13 02:51

白露为霜: 通常的说法里大藤是HYPSM,其他5所藤校是小藤。

不是藤校的 Stanford & MIT 算进去了,那 Univ. of Chicago 怎么不算呢?回复白露为霜 2014-5-13 02:53

wcat: 不是藤校的 Stanford & MIT 算进去了,那 Univ. of Chicago 怎么不算呢?

S & M 传统上被算进大藤。这几年哥大起的很快。芝加哥大学不是藤校更胜藤校。。 回复caro 2014-5-13 03:26好文章,未经你允许我给转走了。回复ChineseInvest88 2014-5-13 03:39鼓掌!又一篇好文章! 回复白露为霜 2014-5-13 04:05

caro: 好文章,未经你允许我给转走了。

谢谢。没关系。回复白露为霜 2014-5-13 04:06

ChineseInvest88: 鼓掌!又一篇好文章! 

谢谢来访。 回复白露为霜 2014-5-13 04:14

金竹陶器: 谢谢大作。社区耳语也是今年更难进了。

很多人都有这样的感觉。谢谢来访。回复jc0473 2014-5-13 04:37应该先选择好个人发展方向,选择学科,然后再选择学校

评论 (41 个评论)

回复白露为霜 2014-5-13 04:53

jc0473: 应该先选择好个人发展方向,选择学科,然后再选择学校

如果能再上大学前定好发展方向,那是最好。但至少有一半的大学生改变主修。如果学生不是很确定,申请综合性大学比较合适。回复jc0473 2014-5-13 05:18

白露为霜: 如果能再上大学前定好发展方向,那是最好。但至少有一半的大学生改变主修。如果学生不是很确定,申请综合性大学比较合适。

嗯,是这样的。我想说硅谷的大学如SJ 大学或者联合大学(有的是所谓野鸡学校)读PC,EE等科目,可以学到知识。老师很多是附近高科技公司搞研究和项目工程师兼课,实用的最新科技。得天独厚,就业也容易回复白露为霜 2014-5-13 06:54

ryu: 盛名之下,其実難符,

伯克利是加州公立学校。对加州的学生来说性价比很高,很少有学校同它能相比。对其他州的学生来说,伯克利并不定是最合适的选择。回复白露为霜 2014-5-13 07:12

jc0473: 嗯,是这样的。我想说硅谷的大学如SJ 大学或者联合大学(有的是所谓野鸡学校)读PC,EE等科目,可以学到知识。老师很多是附近高科技公司搞研究和项目工程师兼课

如果不想进UC,可以考虑州立大学里的学校。Cal Poly SLO, San Jose State, 等在湾区的高科技界口碑不错。湾区也有一些“Wild bird",主要赚外国人钱的,也能签证出来。但我不会推荐给ABC。回复穿鞋的蜻蜓 2014-5-13 10:16伯克利加大一直有“中国城”的绰号,达特茅斯别说在中国鲜为人知,在美国知道的人也不多:)这两种学校互相借鉴一下可能更有好处,伯克利可以再贵族俗气一点,达特茅斯可以再大众高端(科研)一点。回复看得开 2014-5-13 10:59

jc0473: 应该先选择好个人发展方向,选择学科,然后再选择学校

  很大部分的大学学生在大学一二年转专业。回复jc0473 2014-5-13 15:34

看得开:    很大部分的大学学生在大学一二年转专业。

是滴,那就先上社区学校两年再转学,还能省不少经费呢 回复jc0473 2014-5-13 15:36

白露为霜: 如果不想进UC,可以考虑州立大学里的学校。Cal Poly SLO, San Jose State, 等在湾区的高科技界口碑不错。湾区也有一些“Wild bird&quot;,主要赚外国人钱的,也

明白,你是行家 回复白露为霜 2014-5-13 21:25

Duffy: 绝对够专业的、具有指导意义的好文。

   谢谢来访回复白露为霜 2014-5-13 21:26

mayimayi: 好文 !

谢谢详细分析

   问好回复白露为霜 2014-5-13 21:27

看得开: 就算进了加大,校内的竞争也是触目惊心!我一个华人朋友的儿子,上星期五打电话给我的朋友说想自杀! 

他要是说出来,可能问题不大。的确是满吓人的。回复白露为霜 2014-5-13 21:27

风天: 耶,大学城,
好风光。 

谢谢来访。 回复白露为霜 2014-5-13 21:29

穿鞋的蜻蜓: 伯克利加大一直有“中国城”的绰号,达特茅斯别说在中国鲜为人知,在美国知道的人也不多:)这两种学校互相借鉴一下可能更有好处,伯克利可以再贵族俗气一点,达

如果伯克利变成私立学校,再把招收的学生减半,就能贵族了。

http://blog.sciencenet.cn/blog-362400-794193.html

上一篇:“讲学”还是“讲用”?
下一篇:无量纲化,trick?

 

1  杨正瓴

发表评论评论 (1 个评论)

删除 回复 |赞[1]杨正瓴   2014-5-15 08:41
跟申请国家基金类似了。

[转载]几家欢乐几家愁:伯克利大幅增收外州学生 屏蔽留存

[转载]几家欢乐几家愁:伯克利大幅增收外州学生

屏蔽已有 2027 次阅读 2014-5-14 03:47 |个人分类:留学资讯|系统分类:海外观察|文章来源:转载

几家欢乐几家愁:伯克利大幅增收外州学生

作者:白露为霜  于 2011-7-20 21:39 发表于 最热闹的华人社交网络--贝壳村

作者分类:升学爬藤|通用分类:留学生活|已有11评论

关键词:

曾几何时外州学生要想考上加大伯克利分校 (UC Berkeley) 是件非常难的事情。成绩要特别优秀不说还要多付学费。2009年时伯克利只有不到10%是外州或外国学生。那时同一个寝室问起来不是Plao Alto 就是Cupertino,真是有点扫兴。为什么会这样哪?因为伯克利是公立学校。作为加州大学的旗舰校园(Flagship Campus)它的主要目的是培养加州纳税人的子弟。外州人只有很少的名额,谁叫他们的父母没有在加州纳税。

但随着加州财政的恶化,形势发生了很大变化。现在加大不但基本解除对外州学生的限制,而且开始积极招收。2011年伯克利新生中外州和外国人的比例已达30% (外州学生占18.4%,外国学生占11.4%)。见下图。以伯克利新鲜人一届为4100人计算,仅仅两年之内非本州学生就从一年400暴涨到一年1200人。

这一切当是钱在作怪。招收一名州内学生,收学费 13,00013,000。如果换成一名外州学生,学费则是36,000。仅多收非本州学生一项伯克利每年就可以增加收入2,000万美元。这可不是小数目。

外州学生到伯克利上学当然是要付出代价的。一年所有费用加起来超过55,000西(Rutgers)60西555,000,直追私立学校。有人也许会问:“谁会付私立学校的价钱来读伯克利?”其实有这样意向的人还不少呐。加州的居民常常忘记自己是多少幸运–加州有全美最优秀的公立大学。考不上哈佛,就上伯克利。没什么了不起。但如果你住在新泽西,考不上普林斯顿的话,本州的公立大学是罗格斯(Rutgers)。其实排名60左右的罗格斯大学也是不错的学校,本州的人上也不贵,但有些人还是不甘心,所以他们把孩子送去密西根大学或佛及尼亚的一些大学。花费也要超过5万。这样相比之下伯克利的55,000还是很有竞争力的。毕竟伯克利排名更高,加州气候更好,将来还去硅谷工作也容易一些。对他们来说,这是个利好的消息。

这个变化长远来讲对伯克利和加大或许是有利的。增加外州学生可以提高伯克利的知名度。它可以乘势成为全国性大学。现在的伯克利只能算西部或加州的大学因为绝大多数学生来自加州。多收的钱可以稳定伯克利的财政,减少对州政府的依赖,留住一流的教授等等。从学校的角度来看百利无害,何乐而不为?所有估计今后几年伯克利外州和外国学生的比例还将提高,可能会达到40%甚至50%。

那么谁是伯克利的这个如意算盘的失意者哪?毫无疑问是加州的学生和他们的家长。如果你感觉到伯克利比以前难考了,You are right!总人数没有增加,非本州学生增加了800,当然是本州学生就减少了800。就这么简单。因为亚裔占伯克利学生的40%,所有肯定首当其冲的受到影响。而最有可能被挤掉的是那些在录取的边缘上又是低收入的学生。

对那些坏消息不断的加州的学子来说这真是雪上加霜。因此而梦碎的学生也不是一个两个。可怜那些任牢任怨为加州交税的父母们,到头来看着自己的孩子被挤下去。这难道能说是公平吗?

 

伯克利外州和外国学生迅速增长

 
 

http://blog.sciencenet.cn/blog-362400-794197.html

上一篇:“讲学”还是“讲用”?
下一篇:无量纲化,trick?

 
 

收藏