NLP掌故 - 第 2 页 - 立委NLP频道

Small talk: World's No 0

A few weeks ago, I had a chat with my daughter who's planning to study cs.
"Dad, how are things going?"
"Got a problem: Google announced SyntaxNet claimed to be world's no 1."
"Why a problem?"
"Well if they are no 1, where am I?"
"No 2?"
"No, I don't know who is no 1, but I have never seen a system beating ours. I might just as well be no 0."
"Brilliant, I like that! Then stay in no 0, and let others fight for no 1. ....... In my data structure, I always start with 0 any way."

《在美国写基金申请的酸甜苦辣》

1. 初闯 SBIR

在来美创业不到八年的时间里，我总共拿到了政府18项“小企业创新基金”（SBIR: Small Business Innovation Research），计900万美金，做了17任研究项目的主任（Principal Investigator, PI or co-PI, 拿下的第18个项目由于离职而把PI移交了)，研究方向始终是信息抽取（Information Extraction）。对于SBIR的基金申请几乎百发百中（也尝试过其他基金申请，却没有成功，其中奥妙容后详述），这实际上已经达到了该基金项目所规定的饱和极限：虽然偶然有网开一面的时候，但原则上，SBIR项目的PI必须至少拿出50%的时间指导项目，也就是说，一个人最多同时担任两个项目的PI（含co-PI）。这样的成就回想起来，更多是运气的成分，天时地利人和，当然也与自己的执着和死嗑分不开，其中甘苦，难以尽述。比如，这八年就没有真正过过一次像样的圣诞节。老美庆祝圣诞就好比我们庆祝春节，圣诞是探亲团圆休长假的好时光，而圣诞总是我基金申请最繁忙的阶段，因为元月五日是SBIR基金申请的死期。

写得最苦最认真的是前两三个基金申请，后来就越写越顺了。如果18个申请都需要象前几个申请那样大的精力投入的话，就是分了身脱了皮，也不可能完成。这里的道理很简单，基金申请的成功与否，不仅仅看写得如何，有没有 ideas, 更主要的是科研实力和在政府资助人中的信誉。信誉建立了，一切都好办。开始写申请的时候，基本是纸上谈兵，没有既往的研究投入做后盾，面对的是未知的竞争者，审阅者和资助人，要想有幸被选中，基金申请报告的质量至关重要。虽然质量好的的也完全可能选不上（见过不少这样的实例），但质量有严重瑕疵而想蒙混过关是绝对不可能的。

我写的第一个基金申请，倾注了我全部心血，反复修改，跟自己死剋。领导在旁看都烦了。限量20页的申请，看我先起草了50多页，又减到30页，再压缩到20页，没完没了，说我进入死循环了。一遍一遍地捋，一遍一遍地顺，自己高声朗诵给自己听，看文字 flow 不 flow，到后来差不多可以背下来了。功夫不负苦心人，从来没有写过基金申请，也没有过海外工作经验的我，写出的这第一个基金申请就使老板对我刮目相看。她只修改了个别措辞，就决定让我署名项目的PI。（对于新人，她完全可以让我写，然后自己署名挂帅而不做事，我知道很多外国老板就是这么做的。虽然后来我羽翼丰满以后，她又深感不安，我至今还是很感激她刚开始给了我独当一面的发展机会。）项目批准以后，政府资助人来检查工作时，也对我的申请报告一再表示赞叹，说这是他审阅过的最明白透彻的申请。除了运气和苦干外，我想我这次成功还得益于两个因素：我的语言表达能力，以及我对课题细节的熟悉。尽管没有海外从事这项课题的背景，作为课题基石的自然语言研究我在国内踏踏实实做了五年，积攒了丰富的切身体验，这是博士课堂上学不到的。启动这项研究的我的老板对这个领域并不在行，虽然她对该研究的走向和应用前景能谈得头头是道，但论起具体的语言处理问题来免不了有些虚，只能人云亦云地照猫画虎。我的加盟改变了这个局面，为公司在信息抽取领域发挥影响奠定了基础。

2. SBIR 一览

先谈一下SBIR的概况。美国政府非常重视小企业的发展，认为这是美国经济中最活跃最创新的一个部分。SBIR 是联邦政府部门（国防部海、陆、空、航天、教育等）设立的专项基金，旨在鼓励小企业从事政府部门制定的科研蓝图中具有应用前景的课题。据说，财富500强中不少企业当年就得益于这项基金而发展了最初的技术。SBIR 基金分为三种，Phase 1 基金很少，才10万美金，资助为期九个月的可行性研究；Phase 2 为期两年，75万美金，目标是研发一个模型系统（working prototype）；Phase 3 的基金不固定，50万美金或更多，有时还要求企业与政府共同投入资金（matching funds），目的是在模型的基础上开发应用系统或产品，实际上是政府在多年对某技术的科研投入后再给小企业推一把，以期其市场成功。作为投资方，政府并不要求小企业做大后对政府资助有所回报，但小企业对于政府部门使用相关技术产品应予优惠。

三个 Phase 的基金申请，Phase 1 最难，尽管钱最少。平均约二十个申请才选中一个，命中率小于很多顶级学术会议论文的通过比率。到了 Phase 2, 命中率提高到 50%. 也就是说，政府资助的项目，同一个题目在 Phase 1 阶段通常选择两家公司平行进行，做的是相同的题目，但却没有交流，要的就是在 Phase 2 的时候好做二选一的竞争。Phase 3 是没有定数的，不能指望，有没有后续的 Phase 3 取决于相关题目的应用前景，以及政府资助人资金筹备情况等多个因素。有意思的是，Phase 3 (其中一种叫 SBIR 2 Enhancement) 一旦设立，无需竞争，完全由政府资助方的项目经理人全权决定。虽然从形式上，也要写一个基金申请报告，但是因为没有竞争对手，命中率100％，可以把申请报告当研发计划书来写，基本是走一下形式。

对于多数企业，Phase 1 即便拿到了，也是赔本的买卖，因为在仅有10万资金的条件下，为了竞争 Phase 2, 总要把工作做得更扎实一些，投入更多一些。Phase 1 的基金报告可以纸上谈兵，而申请 Phase 2 就必须包括一些实验数据支持可行性研究的结论。通常的做法多多少少是拿 Phase 2 的资源补贴 Phase 1 的工作，这种事不好明说，但不少企业不这样就很难维持研发的持续性。当年，CEO 看到我们拿了多项政府项目很高兴，因为科研团队的投入全部由政府负担了，科研出的技术成果可以无偿转化到风险投资人资助的产品开发中去，这对于刚刚起步的技术公司是很重要的。而且这种无偿技术转移是受到政府鼓励的，毕竟小企业在市场的成功，最终给国家增强的是劳工市场（帮助解决就业问题）和企业税收，政府巴不得小企业都能在政府扶持下取得市场成功。后来，CEO 凭着他职业嗅觉，发现政府项目并不总合算，有一天，他跑来跟我说，Wei, I don't want to do Phase 1s, for only 100,000, it is not worth it. We need more Phase 2s and Phase 3s. 我笑道，我明白，你只想要二楼三楼，而不愿意兴建一楼和地基。I wish we could do that.

其实，不仅是拿到了 Phase 1 往往倒贴，没拿到之前，就已经开始投入了，主要是写基金报告所花的时间。当然，在小企业里挂帅的科学家个个都是五好员工，为写好基金报告，加班加点，夜以继日，牺牲节假日，很少听说有要求加班费的。考虑到20个申请才能选中一个，可以想见全国争取基金的小企业总共白白花费了多少资源。世界就是这样的不公平，并非有了投入，必有回报。很多技术型小企业就在这样的竞争中，耗尽有限的资金，而自生自灭了，或者转向非技术性产品或服务领域。很多小企业里负责科研项目的“科学家”，也随葬了，小企业不似大企业的研究部门，拿不到基金养活自己及其研究团队，是不能指望投资人或公司其他部门来补贴其研究的。只有少数小企业是幸运儿，有的以此为转机而在工业界成功，也有的即便没有在市场上成功，也可以依靠政府资助 (包括前期的基金和后期的政府合同) 长期运营下去，特别是当政府部门逐渐开始推广使用小企业的技术产品或服务的时候。我所服务的公司两边都沾一点，终于一分为二（spin-off），做工业产品的部门走向了市场，被另一家大公司收购，而做研发的部门成为政府项目的承包者，至今还在依靠政府的基金以及合同运行着。

3 鸿运+汗水+适应性+天才=成功？

话说了一箩筐，还是没到实质问题：究竟怎样才能写好基金申请？钱是硬道理，没有钱怎么科研，怎么雇人，怎么出来成果。读者诸君看热门话题不能白看，有什么成功秘籍也该露一手，造福后学啊。老实说，真地说不清，可以强调的是，一定要为审阅者着想，投其所好，减轻其负担。你想啊，审阅的人也不是神，在有限的时间里，必须完成n多申请的审阅工作。你的主意再好，如果表达不顺畅，格式不规范，很可能第一关就过不了。论述一个问题及其解决途径的时候，无论空间多紧张，务必要举实例，抽象谈论折磨的是审阅者的神经，因为他/她可能要把你的抽象自己在心里做一次转换。如果可能，所举实例最好是前后连贯的，形成一个discourse, 好像一个有头有尾的故事一样。这样你提的方案就具象化成一个使用系统的雏形，这项研究的意义也就蕴含其中了。Proposal 的含金量以及项目 PI 的资历自然是重要指标，这反映了一个资深研究人员与资历欠缺的人之间的鸿沟。但是，也不要过分夸大它的作用，否则新人还怎么起步？我刚开始写申请的时候，资历是远远不够的，PhD 还没有到手，也没有北美科研经历，更没有在北美带过科研团队，严格意义上的发表几乎是空白，唯一的资本是曾经在国内做过五年的研发，对于问题领域敏感而熟悉，语言学的背景加上某种天赋使得我的表达能力超过多数科研人员。这个世界上，万能或者千能的人不是没有，譬如镜子，:=)，但为数极少，大多数都是你我这样的有某项特长，也有严重缺陷的人。（当然，我的缺陷我是从来不认账的，我要把帐算在“四人帮”头上。本来嘛，我当年没费力气就做了数学课代表的，要不是文化大革命，保不准就是第二个陈景润了。）学会藏拙，扬长避短，使我走上了基金申请的成功之路。藏拙的底线是不能闹笑话，没把握的绕着走, 基金申请又不是论文答辩，怎样行文在自己掌控之中，没有被 question 和 cross examination 的现场，当然是"不问不说"喽（立委注："don’t ask, don’t tell” 是美国军方针对同性恋参军设立的一个妥协政策，奥巴马声称要废除这种带有歧视性质的政策，使同性恋者可以光明正大地保卫祖国）。

我的缺陷在于我的理工背景的缺失。本来是报考理工的，可硬被塞进文科学语言学了（这个不怪四人帮，那是文革后拨乱反正的匆忙造成的阴错阳差，详见《朝华午拾：我的考研经历》）。学传统语言学也便罢了，偏偏是交叉学科计算语言学。当年念硕士刚入行的时候，情况还不算太糟，语言学家在这个领域还有发言权，10 年不到就被一帮学统计的理呆，有如张牙舞爪的洪水猛兽，把持了这个领域的话语权，语言学家成了敲边鼓的资料员。言必称统计，机器学习遂成主流，语言学从软的文科变成了硬的科学。不提机器学习，根本难有立足之地，尽管实际上机器学习并没有那么神，在很多复杂一点的语言问题上，根本敌不过语言学家用熟的那套传统规则系统。但是，基金审阅人大多是以统计在这个领域起家的专家，或者是跟风的政府项目经理人，二者都有极深的bias. 科研潮流，浩浩荡荡，顺之者昌，逆之者亡，是我面对的学术现状的真实写照。

我来美的时候，根本就不知道机器学习是怎么回事，只是听说过这个名词而已。问题都是烂熟于心的问题，可解决问题的路子与我熟悉的规则系统迥然不同。到我写第二个申请的时候，项目的标题即明确规定了要探索某种机器学习的方法去解决所提的问题，想绕都绕不过去。可怜我被逼得临时抱佛脚，找来一本研究生的教科书，生吞活剥研读一遍，总算在概念上大体了解了机器学习的基本原理和常用算法，也知道了它的瓶颈和局限。可怎么开写呢，拿自己的短处去硬碰硬别人的长处不是找死嘛。于是，我就提出要结合传统的规则方法和机器学习方法，取长补短，来做这个课题。这样既符合了所要求的研究方向，又站在了兼收并蓄的“道德”制高点上。这篇基金申请千锤百炼写出来以后，比样板戏读着还顺畅。我的老板是电脑系教授，机器学习是她的研究方向之一，她看了也没有找出明显的毛病，稿子审阅完，改了几个措辞，她很满意，说，唯一的遗憾是没有公式。是啊，没几个公式唬人，这项研究方案显得不够硬，含金量不足，科学度不高。可是，那不是杀我吗？我要是硬凑几个公式上去，很可能自暴其短，硬伤累累。老板一时也想不好怎么加，加什么，时限到了，就这样提交上去了。天助我也，居然侥幸通过了，从此启动了我们机器学习的研究方向。后来的路子就顺畅了，有项目就有钱，就可以招机器学习的人员来做项目。在后续的项目申请中，我们总是恰到好处地加上一些公式和具体的机器学习算法，来阐释解决方案，算是跟上了革命的大队伍和学界的大潮流。

说到含金量，其实很多课题，特别是面向应用的课题，并不是什么高精尖的火箭技术（not rocket science），不可能要求一个申请预示某种突破。撰写申请的人是游说方，有责任 highlight 自己的提议里面的亮点，谈方案远景的时候少不了这个突破那个革命的说辞，多少迎合了政府主管部门好大喜功的心态，但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。（纯科学的研究，突破也不多吧，更何况应用型研究。）应用领域“奇迹”的发生往往植根于细节的积累（所谓 the Devil is in the details），而不是原理上的突破。而对于问题领域的细节，我是有把握的。这是我的长处，也是我提出科研方案比较让人信服的原因。有的时候，不得不有迎合“时尚”的考量，譬如领域里正流行 bootstrapping 等机器自学习的算法，虽然很不成熟，难以解决实际问题，但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作，由于科研的探索性质，最终的解决方案完全可以是另一种路子。说直白了就是，挂羊头卖狗肉不是诚实的科研态度，但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。

文字上的技巧就不用说了，很多科研作文指南有不少很好的建议。有一条是一定要做的，定稿前请一位英语 native speaker （比如公司秘书）做文字的修饰。不要让她擅改，因为有些技术内容虽然显得不顺畅，却不能轻易改动。但是对她提出的建议可以认真琢磨一遍，再决定接受与否，如果不接受，要不要再换一种表达法。

4 傍大款

为审阅者着想的延长线就是处处为 sponsor （项目资助和监护人）着想，特别是 sponsor 中的重量级经理（我们私下称之为财神爷）。为 sponsor 着想才能保证后续基金申请的胜算，特别是 Phase 2 和 Phase 3 这些油水大的项目，这一点比写好申请要重要百倍。一个基金通过后，政府会派一个项目监护人，我们需要向她汇报进度，在她来察访的时候，展示系统和成果。这些还远远不够。要想她所想，急她所急，她的任何要求，无论大小，都要放在优先的位置。即便她没有明确要求，也要主动联络，体会贯彻其精神。道理很简单：财神爷是我们科研的衣食父母。有几件事可以说一说，能看出我对衣食父母的尽心尽力，怎样保障了我们源源不断的研究经费，从而保证了研究的持续性和研究队伍的相对稳定。

我领导的系列项目的主要资助方是政府某部门信息抽取组组长A女士，她领导一个五个人的政府项目经理团队，专事信息抽取科研项目的管理和推广应用。A女士是一个聪慧而有悟性和远见的“超女”（super lady），她做事麻利，一丝不苟，精力无限，能量极大，每年在她手下管理的政府基金都是千万级的。八年下来，我们建立了密切融洽的关系，她有什么挑战和苦恼，也能坦率地跟我分享，使得我为她分忧解难成为可能。A 女士没有架子，廉洁奉公，site visit 来察访的时候，连招待快餐的三明治，她都坚持要自己付钱。她生孩子，我给她寄送的几十美元的礼品券也被退回了，说她心领了，但作为政府官员，她确实无法接受任何礼品（不知道国内掌握巨额资金的政府项目官员是怎样处理的？）。在项目的监管方面，A 女士有时严格到了苛刻的程度。每个政府项目都要写一个长长的最后报告（final report）在政府机构发表，总结这个项目的成果和教训。有几次，因为忙于基金申请，我们对现存项目的最后报告写得马虎了一点儿，她毫不留情面地打回来重做。有的报告来回折腾三五回才让她满意。她的认真和严厉不是问题，我自己也是较真的人，常常自己跟自己过不去，有她这样的监管，更加鼓励了我爱咬文嚼字千锤百炼的习惯。后来的系列最后报告，越写越好，不断得到她的欣赏和推荐。

A 女士是有压力的。最大的压力来自上头，她管理这个被认为应用前景广阔的研究方向多年，经手上亿的资金，资助了一批大小企业和大学研究所的相关研究，可是技术转移却很不如人意，只有一些试用系统在政府机构内免费推广，用户响应并不热烈。上面开始质疑此项研究是否值得继续支持，特别是在政府科研经费预算吃紧的大环境下，完全可能撤消资助。一旦撤消，她的小组就必须解散，她自己也要转行，至少不能再管理她已经熟悉了的这个领域的项目了。所以，本质上她遇到的挑战与我的一样，没有她的资助，我的研究小组也必须解散。帮助她减轻这方面的压力，也是帮助我们自己的生存和发展。为此，我确立了帮助她的四个主要方面。首先是全力协助她准备年度检查。其次是加速科研的技术转移。第三是加快学术发表，提升该研究及其资助人在科研领域里的知名度。最后是帮助制定该领域的发展蓝图。

年度检查是对政府项目管理人的主要考核手段，其结果直接影响下一年度项目经费的重新布局。这理所当然成为 A 女士每年最为重视的事件。年度检查团队集中了政府部门的首席科学家和科研领导等重量级大牛，不能稍有差池。她总是提前三个多月就开始着手准备材料，与我们这些被资助方联络，看有什么突出的成果可以拿出来展示（demo）。我们也总是绞尽脑汁寻找科研上的最亮点，提供素材丰富她的 presentation. 重要的是能让她感受到我们急她所急的革命态度。检查关过后，特别是考核成绩优良的时候，她都及时与我们分享喜悦，并郑重感谢我们的合作。

在加速科研的技术转移方面，我们得天独厚，因为除了政府项目以外，我们乘着.com泡沫的东风，幸运地得到了千万级的华尔街风险投资（见《朝华午拾：创业之路》）。有投资就必须做产品，在泡沫过后，资本家的耐心是极其有限的，速度慢了，很可能遭到撤资的命运。几经波折，最终，公司利用我们的信息抽取技术开发了一个品牌舆论测量的产品。尽管所用到的技术只是我们科研项目的一个部分，而且是技术中比较浅层的部分，这毕竟是一个 real life 面向市场的产品。在研发这款产品中，几个关键的 features 都是我亲自主持开发的，用的都是最实用甚至 brute-force 的方法，避免风险和不确定性，有些地方是牛刀宰鸡，譬如只用到自动分析中浅层的结果。换句话说，产品中的技术含量并不很高。当时的想法是先做出产品，以后在产品更新换代的时候，再逐步加强技术的深度转移。因为信息抽取的核心引擎已经植入产品，架构无需变化，只要定期更新引擎就可以为深度转移创造条件。但实际上深度转移后来没跟上，其中主要原因是负责工程的副总怕担风险，宁愿以不变应万变，只在应用层面修修补补，而不愿更新内核，以免伤筋动骨。一定程度上，科研和产品创新脱节了，而这超出了我能掌控的范围。尽管如此，该产品的 marketing 还是做得有模有样，先后在业界多次获奖，动静很大。本来这都是公司产品市场化过程中的题中应有之义，似乎与政府科研项目也没有太多直接关联。可我还是不厌其烦随时与A女士分享我们在市场化中的每一个成绩，包括公关宣传资料，各类奖状和报道，以及客户的正面反馈。她非常高兴，因为她需要这些资料去帮助证明这个技术的应用性，这对这个领域的科研持续得到经费至关重要。她资助的一些大公司和大学的相关研究项目，就没有这个产品化的过程，所以我们的技术产品显得特别重要。

光有产品还不足以让她对我们特别青睐。她需要我们在研究领域站住脚。头两三年忙于系统的设计和架构，以及基础设施的建设，没有顾上学术发表。等架子搭起来了，我们已经有了相当的科研积累。这时候，A 女士跟我说，我们的项目进展非常令她满意，可是学术发表没有跟上是个遗憾。军令如山倒，我于是召集研究组分工合作，集中精力加强学术发表所需的实验和投稿。那年一口气在大大小小会议和杂志发表了15篇论文，包括该领域的顶级会议，publishing like crazy。我与助手开玩笑说，尽管我们只是在工业界打工挖煤，可这样疯狂做研究，真像是为评终身教授 tenure 在拼命呢。每篇论文的结尾都要郑重致谢资助人，作为SBIR 成果备案在册，把 A 女士乐坏了。这些都是我和同事们拼命工作换来的，仗的是正值壮年，精力旺盛。回想起来，那一年真是累惨了，一个死期接着一个死期，不知熬过多少不眠之夜，体力透支，老有一口气喘不过来，感觉随时要光荣倒下的样子。幸好这样的自我摧残造成的亚健康局面没有持续下去，我们就站稳了脚跟。至此，我们的工作在政府资助机构中的信誉是完全建立起来了，要研究有研究，要产品有产品，还有什么比这些成果更能说明科研及其技术转移的实力呢。为此，政府部门领导通报表扬了 A 女士成功资助我们信息抽取研究的突出成绩，我们还数次被提名角逐全美 SBIR 年度最佳奖（nominated for US Small Business Administration Prime Contractor of the Year Award），我们的工作也上了 SBIR 光荣榜（SBIR success story）。也就是说，从资助人角度，对我们的资助是基金成功的样榜，一时风光无限。

在这样的形势下，我开始有了资本影响和（间接）参与政府在这个领域的科研蓝图规划。美国的体制很有意思，政府的研究基金在首席科学家等最高决策者确立了一个总体方向（领域）以后，很多具体科研项目的确立是通过下面的政府项目经理竞标而来。A 女士每年都需要与其他同方向的项目经理竞争选题，她当然希望自己起草的选题被采纳。尽管她在这个领域做项目经理多年，上通下达，左联右合，对该领域的概貌、常用技术和应用前景有相当的了解，但她毕竟不是一线科研人员，她需要我们帮助她提供科研项目选题的思路和技术支持。选题要求确定该领域的瓶颈，以支持相关研究。为此，我利用一切机会把自已对该领域蓝图的理解和体验，用通俗易懂的方式灌输给她。她是个求知欲与好胜心一样强的聪明女士，沟通起来非常顺畅。这样的沟通是互利双赢的。首先是帮助她赢得了更多的选题，因此加强了她项目管理的资源，也在同事中增强了她在该领域项目管理的权威性。同样重要的是，由于帮助了她的选题，我们自然在竞争中处于优势地位。虽然政府项目总要公开招标，但别的竞争者要在短短的选题介绍中体会项目管理者的思路以投其所好，而我们是选题的发源地，可以自由发挥而不偏题，其中的竞争优势不言而喻。这种影响不限于研究性项目，也延及应用型项目。事实上，政府一个千万美元的技术转移 program 的立项，就直接源于我们的工作，这个选题基于我在这个领域科研多年积淀来的“洞见” 以及我们的可行性研究和模型系统。其中对问题的阐述方式、使用的自创术语以及技术转移可行性的论证，与我给政府项目写的最后报告如出一辙。不过，这个大项目的最大受益者却不是我们，而是一个做政府合同的大公司，因为项目指定所要处理的档案具有保密性质，而我们公司多是我这样的外籍盲流，没有权限处理保密文档。尽管如此，看到自己的工作和心目中的蓝图，被采纳成为一个大项目，还是很开心的。有意思的是，项目招标后，有资格竞标的几个公司纷纷找我们联系，上赶着要与我们建立排他性伙伴关系（exclusive partnership），采用我们的技术和引擎，来申请这个项目，因为他们知道这个项目的背景，想借助我们的特殊地位来增加自己的胜算。CEO 很高兴，他说，我们来者不拒，可以同他们都建立伙伴关系，但是 exclusive partnership 没门儿。是啊，让他们去争个头破血流，谁成功我们就跟谁搭档，是我们公司的利益所在。最终，我们如愿以偿成为政府应用开发的核心技术和引擎的提供者，不仅分了一杯羹，更重要的是，我们在政府 business 这一块，正如我们在工业开发那一块一样，也开始了从研究向应用的转变，不再是仅仅依靠研究基金存活，而是油水更大的政府合同的合伙人。这一转变的结果是带来更多的研究基金和政府合同，成为政府必须持续扶持的重点对象，因为政府经理及其项目的主承包者都不敢断了引擎维护和技术更新的源头。

在水牛城的八年，通过上述四个方面对政府资助人无微不至的协助和合作，终于达到了“政民”鱼水情的和谐融洽境界。我算过一笔账，论投资总量，政府项目的900万美元的投入，使得政府（当然最终是纳税人的钱，准确地说是“人民”）是公司实际意义上的最大“股东” (其他风险投资人每家很少超过 500 万)。尽管名义上政府只是扶持，并没有股东的法权，但对待政府项目经理象对待大股东一样才是正确的态度。保持密切联系，保障他们的知情权，是题中应有之义，也是我一直身体力行的。事实证明这样的认识和态度给双方带来的是最好的结果。从政府项目经理的角度，扶持一家小企业及其技术创新，达到可用好用的程度，也是一件极费心力的事。到了一定的阶段当扶持对象的信誉建立以后，政府经理自然悉心珍惜维护这种关系。大家都在一条船上，我们的成功就是他们的成功，他们的失败就是我们的灾难。

作为小企业，能傍上政府的大款，建立一种一损俱损一荣俱荣的关系，实属不易。这样的关系使用得当，可以化险为夷。在世纪之交科技股泡沫破灭后，我的公司经历了腥风血雨的大裁员（见《朝华午拾：水牛风云》）。我主管的研发这块儿，在裁员以后慢慢稳定到七八个人的团队，自负盈亏。仗着持续不断的政府项目，这支队伍一直维持下来。可是，有一次，因为政府项目之间有个缺口，大约有半年时间接不上来，CEO 坚持要我立即裁员。我软磨硬抗，告诉他很快新的项目就可能下来，我甚至用了哀兵之策，说我愿意工资减半，直到足够的政府项目资金到位。CEO 还是坚持要裁员，说新项目不一定能下来，如果下来了，你可以再招员。我心里想，你当是麦当劳工作啊，在职培训几天即可上岗，培养一支队伍不容易，一个新手来了，即便有经验，从熟悉系统到开始贡献一般也要半年时间，我可不能冒这个险。正在这个当口，A 女士带领她的小组来视察工作，老板和我像往常一样接待唯恐不周。老板是个好面子的人，叮嘱我不要把公司动荡的情绪带进来，她自己在介绍公司进展的时候，总是形势一派大好，是大好，不是小好。可是我的心结她也解不开，因为 CEO 固执己见，从来听不见她的意见。送走政府检查团以后，我翻来覆去睡不着觉，怎么想怎么觉得不应该对政府隐瞒这场危机，相反，我们应该向她求助。于是，我熬夜写了一封长信，细述我的科研团队面对伤筋动骨，科研难以为继的困境。第二天一早就收到她的回复，说感谢我的坦率，本来还以为我们一切良好呢。她说她正努力帮助我们度过难关，并嘱咐今后此类事情一定要及早与她通气，因为我的团队受到任何损害，直接影响她的全盘规划。很快，她就调动了自己可以控制的资源，加快了两项 Phase 3 的批准（那两个基金申请书是以最快速度完成的，基本是走过场）。她不久还把我们引荐介绍给另一个政府部门的基金主管，为我们开辟另一部门的基金来源。我感觉这大概是我在高级主管（研发副总）位置上“为政” 六年最大的一项政绩，可以说是在旅美革命的生死关头，我的一封上书，挽救了革命，挽救了党，保全了队伍，稳定了人心，峰回路转，转危为安，从此从胜利走向胜利，从辉煌走向平淡。

记于2010年春节

【相关】

《知识图谱的先行：从 Julian Hill 说起》
Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)
Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

【立委博客NLP博文一览（定期更新版）】

《朝华午拾》总目录

【关于我与NLP】

《知识图谱的先行：从 Julian Hill 说起》

泥沙龙笔记：创新，失败，再创新，再失败，直至看上去没失败

【80年代在国内，社科院的硕士训练使我受益最多】

《立委随笔：语言学家是怎样炼成的》

【把酒话桑麻，MT 产品落地史话】

泥沙龙笔记：把酒话桑麻，聊聊 NLP 工业研发的掌故

把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发

看望导师刘倬先生，中国机器翻译的开山鼻祖之一

巧遇语言学上帝乔姆斯基

[转载]欧阳锋：巧遇语言学新锐　－　乔姆斯基

【科普小品：伟哥的关键词故事】

立委随笔：Chomsky meets Gates

遭遇脸书的 Deep Text

【不是那根萝卜，不做那个葱】

【女怕嫁错郎，男怕入错行，专业怕选错方向】

【创业故事：技术的力量和技术公司的命运】

《眼睛一眨，来了王子，走了白马》

职业随想曲：语言学万岁

钩沉：《中国报道》上与导师用世界语发表的第一篇论文

钩沉：《中国报道》上用世界语发表的第二篇论文

【泥沙龙笔记：机器 parsing 洪爷，无论打油或打趣】

老革命遇到新问题，洪爷求饶打油翁

我要是退休了，就机器 parse 《离骚》玩儿

【关于 NLP 以及杂谈】

【关于 parsing】

【置顶：立委NLP博文一览（定期更新版）】

【立委NLP频道】

【关于NLP掌故】

【文傻和理呆的世纪悲剧（romance tragedy）】

【 IT风云掌故：金点子起家的　AskJeeves 】

【今天的Ask.com】

《语义三巨人》

一个人对抗一个世界，理性主义大师 Lenat 教授

《泥沙龙笔记：再谈 cyc》

围脖：格语法创始人菲尔墨（Charles J. Fillmore）教授千古！

【泥沙龙笔记：从机器战胜人类围棋谈开去】

【说说科研立项中的大跃进】

百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng

冯志伟老师以及机器翻译历史的一些事儿

《立委随笔：微软收购PowerSet》

【NLP 历史上最大的媒体误导：成语难倒了电脑】

【立委推荐：乔姆斯基】

巧遇语言学上帝乔姆斯基

【随记：湾区的年度 NLP BBQ 】

【女怕嫁错郎，男怕入错行，专业怕选错方向】

【据说，神奇的NLP可以增强性吸引力，增加你的信心和幽会成功率】

泥沙龙笔记：把酒话桑麻，聊聊 NLP 工业研发的掌故

把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发

看望导师刘倬先生，中国机器翻译的开山鼻祖之一

【关于 NLP 以及杂谈】

【关于 parsing】

【置顶：立委NLP博文一览（定期更新版）】

【立委NLP频道】

冯志伟老师以及机器翻译历史的一些事儿

有群友问，冯志伟老师还好吗？联想到一些MT的历史，随笔记下。
冯老师的微博还很热闹啊（冯志伟文化博客的微博_微博），他四处讲学著作等身看照片神采奕奕的样子。学问的高峰虽已过，游离于主流非主流一线之外但老当益壮勤于笔耕教书育人传播科学。
中国机器翻译（MT）历史上有冯老师的一页他凭着多语言的天赋在法国时期实现了一个一对多（汉语到欧洲语言）的机器翻译。我的硕士论文也是一对多（世界语到英语和汉语），比起冯老师，就算玩具了，但做一对多MT的人很少很少。说的是当年。后来 SMT 盛行了，终于能 scale up 到多对多，尽管仍然是一个语言对一个语言对做的而我们当年做的一对多源语分析模块是共享的。
关于冯老师也有些故事。我的学长乔毅（硕士做的是法汉机器翻译，二刘老师文革后招收的MT首届研究生之一，其他的学员还包括冯老师、李卫东、黄秀铭等）告诉我，冯老师在这拨人中很特别，因为他处于两代之间，地位特殊。他实际上在文革前就介入MT的研究项目了，与二刘老师早有合作。由于文革的十年蹉跎，文革后二刘老师用招收研究生的方式让他归队，因此他实际上是以半同事、半学员的身份回来的。从资历上，二刘老师对他来说更像兄长和同事，而不是传统意义的导师。乔毅说，我们见两位刘老师，都毕恭毕敬称刘老师或刘先生，只有冯志伟例外，他称刘老师为老刘。
冯老师是个蛮豪爽的人，给人亲近感。记得89年香山会议上山，他气喘吁吁，跟我说，由于运动，他路上花了四五个小时才到，我问刘老师呢，他说，刘老师不同，他是圣人。冯老师最津津乐道的成就之一就是，他是第一个（或第一个之一）提出要用多标记做MT的。因为传统的MT都是在词类（POS）和词的基础上做，但POS 太大，词（直接量）太小，很难细线条成hierarchical 的规则系统以提高质量。因此当一个词带有多标记（譬如 ontology 的标记如 Human、Food 之类）参与规则条件自然是打开了一扇大门。不过这一点我觉得是针对西方主流MT系统的算法而言。中国的MT，二刘老师从60年代就开始使用“句子场”的数据结构，这个句子场里面的每一栏实质上就是一个词的多标记。
刘涌泉刘倬老师给我们上课，他们的说法是，MT 50 年代初期由美国率先，苏联紧随，中国自从 57 年从苏联取经就是第三个开展 MT 的国家了。到了 60 年代，中国 MT 的研究处于世界先进水平。主要的原因是，美国和苏联的研究重点都是英俄或其他欧洲语言之间的MT，而中国一开始就不得不面对两个完全不相干的语系之间的MT（俄汉、英汉）。这个特殊性迫使我们不得不把 MT 推向深入。
MT 后来的历史巧合是，到了 1966 年，美国遭遇了由【黑皮书】带来的 MT 寒冬，中国没有黑皮书，但有红卫兵，也同时遭遇了文革带来的科研寒冬。MT 的复苏是在文革后，西方差不多同时也复苏了。世事巧合，莫过于此。参见：ALPAC 黑皮书 1/9：前言，MT 杀手皮尔斯（翻译节选）。

QUOTE 【立委按】此前的博文摘要编译过皮尔斯论，这次重发的是对原文逐字逐句的完整翻译。皮尔斯是当年美国高科技官僚的代表人物，他是以MT（Machine Translation，机器翻译）杀手的面目记载在领域历史里。1966年，他主持撰写的那篇世界著名（或臭名昭著）的 ALPAC 黑皮书，把热火朝天的机器翻译研究，一下子打入冷宫。丘吉教授认为，皮尔斯给自然语言处理泼冷水，促成对自然语言和人工智能很多项目的资助冻结，是有其洞察力和远见的。不管我们心内对他多么不自在，必须看到他的反对意见至今没有过时，仍值得我们认真反思。

【河东河西，谁敢说SMT最终一定打得过规则MT？】

Xi:
@wei ，评论一下李明教授的机器翻译。我纳闷这年头这么多人跨界来和你抢食啊？

我:
评论啥，我对MT无感了，都。
我现在是，胸怀知识图谱，放眼世界大同。早翻过MT那一页了。
不过话说回来，学自然语言的人如果入行做的就是规则机器翻译，那是上天的赐福。新一辈这种人没有了，所以很多入行多年的人，看到的语言世界，还是井底的一线天。
如果你在没有平台支持下被逼着去做机器翻译，你有福了。你必须从头开始做词典、做 tokenization，做 POS，做短语，做 SVO 句法，你还要做双语结构转换、WSD 词义消歧，最后还有目标语的生成，包括形态生成、调序，修辞上的一些 final touches。
总之方方面面你必须全部做到如果没有平台没有专用语言像我们做硕士论文那样用 general purpose language （COBOL，ALGOL，BASIC，甚至汇编）做，那就是在太上老君八卦炉里炼没得不炼成火眼金睛后去做 NLP 任何一个方面和应用都洞若观火。
现在的 CL 硕士博士呢动不动就下载一个软件包，瞅准一个子任务譬如切词，譬如 sentiment，譬如WSD，哪怕是做 MT，也不用涉及那么多的层次和模块。
老老年文：【立委科普：机器翻译】但并没完全失效。还有这篇：【立委随笔：机器翻译万岁】。
SMT 不用涉及那么多层次是因为迄今的 SMT 基本是在浅层打转从来就没有做到深层，论深度和结构远远不及我们 30 年前做的规则MT。
马:
但是比规则的系统实用啊
我:
河东河西啊。
如今董老师的系统等也打磨经年了，很难说谁更实用。论精度则绝对是后者强，甩出一条街去。
smt 的先驱应该是 ibm ，从加拿大议会英法双语语料开始的。

Guo:
Translation memory 算什么？

我:
说起这个概念，我还有掌故呢。以前记过，差不多也成了 MT 野史或外传了，见《朝华午拾：欧洲之行》，Victor 称作为 translation unit （TU）。他们的所谓的 Chinese Week，当时董老师也去了，我和刘老师也去了。傅爱萍大姐派人领我们参观了红灯区以后，并没有随着我们去参加这个活动。这个活动的设立与我当年为他们做的“汉语依存文法”的工作密切相关。
QUOTE 研究组的骨干还有国际世界语协会的财务总监，知名英国籍世界语者 Victor Sadler 博士，我在71届国际世界语大会上跟他认识。作为高级研究员，他刚刚完成一项研究，利用 parsed （自动语法分析）过的双语对照的语料库(BKB, or Bilingual Knowledge Base)的统计信息，匹配大小各异的翻译单位（translation unit）进行自动翻译，这一项原创性研究比后来流行的同类研究早了5－10年。显然，大家都看好这一新的进展，作为重点向我们推介。整个访问的中心主题，仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人，预备下一步大规模的商业开发，汉语作为不同语系的重要语言，其可行性研究对于寻找投资意义重大。
索性把怀旧进行到底《朝华午拾：一夜成为万元户》：这是我为这个DLT项目所做的 Chinese Dependency Grammar 的故事。这篇汉语形式文法的原始版本有链接可以下载：Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands. 我的工作应该是中国做依存关系最早最完整的作品了。所谓【美梦成真】就是这么个来历，跨越近 30 年，纸上谈兵的 syntax 终于化为现实的 deep parser。
刚才一边吃晚饭，一边琢磨这段MT外传，觉得还是有几点可以总结的，笔记如下，各位指正。
（1）荷兰这个多语 MT 计划本来是规则系统起家，用世界语作为媒介语，用的是依存关系文法的框架，实现的机制是 ATN （Augmented Transition Network），技术领头是德国语言学家舒伯特。
（2）可是做着做着，剑桥出身的 Victor 博士想出了统计的路线，定义了一个在句法分析基础上、根据统计和记忆决定的可大可小的 Translation Unit （有点像我们用的“句素”的概念），做了实验验证了这条路线的创新，把整个项目在收尾阶段翻了个个儿。而这时候（1989年），其他的MT研究虽然也有 IBM 等开始的统计 MT，但没有一个达到这样的深度。
（3）事实上，直到今天，回顾这个科研创新可以看出，根据 parsed 以后的双语数据库的平行对比，从统计去找 Translation Units，比起后来多数缺乏结构、本质上是 ngram 记忆的 SMT，还是远高出一筹。
（4）在 SMT 中加入 parsing 并不是每个人都有这个条件，DLT 赶巧是先做 parser 做了四五年，有了这个基础。现在和今后的方向从宏观上来看是，SMT 应该重温类似 BKB 双语parsed平行语料库的尝试，走带入结构的道路，才有希望克服现在显而易见的结构瓶颈，譬如定语从句翻译的错误。

mei:
语言学家做MT注重语言的结构，深的浅的。我是ai出生，注重“知识“，互相通融的，但侧重点有区别。
Guo:
一谈到统计和规则，总不免让人想起，库恩的科学革命的结构。根本说来，统计和规则，对于什么是nlp，是有完全不同的定义的。站在统计的角度，古埃及文的解读，作者和鹰品的辨识，错别字的检查和矫正，文章可读性的分类，还有很多很多这样的，都是历史悠久的成功故事。说历史悠久，是因为他们早于乔姆斯基太多年了。但是从规则的角度看，这些大概都不属于nlp。

我:
规则也并非一定要是句法的规则，任何 patterns 包括 ngrams 都可以是规则。学习派用的是 ngram 的分布统计，规则派很难量化这些 ngrams 的统计数据，只好把“gram”定义为从线性序列到句法单位的一个动态 unit，用结构化的深度弥补统计性的不足。

Guo:
其实对于mt，统计这一派也更多的是从"机助"翻译甚至阅读来看问题。不管大佬们怎么吹牛，统计这一派从来不以理解人模仿人为目标。他们是非常工程性，实用主义的。

我:
当 gram 被定义为我导师刘倬老师所阐述过的“句素”以后，产生了两个飞跃：
第一是距离从线性走向平面，甚至远距离现象也可以被这种 “ngram” 抓住了：这类例证我此前显示过很多。第二是 gram 本身从直接量 (literal) 提升为一个具有不同抽象度的 features 的语言学单位总和，连ontolgy亦可带入。这两个飞跃使得应对自然语言错综复杂的规则，变得切实可行。
smt 我们迄今看到的流行成熟的系统，譬如大投入造就的百度和谷歌MT，其缺乏结构和parsing支持的缺点是如此显然，结构瓶颈随处可见。可反过来看董老师在群里显示出来的传统规则+知识的系统，结构的优势不言而喻。
也许从 scale up，从对付鸡零狗碎的成语性的 ngrams，董老师这类系统目前还无法匹敌百度谷歌 smt，但是假如以董老师系统为核心，给以同等的资源投入和维护，我觉得百度系统无法打得过规则 MT。当然最佳的办法是二者的某种结合，取长补短。我想说的是，如果硬要硬碰硬的话，在同等投入的基础上，谁敢拍胸脯说主流 smt 一定会胜过规则 mt 呢？
现在是不平等比较，根本不是 apple to apple 较量。历史把规则mt 推下了主流舞台，但是 smt 的人无论多么傲慢也还是应该看得见自己的短板和规则mt的亮点。

Guo:
统计这一派，其实有很多人试图引入结构，但鲜有能够有效减少perplexity的。核心的争论，就是问题到底出在哪儿？一种观点是，结构，并不承载太多的附加信息。另一种就是，我们还没有发现更好的更有效的数学模型。这就是为什么，好些人对深度神经就像打了鸡血。

我:
heterogeneous features 引入后的 evidence overlapping 以及 perplexity 等，是研究课题，不过说结构不承载太多附加信息等价于说 ngram 线性的 model 无需改变，这个 model 在20多年中已经被推向了极致，没有多少油水了。白老师说话，model 不对，语言长得啥样框架上就没留下空间，再多的数据，再deep的学习，也是必然遭遇瓶颈的。
的确在某些粗线条任务中譬如 document classification，一袋子词的ngram模型已经足以满足应用的需要，精度已经够高，结构即便加入也改进余地不大了：这不是我们需要讨论的。我们关注的都是那些显然遭遇瓶颈的任务，包括 MT、包括 IE、包括 Sentiment Analysis，这些任务，显然统计的路线在没有结构助力下，深入不下去。
到目前为止纵然有一些带入结构的尝试，但很可能是浅尝辄止，还不到结论的时候。
深度神经是一种训练的算法，与语言的结构深度没有必然联系。事实上迄今为止对于 text NLP 的深度神经的尝试，除了专门做中间件 parsing 的 research 如 SyntaxtNet 外，对于 NLP 应用方面的任务，基本上还是在语言浅层进行。带入结构的深度神经用于 text NLP，到底有几家在做？如果没做或还没做出结果来那么所谓 Deep Text 就是有意无意的误导（见【遭遇脸书的 Deep Text】）。

杨:
我理解：深度学习主要是可能在语意理解领域可能会有所改变

我:
譬如？
哪些任务是深度神经擅长、文法工程短板的语义理解呢？
凡是条分缕析的细线条任务，想不出来深度学习可做，文法工程不可做的，无论语义如何落地。

杨:
比如文字到图像的映射搜索呢？我不懂，瞎说的。当然这个目前远远不成熟只是猜想

我:
这个还真是没想到，因为其中一端是 text （captions？），可另一端是 image，对于学习，无论神经的深浅，这个任务只要有大量的 data （带有 captions 的图片集），就是一个很自然的学习的任务。而对于规则，这种形式化的语义落地（映射到图像）在图像那边如何处理并integrate 到规则系统中来对接，似乎没有显然而见的自然接口。

杨：
不过图像这块就不够成熟要做这个且早呢。

我:
好。短板不怕，只要心里有数就好。早就知道规则的“经典”短板了：
【手工规则系统的软肋在文章分类】。
QUOTE 人脑（规则）可能顾不上这么多细微的证据及其权重，但是人脑往往可以根据不同状况抓住几条主线，然后在其中调控，达到解决问题。在 deep parsing 这个 NLP 的关键/核心领域，规则系统的优势更加明显。
再有就是搜索。关键词检索的鲁棒、对付长尾 query 的能力，是规则系统难以匹敌的。
但是如果把关键词搜索作为 backoff，那么加入结构的精准智能搜索（我们叫 SVO search）就顺理成章了。

【相关】

【立委科普：机器翻译】
【立委随笔：机器翻译万岁】

《朝华午拾：欧洲之行》
《朝华午拾：一夜成为万元户》
【美梦成真】
【手工规则系统的软肋在文章分类】
【遭遇脸书的 Deep Text】

Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands.

【置顶：立委科学网博客NLP博文一览（定期更新版）】

《朝华午拾》总目录