杂类 - 第 31 页 - 立委NLP频道

华裔总统候选人杨安泽的高光时刻

民主党总统候选人初选辩论第二夜，终于迎来了华裔候选人杨安泽（Andrew Yang）的高光时刻。绝对精彩，一鸣惊人。第一次辩论由于现场争抢话语权不够有力而失利后，这次他是精心准备了，没有一个多余的字，句句戳心，无可挑剔。对主流议题提出了独特的视角和前瞻性解决方案，具有新鲜的冲击力。

请看辩论现场杨辩的翻译（thanks to 有道MT）：

Opening Statement

BASH: Andrew Yang?

YANG: If you've heard anything about me and my campaign, you've heard that someone is running for president who wants to give every American $1,000 a month. I know this may sound like a gimmick, but this is a deeply American idea, from Thomas Paine to Martin Luther King to today.

Let me tell you why we need to do it and how we pay for it. Why do we need to do it? We already automated away millions of manufacturing jobs, and chances are your job can be next. If you don't believe me, just ask an auto worker here in Detroit.

How do we pay for it? Raise your hand in the crowd if you've seen stores closing where you live. It is not just you. Amazon is closing 30 percent of America's stores and malls and paying zero in taxes while doing it. We need to do the opposite of much of what we're doing right now, and the opposite of Donald Trump is an Asian man who likes math.

(APPLAUSE)

So let me share the math. A thousand dollars a month for every adult would be $461 million every month, right here in Detroit alone. The automation of our jobs is the central challenge facing us today. It is why Donald Trump is our president, and any politician not addressing it is failing the American people.

(APPLAUSE)

开场白:

BASH: 安德鲁·杨?

杨: 如果你听说过我和我的竞选活动，你一定听说过有人竞选总统，他想给每个美国人每月1000美元。我知道这听起来像是一个噱头，但从托马斯·潘恩(Thomas Paine)到马丁·路德·金(Martin Luther King)，再到今天，这是一个深刻的美国理念。

让我来告诉你为什么我们需要这么做，以及我们是如何支付的。我们为什么要这么做?我们已经有数以百万计的制造业工作岗位被自动化了，你的工作很可能就是下一个。如果你不相信我，就问问底特律的任何一位汽车工人。

我们怎么负担?如果你看到你住的地方的商店关门，请在人群中举手。不仅仅是你。亚马逊关闭了美国30%的商店和购物中心，并且在这一过程中不缴一分钱的税。我们需要做与我们现在所做的相反的事情，而与唐纳德·特朗普相反的，是一个喜欢数学的亚洲人。

(掌声)

让我来分享一下这里面的数学。每个成年人每月1000美元，仅在底特律将是4.61亿美元。工作岗位的自动化是我们今天面临的主要挑战。这就是为什么唐纳德·特朗普(Donald Trump)当上了我们的总统，而任何不解决这个问题的政客都辜负了美国人民。

(掌声)

TAPPER: Thank you. Thank you, Governor Inslee.

Mr. Yang, I want to bring you in. You support a Medicare for All system. How do you respond to Governor Inslee?

YANG: Well, I just want to share a story. When I told my wife I was running for president, you know the first question she asked me? What are we going to do about our health care?

That's a true story, and it's not just us. Democrats are talking about health care in the wrong way. As someone who's run a business, I can tell you flat out our current health care system makes it harder to hire, it makes it harder to treat people well and give them benefits and treat them as full-time employees, it makes it harder to switch jobs, as Senator Harris just said, and it's certainly a lot harder to start a business.

If we say, look, we're going to get health care off the backs of businesses and families, then watch American entrepreneurship recover and bloom. That's the argument we should be making to the American people.

(APPLAUSE)

TAPPER: Thank you, Mr. Yang.

TAPPER:谢谢。谢谢你，英斯利州长。

杨先生，我想带你进来。你支持全民医保。你如何回应英斯利州长?

杨:嗯，我只是想分享一个故事。当我告诉妻子我要竞选总统时，你知道她问我的第一个问题吗?我们要怎么对待我们的医疗保健?

这是一个真实的故事，而且不仅仅是我们。民主党人谈论医疗保健的方式是错误的。作为做生意的人,我可以明白告诉你，我们当前的医疗保健系统使得雇人很难,很难对雇员好,给他们实惠,并把他们当作全职员工,也很难换工作,当然也更加难以创业。

如果我们说，看，我们要把医疗保健的重负从企业和家庭的背上卸下来，然后看美国的企业家精神的复苏和繁荣。这才是我们应该向美国人民提出的论点。

(掌声)

谢谢你，杨先生。

【关于移民议题】

LEMON: Mr. Yang, your response?

杨安泽的UBI答问：作为自由红利的全民最低收入保障

(APPLAUSE)

YANG: I'm the son of immigrants myself. My father immigrated here as a graduate student and generated over 65 U.S. patents for G.E. and IBM. I think that's a pretty good deal for the United States. That's the immigration story we need to be telling.

We can’t always be focusing on some of the -- the -- the distressed stories. And if you go to a factory here in Michigan, you will not find wall-to-wall immigrants; you will find wall-to-wall robots and machines. Immigrants are being scapegoated for issues they have nothing to do with in our economy.

(APPLAUSE)

莱蒙:杨先生，你有什么看法?

(掌声)

杨:我自己就是移民的儿子。我父亲作为研究生移民到这里，为通用电气和IBM申请了65项美国专利。我认为这对美国来说是一笔不错的交易。这就是我们需要讲述的移民故事。

我们不能总是把注意力集中在那些痛苦的故事上。如果你去密歇根州的工厂，你不会发现到处都是移民;你会发现到处都是机器人和机器。移民被当作替罪羊，他们与我们的经济困境毫无关系。

(掌声)

【关于刑事司法议题】

TAPPER: Thank you, Mr. Vice President.

YANG: May I, please?

TAPPER: Mr. Yang, your response?

(APPLAUSE)

YANG: I speak for just about everyone watching when I say I would trust anyone on this stage much more than I would trust our current president on matters of criminal justice.

(APPLAUSE)

We cannot tear each other down. We have to focus on beating Donald Trump in 2020.

I want to share a story that a prison guard, a corrections officer in New Hampshire said to me. He said, we should pay people to stay out of jail, because we spend so much when they're behind bars. Right now, we think we're saving money, we just end up spending the money in much more dark and punitive ways. We should put money directly into people's hands, certainly when they come out of prison, but before they go into prison.

TAPPER: Thank you, Mr. Yang.

(APPLAUSE)

TAPPER:谢谢你，副总统先生。

杨:我可以插一句吗?

TAPPER:杨先生，你有什么看法?

(掌声)

杨:我可以代表在场的每一个人说，在刑事司法问题上，我相信这个舞台上的每一个人，远远超过相信我们的现任总统。

(掌声)

我们不能拆散彼此。我们必须集中精力在2020年击败唐纳德·特朗普(Donald Trump)。

我想分享一个监狱看守的故事，新罕布什尔州的一名狱警对我说。他说，我们应该付钱让人们远离监狱，因为当他们在监狱里时，我们花了很多钱。现在，我们认为我们是在省钱，我们只是以更加黑暗和惩罚性的方式花钱。我们应该把钱直接交到人们手中，在他们出狱之后，但也在他们入狱之前。

谢谢你，杨先生。

(掌声)

LEMON: Mr. Yang, why are you the best candidate to heal the racial divide in America -- your response?

YANG: I spent seven years running a non-profit that helped create thousands of jobs, including hundreds right here in Detroit, as well as Baltimore, Cleveland, New Orleans. And I saw that the racial disparities are much, much worse than I had ever imagined.

They're even worse still. A study just came out that projected the average African-American median net worth will be zero by 2053. So you have to ask yourself, how is that possible? It's possible because we're in the midst of the greatest economic transformation in our history. Artificial intelligence is coming. It's going to displace hundreds of thousands of call center workers, truck drivers -- the most common job in 29 states, including this one.

And you know who suffers most in a natural disaster? It's people of color, people who have lower levels of capital and education and resources. So what are we going to do about it? We should just go back to the writings of Martin Luther King, who in 1967, his book "Chaos or Community", said "We need a guaranteed minimum income in the United States of America." That is the most effective way for us to address racial inequality in a genuine way and give every American a chance in the 21st Century economy.

(APPLAUSE)

LEMON: Mr. Yang, thank you very much.

莱蒙:杨先生，为什么你是治愈美国种族分裂的最佳人选?

杨:我花了七年时间经营一家非盈利机构，帮助创造了数千个就业机会，其中包括底特律、巴尔的摩、克利夫兰和新奥尔良的数百个就业机会。我发现种族差异比我想象的要严重得多。

更糟的是，一项刚刚出炉的研究预测，到2053年，非洲裔美国人的平均净资产中值将为零。所以你要问自己，这怎么可能?这是可能的，因为我们正处于历史上最大的经济转型时期。人工智能即将到来。这将导致成千上万的呼叫中心工作人员和卡车司机失业——而这是29个州最常见的工作，包括这个州。

你知道谁在自然灾害中受害最深吗?是有色人种，他们的资本、教育和资源水平较低。那么我们要怎么做呢?我们应该回顾一下马丁·路德·金(Martin Luther King)的著作，他在1967年出版的《混乱还是社区》(Chaos or Community)一书中说，“我们需要美国有保障的最低收入。”这是我们以真正的方式解决种族不平等问题、让每个美国人在21世纪的经济中都有机会（分享经济红利）的最有效方式。

(掌声)

莱蒙:杨先生，非常感谢。

BIDEN: - in research for new alternatives to deal with climate change.

BASH: Mr. Yang, your response?

BIDEN: And that's bigger than any other person.

YANG: The important number in Vice President Biden's remarks just now is that he United States was only 15 percent of global emissions. We like to act as if we're 100 percent, but the truth is even if we were to curb our emissions dramatically, the earth is still going to get warmer.

And we can see it around it us this summer. The last four years have been the four warmest years in recorded history. This is going to be a tough truth, but we are too late. We are 10 years too late. We need to do everything we can to start moving the climate in the right direction, but we also need to start moving our people to higher ground.

And the best way to do that is to put economic resources into your hands so you can protect yourself and your families.

拜登:在寻找应对气候变化的新选择的研究中。

巴什:杨先生，您有什么看法?

拜登:这比其他任何人都重要。

杨:拜登副总统刚才讲话中提到的一个重要数字是，美国的温室气体排放量只占全球的15%。我们喜欢表现得好像我们是百分之百的，但事实是，即使我们大幅减少排放，地球仍然会变暖。

今年夏天我们可以看到它在我们周围。过去四年是有记录以来最热的四年。这将是一个残酷的事实，但我们已经太迟了。我们晚了10年。我们需要尽一切努力让气候朝着正确的方向发展，但我们也需要让我们的人民搬到更高的地方。

最好的方法是把经济资源放在你的手中，这样你就可以保护你自己和你的家人。

TAPPER: Thank you, Senator Gillibrand. Mr. Yang, in poll after poll democratic voters are saying that having a nominee who can beat President Trump is more important to them than having a nominee who agrees with them on major issues. And right now, according to polls, they say the candidate who has the best chance of doing that, of beating President Trump is Vice President Biden. Why are they wrong?

YANG: Well, I'm building a coalition of disaffected Trump voters, independents, libertarians, and conservatives, as well as democrats and progressives. I believe I'm the candidate best suited to beat Donald Trump and as for how to win in Michigan and Ohio and Pennsylvania, the problem is that so many people feel like the economy has left them behind.

What we have to do is we have to say look, there's record high GDP in stock market prices, you know what else they're at record high is? Suicides, drug overdoses, depression, anxiety. It's gotten so bad that American life expectancy had declined for the last three years.

And I like to talk about my wife who is at home with our two boys right now, one of whom is autistic. What is her work count at in today's economy. Zero and we know that's the opposite of the truth. We know that her work is amongst the most challenging and vital.

The way we win this election as we redefine economic progress to include all the things that matter to the people in Michigan and all of us like our own heath, our well being, our mental health, our clean air and clean water, how are kids are doing.

If we change the measurements for the 21st century economy to revolve around our own well being then we will win this election.

(CROSSTALK)

TAPPER: Thank you, Mr. Yang. Congresswoman Gabbard, your response?

TAPPER:谢谢你，吉里布兰德参议员。在一次又一次的民意调查中，民主党选民表示，对他们来说，有一个能够击败特朗普总统的候选人比有一个在重大问题上与他们意见一致的候选人更重要。现在，根据民意调查，他们说最有可能击败特朗普总统的候选人是副总统拜登。为什么他们错了?

杨:嗯，我正在建立一个由心怀不满的特朗普选民、独立人士、自由主义者、保守派、民主党人和进步人士组成的联盟。我相信我是最适合击败唐纳德·特朗普的候选人。至于如何在密歇根州、俄亥俄州和宾夕法尼亚州获胜，问题是很多人觉得经济已经把他们甩在了后面。

我们要做的是，看，股票市场的GDP达到了创纪录的高水平，你知道处于创纪录的高水平的还有什么吗? 自杀，药物过量，抑郁，焦虑。情况变得如此糟糕，美国人的预期寿命在过去三年里下降了。

我想谈谈我的妻子，她现在和我们的两个儿子在家，其中一个患有自闭症。她的工作在今天的经济中起什么作用? 0，我们知道这是与事实相反的。我们知道她的工作是最具挑战性和最重要的。

当我们重新定义经济发展时，我们赢得这次选举的方式包括所有对密歇根人民和我们所有人都重要的事情，比如我们自己的健康，我们的幸福，我们的精神健康，我们干净的空气和干净的水，孩子们过得怎么样。

如果我们改变对21世纪经济的衡量标准，使之围绕我们自己的福祉，那么我们将赢得这次选举。

(相声)

谢谢你，杨先生。国会女议员加巴德，你怎么看?

BASH: Mr. Yang, Mr. Yang, women on average earn 80 cents, about 80 cents for every dollar earned by men. Senator Harris wants to fine companies that don't close their gender pay gaps. As an entrepreneur, do you think a stiff fine will change how companies pay their female employees?

YANG: I have seen firsthand the inequities in the business world where women are concerned, particularly in start-ups and entrepreneurship. We have to do more at every step. And if you're a woman entrepreneur, the obstacles start not just at home, but then when you seek a mentor or an investor, often they don't look like you and they might not think your idea is the right one.

In order to give women a leg up, what we have to do is we have to think about women in every situation, including the ones who are in exploitive and abusive jobs and relationships around the country. I'm talking about the waitress who's getting harassed by her boss at the diner who might have a business idea, but right now is stuck where she is.

What we have to do is we have to give women the economic freedom to be able to improve their own situations and start businesses, and the best way to do this is by putting a dividend of $1,000 a month into their hands.

(APPLAUSE)

It would be a game-changer for women around the country, because we know that women do more of the unrecognized and uncompensated work in our society. It will not change unless we change it. And I say that's just what we do.

(APPLAUSE)

巴什:杨先生，杨先生，女性的平均工资是男性的平均工资是80%，男性挣一个美元的工作，女性才能得80美分。哈里斯参议员希望对那些没有缩小性别薪酬差距的公司进行罚款。作为一名企业家，你认为严厉的罚款会改变公司支付女性员工的方式吗?

杨:我亲眼目睹了商界的不平等，尤其是女性在创业和创业方面的不平等。我们必须在每一步都做得更多。如果你是一名女企业家，障碍不仅来自家庭，而且当你寻求导师或投资者时，他们往往和你长得不一样，他们可能认为你的想法不正确。

为了给女性提供帮助，我们必须做的是，我们必须考虑到各种情况下的女性，包括那些在全国各地处于被剥削和虐待处境和关系中的女性。我说的是女服务员，她在餐馆里被老板骚扰，她可能有一个商业想法，但现在却被困在原地。

我们要做的是给女性经济自由，让她们能够改善自己的处境，创业，最好的办法就是每月给她们1000美元的红利。

(掌声)

这对全国的女性来说将是一个游戏规则的改变，因为我们知道，在我们的社会中，女性做了更多不被认可和没有报酬的工作。除非我们改变它，否则它不会改变。我要说这就是我们要做的。

(掌声)

TAPPER: Thank you. Thank you, Congresswoman.

Mr. Yang, Iran has now breached the terms of the 2015 nuclear deal after President Trump withdrew the U.S. from the deal, and that puts Iran closer to building a nuclear weapon, the ability to do so, at the very least. You've said if Iran violates the agreement, the U.S. would need to respond, quote, "very strongly." So how would a President Yang respond right now?

YANG: I would move to de-escalate tensions in Iran, because they're responding to the fact that we pulled out of this agreement. And it wasn't just us and Iran. There were many other world powers that were part of that multinational agreement. We'd have to try and reenter that agreement, renegotiate the timelines, because the timelines now don't make as much sense.

But I've signed a pledge to end the forever wars. Right now, our strength abroad reflects our strength at home. What's happened, really? We've fallen apart at home, so we elected Donald Trump, and now we have this erratic and unpredictable relationship with even our longstanding partners and allies.

What we have to do is we have to start investing those resources to solve the problems right here at home. We've spent trillions of dollars and lost thousands of American lives in conflicts that have had unclear benefits. We've been in a constant state of war for 18 years. This is not what the American people want. I would bring the troops home, I would de-escalate tensions with Iran, and I would start investing our resources in our own communities.

(APPLAUSE)

TAPPER: 谢谢。谢谢你,国会女议员。

杨，在特朗普总统宣布美国退出2015年核协议后，伊朗违反了该协议的条款，这使得伊朗离制造核武器又近了一步，至少有能力制造核武器。你说过，如果伊朗违反协议，美国需要做出“非常强烈”的回应。那么，杨现在会如何回应呢?

杨: 我想采取行动缓和伊朗的紧张局势，因为他们是在回应我们退出这项协议的事实。不仅仅是美国和伊朗。还有许多其他世界强国也参与了这项多国协议。我们必须试着重新达成协议，重新协商时间表，因为现在的时间表已经没有意义了。

但我已经签署了一项承诺，结束永远的战争。现在，我们在国外的实力反映了我们在国内的实力。到底发生了什么? 我们在国内四分五裂，所以我们选了唐纳德·特朗普(Donald Trump)，现在我们与我们的长期合作伙伴和盟友之间的关系也不稳定、不可预测。

我们要做的是开始投资这些资源来解决国内的问题。我们已经花费了数万亿美元，在冲突中失去了成千上万的美国人的生命，而这些冲突的好处并不明显。18年来，我们一直处于战争状态。这不是美国人民想要的。我将把军队撤回国内，我将缓和与伊朗的紧张局势，我将开始在我们自己的社区投入我们的资源。

(掌声)

TAPPER: Welcome back to the CNN Democratic presidential debate. It is time now for closing statements. You will each receive one minute. Mayor de Blasio, let's begin with you.

TAPPER:欢迎回到CNN民主党总统候选人辩论节目。现在是结束陈述的时候了。你们每人将得到一分钟。白思豪市长，让我们从你开始。

TAPPER: Mr. Yang?

YANG: You know what the talking heads couldn't stop talking about after the last debate? It's not the fact that I'm somehow number four on the stage in national polling. It was the fact that I wasn't wearing a tie. Instead of talking about automation and our future, including the fact that we automated away 4 million manufacturing jobs, hundreds of thousands right here in Michigan, we're up here with makeup on our faces and our rehearsed attack lines, playing roles in this reality TV show.

It's one reason why we elected a reality TV star as our president.

(LAUGHTER)

(APPLAUSE)

We need to be laser-focused on solving the real challenges of today, like the fact that the most common jobs in America may not exist in a decade, or that most Americans cannot pay their bills. My flagship proposal, the freedom dividend, would put $1,000 a month into the hands of every American adult. It would be a game-changer for millions of American families.

If you care more about your family and your kids than my neckwear, enter your zip code at yang2020.com and see what $1,000 a month would mean to your community. I have done the math. It’s not left; it’s not right. It’s forward. And that is how we’re going to beat Donald Trump in 2020.

(APPLAUSE)

TAPPER:杨先生?

杨:你知道上次辩论后那些人不停地说些什么吗? 并不是说我在全国民调中排名第四。谈的是我没有打领带。我们不是在谈论自动化和我们的未来，包括自动化让400万个制造业工作岗位消失的事实，就在密歇根这里，成千上万的工作岗位消失了。我们化着妆，排练着相互攻击的台词，在这个真人秀节目中扮演角色。

这就是为什么我们选了一个电视真人秀明星当了我们的总统。

(笑声)

(掌声)

我们需要集中精力解决当今的真正挑战，比如美国最普通的工作可能在十年后不复存在，或者大多数美国人无法支付账单。我最重要的提议，自由红利，将使每个美国成年人每月获得1000美元。这将改变数百万美国家庭的游戏规则。

如果你更关心你的家庭和孩子，而不是我的领带，请在yang2020.com输入你的邮政编码，看看每月1000美元对你的社区意味着什么。我算过了。这不是蛇么左派，也不是右派，而是向前看。这就是我们如何在2020年击败唐纳德·特朗普。

(掌声)

【相关】

https://www.yang2020.com/?fbclid=IwAR1QJVOpwu1FBgXsCwE0YBmeX0U02TbEmwliQD7A8dtPhrQHAZe7h9qOg5o

华盛顿邮报： https://www.washingtonpost.com/politics/2019/08/01/transcript-night-second-democratic-debate/?noredirect=on&utm_term=.f895d8fa66aa

youTube：

看看这个剪辑。七分多钟：
https://www.youtube.com/watch?v=M97zgXh89jM&t=335s

还有辩论后CNN采访：

Andrew Yang and Anderson Cooper, Post Debate Interview (July 31, 2019)

《李白王116：句法的脑补，情报的冤家（2/2）》

李：@宋柔老师说了不少我正想说的话 I cannot agree more，譬如：

“当然。我完全同意语义的重要性，只是觉得词汇语义+事理常识+专业知识，实在是无边无际，难以控制。某个句子可以采用某种语义关系加以解释，但可选用的语义关系非常多，机器怎么就能选对了语义关系进而做出正确的解释？大数据并非万能。所以，挖掘句法的硬约束还是有意义的。一些硬约束其实还没有挖掘出来。”

句法做深做透做得细线条 -- 直到暗度陈仓碎片化引入常识语义 -- 以后，句法这个“独角戏”可以唱很远，留给纯粹需要语义、事理的休眠唤醒部分就会大量减少。如果句法模块解决了90%+的逻辑语义，语言学知识成为解析的主力，留下不到 10% 交给语言学外的其他知识，岂不多快好省。其实甚至那个 10% 还在不断缩小中因为在句法解析不断迭代细化的过程中，硬性约束（或硬性+非系统性的碎片化软性约束）搞定的现象越来越多，无须留给后面的语义语用模块做。留给下一步的现象，理论上是句法有意留下的，包括真歧义。当然也可以说殊途同归，因为上面提到的细线条句法已经不是纯粹句法了。

POS feature 公认为句法特征，POS 下面的 subcat 通常也认为是句法，再往下是 sub-subcat 直到词汇驱动的个性规则，最后到搭配和成语，其实是句法渗透到语义的地盘了。只要句法用特征（features）这种隐性形式（而不是词序、小词、形态这些显性符号的形式），句法就为碎片化语义和常识开了一道门缝。但这里的语义带入不是系统性的。换句话说句法约束与语义约束是一个频谱没有一道鸿沟。但是句法为主语义为辅、句法模块先于语义模块、句法系统话语义碎片化，则是一条解析路线。争的就是路线（“路线斗争”），所做的功/工，无论哪条路线，也都有很多相交。

特征（features）是灰色地带的标志和桥梁。既然句法可以用 N，V，NP 这样的特征当然也可以用细线条的 food，person-action 这样的特征。前者普遍接受为句法后者说是语义但形式上不过就是命名的粗细而已。看句法 hierarchy 是如何逼近语义灰色地带的：

（1） SVO 传统规则的 VP rule：V + NP --> VP

这是经典句法漏得跟筛子似的但可以 cover 英语和汉语的很多现象（在汉语的表现差一些）。

（2）Subcat 句型规则： Vt + NP --> VP

用到 subcat 标签 Vt 了，不再涵盖动词的全集，漏洞是弥补了一些，但仍很多例外。

（3）SVO 完整句型：NP + Vt + NP --> NP:S + VP（Vt+NP:O）

这个用到了SVO完整句型，更可靠一些了。

（4）T1 SVO T2 上下文规则，如:
句首 + (NP + Vt + NP) + 标点 --> NP:S + VP（Vt+NP:O）

这条开始用到上下文约束了，有了前后条件，句法更加精准，差不多板上钉钉了。上下文也有更复杂的情况，所以光靠 T1 T2，也不是天衣无缝：但句法可以晚上睡觉睡得踏实一些了。进一步细化条件也可以的。

（5）细线条T1 SVO T2 上下文规则：
句首 + （NP + Vt + NP） + 句末 --> NP:S + VP（Vt+NP:O）

这是铁案，纯句法完全搞定。至此没有常识语义什么事儿了，哪怕是nonsense（“鸡吃了我”），逻辑语义也是可以解析的。

（6）暗度陈仓的碎片化语义句法规则：EAT-V + FOOD-N --> VP（V+N:O）

开始带入常识语义了。虽然没有查验更大的上下文，但因为带入的语义（相偕）弥补了长度的不足，还是相当可靠的。也可以 argue 这实际上不是句法规则而是语义规则，但放在句法 hierarchy 的一端，与句法规则的另一端 V + NP 形式上无异不过是符号的颗粒度、概括性不同而已。

（7）动宾搭配规则：吃 + 亏|西北风|药 --> VP（吃+N:O）

这是 rule hierarchy 细化的极端，算是句法语义规则吗？搭配这类词典与句型交叉的东西说它是词典化的句法没问题。里面暗藏的语义相谐和常识的印迹是非常的强烈，句法语义已经分不清了。

所谓 hierarchy 就是说上述n层规则可以组织成为一个系统保证细颗粒度和高精度规则具有优先权。这样的暗度陈仓又自成体系的句法叫唱独角戏也好叫偷梁换柱也好总之留给系统性常识的空间已经不多了 90%+ 现象不需要等到“纯语义”出场。

从符号逻辑的匹配和演算来看什么是句法什么是语义二者区别何在呢？给一万个词做N的标签给一千个词做 Vt 的标签，写一条符号模式 V + N --》VP(V+N:O), 全世界都同意这是句法。如果给一千个词做个 FOOD标签，给50个词做 EAT 的标签，然后照猫画虎写一条模式：EAT + FOOD --> VP(EAT+FOOD:O), 突然就变成语义/常识规则了。不就是标签的概括面大小不同吗所有的机制手段演算方式都不变，这个模式的所有句法变式也不变：

Vt+N ==> 把+N+Vt ==> N+被+Vt
EAT+FOOD ==> 把+FOOD+EAT ==> FOOD+被+EAT

ontology 中的 taxonomy 链条也是恒定不变的：

EAT --> Vt --> V
FOOD --> N

所有的标签都是隐性形式只要开始使用隐性形式想不让“语义”溜进来都难。除非句法不允许隐性形式（不许给词标签不许抽象不许查词典），只允许用显性形式：词序+直接量（词本身和前后缀词素和形态）, 否则论约束条件，句法语义的边界必然是灰色的。（但句法模块与语义模块、语用模块是可以分开的。）

白：这个分明是暗度陈仓，细线条的特征就是轻量级的语义。无后续手段的句法标签例如s标了也是糊弄，不如不标。按这个说法，伟哥90%的所谓句法在我这里都是轻量级的语义，好的坏的暂且不论。

李：退一步只使用显性形式的句法也就是差不多一律只使用 ngram 去枚举语言现象是不是句法就纯粹化不受语义侵入了呢？其实也不是因为所谓强搭配（洗+澡）的现象实际上就是直接量+词序的规则：吃 + 亏|西北风|药 --> VP，算不算句法？里面有没有语义约束？不仅有，而且是最强的语义相谐。

白：CFG无法把“吃亏”的原有形式和被穿插、被逆序的形式联系在一起。必须使用transformation，但这样一来毛毛虫又变长了。完全可以不这么处理的。

李：以前论过语言的句法形式说主要就是：1 词序； 2 小词（直接量）； 3. 形态（词尾直接量）和其他的前后缀（直接量）；4. 句法词法特征。到了 4 就跳进黄河洗不清了，因为句法词法特征与语义特征的区别只对人类玩符号逻辑的游戏有意义对于机制和实现都是同样的东西，每个特征就是划个圈，代表一个集合，完全可以等价地用直接量的“逻辑或”来表达，这就从隐性形式等价转回为显性形式了。最后还有 5，被有意无意漏掉： 5. 实词（直接量）。据说实词是开放集，不提倡用直接量写规则（强搭配呢，例外？）。

白：直接量聚类可以获得标签。

李：从现在的算力看实词直接量在 ngram（譬如 n<=5) 的范围内，全部死记住其组合根本就不是问题。这就等价于词直接量+词序的规则形式，算句法还是语义呢？应该还是句法不过就是沾染了人认为具有语义味道的句法。老话说句法的基础是形式语义的基础是概念。一旦概念利用同质的特征来形式化表示以后语义也是（隐性）形式了，自然可以进入形式句法。

白：这些标签叫不叫语义不是一个理论问题，而是一个习惯问题。隐性只是相对于傻瓜而言。对于具有聚类和分类功能的系统来说，被称为隐性的很多特征也都是明摆着的。

李：这是在论证句法和语义从定义上就是模糊的，没有清晰界限和鸿沟的。句法为主的路线可以不露痕迹带入语义，而且是句法发展的自然结果。不能说 a+b 是句法换成 x+y 就不是句法了。都是符号+符号的位置啊。从模式的形式化或形式化的模式来看没有任何区别。但那个深度本身是一个渐变的频谱 pos -- subcat -- subsubcat -- wordsense。而且对于深度的归类本质上就是符号逻辑的游戏说白了就是一个助记符。

wang：我觉得词法、句法、语义本身概念还是很清晰的，只不过为了实现他们的分析，采用的方法很难区分界限了，感觉也没有必要区分界限，只要能解决问题就好。方法上把它们分得再清晰，不解决问题，也无意义。符号描述内容的深度，确实会触及到语义。除非，N, V，adv，adj ... 这些符号，不过这些符号现在来说，法力不大。助记符，是一方面，这分类的限制级别，对匹配效果影响很大，粗粒度，细粒度，什么都靠它。在匹配时，不是固定的级别，弹性适应才好。过粗，泥沙混进来了，过细，则无徒了。

白：对实现来说，叫什么不重要，是什么才重要。关键是，叫句法，显得这句法神秘无比。好混饭吃。叫语义，可以有N板斧挑战你，没想好就望风而逃吧。利用人们心目中的语义其重无比、其玄无比的印象，把轻量级的语义打翻在地再踏上一万只脚：让你冒充语义！声称用了语义者，一定拖家带口，拖泥带水，不干不净而且注定hold 不住。声称用了句法者，一定清清白白、简简单单、干干净净，而且让其他拘泥于真句法者不明觉厉。

wang：同意白老师，以最终解决问题为看点。可以先不拘泥于叫法。其实现在很多技术和方法都是杂糅的，单纯清口的一道菜，很难满足客人的胃口。若扯起语义挂名的系统，很多人就会追问那种语义，什么级别的语义，，，，非时一番解释后，发现对自身系统也没什么收益。语义盘子大，要么是沾点边就马上算，要么只要没覆盖到主要点上马上，就会视为伪语义。自然语言处理系统，尤其汉语，就必须走句法语义相结合，才能走大，不必去硬性区分泾渭之界。谁占得比例多大，结合的有效果就好，至少目前来说，看不出什么黄金比例。

李：其实这年头是相反的。句法老掉牙了谁都不尿它。要是说常识事理世界知识领域图谱，才勉强能站得住为符号学派发点声。毕竟语义、知识听上去高大上那边厢黑箱子里面讨论未来的时候，也还是免不了要吆喝一声要常识才可望有个奔头，否则就该到了终结者末日了。下一个突破点在哪里，说句法太寒碜说知识才拿得出手。印象中几个院士也在说知识，没听说人还说啥句法的。

说法/吆喝不论，加了语义约束的句法叫是句法模块，是因为它与句法的运作模式没有变化。主要目标也依然是结构化：把线性输入变为树图输出。到了下一步的语义模块，运作模式就不再是线性输入了，而是在图里面做文章了。目的的重点也改变了，结构化已经基本完成，语义模块的任务变成：1. 逻辑语义细化（句法角色映射到逻辑语义角色）；2. WSD。对结构化的部分重建（休眠唤醒）也算是一个语义模块的子任务。

句法模块：string --》graph/tree 句法
语义模块：graph --》逻辑语义+WSD 语义

白：大s小s，硬s软s，这种标签对于我们的体系来说是不重要的。我们更看重一些像C-Command这样的无语言学色彩的纯数学条件，比如：两个成分结合，一个携带了残坑，另一个携带了已填坑的萝卜，二者的源头都不是当下的中心词而且相谐，此时要不要建立萝卜和残坑的二元句法关系。

“象鼻子长”，象标成大s又如何，实质是鼻子的宿主。“王冕死了父亲”，王冕标成s又如何，整个句子标成svo又如何？王冕实质是父亲的宿主，死仍是不及物的。在我们的体系里，宿主有直接而明确的体现，没主语什么事儿。“张三又吃食堂了”，就算把食堂标成o又如何？吃什么还是不知道。假装把“吃”填的满满的，没解决根本问题，等能解决根本问题的词语出现时，却没位置了。小三就是这么上位的。

“张三又吃食堂了，那么油腻的面条他也忍受得了。” 面条出来了，位置却没了。句子复杂一点，就会遇到各种企图上位者。把它们挡在门外的最好办法就是相谐性检查。这是通过一个中间件进行的，一点不麻烦，与句法之间也不会发生除了优先级动态调整之外的任何其他牵连。这个检查做完了，句法设定的初始优先顺序如果没有发生改变，就相当于尊重句法了，也可以说是给句法把了一道关。但是不能因此说保镖无用。后句中心词是“忍受”，“面条”作为非中心词萝卜，与“忍受”有填坑关系。

两句以谓词“吃”与“忍受”的“合并”结合，各自携带着自己的辖域形成一个更大的辖域，这时候辖域内的未饱和坑就暴露出来了。“Food”坑是前句中心词“吃”的亲儿子，不是残坑，所以属于“单边飞线（中心词与非中心词的hidden link）”，优先级高于“双边飞线”。所以已填坑萝卜“面条”和未饱和坑“吃”的关系被摆上了桌面。查中间件的结果是，二者相谐。后来的正主儿“面条”登堂入室，先到的小三“食堂”该降格早已在处理前句时降格了，大家井水不犯河水。这个过程怎么看都是在帮句法啊。

“一辆车坐六个人”“六个人坐一辆车”，语义上没区别，我们给出的句法标签拓扑上也没区别。但语序上是两套不同的svo。如果不做相谐性检查，这样的s和o就算标了，给谁用呢？谁会用呢？等语义落地？我们在做相谐性检查的时候，这部分就已经落地了。

大家看到的似乎是除了词例外长得一模一样的两张图，但实际上，两个坑有语义差异，两个萝卜也有语义差异，这些语义差异引发的内部的较量已经完成，可以说提前撇下句法进入语义了。相应语义标签，在下一阶段开发完成后也会提供出来。记得当年长者的同学窦祖烈先生的汉英机器翻译系统就栽在我给他出的这个例子上：“这辆车能坐六个人”被翻译成“This car can sit six people”。后来我说，把“坐”换成“载”试试？老先生这个高兴啊……

加“把”会不会有利于坐实所谓逻辑宾语？不一定。

“食堂”过坑门而不入，都赶上大禹了。虽然被“把”加持了，该不是你的位置，仍然不给你。这里也遇到一个问题，就是原来“食堂”从名词降格而来的“地点状语”的身份不见了，成了补语“穷”的正牌萝卜。既然正牌，还降什么格？系统目前是这个逻辑。但是状语标签没了似乎也不对。既然都“把”了，总得给谓语动词留点什么念想吧？不能混同于普通名词。应该是降格之前做补语的萝卜，降格之后做谓语的修饰语，两不误才对。

【相关】

《李白宋115：常识是句法的脑补（1/2）》

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

《每周一歌：英语名曲 – Because I love you》

英语名曲：'Cause I love you (背景：硅谷腹地原生态盐碱沼泽地)

这是家喻户晓经久不衰的英语名曲，真正百听不厌。背景风光是硅谷腹地桑塔克拉拉237号公路旁的盐碱沼泽地，政府辟为野生动物保护区。虽然地近闹市，这一大片海湾末端的沼泽完全原生态。

周深 - 我是真的爱你（背景：硅谷南边的天线山脊）

原唱是梁静茹周深唱歌很用心喜欢他。

天线 skyline blvd 是把硅谷与太平洋一号分开的山脊路线最喜欢山顶村子的那片红木和绿地。

从 Saratoga 那个downtown 开进山里曲曲弯弯就到了 skyline 右转一直开一路很野的保留地但路很好开。skyline 很好的路但是山里有些岔路非常艰险有一次不小心跟着GPS进了山里岔路两边是悬崖中间一条忽隐忽现的窄小土路那叫一个后怕只能硬着头皮蜗牛一样缓慢前行，爬一样一个多小时才慢慢开出山来。

宠物大片，主演牛顿、卡塔拉与赞他

《每周一歌：Terri Clark - Just the Same》

Terri Clark - Just the Same (background footage of Silicon Valley and Highway No 1)

第一次听到乡村女歌手 Terri Clark 是25+年前在加拿大的电视上那时候她的 mtv 在热播 just the same 的音乐片演绎了一个消防队员家庭的故事消防队员救火回来满身烟土 terri 与孩子扑上去迎接那个短片让人感动 terri 的嗓音浑厚苍凉她一贯穿着也很阳刚的样子但歌声里面还是藏近了温柔亲情。后来也听过一些她的其他的歌嗓音无可挑剔但觉得都不如这一首的感情深挚于是一直保留在 iPod / iPhone 的五星榜上听了几十年。觉得值得每周一歌推荐给朋友。

youTube: Just the Same MV

好像是乔布斯说的说歌曲与影视不同歌曲可以反复听而再好的影视最多也就看三五遍到头了。其实老歌是可以陪人一辈子的每个人心中都有一套自己的歌曲集是人生不同阶段的积累和回忆。

记得当年热播的还有 Shania Twain 的 any man of mine 很欢快跳跃音乐片也很时髦性感让人联想到陈方圆刚上电视春晚的形象做派。

YouTube Shania Twain: Any Man of Mine

同时期的电视还熟悉了两位女歌手一位是后来红透半边天的 Celine Dion 另一位是与盲人歌手 Andrea Bocelli 对唱 Time to say goodbye 的 Sarah Brightman, 这都是 pre-iPod 时代的老歌也都陪伴了一辈子。

系列好莱坞大片：主演赞他牛顿卡塔拉

风格各异，主角不变，一次看个够。

iPhone 软件 iMovie 制作。

【泥沙龙笔记：带标大数据这道坎迈不过去，不要侈谈AI革命】

李：前两天与NLP主流的权威人士聊人造智能的现状和前景。我问，人造智能这么牛，你给我找一个在自然语言方面没有标注大数据，靠非监督学习落地成功的案例。只要一例。

其实主流里面就是找不到一例（非主流有，但大家习惯性视而不见）。主流里面规模化成功的全部是监督学习，全部靠大数据。应了那句话，多少人工，多少智能。

毛：你这要求太苛刻了。咱们人小时候不也要靠爹妈教吗？@wei

李：不对，爹妈教的不是大数据。孩子跟父母学的是小数据，举一反三，不是举100返1。当然乔姆斯基认为那不是爹妈的功劳也不是学童的功劳，是上帝的功劳，固化遗传的。

白：人工用在语料上还是用在资源上，才是区分技术路线的关键。

李：同意。前者简单野蛮粗暴，容易推广，后者需要精心设计。

在带标大数据的这道坎迈不过去前，不要侈谈人造I的革命。

有些疑似不需要带标大数据的有效学习，可以一一讨论。看看到底是不是无监督学习突破了，知识瓶颈化解于无形了。

MT 不用说了，无穷无尽的带标大数据。人类翻译了多少年，而且还会一直翻译下去，或者利用MT然后修订编辑。活水源源不断。好处是免费，是人类正常翻译活动的副产品。

白：小数据带标、大数据聚类，小数据循聚类举一反三。实际就是协同推荐。

李：好，看看大数据聚类，clustering 的本性就是非监督，有成功案例吗？clustering 是个好东西但是独立规模化成功的，几乎不见。

白：加上小数据，不是纯聚类。

李：对。以前有一个路子，貌似有部分成功，就是先聚类，然后人工少量干预（给好的聚类起一个名字、把混进革命队伍的异己分子手工踢出去之类），然后利用所起的名字作为带标数据，把聚类（clustering）转换为可以落地有价值的分类（classifciation）。狸猫换太子，多少就克服了大数据短缺的知识瓶颈，聚类--》分类，曲线救国。

白：带标小数据更关键。

李：那也是一途叫 seeds，boot strapping，找个办法来 propagate，用得巧的话，也有部分成功的，算是弱监督学习。

白：聚类是纯几何行为，不知道对什么敏感。小数据告诉你该对什么敏感。两轮驱动，不可偏废。大数据聚类可以提供疑似窝点，小数据一举捣毁。不是所有疑似窝点都值得捣毁。聚类是等势线（超曲面）相互包围的拓扑。

毛：立委你这不是抬杠吗，也没人说AI已经等同于人类智能呀。

肖：用户分群很有用啊，例子很多很多。聚类方法找异常也有很多成功应用，比如反欺诈。

李：聚类的结果粗线条应用大概是有的，在宁可错杀一千的应用场合，或有当无的场合，聚类可松可紧，拿来就用，总之是有统计基础，作为参考，强过看不见。细线条就傻了。只要用眼睛和脑袋去检视过聚类结果的，大都有这个体会：这玩意儿说它不对，还长得蛮像，说它对吧，米锅里到处可见老鼠屎。经常的感觉是鸡肋食之无味弃之可惜，用又不敢用，对接吧可费劲了。词典习得（lexicon acquisition），聚类用得上，最后的难点还是在对接上，就是聚类以后的标注（起名字），并让标注与现有的知识体系对接上。

白：不需要，有内部编号即可。以xor为例。聚类可以聚出四个象限。不需要为每个象限取名。如果小数据指向一三象限，就把这两个聚类的内部名称贴一个外部标签。聚类按小数据的指引，当粗则粗，当细则细。不能只用一个尺度，小波的成功就是借鉴。记得工厂里钣金，师傅领锤，力道不大但是都在点儿上，徒弟力大但不能乱锤，必须跟着师傅走。小数据是师傅，大数据是徒弟。

李：这个形象。

最近的NLG（自然语言生成）方面的成功，是因为语言模型在深度学习的时候强大了。生成的句子比我们普通人还顺溜。我们受过这么多年教育还免不了文法错误语句不顺。机器生成的句子越来越“超越”人类了。怎么回事？

原来 NLG 比 MT 还邪性还牛叉，MT 还需要双语的翻译大数据，NLG 面对的是单一的语言，数据无穷无尽，文满为患，这是一个极端的 raw corpus 居然等价于 labeled corpus 的现场。我们每个人写文章都是潜在给 NLG 提供标注服务。自然语言语句与词汇随机发生器发出来的字符串的不同，全部体现在每一篇人类撰写的文章里面。它不出色才怪呢。NLG 可以预见将来有大发展，在应用文写作等方面。有孩子的可以放松他们的语文训练了，将来他们只要学会善用机器就没有写不出规范的文章的。

白：大家写文章全一个味儿，也是问题。应该以强风格的作家为吸引子，形成若干漩涡，你接近某个漩涡，就持续往里面吸。至少不能千人一面。

肖：（NLG）现在摘要还写不好。

李：孩子不必特地去修应用文写作课，反正后来会有电脑帮忙写文字的。这就跟我小时候钢笔字写得狗爬似的，一直难受羡慕小伙伴每天练字让人看得赏心悦目。（当年喜欢一个女孩子一半看脸蛋一半看她写的字。）结果我成年后除了签字就几乎没有写钢笔字的机会。

以前要成为（文科）大学者，最为人津津乐道和崇敬的是：

（1）记忆能力：过目不忘，检索起来可以闭着眼睛把典故的章节甚至页数指出来。社科院里面有很多这样广为传诵的奇闻逸事，尤其是关于钱锺书、吕叔湘这些老先生。

马：我认识一个理工科的教授，跟他聊天时，经常会说，那本期刊第几期第几页提到了这个问题。

李：（2）好书法。（3）诗词歌赋。这些到了机器，反而容易。

白：千万别提机器那个诗词歌赋，倒胃口。

李：感觉清华的《九歌》比不少郭沫若的诗词写得好。小时候看郭沫若带着西哈努克去山里面玩，诗性大发口占一首，那个诗可真是纯粹应景干瘪无味，就是平仄啥的应该整对了，论意境、诗味，啥都没有。

机器诗词倒胃口也比不上郭沫若的那次表演（忘了是什么纪录片了），印象极深刻不是好印象而是坏印象。当然艺术的鉴赏见仁见智不好说绝对。但往前看，机器做诗词还有很多提升空间。人要熟读唐诗300首就很不容易了，机器灌输它个全唐诗去模仿，是小菜。人在时间限制下需要应景作诗提升空间就不大了。七步诗这样的天才万里无一。

白：端到端、简单无结构标签、大数据是深度学习商业化的关键。但凡涉及到场景化、复杂结构和小数据，深度学习一定会不适应。是让应用迁就深度学习还是用技术改造深度学习，这不是个简单的选择。我主张：1、把标注的对象从“语料”迁移到“资源”；2、用带标小数据引领无标大数据；3、尊重领域专家、融合领域知识。

【相关】

AI is fake I

The term Artificial Intelligence (AI), which traces its roots to the milestone Dartmouth's historic conference, is quite a bit of an afterthought by the then thought-leaders of the time, with an emphasis on artificiality. It, in essence, defines the true nature of AI as a fake intelligence that simulates human intelligence. But we seem to often forget that.

Those commonly known as "vegetarian chicken" or "vegetarian duck" are soy products, generally classified under the category of "artificial protein". The gap between "artificial proteins" and "animal proteins" is very comparable to that between "artificial intelligence" and "human intelligence". Every vegetarian eating "vegetarian chicken" knows clearly that it is fake meat so they feel comfortable enjoying it with its great taste. In contrast, almost all media and the majority of users of AI products today rarely regard the nature of AI as fake intelligence. That is quite a surprise to me.

I don't know if it's just tabloid hype or it's true. But the impression is fairly clear that those popular AI stars more and more often act like god. They seem to love to use super big words and philosophical metaphors which lead the mass to the belief of an equal sign between AI and human I. I don't think it is so much a sense of mission as a sense of superiority and ego, and they just feel too good about themselves in mastering some magic of AI algorithms. It occurs to me that if you act like God, talk like God, over time you will believe you are God. In times of AI bubbles, people buy that; more importantly, media love that, and investors are willing to pay high.

My entire career has been engaged in "natural language understanding" (NLU), with a focus on "parsing", which was for a long time widely accepted as the key to language understanding, the crown of artificial intelligence as some experts put it. As practitioners in developing industrial products, we know all these AI terms such as language understanding, machine learning, neural networks, plus AI itself, are just analogy or metaphors. AI models are just simulations, mechanical programs attempting to mimic intelligent tasks. But that is apparently not what has been depicted by media's efforts for "AI marketing", nor is it educated by the few AI stars at the spotlight. The public opinions or even decision-makers, shaped or influenced by such media, run more and more towards the opposite. So it might be high time to air a different voice and re-uncover the true nature. Artificial intelligence is fake intelligence by its very nature, filled with "artful deception", as pointed out by Pierce in the AI history. His criticism has never been out of time. In fact, there is never a time with this much "artful deception" built into products such as intelligent assistants, so artful that we start getting used to it for the convenience.

What is "understanding"? Strictly speaking, the computer has zero intelligence except for its mechanical computation and memorization. Natural language understanding has always been a metaphor by convention, that is why the Turing test was purposely designed to define "artificial intelligence" by bypassing "understanding". This is by no means to deny the breakthrough in recent years in the functional success stories of AI applications such as speech processing, image recognition, and machine translation.

We all have had personal life experiences when we were amazed at some functions performed by a non-human. As a child, I was amazed for quite some time that the radio could "talk", how "intelligent" this box called radio was. My mother had been confined to a remote rural area in her childhood, and when she went to a middle school in the nearby town, she had a chance to see an automobile running on the road for the first time. She ran away in awe and years later described to me the shock at the time when a non-human machine was running so fast. That is beyond intelligent to her mind. We all had those first times of "intelligence" shock, the first time we had access to a calculator when I was a middle school kid, the first time we walked through an automatic door, the first time we went to the bathroom which automatically flushed the toilet, not to mention the first time we used GPS. All those fake intelligence behaviors look so true and superior to our modest being when we are first exposed to them. But now such "intelligence-like behavior" is all out, we all accept that it is non-I. By human nature, we tend to over-read the meaning when we do not understand something. We are shocked to see any "automatic" behavior or response from a non-human, regardless of whether the mechanism behind is simple or an algorithm with complexity. Such shock is easy to amplify, and it's hard not to be fooled by wonders if we don't understand the mechanisms and principles behind, which happens a lot around the media talks about AI. In recent years, the media and industry are never tired of "man-machine competitions", in games and knowledge showoffs, in order to demonstrate that now AI beats human. Sometimes in my dreams, I have been haunted by similar images of human weight lifting champions challenging a crane to see who could lift the ton of steel with a single swipe.

In recent years, some celebrity CEOs in industry and legendary figures in the science community have seriously begun to talk about the problem of the emotional machines and the threat from machines equipped with super-human AI. It is often far fetched, citing functional AI success as autonomous intelligence or emotions. I would not be surprised when the topic is taken one step further to start discussing the next world problem as recreating hormones and reproductive systems in machines. Why not? Machines are believed to develop a neural network to become this powerful, it is a natural course to be reproductive and even someday marry humans for the man-machine hybrid kind. Science fiction and reality tend to get mingled all in a mass too easily today.

Nowadays, artificial intelligence is just like a sexy modal attracting all the eyeballs. Talking to an old AI scholar the other day, he pointed out that AI is, in fact, a sad subject. A significant feature of AI is to temporarily hold things whose mechanisms are not yet clear. Once the mechanisms are clear, it often becomes "non-artificial intelligence" and develops into a specialized discipline on its own. The plane is up in the air, the submarine is under the water, deployed everywhere in our land for decades. Do people who design airplanes and submarines call themselves artificial intelligence researchers? No, they are experts of aerodynamics, fluid dynamics, and have little to do with AI. Autonomous driving today is still under the banner of AI, but it has less and less to do with AI as time moves on. Aircraft has long been self-driving for the most part, no one considered that artificial intelligence, right? Artificial intelligence is not a science that can hold a lot of branches on its own. The knowledge that really belongs to artificial intelligence is actually a very small circle, just like the part that really belongs to human intelligence is also a very small circle, both of which are much smaller than what we anticipated before. What is the unchangeable part of AI then? We might as well return to some original formulations by the forefathers of AI, one being a "general problem solver" (Simon 1959).

(Courtesy of youdao-MT for the first draft translation of my recent Chinese blog, without which I would not have the energy and time in its translation and rewriting here.)

My original Chinese blog on this topic:

【立委小品：AI is fake I 】

Other English blogs

The Anti-Eliza Effect, New Concept in AI

From IBM's Jeopardy robot, Apple's Siri, to the new Google Translate

Question answering of the past and present

【立委小品：AI is fake I 】

有个关于翻译的疑问， AI 台湾翻译为“人工智慧”，大陆不知谁最先翻译的，总之一直叫“人工智能”。两岸都没有采用更为贴切的翻译“人造智能”。

那些俗称为素鸡素鸭的大豆制品，一般归到 “人造蛋白” 类。“人造蛋白”（或植物蛋白）与“动物蛋白”的距离和区分，可比“人造智能”与“人类智能” 的差异，鸿沟比较清晰。“人工智能/智慧”的译法有很大可能误导或被误解，当然媒体与大众多半乐于误导或被误导，那是另一回事儿。

突然想到老川把除了 fox 外的主流媒体一律称为 fake news，也可以考虑把AI 叫作 fake intelligence，至少比老川靠谱得多，利人也是这么认为的：“AI被忽悠得大家都认为是真的了”。

不知道是小报的渲染，还是的确如此，总之印象是，被称为AI牛人的，常常做上帝状，无论说话口气，还是描画蓝图，与其说是使命感，不如说是优越感，自我感觉特别良好。

认真说，明明是artificial，如今开口闭口机器智能，甚至自主推理、自发情感，弄得跟真的似的。巧妙欺骗的时代，连国家首脑都难免受影响，整得风声鹤唳，草木皆兵。貌似狼来了，机器就要统治世界，人类末日即将来临。

我一辈子做自然语言理解（NLU），主攻语言自动解析（parsing），这曾经被广泛认为是语言理解的钥匙，人造智能的皇冠。那天群里老友说，“理解文章上，机器比90%读完高中的人差吧”，突然意识到类比与现实已经潜移默化到我们自己都可能不假思索混同和认同的时候，觉得也许可以试图做一点澄清了：

什么叫“理解”？严格说，电脑是0理解。所谓自然语言理解，不过是个比喻的说法，所以图灵测试一开始就绕过“理解”来定义“智能”。区别在于，符号派用一套看上去是模拟理解的符号推理的步骤，也就是在符号系统内自己跟自己玩，过家家的游戏。经验派甚至连这个模拟的过家家也不要了，端到端，别跟我扯理解，你理解了要做什么，给我把要做什么的任务定义出来，然后按照这个定义给我标注数据，越大越好，上不封顶。然后给你把这个任务做出来，照猫画虎。你说它理解了啥？毛都没有。说理解和智能，都是比喻，不改变artificial智能是fake的本质。这并不是要否认模仿的功能性成功。

小时候很长时间惊异于收音机“会说话”，不理解无线电啥玩意能够如此“智能”。记得看过一本书，里面描述凉山少数民族百姓第一次“被看电影”，下面观众惊吓莫名。我妈妈一直在农村读私塾，后来到城里读中学第一次见到汽车在路上跑，跟我描述过当时的震撼。25年前我母校语言学系教授第一次对着苹果电脑叫 “Open Computer”，用语音启动电脑的得意样子还历历在目。还有我们第一次用计算器，第一次走进自动门，上厕所自动冲洗马桶，更甭提第一次用GPS。所有这些fake智能，全是那么真切。可现在全部脱离 I了，成为 non-I。可见，“智能”这东西不仅仅界限模糊，而且很雷人。第一次见到任何非人类出面的“自动”行为或反映，甭管原理简单还是算法复杂，受众都会感觉震撼。这种震撼很容易放大，如果不理解背后的机制和原理，很难不被忽悠。

小时候还有一事儿，挺扎心的，手太笨学珠算、写钢笔字总也没大成效。好在用了电脑后，就几乎没“写”过字，字俊字丑没人知道，藏拙了。当年对于心算快的，算盘打得快的小伙伴，那叫一个羡慕。计算器出来以后，没听说过有人组织过人机算术挑战赛。可是后来的下棋，知识问答，机器翻译，却不断作为智能的里程碑载入史册。回头想想，不就在计算器的延长线上，一多半靠的是memory和computing吗。人跟机拼，傻呀。近几年来，不知怎的，我常常头脑出现一种诡异的画面：人类举重冠军组团挑战起重机，看谁能把“那成吨的钢铁，轻轻地一抓就起来”（盗自革命样板戏《海港》插曲）。媒体和业界乐此不疲的“人机大战”，除了噱头效应外，其实也是非良定义（ill-defined）的为多：苹果怎么好与梨子打架呢。

Artificial 智能，明明是假智能（fake intelligence），里面充满了“巧妙的欺骗”（artful deception，于今为烈，前辈皮尔斯历史上的著名的AI批判其实从来没有失效过，见 Church - 钟摆摆得太远（3）：皮尔斯论】），如今整得跟真的似的。哲学上、伦理上、媒体上、国际政治上，如今都在说狼来了。

还好AI这个术语，追根溯源到达特茅斯那次历史性会议，起名还算知趣，强调的是人工/人造/仿造。但大家久而久之时间长了就忽略了定语 artificial，把电脑与人的智能和理解，混同了。加上科技小编和科幻的鼓噪，类比与现实貌似等同了。甚至一些名人也一本正经开始大谈机器具有情感的问题，自主智能到自发情感，就差说要与人类杂交生子了。下一个世界难题应该是机器中再造荷尔蒙与生殖系统。（理论上也并非绝对不可能。无机物突变为有机物，历史上应该是发生过的。不妨在人类高科技刺激下，再发生一次？）

隐约记得以前论过这个话题，一搜果然说过，而且说得还不浅：

“人工智能其实应该翻译为人造智能。人造翻译（或仿人翻译）与人工翻译可大不相同。但取法乎上仅得其中的古训不大灵了，古训忽略了量的概念。被取法者足够大量的时候所得不止于中。AI 代替中庸势在必行。取法乎众可得中上，这是事实。但最好的机器翻译不如最好的人工翻译，这也是事实。因为后者有智能有理解。而前者虽然号称神经了，其实连“人造的理解”（譬如 NLU）都没有。

现如今人工智能好比一个性感女郎，沾点边的都往上面贴。今天跟一位老人工智能学者谈，他说，其实人工智能本性上就是一个悲催的学科，它是一个中继站，有点像博士后流动站。怎么讲？人工智能的本性就是暂时存放那些机理还没弄清楚的东西，一旦机理清楚了，就“非人工智能化”了（硬赖着不走，拉大旗作虎皮搞宣传的，是另一回事儿），独立出去成为一个专门的学科了。飞机上天了，潜艇下水了，曾几何时，这看上去是多么人工智能啊。现在还有做飞机潜艇的人称自己是搞人工智能的吗？他们属于空气动力学，流体动力学，与AI没有一毛钱的关系。同理，自动驾驶现如今还打着AI的招牌，其实已经与AI没啥关系了。飞机早就自动驾驶了，没人说是人工智能，到了汽车就突然智能起来？说不过去啊。总之，人工智能不是一个能 hold 住很多在它旗下的科学，它会送走一批批 misfits，这是好事儿，这是科学的进步。真正属于人工智能的学问，其实是一个很小的圈圈，就好比真正属于人类智能的部分也是很小的圈圈，二者都比我们直感上认为的范围，要小很多很多。我问，什么才是真正的恒定的AI呢？老友笑道，还是回到前辈们的原始定义吧，其中主要一项叫做“general problem solver”（西蒙 1959）。

from 【尼沙龙笔记：宁顺不信，神经机器翻译的成就和短板】

这个话题足够重要，不妨从不同角度多说说、反复说，被热昏误导的人太多，吹吹冷风，听见一个算一个。

【相关】

English: "AI is fake I "

【尼沙龙笔记：宁顺不信，神经机器翻译的成就和短板】

人工智能，一个永远没有结果的科学_马少平

【Church - 钟摆摆得太远（3）：皮尔斯论】

《每周两歌：中外女声魅力嗓音，Allison与于文华》

首先，刚过去的周末，祝各位母亲节快乐！

母亲节请欣赏【于文华：想起老妈妈】。背景是上次探亲，正值江南油菜花的季节。我插队的村子的邻村原来鬼不生蛋的深山老坳如今是【美丽乡村】的典型了。

关于于文华，以前推荐过：“于文华绣花嗓子，甜美细腻。郁钧剑怎么配她？（别说，还就那嘎声嘎气的尹相杰配于的细嗓子，还有点特别的风味。）郁钧剑没唱过什么给人留下印象的歌曲，这一次照他的功底，老实说算是不错了，也难为他了。无奈于文华的演唱登峰造极，相比之下郁钧剑太平淡了。我们通常只听第一段于的演唱，一到郁钧剑就回头或跳过去。”

Allison is my all time favorite, with her unique voice. The footage I shot is from a Costco tv demo plus the footage from the Apple Store in the new headquarters

《立委随笔：网事如烟》

《每周一歌：水姑娘》

风情万种的《水姑娘》，让人骨头松软的民族风

好像是水族的民歌。《水姑娘》周末放送祝各位复活节快乐！

花红柳绿风情如此。此乐只有地方有绕梁三日不绝缕。不知道歌手是哪一位少数民族夜莺 “嗲”得如此上档次。

10年前从湾区草根舞蹈团的Mary老师处听得此曲惊为仙乐藏之深山。

画面应该是水乡写意之类。但要与亲友分享三个猫咪的近况，懒得单制作视频了，分享音乐和pets合二为一了。

三只猫只有一位 lady，katara 具有水姑娘的气韵（也兼具铁姑娘的风餐露宿、攀缘跌打本领）。两位君子牛顿忠厚 Xander 懵懂。片头片尾是苹果新总部的 Apple Store，这视屏就是在手机上用他家 iMovie 制作的，非常便利。

《李白113：白老师秘密武器二瞥（2/2）》

立委按：两载设计，三载实现，白老师的自然语言秘密武器日前曝光。十载孕育，如水流年。挑开面纱，犹抱琵琶，先者为快，一睹芳颜。

李：其实语言理解过程中究竟用到哪些知识，并不难确定。难的是这些知识如何加分减分打群架。

白：人理解时也不过是在打群架，没高明到哪儿去。

李：如果不给设计师束缚，所有的知识都特征化，不限定范围和多少。然后假定神经可以搞定这些特征，那么符号逻辑实际上只剩下符号特征化的工作。逻辑由神经管了，果如此自然语言理解离开终结就不远了。

白：不对。逻辑有两部分，一部分是有限的可选择的操作或变换，另一部分是何时何地选择何操作的控制策略。控制策略特征化应该鼓励，而所选择的操作的轨迹，是充分可理解、可定点修复的。表示-对表示的操作-选择操作的策略，这三者，我认为第三种是适合特征化、向量化、神经网络化的。这不仅不是终结，更是升华。同时也并不影响前两者的可解释性、可定点修复性和容纳复杂结构的能力。

“身份证”的主人在两句中不同。

李：设想对话场景：

A: 他要求我出示身份证
B：你出示了吗
A：出示了，结果没通过。
B：为什么？
A：因为他是检疫官，要求我出示我宠物的身份证。我以为他是警察，要求出示我本人的身份证呢。
B：这才叫场景的阴错阳差！你过的哪道关都没搞明白。

再如：“监护人向我出示了身份证，是想证明这孩子不是非法移民。”

hidden links 根据常识或常理而来，这就带来两个问题：

第一是，因为是常识、常理，而不是语言明确指明的信息，这些 hidden links 即便挖掘出来，也仍然是不重要的枝节边缘信息，更谈不上情报价值，因为一般人根据已知信息都可以推算出来。

第二是，因为是常识、常理，因此肯定有例外。例外常源于场景和背景的不同。如前面的对话场景的思维实验。

白：打群架好了，神经最擅长。

李：既不十分可靠也没有新意也许意味着常识介入理解应该有个限度。如果常识的带入，是帮助确定了情报，那就物有所值。如果常识的带入，不过是反过来为常识增加一个案例，信息还是常识，那就没啥意义。

白：

1，情报又不是落地的唯一领域。

2，即使情报，三个link有情报价值，一个link是这三个link的常识推论，那这推论人做还是机器做大不一样。你先抓到那三个links，人聚焦了看，然后人得出推论，黄花菜都凉了。机器直接得到四个links，能一样吗？

3，推论重要还是那三个重要，这得情报人员自己说，NLP不应该越俎代庖。常识是带变量的f()，只要里面的x是新的，f(x)就是新的。新的就可能有意义。常识都知道撤职了职务属性值就该变了。但是只要张三撤职是新的，张三职务属性值就应该变化为新的。就算常识是旧的，有常识和新事实共同参与的推论也是新的。另外，疑似知识、打过折扣的知识并非就没有意义，只不过置信度稍低而已。哪有那么多百分百置信度的事儿。谣言还满天飞呢。

李：有一定道理。

@白硕他要求我出示身份证 / 他向我出示身份证。“出示” 一般认为是 3-arg：sb “出示” sth to sb： SVOC，现在看来这个补足语萝卜 C（嫡系）是被当成附加语（庶出）了。这不是主要问题，问题在 hidden links 因此也漏掉了。“他要求我出示身份证” 中，“我” 连上了 “身份证”，但是 “出示” 没有连上 “他”。逻辑语义上向谁出示呢？是向他的。

白：改成双宾了。这情形更可预期。

李：”他为/替我出示身份证”，“为” 与 “向” 的区别在句法如何利用？小词不同，句法有表示吗？还是指望接盘的一个一个小词重新 check 来做区分？

白：小词会携带算子，把动态特征贴到自己修饰的成分上。目前只能说这么多。比如，一个“的”，无所谓跟谁相谐。但是“张三吃的”就必须明确自己的subcat。

李：fair 就是说显示出来的 what 只是个架子，不是输出的全部。这其实是自然的。如果不在 link 上细化，那就在特征上细化。反正信息需要下传。

双宾句如何处理的呢？譬如：

他送了我一本书。
他把一本书送了我。
他送了一本书给我。
他给我送了一本书。
那本书他送我了。
那本书他送了我
他送一本书给了我。

白：

双宾句式，双宾句式加明示间接宾语的介词短语的互通，我们已经做得很透彻了。

李：两个 Lma 一个 Rma，等于是三个 args 句法都不做鉴别。下面接盘的，依靠什么来区分，去做 123 与 abc 配对。

白：这个自有办法。分母上的数字只是显示

李：怕下面接盘的还要回头做部分句法

白：不需要，句法信息都带进去了。

李：句法上 Topic 与 synS 不区分，但是偏移量有区分，也算等价了。怎么知道 “我” 不是 O，“书” 才是 O 呢？

白：书有subcat信息，还有Default位置信息。如果O的subcat跟S兼容而且相对Default有变，比如O提前做了话题，那就取决于右填坑的间接宾语的事理因素了。

这个丫鬟我送你了。

这位夫人我送那个丫鬟

取决于夫人和丫鬟在事理中的地位。这个绝不是句法单独可以做的。加上subcat也不行，所以目前我们做不了。只当default位置是O，啥时候事理做了进来，就有希望了。

李：句法为谓词选了萝卜候选人，萝卜进坑的事儿归后面的语义模块，所以后面的任务仍然蛮繁难。因为萝卜进坑仍然需要综合平衡，语序、小词和语义相谐，综合平衡才能基本搞定。更难的要借助事理。

白：哪个对哪个，特别是subcat也区分不了的时候，目前没有足够的资源。NLP的魅力就在这里。好在方向基本是看清楚了的，见效取决于投入。要想糊弄人，做个玩具事理图谱也能蒙一阵子。不过我们不会这么做。事理图谱一定要结合应用场景做。不见兔子不撒鹰。

李：”吃在买后“ 这样的事理，HowNet 没有：HowNet 主攻本体常识，一般不带入动态场景的形式化。真正规模做过“场景常识”的只有 cyc，“开枪” 在 “伤残” 之前之类。但以前的教训依然存在，其数目实在太大了。

白：吃、买太具体了，模式是“消费在取得后”，消费是吃的上位，取得是买的上位。如果仅看到具体事件对具体事件的因果联系和承接联系，那还不累死。要把事件的Taxonomy像实体一样组织起来。赋予抽象度适中的标签。事件的诸多要素，都要纳入这个体系，参与者、时空特性（时-体）、事件类型的包含与继承、关联类型的包含与继承，触发条件、副作用……不一而足。这是目前聚焦事理图谱领域的各个利益相关方都极为关注的。

李：“我洗脸”，英语总是说：我洗我的脸（I wash my face）。中文解析，根据常识，可以推算出“我的脸”。感觉上人的理解中标配信息真地很边缘。赶巧了英语用代词把它明说出来了。但说了也跟没说差不多。情报性无论怎么定义这个“脸”属于“我”都很难成为情报焦点。

一般而言，感觉上 possessive 的 hidden links 情报性最差，在有冠词的语言，possessor 很多时候被一个定冠词 “the” 虚指了。凡是定冠词打头的实体（语言学里面叫 anaphor）理论上省略了所有者这类实在的 specifier。“the” 的含义是“你知我知”，虽然有个主儿但这不重要。

白：不同源头会带上不同约束，使推论减少盲目性。比如“给”的介词宾语和非三价动词的主宾语坑就不太能共享。这是“给”所明确标记的间接宾语属性所决定的。这些约束会截断共享通道。

“张三给李四写自传”，这李四要是有什么来头，情报价值还真挺大。张三是个代笔的小人物，张三的自传不重要。所以谁的自传，不简单。

李：从性质上看寻找这类所有者属于篇章的 coreference 范畴，而 coreference 的工作，句法有一定影响（binding theory 说的就是句法对于 coreference）。但是句法影响对于篇章非常有限。更大因素还是语义相谐和距离。把一个实体对于其所有者的预示与一个谓词对于一个 arg 的期望等量齐观，有点高抬了前者。

白：优先级不一样。

对范畴语法做了重大简化，跟依存很接近但比他更丰富。分析结果可以不是树而是图，图还可以成环。图更科学，更反映语言实际。

带加号的句法标签，可以看成是“只约分不输出”的范畴。每次完成约分，就废掉自身，以保持中心语的正统地位。

李：就是 adjunct/mod，庶出，跟私生子也差不多，投奔过来又不能不认，但上不了台面。

我的理解，DG 与 CG 性质不同，DG 是一种结果表示法刻画的是output what，CG 却带有 how 的味道表示和刻画 input tokens，可以据此演算作为 parsing 基础和驱动。最终从 CG 达成 DG 的结果。

parser 被词典化的 CG 驱动以后，在遇到叉口的时候求助于其他知识的引入，主要是语义相谐的调用。根据一个优先原则和有限级计算的机制做路径判断然后完成 parsing。如果不怕伪歧义也可以只依据 CG 词典与优先级原则而不引入其他知识。

这条路线的搜索空间（universe）是句子长度 n 的这样的一个函数：可以 assume n 中每两个词都必须发生7种二元关系之一。三种是实关系但是有方向（父父子子），所以“原子化”后就是6种实关系，即，是二元排列不是组合。第7种是：无关系。无关系也算关系，就一网打尽了。任意两词只允许发生7种关系之一，不能多也不能少。在 n 不大的时候，搜索空间爆炸得不算厉害。

白：ordered pairs，A跟B和B跟A可以有不同的关系标签。

李：对，有这个二元循环的可能，忘了这茬了。不过那很罕见，对于搜索空间影响不大。能想到的只有定语从句谓词与中心词有二元循环关系，一个 mod 一个 arg 方向相反。

李：By the way，你用 subcat 正好与（很大一部分的）语言学内部用的术语相反，句法学家说 subcat （子范畴）只是针对句型，主要是给谓词根据不同句型的预测分为不同的 subcat，而一个词的本体的细分就是 subclass（子类），所以 vt，vi 属于 subcat，到了 HPSG 等理论，这个 subcat 就真展开成句型了：

give:: SUBCAT <NP left:S>, <NP right:O>, <PP(to):C>]
give:: SUBCAT <NP left:S>, <NP right1:C>, <NP right2:O>]

第一条 SUBCAT 句型是 sb give sth to sb；第二条是 sb give sb sth

白：不管了，反正就是负载逻辑语义结构信息的标签，来自词典。标签之间的关系在本体里定义。

也不能说是“特征”，因为特征给人的印象是扁平化、向量化，缺少结构。但也绝不是曾经流行的“复杂特征”。

李：扁平化原子化有好处的，以前你也是赞成的。复杂特征在符号逻辑上漂亮，但不好伺候，难以承受逻辑之重：实用系统不能过分与逻辑较真（这个体会很深，以后有机会展开再论）。

白：我们只有一层除号，分子，分母。分子和分母里边都不再有除号，我称之为“单子化”。就一个成分而言，萝卜和坑都不必再有相对性。它们都是“单子”（singleton）。

李：那是因为你们的出身是 CG，算法里面就对分子分母的表示有要求，作为区分输入输出的手段。

白：把CG改造到这么实用的程度，我们应该在世界上挂个号了。

李：不知道这个 CG 还有没有个 community 和相应的 events，还是拉丁文一样被搁置了。HPSG LFG 那些人还在，有自己的圈子不过是越来越游离于主流（两不靠：语言学主流和计算语言学主流都不是）之外了。

白：CG可能就剩下CCG还活跃。CCG的本质是带坑填坑，于是就会产生我们所说的残坑。残坑在计算上的处理非常复杂，单子化对残坑处理带来莫大好处。但是从数学观点看，引入“修饰”，就是N+、S+这种，打破了“一个运算符吃遍天下”的理论美感，理论框架变得有些dirty了。等有空了，我会梳理一下“修饰”从数学上看是个什么鬼鬼。修饰之于单纯的相除，就好像X-bar之于CFG。象牙塔里的人可能不屑为之，我们编外游侠接手没什么顾忌。

【相关】

《李白112：白老师秘密武器一瞥（1/2）》

《李白111：范畴细化与语义相谐的知识爆炸》

《李白110：深度解析，曲高和寡，值得吗》
【李白之18：白老师的秘密武器再探】
【李白之15：白老师的秘密武器探幽】
【李白之19：三探白老师的秘密武器】

白硕：人工智能的诗与远方，一文读懂NLP起源、流派和技术

文章来源：https://read01.com/AJGzNQN.html

《李白111：范畴细化与语义相谐的知识爆炸》

白：“张三不满意李四没有表扬自己”“张三不满意李四没有批评自己”

这个是情感倾向性决定“自己”共指关系的例子。虽然，default建立得很脆弱。外面有个风吹草动就可能洗牌。比如张三和李四绑死了是一伙儿的等等语境引入的预设。

“把鸡咬死的虫子扔了” “把鸡咬死的狐狸跑了”

李：好例。

微瑕是，鸡吃虫论咬吗？虫无骨没咬劲儿。

白：“中国北京是首都”当中的“中国”是啥成分？“这支队伍我是当家的”当中“这支队伍”是啥成分？

“这个人我感觉很蛮横”“这个人我感觉很舒服”

插入语一旦确立，应该封闭与外部建立hidden links的通道。什么“你知道、我认为、他觉得……”当中的你我他，都不要再花心了，安守本份即可。

李：

"有点乱，有点乱......"

想起周华健的“今天我有点烦有点烦”。“当家”与“队伍”挂上是对的，可貌似关系颠倒了，这 S2/mCL 肯定是个?，需要 “de- de-” 的。

白：队伍和当家摘开，并不明智。

李：debug 过火了耶。句法负面影响了语义。应该弱化句法。

昨天/前天说了，这 Topic 如果是人名，默认就是“呼语”，如果不是人，那就是状语，什么状语？很可能表示 scope（范围）。

把“的字结构”也做过火了，结果 “的” 成了 S2（hidden subject），反而 “我”没有直接做“当家”的主语，虽然道理上可以通过与 “的” 的 coreference 推导出来。

白：王冕死了父亲，王冕也是状语？

李：不是。王冕是句法主语（synS），不是 Topic 降格。

白：“人” 给 “队伍” 当家，这坑都在。“的”不占名额，回指到定语从句里没事的。空出一个坑留给“队伍”。

李：那个坑感觉不强烈？“当家” 需要一个范围。可啥东西不要范围？就跟时间地点似的，啥事儿都发生在时空及其范围之中。

“当家” 词法上是动宾感觉饱和了，其实不然它词义是 manage，与其说范围，不如说需要 manage 一个对象。但是词法饱和（“家”已经做了“当”的词法宾语）的残留影响还在，所以这个句法宾语的坑只好退化为范围状语，逻辑语义上其实是【对象】的。

白：不一样。在真正一个家庭里当家，范围是默认的。在一个“拟家庭化”的组织里当家（掌权），这个组织就是需要凸显的范围。这是隐喻固化导致的，跟一般动词的范围不可同日而语。从非标配坑提升到了标配坑，于是就获得了参与句法构建的资格。

李：成葫芦了：

白：这就靠谱了。还可以画成公鸡?

李：传统 parsing 怎么可能做到这个深度？PennTree 的标注太浅，PSG 的本性也无力表达到这种深度。

群里面专门修过乔姆斯基语言学课程的朋友说说，对于这种语义谓词隐藏较深的，乔姆斯基句法是怎么最终达到他的 logical form 的？还是根本就不管，当不存在？逻辑形式的核心类似一个SVO： <我 - 当家 - 队伍>。

“这支队伍我当家”。

白：这样就可以啊：

李：N[+1] 变成 N[-1] 啊，狸猫换太子的感觉。+1 是左，-1 是右，这个指针运算还蛮溜的。

白：这是把“是”当S+使，把“的”当+S使。偏移量。残坑出自“当家”。辖域合并不交叉，指针还原就交叉了。

李：传统语言学里面的 subcat 没有这么丰富细致，CG 细化过来的，主要是词典功夫。乔老爷好像在 subcat 上没强调细化。

subcat 的范畴细化还不够，因为范畴细化不加上语义相谐的支持仍然导致伪歧义泛滥。在专家词典学派看来，范畴细化+语义相谐成为一体了，那就要求词典成为知识库，等于是把语言学词典转变为 HowNet 了。HPSG 其实就是在专家词典学派这条道上，想走没完全走通就式微了。

白老师是分开了范畴细化与语义相谐。可是展示的 parsing 全部是范畴细化，相谐的工作机理语焉不详。所以看白老师的 parse 图，结论是，就这些子范畴，运算起来，这路是 “应该” 通的。其他不应该通，但实际上也通了（伪歧义等），就不在雷达上。

白：这是what，不是how。what我希望更多的人理解和支持。how的商业属性就太强了。当然，这是结果，过程中不仅使用了这些。

李：就是。

what 似乎也不齐全，只是展示结构的 what，没有展示结构的功能性（角色）。所以，作为学习，这里有两个空白需填补，一个是 how，尤其是语义相谐机制，怎么招之即来挥之即去的。另一个是逻辑语义，逻辑语义怎么在句法或逻辑的链接基础上得出的。当然这二者是相关的，前者是条件，后者是结论。目前展示的结构树图就是个架子和桥梁。

白：这是一套资源向两个方向的延展。向句法方向就是前者，向语义方向就是后者。而且是句法方向退一步，语义方向进两步。

但是认真地说，本例，真的不需要语义相谐性，纯句法层面就搞定。

李：不是说本例。所以说是（语义相谐是）招之即来挥之即去耶。

那个 “专家的” 或 “大数据的” 语义，像个鬼影。说是要做个不是 HowNet 的 HowNet（《知网》），数据驱动的。怎么做？

这与最近NLP主流特火的预训练也许殊途同归？预训练是个好东西，听上去就是阳光大道。就是不知道今后几年的使用中会遇到什么坎儿。

白：新一代NowNet，早晚要做。但是不能跟场景两张皮，必须通盘顶层设计。

李：架构上，我看好预训练，关注它的走向。道理也简单我们一直孜孜以求的就是把语言学和领域先分开，然后再连接，各司其职。预训练就是先分开，而且不用标注语料，这个语言模型等于是在无穷语料上架设。所有的语义相谐和常识理论上都应该在预训练的模型里面（间接）反映了。

白：“他们让我从侧门进大楼”“他们让我跟太太进大楼”

“侧门”（N/N）的宿主是“大楼”，“太太”（N/N）的宿主是“我”。这要动用本体了。这俩的对比很有意思，纯句法肯定搞不定。

李：

白：侧门和大楼没挂上，侧门的宿主是building。所以building下位一定相谐。大楼小区之类。

李：知道。HowNet 都有，但不好贯彻。

不确定要多大的语义相谐合适。如果大面上说只要是 part 就与不是 part 的 physical object 相连，那是手到擒来的事儿，怕的是副作用。会不会连得太多，因为 part 和 physical object 都是范围很大的本体概念，概括一大批语词。如果说，细化到 “楼” 与 “门”的本体，就非常相谐，没有顾虑，那就需要一个完整的 hownet 本体知识，可是我对 hownet 的使用目前是限制的，不想进入语义泥淖太深。HowNet 董老师自己用得心应手，其他人用就颇不易。

白：知识必须是机器可读的。

李：hownet 是机器可读的，或者说形式化的。

白：机器可读的最好办法就是向一个丰富的技术栈靠拢，否则自己从头建立技术栈，得不偿失。但是董老师对此并不感冒。

李：subcat 以及 sub-subcat 的语义关联，有点组合爆炸的味道。本体自己从细到粗就是一个不小的集合（上千的 vocabulary），本体与本体的相谐就是组合爆炸。如果组合粗线条不会爆炸但失去精准，如果细化把 HowNet 全部引进，相应的规则集也有个组合爆炸的细化过程，有可能不好管理和维护。总之现在是控制使用，不想步子迈得太大。

白：还是要区分what和how，what本身无所谓组合爆炸，只有how没做好才组合爆炸。向句法这一端延伸，只用到少量资源。机制必须是轻量级的，重了适得其反。

时代呼唤具有更好场景对接能力和顶层设计理念的新一代“类知网”基础资源。

李：语义常识是一个多大的坑啊，淹死人不偿命啊。谁设计谁来组织去做？个人还是开源社区？最后谁用？怎么用？除了设计白老师可以统率后面这些问题都还不好回答。

白：要分层，基础层给专业层用，专业层给用户场景用，但是必须统一规划。知网也没搞成开源社区。这东东，不容易协调利益。除非使用区块链。关于知识长什么样如果没有统一的顶层设计，本体和场景一定是两张皮。

【相关】

《李白110：深度解析，曲高和寡，值得吗》

《李白110：深度解析，曲高和寡，值得吗》

白：“这首歌听过的都说好听”“这首歌听过的都说过瘾”

——什么好听？

——谁过瘾？

李："过瘾" 这类词对人对物均可：我听这首歌过瘾；这首歌过瘾。

这就好比 -ed/-ing 混合了：exciting/excited。类似于自动/他动的零形式转变，“好听” 不同，只能对物。

白：“这首歌过瘾”可以看成，过瘾的正主儿没出现，但是使动的角色已经在那儿了。句法上鸠占鹊巢，本体上主客分明。

李：正主儿不重要，默认是（令人）过瘾，这个“人”等于没说。

白：本体里“人”是出席的。linked data，首要任务就是不能掉链子。

李：本体是逻辑体系，不要掉链子。语言理解和表示，有所不同。本体等于是个认知背景，理解时候随时调用，也可以不调用。

“这首歌听过的都说过瘾 / 听过的都说过瘾 / 听过这首歌的都说过瘾 / 听过的都说这首歌过瘾 / ......”

白：句法上，不相谐并不一票否决，而只是减分。没有更好的选择，减分的选择也会顶上去的。但是在回答问题的时候，低分的选择会提示某种降低自信的折扣。

在c-command位置有多个置换候选，用哪一个自然会精挑细选；如果只有一个，横竖就是他了；如果坑已经被占满，c-command位置上无论有多少候选也是干瞪眼。

李：终于弄妥了。

æ¤å¾åçaltå±æ§ä¸ºç©ºï¼æä»¶åä¸ºScreen-Shot-2019-04-11-at-2.19.32-AM.png

就是这图越来越不像树了，倒是更像那种叫四不像的动物。Topic 可以抹去的，不过感觉留下有益无害。真要逻辑较真的话，“的字结构” 与 “过瘾” 还可以连上 S 或 S2。痕迹都在，本体也支持，但懒得做了。连来连去，也还就是个 “的”字，连个名儿都没有。谁过瘾了？哦，听过的人过瘾了。感觉没人这么问的。信息不具有情报价值，更像是从常识推导来的。常识常识，就是那种理应熟视无睹的不具备情报价值的知识。

白：推理，张三是听过的人，张三过瘾。

李：三段论是如此。就是不大容易想到啥场景会用上的，怀疑其解析价值。另外就是，语言表达中的确有清晰的情报与边缘的信息的区分，也的确有重要与不重要的区分。所以，单从语言角度看，也有一个什么一定要抓，什么可以放过的问题。所以，单从语言角度看，也有一个什么一定要抓，什么可以放过的问题。从情报性角度看，其实是不应该让常识过多介入的。常识之所以为常识，就是它不具备情报性。如果语言表达方面有意无意的漏洞或含糊之处都被常识“脑补”了，信息单元的情报性就被抹平了，主次容易混淆。

白：脑补的东西，一定有单独的标记。怎么可能允许一锅煮。“营业额超过了联想”也是需要脑补的。

李：人的表达和理解，都有很大的偷懒成分在。这一方面为了节能，节省带宽和脑力，另一方面也可能有个聚焦因素在。解析作为一个为表达通向理解所搭建的桥梁，也许也应该模拟逼近人的表达和理解中的聚焦和节能。所以一直以来句法以后做那些逻辑语义的 hidden links，总觉得是锦上添花适可而止的工作。要做可以做得很深很全，特别是不断引入常识“脑补”，就有很多的 hidden links 可以挖掘。隐隐觉得这不是目标和应该着力的点。

白：不脑补，那张图摆在那里也是摆设。地球人都知道不可比，关键是，轻量级的脑补还是重量级的脑补。

李：这类例子很难说是需要解析的脑补。更大可能是在语用场景，是在领域落地的阶段，根据领域词汇和领域知识去补。这里有个区别：深度解析利用常识脑补，基本是不分领域和场景的，算是 boil the ocean。而到了领域场景，那是下一个阶段了，那里已经有场景聚焦和领域聚焦的考量了。

白：只做解析的立场和做场景的立场是截然不同的。下一阶段，未必是时间的先后，可能只是工序的先后。一个抓总的人需要同时考虑。

知网的设计者，除了翻译是直达场景的，其他很难说有多少场景驱动的东西触达了知网的架构和方法论层面。这也导致二次适配的工作量巨大。时代呼唤一个从方法论层面直接对接场景的新一代知网，or whatever 网

李：撇开MT，NLU 两大应用是：

知识挖掘这更多是后台，离线，大数据。
对话，这更多是前台，在线，小数据。

当然，一个完整的交互系统，是两端都需要有的。现在看这两大应用，迄今为止，对于深度解析，需求不大，不明显，也许更多是因为还没找到可以利用的巨大潜力。

白：层次残缺。

需要解析器、本体、领域适配包协同工作，不能各行其是。

李：端到端的系统不去说它了，即便是想努力使用NLU的，在这两大应用中，凭实际经验看，对于 shallow parsing 的需求，远远大于对于深度解析的需求。shallow parsing 主要就是 NE 和一些 XP 抱团，这方面做好了，可以立竿见影。超越 shallow 的部分，用起来感觉不在痛点上。

也许是还没到那个火候。

白：现在的需求不是真正的需求，因为没有把各环节的潜力展现给最终用户。还是没做好。

李：总之，日常的开发实践和场景，不断把我们拉向 shallow 的工作。这些都是非常琐碎的，基本是资源堆积的领域性工作。也没有那么大挑战性，只要有人力有资源，总是可以大兵团作战，以资源取胜。而具有挑战性让我们着迷的深度解析，却发现性价比很差。做了白做的时候居多。

全世界都做对话系统，问题于是简化为 intent/slots，说白了，都是既浅层又领域的目标定义。intent 根本就没有语言学定义，不具备任何普遍语义。intent 完全就是根据目标应用所需要的 actions 来定义的语用意义上的“语义”，是典型的端到端的反映，没有可移植性。就是对于输入问题的一个针对具体应用（skill）的classification，1000个skills 有 1000 种不同的定义。这些是当前的“范式”，浅得不能再浅，但证明是可以 scale up 和有效的，前提是有资源去做。

“听过这首歌的都说好听”：

“都说听过的这首歌好听”：

【相关】

《语义群笔记：端端的端到端》

白：“盼望长大的童年”

本来是歧义，常识把它变成了伪歧义。“长大的”和“童年”不搭。

李：“盼望长大的童年”，可以问：1. 谁盼望长大？-- 童年；2. 盼望【谁】长大？ -- 童年；3. 盼望可能有两个【human】的坑。类似的例子有：“盼望到来的幸福” vs “盼望幸福的到来”，当然还有一个盼望- 长大（了）的童年。

虽然说似乎不合常识，概念来点弹性的话，也不是说不通：童年的定义里面虽然有没长大的意味，在类比和修辞的意义上，两个概念可以做各种关联和联想。事实上，“不搭”才是诗意的简单有效的手段，保证了想象的空间。

"这就是我那位想买你别墅的朋友"

白：【打败你的不是天真，是“天真热”！】

李：不是天真，而是天（真）热：

白：“它是一个不断松弛的过程，到头来，已经没得松可驰了。”

李：没得松可驰了还是没得弛可松了？没得澡可洗从来不说 *没得洗不澡。当然 “松弛” 虽然比照 “洗澡” 的动宾离合词但自己并不是动宾而是并列，因此换位了也不觉得。没得学可习还是没得习可学？

成语活用只要愿意花时间不是问题问题仍然是有多少用场。

Lai：@wei 有什么深度学习有效的方法可以发现这些Dependency?

李：不知道据说只要有标注就不是问题。

郭：斯坦福的陈丹琪(danqi chen)和她的导师Manning有个深度学习的dependency parser。应该算state of the art。开源，是stanford coreNLP的一个模块。

谷歌基于这个工作，做了个大数据版，据说准确率“超过人类”。也是开源的。

李：标注可以让目前的系统先自动做，让人去修正（只修正黑白错误，不修正模糊地带或不清晰的地方），这会大量节省人工，所以数据也不是大问题。最大的问题是，这些 dependency 出来了，懂得如何派上用场的不多。在大半个世界都迷信端到端的时候，缺乏资源去用的话，parsing 就是面壁十年的玩偶。

白：端到端不是问题，问题是端不能容纳结构。

李：神经MT 就是一个端到端典型示范。一端是串另一端还是串为什么要容纳结构。只要有可以监督的数据信息抽取也是如此。

白：关系抽取不是这样的。

李：以前一直以为抽取乃是我结构的长项。最近朋友问我如果是抽取关系，现存数据库就有亿万，表示 locationOf，whereFrom，bornIn，bossOf 等等关系。这些关系的两端都在数据库里面，用他们去找语言数据可以产生难以想象的不用人工的标注大数据。结构的路子一定可以匹敌这种大数据？我觉得很难。这与mt可以一比。

还有一些端到端结构无从下手可是端到端可以派上用场，譬如图片转文字看图说话，和文字转图。这些事儿有了结构也难以缩短距离。玩结构玩理解应该在小数据多变的domains 以及数据虽大但无法监督的情况下。这时候人家“端端的” 根本就不跟你玩，视而不见。另一个就是打下手做小三。在人家玩剩下的某些短板上玩补充作用。譬如 mt，张冠李戴这类问题可以帮上忙。

神经mt最不可思议的突破是顺畅度。这是当年认为mt无解的一个方面。突破带来的副作用是损失忠实，这点损失符号结构派其实可以擦屁股的。结构派有个貌似真理的预设，自然语言千变万化唯有结构化才可以变得 tractable。这话实际上并不尽然。结构化的确可以导致以较少的patterns 捕捉较多的现象，可是对于“端端的”系统对于海量容量和算力这种 generalizations 的意义大打折扣。推向极端如果有个现象两个 patterns 可涵盖一千个变体，如果我真有充分的数据可以看见这一千个变体足够的重复，全部记住了或者用另一种非符号化非规则化表达了 embedding （嵌入）抽象了，那么那两条 patterns 还有什么优势呢？何况符号规则化的本性就是不够鲁棒免不了漏掉点什么例外。

还有个有意思的现象。以前老以为起码起码结构化总是帮助提供了更好的基础总是归纳了很多现象没有功劳有苦劳。这个苦劳认不认不重要，客观情形是，满世界没几个人有兴趣利用，一多半也因为没几个人懂得怎么利用和消化，包括业界学习方面的牛人，曾经私下交流过，回答说，引入结构说起来应该有好处，但不好融啊。

绝大多数的端端学习系统有自己的一套比较成熟的有广大community主流不断集体探索和积累的基于一包词或ngram的各种模型算法和工具，语言结构横插进来，有异物感，heterogenous evidence，增加了模型复杂度，很容易得不偿失。

牛的 parser 能够开拓市场和被大家接受估计需要相当一段时间，其契机可能是： 1. 端端系统遇到瓶颈或死胡同，不得不探索其他路子的时候；2. 主流中的少数坚持探索利用结构或者结合AI理性主义和经验主义路线的融合派，在算法研究中取得了突破性进展，带动整个领域”产业升级“到结构化。

在此之前，基本上是自产自销，内部消化，用于目前主流“视而不见”无所作为的短板应用场景。（其实很不少，甚至 text NLP 中端端最成熟的 MT，进入领域由于缺乏数据也有很大短板。）

吕：@wei 大赞。

【相关】

《立委科普：语音交互时代是NLP的历史机遇》

越来越喜欢语音交互这两天玩 Siri，Google Assistant，感觉还是搜索公司做语音交互更有前景。

为什么？因为搜索公司的知识源积累雄厚，不是其他 players 可比（不知道百度是不是以自己的积累优势推出啥 assistant）。这是问题的一面，搜索公司做交互从回答开放问题方面，有天然优势。问题的另一面是，从问题解析角度看，搜索公司传统的优势不再。这给社交媒体公司和NLP创业公司留下了机会。以前做文本NLP，虽然可以 argue NLP 赋能的SVO搜索，可以大大提高关键词搜索的精准，但总体上感觉NLP想进入搜索，是针插不进的。

白老师说：这是商业模式问题。关键词作为标的，太成熟。

商业模式之外，还有个重要原因。很多年来，受众都被搜索公司潜移默化了，通过query log 可知，搜索框里面的 queries 绝大多数不是“人话”，就是几个关键词，而且搜索的人，越来越不管语言的词序与小词，因为经验教训都是词序和小词没用。这就使得NLP失去了合适的对象，优势发挥不出来。这边厢关键词技术以鲁棒和长尾见长，NLP 真地是难以实现价值。可是，语音交互时代不同了，人开始越来越多学会直接跟机器对话，这时候，自然语言回归“自然”，被搜索公司洗脑的坏习惯在语音交互中难以持续。

这给了 NLP 以机会。

以前老觉得NLP做文本比较成熟，来了语音转文字，多了层损耗。可现在语音技术成熟了，这点损耗不算啥。考察现有的交互系统，卡壳的地方多出现在 NLP 而不是语音转文字方面。

看目前 Siri 的水平，相当不错了，蛮impressed，毕竟是 Siri 第一次把自然语言对话推送到千千万万客户的手中，虽然有很多噱头，很多人拿它当玩具，毕竟有终端客户的大面积使用和反馈的积累。尽管如此，后出来的 Google Assistant 却感觉只在其上不在其下，由于搜索统治天下20年的雄厚积累，开放类知识问答更是强项。

最近测试 Google Assistant 的笔记如下。可以说，道路是曲折的，前途是光明的。

对于相同的刺激回答不同感觉是随机在同义词话术中挑选。

哈 nlp 卡壳了。搜索公司的backoff法宝就是搜索，卡壳了就改成搜索结果。

卡壳以后退到搜索以后搜索结果有个质量控制，可能的结果做了排序。如果觉得搜索质量不高或找到其他痕迹发现问题不适合做搜索。就用话术装傻：My appologies ... I don't understand（对不起先生我没听懂）。所谓“话术”，人工智能历史上称为“巧妙的欺骗”（artful deception，见《Church：钟摆摆得太远》）。这种欺骗是实用系统的永不过时的法宝之一。

thankful 的表述今天没听懂但迟早会通过 bug 积累反馈过程被听懂的所以只要系统持续维护机器对于日常会话就会越来越应答自如这一点没有疑问。语音交互虽然不像AI泡沫期望的那样立马改变我们的生活但人机语音交互越来越渗透到我们和我们下一代的生活中是一个自然而然不可逆转的趋势。

知识问答特别是开放类新闻查询搜索的拿手好戏这种搜索回应不是退而求其次的后备应答而是首选的答案。

所有话术都那么具有可爱的欺骗性，until 最后一句，莫名其妙回应说 this isn't supported.

（顺便一提，上面终于发现一个语音转写错误，我跟 Google Assistant 说的是，you are both funny and sometimes amusing. 她听成了 and sometimes I'm using. 从纯粹语音相似角度，也算是个 reasonable mistake，从句法角度，就完全不对劲了，both A and B 要求 A 和 B 是同类的词啊。大家知道，语音转写目前是没有什么语言学句法知识的，为了这点改错，加上语言学也不见得合算。关键是，其实也没人知道如何在语音深度神经里面融入语言学知识。这个让深度学习与知识系统耦合的话题且放下，以后有机会再论。）

这就是胡乱来了。测试下来发现句子一长系统就犯糊涂。10个词以上就进入深水区，常常驴唇不对马嘴。

可是即便后备到搜索也不至于如此不堪啊一点 smoothing 都感觉不到整个一个白痴。再一想，估计是我原话中提到 long sentence 它给我找来一个讲 grammar writing 的博客。

所谓语音门户之战，看样子是个拉锯战，可能是持久战。呈两极三角态势。一极是搜索巨头，谷歌、百度，手里有海量知识和答案。另一极是社媒或零售巨头，离用户近，腾讯、脸书、苹果、亚马逊等。他们可以把端口部署到千家万户去。这两极各有优势，可以长期对抗下去。三角方面，似乎还有一个角，是给NLP技术或创业公司留着的。谁知道呢，也许在用户和知识源都不具备优势的时候，技术型公司会以NLP的亮丽表现异军突起，帮助或联合其中一极成就霸业，也未可知。

haha LOL，简单即王道。

王道是要有出口。上面的乱套是系统设计的毛病，不是AI自身的问题。

又看了一遍上列“简单为王”的反AI宣传片，又笑了半天。前后两个问题，其实是两种解决方案：前一个是产品层面的。产品设计需要有个 accessibility 的机制。当主人因故说不出话或说不清话的时候，应该有个类似为残疾人准备的后备机制。这方面苹果 iPhone 做得很好，它的 accessibility features 非常丰富考虑到很多场景和小众残疾或不残疾的另类用户。第二个问题的解决方案是技术性的，机器人应该识别主人的声音，默认只听主人的指令。从产品层面看，起码应该是个可以 configure 的选项，不应该听到声音就去执行。

总结一下自动解析所依据的语言形式是什么。主要是三种：

1. 语序
2. 直接量（尤其是小词和形态）
3. 特征

前两种叫显性形式，特征是隐性形式。语言形式这么一分，自然语言一下子就豁然开朗了。管它什么语言，不外乎是这三种形式的交错使用，比例搭配和倚重不同而已。所谓文法，也不外是用这三种形式对语言现象及其背后的结构做描述而已。

摘自《自然语言答问》（to be published）

被搜索巨头20年潜意识引导/洗脑，人上网搜索的 query，第一不讲究语序，第二扔掉了小词（知道小词是 stop words 基本上被关键词索引忽略有它无它不 make difference）。这就使得 query 其实不是自然语言，不过是一小袋词的堆积。作为显性语言形式，小词和词序很重要，因为自然语言很大程度上依赖语序和小词这样的语言形式，来表达句法结构和逻辑语义。这么一来，query 不是自然语言技术施展的合适对象。

在不知不觉就会到来的语音交互时代，query 被语音的 question 所取代，自然语言复归“自然”，这就为NLP/NLU发挥作用，创造了条件。人会不会把上网用的 query 坏习惯带到语音交互的现场呢？考察语音交互现场，可以发现，基本上人机对话的时候，有意识背离自然语言规范的做法，是很少见的。人说话虽然并不总是特别规范，但是从学会说话的时候就开始积累的语言习惯是难以人为改变的。至少不会像 query 那样“变态”和偏离自然语言。

这是NLP的福音。

回顾一下，历史上看NLP走出实验室的落地历程，大多是遇到特殊的机遇。第一个机遇是信息抽取（IE）。在IE诞生之前，NLP面对大海一样的语言，漫无目标，是 IE 让 NLP 瞄准实际的领域需求，预定义一个狭窄的清晰定义的情报抽取范围和种类。第二个机遇是大数据，不完美的NLP技术遇到了大数据，使得信息的大量冗余弥补了引擎质量的不足。第三个机遇深度学习，仍在进行时，现在看来海量语料的预训练可以帮助模型捕捉千变万化的语言表达方式。第四个机遇就是移动时代和物联网的到来，这使得语音交互开始渗透到人类生活的方方面面，反过来促进了NLP技术充分发挥其潜力。

有意思的是，与其说搜索巨头用一个小小的搜索框“教育”或误导了用户的查询习惯，不如说是用户在不断的搜索实践中适应了关键词技术。其结果就是那不伦不类的搜索 queries 的出现和流行。既然用户会通过正向反向的结果反馈，来慢慢适应关键词搜索不懂自然语言的短板，可以预见，用户也会慢慢适应不完美的自然语言语音交互。

怎么讲？

如果同一个问题有100个问法，其中80个问法是清晰无误的，20个是有歧义的，用户会慢慢学会回避有歧义的问法，或在第一轮被误解以后，会迅速返回到更加清晰的80种问法范围来。如果这 80 种问法，机器只涵盖了 60 种比较常见的，久而久之会出现这样的情形：一方面，只要机器还在持续维护和bug fix 的反馈回路上，所涵盖的边界会慢慢扩大，从 60 往上走。另一方面，用户也会学乖，慢慢倾向于越来越多使用更加常用的，已经被反复证实的那些问法中去，回到 60 的边界内。除了恶作剧，没人存心为难自己的助手，毕竟交互的目的是为达成目标。这样来看不完美的NLP技术，面对真实世界的场景，我们是有理由乐观的。

所有的软件系统，一个最大的好处就是可以确定地说，明天更美好。除非是非良定义或设计，同时开发维护过程也是非良的操作规程，软件的质量永远是上升的，最多是爬升趋于缓慢而已。因此，今天我们取笑的交互实例，我们为机器的愚蠢所困扰的方方面面，明天后天一定会逐步改良。

唯一感到有些可惜的是，语言工程本来是一个打磨数据的过程，很多工作应该可以共享的，避免重复劳动。但实际上，这种重复劳动还在大面积进行中，而且很长时间内，也看不到资源共享的理想平台、机制和架构，虽然预训练的资源共享看上去是在这个方向上迈进了一步，但有效利用第三方的预训练资源，帮助落地到本地产品和场景，依然是一个挑战。

【相关】

《Church：钟摆摆得太远》

【一日一析：“新买”、“新建”与“新修”】

白：“张三在北京新建的高科技园区里工作。”

“张三在北京新买的别墅里有两个菲佣。”

“张三在北京新建的高科技园区开工了。”

不能指望一本道了。必须走不齐。

李：谁买的？一定是张三吗？其实，也未必是张三新买的。非常有可能是他老爸老妈给他新买的，尤其在这个物价高企、啃老盛行的年代。

定语从句中的 args 毕竟非主线上，不是信息交流的要点。定从属于附带信息，除了较真的人，面对这类句子，没人去问谁新买的，或谁新建的，这样的问题。因此，没有答案，或答案模糊也没什么不可以。

“张三在新修的长城上拍照。”

为什么后者的主语施事不是张三？也许随他去。定语从句的 args 没那么要紧。

白：别墅那个，谁做了买的那个动作（谁付的钱，付的是谁的钱）其实不重要，张三取得了什么性质的产权也有得扯，但是张三达到了买别墅的效果，by default就是张三买的，如果有其他角色出来认领买的动作，可以override。没有就是他了，句法只能帮到这了。但即使有override发生，句法的贡献也不是负面的，只是说大家遵守的就是那样一种逻辑。

就好像，没说是什么鸟，我推断该鸟会飞，总是合情理的。你说出是鸵鸟，刚才的推断虽然被override了，但在信息不足的情况下做出那样的推断并不是一个bug。

李："句法的贡献也不是负面的"，不错。不过，对于确定性不大的贡献，要看其求解难度来定是不是值得去做。往往可能费很大力气做出一个不重要或没啥实际价值的结果。更要紧的是，这样钻牛角尖，很可能弄巧成拙。细粒度是个好东西，但过细可能使系统精巧而脆弱。

ha 不该来的来了：“张三”新修（“长城”），“张三”没“拍照”？

“新买” 与 “新建” 的细微差别，使得一个单个的实体（“张三”）做不做逻辑主语成为问题。这种粒度的知识推理实在太细了。到了“新修”，单个实体与群体似乎都可以做逻辑主语，这时候还要进一步看“新修”的对象是个啥东西。如果对象是“长城”，单个实体不可能做逻辑主语，如果对象是“厨房”，单个实体又可以了。细细琢磨人的认知心理，上面这些逻辑链条都有道理。值得去模拟求解吗？退一步看，虽然人的认知的确有这些细微差别，但是另一方面，人其实也不 care 这些细微差别。

白：“在北京”去掉了性质就变了。在……里，是一个形态显著的框式结构。“北京”融化在“……”之中，而且不排斥填“新建”的坑。另一个，“北京”填“新买”的坑不那么靠谱，所以让出来给外面的“张三”以机会。并不是光杆儿在比优先级。是里面发生了吸引/排斥，连锁反应传导到了外面。

【Parsing 标签】

1 词类：V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语：VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法：H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause；oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

【相关】

【语义小品：首尾相接，天涯若比邻】

白：“姐姐走了小明很想念。”

想念谁？怎么建立起来的填坑关系？

李：首尾相接，天涯若比邻。假设输入文句的词串如下：T₁ T₂ T₃ …... T_n, 首尾相连的示意图如下所示：

处于句首位置的名词性萝卜“姐姐”（通常所谓主语或话题），正好可以跳过句点填补处于句末的谓词“想念”闲置的坑，作为其逻辑宾语。赞曰：句首萝卜句末填，万水千山只等闲。

“姐姐说走就走了头也不回我们都知道可怜的小明很是想念。”

白：“姐姐穿一件貂皮大衣闪亮的高跟长筒靴在张三身上踩了一脚扬长而去李四甚是同情。”

事理角度，同情弱者，不在乎首尾。

李：“姐姐穿一件貂皮大衣闪亮的高跟长筒靴在张三身上踩了一脚扬长而去李四甚是鄙视。”

说首尾相连是说一种搭配趋向。不应该参入人为语义因素来看这样的 heuristic，那样的话啥都说不准了。

君在长江头妾在长江尾。其所以会有越过远距离有这种呼应，是有结构认知的依据的。首尾分别暴露在外，没有两端外的顾忌。这是其一。其二语言结构嵌套，无论右递归还是中心递归，最外面的两个 tokens 是天然的最大括号的承接者。如果一个恰好有坑一个又多出个萝卜那就离绝配不远了。

白：结构因素和认知因素、事理因素应该通过某种折算，摆到同一个平台上来。势力较量，无非加分减分。分值至上。

【相关】

《朝华午拾：我的世界语国》

Mia Esperantio

除了已经死去的语言，语言的地理分布不难确认。可世界语国（Esperantio）在哪里？世界语者（Esperantistoj）会很自豪地告诉你：nenie kaj chie (哪里都没有，可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者，哪里就成为世界语国。) 这使我想起我的基督徒朋友，他们对精神家园也有类似的表述。圣经说（大意），哪里有基督徒聚会，哪里就是我的国度。

的确，世界语对我，有着宗教般的吸引力。当年初入北京世界语圈子，感受到的新鲜和温暖，使我一个外地人兴奋莫名，遂以全部热情投入。二十多年了，我的世界语国也经历了很多有趣的人和事。

== 昆明全国第一届世界语大会 ==

去昆明开会，是我的世界语之旅的第一次远行。我们北京一伙人，一路谈笑，亲如一家。同行有邱大姐（歌唱演员，文革时唱过家喻户晓的“我为革命下厨房”）和老大哥王彦京（一个很英俊的小伙子，是“老”世界语者了，常跟我们吹嘘他是黄埔一期，当年在大礼堂上百人接受文革后第一批世界语培训的光荣经历）。途中遇到一位山西姑娘，独自远行开会，起先不爱理人的样子。后来熟了，才知道她天性活泼开朗，完全不象北京女孩那样一本正经，是那种性情温和、相处让人舒服的人。都是年轻人，自然比较聊的来，一直相处得很自然愉快。接触一多，不时招来老大哥的善意讥讽：你那位 Shanxi-anino 呢？我当时已经悄悄地有北京女友了，岂敢有“不良”居心。后来，她嫁给了我的北京世界语哥们，算是昆明大会做的媒吧。一方面为朋友高兴，心里面还真有点嫉妒：这小子天上掉下来的福气。

71届世界语大会前夕，中国科学院世协举办了一个国际世界语科技研讨会，有幸请到了黄华副委员长莅临讲话。世协本来安排外交学院世界语前辈沙地教授做黄华的翻译，可临场前一刻钟，沙教授忽然跟我说：“你年轻，脑子快，还是你上场吧”。天哪，我才刚学世界语不到一年，虽然仗着语言学出身和词典的帮助，阅读写作并无障碍，可是并没有多少机会练习口语翻译啊。沙教授看我犹豫，鼓励说：“你肯定行”。也是初生牛犊，糊涂胆大，这一激就呼啦上场了。往黄华身边一站，差点傻眼了，只见无数闪光灯袭来，眼前明晃晃一片白光。毕竟是外交部长出身，黄副委员长出口成章，抑扬顿挫，表情丰富。每说一段，就停下来等我翻译。我强作镇定，努力想复述，也只能挂一漏万。记得黄先生提到圣马力诺世界语科学院，我一时不敢确定圣马力诺在世界语怎么说，黄先生看我卡在那里，提醒道:“San Marino”。这次翻译实在不怎么样。表面上黄先生的每一段，我都应付了几句，但自己都翻译了些啥，根本没数。下场后，心里懊悔极了。我后来想，世协的主办人肯定更加懊悔，没想到半路杀出来个愣头青，早知沙教授临场换人，他们一定会安排其他世界语高手出场，北京世界语界可是高手如林。黄华啊，岂是等闲人物，绝不该有半点差错。不过，这次赶鸭子上架对我个人的命运却非同小可，它成就了我的婚姻。我的太太就是冲着我曾是黄华翻译，才同意跟我见面，最终结成良缘的。当然，这是后话了。

== 给 Frank 教授一家演示世界语机器翻译 ==

圣马力诺世界语科学院院长、西德控制论专家 Frank 教授是致力于世界语和科技相结合的头面人物。Frank 一家都热衷于世界语活动，在71届世界语大会前，他携夫人和女儿全家来访。来之前，信息管理系主任、老世界语者欧阳文道跟我联系，安排我为 Frank 全家现场表演我编制的世界语软件：一是我的硕士项目，一个世界语到汉语和英语的自动翻译系统（叫 E-Ch/A），二是我编制的一个英语到世界语的术语自动转写系统（叫 TERMINO）。这是他接待 Frank 教授的一个重头戏。我于是认真准备，在机房等待欧阳先生陪 Frank 全家进来。我的印象是，Frank 教授西装革履，风度翩翩，他太太雍容华贵，和蔼可亲，两个金发女儿，也亮丽鲜艳。我用世界语招呼客人后，一边讲解，一边演示。果然，Frank 教授一家对我的两个系统兴趣浓厚，当场试验了几个句子和一批术语，连连称赞。Frank 当即问我，你能尽快把该系统的概述给我的杂志发表么？我说，已经提交世界语科技研讨会了。教授说，没有关系，我们不介意，只要你允许我发表即可。Frank 教授回国后，以最快时间在他的控制论杂志作为首篇刊发了我的系统概述，这成为我学术生涯上在科技刊物正式发表的第一篇论文。我也被吸收为圣马力诺世界语科学院成员。不仅如此，Frank 教授随后在他给陈原和欧阳文道诸先生的探讨中德合作计划的长信中，强调要资助立委硕士到他的实验室继续开发这套系统。可惜，由于种种原因，我未能成行。（见《朝华午拾：一夜成为万元户》）

== 北京71届国际世界语大会 ==

1986年北京首次举办的71届国际世界语大会把中国世界语运动推向了高潮，成为全国世界语者的狂欢节日。我作为世界语“新秀”，有幸参加了从大会预备到终场的全过程（后来了解到，由于当时的政治现状，很多外地资深世界语者没有得到参加盛会的代表资格，严重打击了同志们的热情）。

当时的国际形势也很微妙。东欧还处在苏东崩溃的前夕，意识形态控制比中国还严。我遇到几个保加利亚和罗马利亚的世界语者，很神秘地告诉我，他们的世界语代表团安插有政工，专事监督他们，必须倍加小心。在亚洲，两伊战争正酣，国家施行铁血控制。我结识了一位优秀的伊朗青年世界语者（忘了姓名了，很是个人物），她很活跃，聪明过人，反应极快，积极牵头组织世界青年世界语者的活动，曾表示希望我作为中国青年世界语者召集人，跟她配合。我问她，你要是遇到敌国伊拉克的世界语者，怎么办啊？她毫不犹豫地说，我会上前招呼握手，跟他／她交朋友，我们世界语运动的宗旨，不就是加深理解，消除仇恨，实行世界和平么。她也告诉我，在她国内必须小心，随时可能被送进监狱。象她这样抛头露面比较西化的人，恐怕早已上了黑名单，是政府盯梢的重点。“不过，我不怕，我有对策”，她很有信心地说。大会以后，我跟这位优秀的世界语者还保持通讯了一些时日。

说到伊朗世界语者，还遇到一位姑娘，身材高挑，皮肤白皙，极为漂亮，可惜世界语只是初级水平，不易沟通。她是由母亲（也很年轻，有人说她们是姐妹）带领来参加盛会的。漂亮姑娘谁不愿意多看一眼，所以在大会组织到长城游览时，我就有意无意跟在她一拨登长城。记得在长城半路，遇到外院一批小伙子下长城，这几个挺帅气的小伙子同时在少女前停下来，惊为天人。他们毫不掩饰地赞叹，天哪，你怎么这么漂亮。（我还是第一次听到中国小伙子当面夸姑娘漂亮，但是他们的率真很可爱）。姑娘微笑不语（大概也不会英语），小伙子于是转向她的妈妈：“Your sister is so beautiful”。妈妈说：“Thanks. But she is my daughter.” 言语里透出无限的自豪骄傲，看样子她当年肯定也是个大美人。后来我想，原来，人的爱美之心都是一样的。记得当时，北京电视台摄影记者大会采访，也随我们登上了长城，跟我们一样兴奋，制作了关于世界语的一个文艺片，还配上了很好听的歌曲。（真的是好制作，可惜只播放了一次，不知道有没有有心人存录下来）。

人都说世界语不是任何人的母语，只是部分无产阶级或者小资产阶级的业余爱好。其实，因为热衷世界语的人往往喜欢国际交往和各处旅游，结果成就了很多婚姻。这样的世界语家庭里面已经出现了一批母语（家庭用语）是世界语的后代。71届世界语大会时候遇到过一批来自欧洲的这样的少年，他们很自豪地告诉我：“Ni estas denaskaj Esperantistoj” (We are Esperantists by birth)。

当时我们北京世界语者有一个据点，就是美术馆附近王艾姐妹的家。王艾长着一张总也不老的娃娃脸，好像也是黄埔一期的。她姐妹俩典型北方人性格，为人热情爽朗，会张罗，结交广，富有幽默感。到她家，就跟到自己家一样感觉亲切自在。世界语文艺片播放那天，我们一拨人于是相约到她家看。遇到国外世界语朋友来访，我们也常常带到王艾家聚会。

大会期间，还有一位男的日本世界语者跟我们交往颇深。恰好赶上我哥哥来京，于是我兄弟俩和王艾一起陪同日本朋友逛圆明园，然后召集一批世界语朋友在王艾家晚餐聚会，热闹非凡。

王艾最得意的就是她抓拍了一张世界语大会期间拉宾小姐演出之余的照片。这的确是一幅摄影杰作，画面干净利索，色彩鲜艳，人物神态，栩栩如生。难怪照片洗印店的老板把照片放大摆放在门前作为招徕顾客的样榜。

值得一提的是，我在这次大会上，结识了一位国际世界语界大名鼎鼎的人物Victor Sadler 博士，并与他保持了多年的交往（特别是他在BSO从事机器翻译研究期间，后来我去英国留学，他不但给我写了推荐信，还解答了我选择学校的困惑：他告诉我，论名声和学术，应该去剑桥大学；要是想继续从事机器翻译研究，应该去曼彻斯特的UMIST计算语言学中心；如果想学人工智能，爱丁堡大学最佳）。他是剑桥大学的语言学博士（后来跟我一样成为计算语言学家，从事机器翻译的研究，他首创了利用自动句法分析过的双语语料库施行机器翻译的统计算法，比后来盛行的同类研究早了5－10年），长期以来是国际世界语协会的头面人物之一，当时是国际世界语协会的财务总监。他平易近人，有长者风范，约我到他饭店面谈，对我的世界语机器翻译研究极感兴趣。他问我是否就我的研究给大会的科技演讲提交了提纲，我委屈地说，提交了，但是没有被采纳。他微笑，有点可惜的样子，没有做进一步的解释。后来我得知，国际世界语大会的科技演讲，不仅仅要所选课题对路，水平好（这两点，我已基本做到），还要看研究者的资历，起码是博士，最好是国际知名教授（记得当年的演讲包括陈原教授的和Victor Sadler本人的。陈原的演讲妙趣横生，不愧为大家。Victor Sadler 讲的是涉及世界语的电脑处理，属于我的计算语言学专业）。我一个第三世界的硕士生刚毕业，根本谈不上。

2006年四月十六日
于美国B城

【相关】

《微信群笔记：深切悼念语义宗师董振东先生》

帅：中文信息学会讣告 | 董振东教授逝世

李：震惊。深切哀悼！

宋：惊闻董老师去世，十分悲痛。董老师的成就令人钦佩，董老师的科研价值观引领我们前行！

金：90年代初各种计算语言学会上都能碰见董振东先生，受教多多。董先生千古，一路走好???

邢：深切悼念董老师先生风骨精神，求真求实，我辈追随榜样！先生千古！

梁：惊闻董老师去世，非常震惊和悲哀！先生精神永存，永驻我心！

Nick：@wei 伟哥应该写篇纪念文章

李：绝对的巨人和恩师。深切哀悼! 董老师从未停息对nlu的研究一直在做系统让人折服。在很长的时期董老师是中国nlp和mt与世界的接口。语义宗师一代巨人高山仰止。

洪：如果允许，咱群凑份子联名送个花圈花篮啥的，@wei @Nick Zhang

Nick：@wei 伟哥牵个头。

李：董强谢谢大家，说后事从简，已经办完了。

白：董老师在本群的交流中为我们贡献了宝贵的精神财富，无论在解说HowNet的顶层设计思路方面，还是在评价NLP最新进展方面都是金句叠出，振聋发聩。本群失去了一位巨匠级的群友。董老师在群里交流的那些话题值得我们结合各自的学习工作实际，长久体悟。

施：沉痛悼念董先生。最钦佩董先生的知识分子风骨，我们学会有次换届，他大骂一些学霸领导的场面历历在目。特别解气。我们做不到。有次他举办知网国际研讨会，问我能否支持。我给了5万元，他也只是淡淡的说了声谢谢。知识分子啊！！

洪：CNLP用知网，// Chinese NLP
基础资源WordNet相当。
当年请来百度讲，// 2005
老当益壮携董强。

李：重发旧文《语义三巨人》深切悼念董老师。先生千古！

洪：应该四巨人，作WordNet的George Miller绝对是心理语言学大家。

李：论影响力是的 @洪涛Tao 可能我有偏见，我对 WordNet 意见很大。我以前倒是觉得 Wilks 可算上第四语义巨人。

洪：Miller和Chomsky同时代，基本上平起平坐。他的 science of words很科普。

李：最后一次收到董老师信息是2月17号。董老师发来的是郑钧的《长安长安》，我一直也喜欢郑钧的。不过此前我与董老师从来没有议论过音乐。

回想起来，过去一年，董老师在微信群上越来越少见到了。不是他不关注，估计是终于精力不济了。

白：董老师对ontology一直很敏锐，总觉得他有高见没有说出来。能早十几年就在ontology层面不满足于taxonomy而想到去做类似当今事理图谱那样的东西，真的是高屋建瓴。董老师对“部件”也是有话要说，我一直期待他的高论……

Nick：old soldiers never die, they just fade away.

洪：
老兵不死留枪支，弹药充足后人使。
老兵升天入云时，依旧深情地俯视。

张：一代宗师我的恩师心痛不已～～～董先生风骨盖世，学识惊人，成就人类文明——“译星”、“知网”闪耀人类创新创造历史。

董振东语录：

1）“我们老了，但机器翻译还年轻”———1996年泰国机器翻译峰会之中日印马泰多国语机器panel 上的感慨；

2）“我这一辈子做了二件事，一件是别人不愿做的事，一件是别人做不了的事。”

3）规则的机器翻译是傻子，统计的机器翻译是疯子。

刘：董老师还有一句话我印象非常深刻: “我就是个工匠”。那时候还没有工匠精神的说法。

李：@张桂平老师，董老师说的这两件事儿后者是《知网》吧那的确是别人做不了的事需要超凡的智慧和耐性。别人不愿做的事呢？科研一号/译星还是日本多语项目中方负责人?

姜：@白硕嗯！谢谢老师的指导！董老师在军科跟我是一个研究室的，也跟我住邻居，是“科译一号”的研发组长。九十年代我和领导战友们在军科后山散步，经常看到他和儿子一起散步。见到他时大家就一起说说笑笑，气氛融洽，甚为欢快。后来到他家请教过几次。他亲自打开电脑给我讲hownet的设计思路，还当场用他定义的“义原”对几个词做了定义和修正，而那时其实他已经重病在身了，他身体力行不屈不挠不计回报敢为天下先的工作精神真是让我敬佩，给了我很大的激励。后来又作为我的博士论文答辩小组组长，给了我很好的指导。昨天惊闻先生逝世，心肝悲痛，愿先生千古，永垂不朽！??

李：最近几年董老师专注于运用知网做语言深度解析和理解尤其在中文理解方面。这与我最近几年的着力点非常吻合所以群里和私下我也常请教我们常有交流。大的方向和技术路线是一致的。董老师更多运用知网的知识体系和某种常识推理解析中文英文。解析结果更加靠近他构建的逻辑语义表达解析深度更接近理解。就是说比我做系统更加细线条虽然我做的工作比多数系统已经很细线条了。在广度和鲁棒性上感觉董老师所做的工作限于资源有限还未充分展示其潜力。

把董老师介绍入群是我的主意。我知道董老师对于nlp和ai话题特别有兴趣常见他在 linkedin 里面与人讨论相关话题于是想到他对我们常讨论的一定会有兴趣的。于是尝试联系询问。董老师以前不怎么用微信我就跟董强夫妇商量他们也同意觉得董老师如果能参与我们的 nlp 话题是很好的事情对于董老师身心健康也有好处我们后辈自然也亲身受益。于是先尝试让董老师用董强的id入群观察最后水到渠成他就加入了。特别是白老师的语义群很多是他的学生同事和仰慕者很快就融入了。过去两年有了董老师的参与和教诲群里的讨论更有深度。我们共同度过一段与导师直接互动的难得的时光。

【相关】

讣告 | 董振东教授逝世

《语义三巨人》

【与董老师对话:什么是知识图谱?】

《语义沙龙笔记：结构被神经编码了吗》

立委按：说深度神经三位先驱者坐了20-30年冷板凳，终于迎来了图灵奖。董老师坐了30多年冷板凳，还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。

詹：

有道翻译太牛了！

王：这也太达意了，牛!

白：“张三为李四写了这篇论文而后悔不迭。”

看点：1、论文可能是张三写的，给李四当枪手，写了以后后悔了，也可能是李四写的，idea跟张三撞车了，张三后悔自己下手慢了。2、“为……而……”属于“套路”句式，即所谓“构式”，具有强搭配特性，优先级很高。3、一般性的“VP1而VP2”中，VP1与VP2在语义上要么高度平行，要么高度对立，既不平行又不对立的填入这个结构的优先级很低。一进一出，当枪手的解读式微，论文撞车的解读看涨。如果一定要表达当枪手的意思，要么把“为”重复成两个，要么把“而”去掉。话说，两个因邻近而重叠的小词缩合为一个，在语音上也是可以成立的，在无伪歧义的场合尽管用，但在有伪歧义的场合不占优。具体到本例，也就是“为+为—>为”这个动作不占优。或者说，虚增一个与后面“而”呼应的“为”，不足以对抗另一个解读。

“刘为为为为为人民而牺牲的烈士立碑的劳动者献花。”

这个跟“一把把把把住了”有得一拼。

吕：神经网络是不善于数数的

白：

这个是枪手解读。前一个干脆不管几个“为”，意思到了，没人竞争，就他了。多出来的就当你结巴。不仅可以无中生有，还可以视而不见。

宋：三个介词连用，漂亮的嵌套：
第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。

刘：第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。Google翻译：The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests.

白：discovery不好

刘：结构都对了

白：那倒是。这个结构看起来叠床架屋，但其实不受干扰，是所谓“一本道”。discovery太正面了，单独看跟科学成果似的。放在这个语境里也对冲了负面色彩。

刘：要知道神经网络机器翻译是完全不用任何句法信息的，能正确理解这样的复杂结构，很神奇了

白：结构被编码了

白：张三因被发现考试作弊而被从向欧洲派遣的留学生名单中除名 John Doe was removed from the list of foreign students sent to Europe after he was found to have cheated on a test --来自 @彩云小译

刘：张三翻译成John Doe，很有意思了

白：留学生一定是“foreign”？接受的是，派出的不是啊。这是有坐标系的，估计数据太稀疏，这些都顾不上了。一本道的嵌套就相当于parity，难不住神经的。这个found比discovery强。

刘：如果是Phrase-based SMT，这种句子应该是翻不好的

梁：

李：越来越多复杂结构句子，在神经MT翻译中居然对了，以前以为只有深度解析才有望解决的问题，居然在端到端，没有任何显式句法支持的情况下做到了。这种“奇迹”，连在神经第一线的@刘群老师也不时赞叹。说明这里面的机理不是很清楚，尽管笼统说来，可以说是结构在大数据训练中被合适地编码了。

姜：这是个有趣的问题。非要有显式句法支持，才能翻译复杂结构句子，是一种想当然。

李：是不是“合适”编码了，也难说。因为一方面我们看到了一些翻译对了的”神译“，另一方面我们也看到一些神经过头的乱译。目前似乎也没有办法回答这个疑问：对了的和错了的，是不是共生的。大而言之，我们知道，起码目前的神经翻译，通顺是建立在损失精准（有时候简直到了张冠李戴、指鹿为马、视而不见和无中生有的严重程度）的基础上。还好，起码对于新闻、科技和日常用语等，所损失的精准虽然可能很严重，但频度还不是太高。

梁：科学的精髓 —— 敢于犯错误

李：疑问是，如果机理不清楚，所犯的错误就难以改正。是不是糊里糊涂一本帐，还是改进的目标还算清晰？是不是可以说，结构不是真正的坎儿，标注大数据才是。MT 让我们目瞪口呆的神翻译，似乎已经部分证明了，复杂结构是可以被标注大数据“编码”的。

白：机译可不可以做得更好，我兴趣不大。我更关心各种场景化应用，机译这条路线是否走得通。按正确的结构标注大数据，意思就是，what由人工解决，how由智能解决。how又分两种，一种是歧路，一种是伪歧义。对付歧路，不需要人工。对付伪歧义，必须人工。对付歧路，强化学习、自我标注就够了。

李：NMT中的伪歧义表现在哪里呢？

白：比如上面例子的“留学生”。在不同语境下对齐的词汇不同，但向外派遣，就不该是“foreign”。

李：不仅仅是 NMT，这个一错就可能错得离谱的问题是普遍性的，图像和语音中都有这个问题。what由人工解决，how由智能解决。这种说法是想对神经与结构进行“紧耦合”。不是没人想做，但总体上迄今还是一头雾水。这两个冤家不容易往一起捏。

白：“我是县长派来的”就是歧路不是歧义。全局解唯一，暴力搜索一定能得到。但是暴力搜索的目的是做正确的标注。实时解析策略是通过标注数据训练出来的。紧耦合无所谓，因为神经的那一半压根儿就不需要人工干预。归根结底还是what不给力。

李：what 从语言结构的角度，是有共识的。起码语言学家对于一个句子的依存结构，分歧并不大。如果分解为二元关系，分歧就更小了。分歧多表现为“如何”得到这个结构，而不是这个结构是什么。尤其是 PSG，如何得到决定了树的不同。到了 DG，“如何” 的影响明显减弱。从逻辑语义角度看，what 是有共识的，有很强的确定性，大同小异的。

白：好像不见得。比如“咬死了猎人的狗”公认有歧义，“咬死了猎人的羊”有没有歧义，语言学家未必分歧就小。如果语言学家的共识是后者也有歧义，那就洗洗睡吧，NLP肯定指望不上了。

李：说共识与否，还是要有个量和频度的概念吧。

白：标注即投票？神经的强项就是拎得清此时此刻的力量对比。让语言学家投票，未必拎得清。

李：找个例，很容易忽视量和频度。就说 “咬死了猎人的羊” ，粗分一下，是三个实词（“咬死” 算一个词）：咬死（A）了猎人（B）的羊（C）。看看 ABC 之间发生的二元关系，哪些是共识，哪些有疑问。AB 动宾这是一个二元关系（候选），算是共识。AC 是定语关系，也算是共识；BC 是定语关系候选，也是共识。AC 动宾候选，也算是共识。

白：等等。这里，what必须表达“候选”。如果没有这个表达能力的what，必须靠边了。这在语言学家中也不容易达成共识。

李：总之，即便是个例，如果细分下来，共识的部分还是占多数。如果与常态化语言表达法平均一下，可以说，语言结构没有多少争论的空间。

白：这个平均，在长尾面前无意义。

李：我觉得问题的关键不在 what 不清楚，需要在 what 上再有突破。关键是，已经知道的 what，也没有有效的办法被神经利用和吸收。两年前遇到刘挺老师，谈到这个问题，问神经这条道，啥时可以利用句法或逻辑语义。他直摇头，说不好办。不是一条道上跑的车。

白：光说动宾不行，光说动宾候选也不行。如果说，句法就送你到这儿了，剩下的看造化。这当然不行。必须把所有的资源摆在那儿，让神经去选。语义的，情感的，事理的。这也是很多语言学家不具备的。可以设想，如果有一个可供神经对接和挑选的“知网”级别的基础资源，局面会大有不同。

李：唉，送上门也未必有人有兴趣 and/or 有能力去用。看吧，看今后五年。今后两年神经还可能往上走，很多人有这个信心，所以没有兴趣是主因。今后五年，那就是能力的问题了。

白：还可以设想，如果标注人员戴上一种设备，就可以通过追踪眼动或者捕捉神经信号获得标注，语言学家真的彻底不需要了。

李：说深度神经三位先驱者坐了20-30年冷板凳，终于迎来了图灵奖。董老师坐了30多年冷板凳，还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。就是用起来殊为不易。

白：可惜董老师不待见神经，也不待见图谱。

李：知网就是本体常识图谱。不待见神经倒是真的。知网与图谱的距离，最多是工程层面，本来可以有一个更好的实现与接口。

白：不是的。事理的层面，知网超越市面上的图谱。工具的层面，知网弱于市面上的图谱。

李：对呀。多数图谱很肤浅，没法望其项背。

白：此外还有一个适配的问题。各种可用资源参与力量对比，必须折算到统一的度量。知网没有这个度量。分析器玩的就是力量对比。神经倒是未必一定要有，但统一的度量一定要有。

正解压制伪歧义的依据，修辞用法压制一本正经的胡说八道的依据，就是包含词法、句法、语义、语用、情感、事理在内的各种力量的综合对比。首当其冲的，就是把各种力量经过折算放到同一个平台上来。把资源捂起来，只留下标记，不仅没有资源的人学不到真货，有等价资源的人也得连蒙带猜。这资源是what的应有之义。

李：把结构扁平化(譬如嵌套表层化｝和原子化（譬如分解为二元关系）变为特征对于深度学习没有多少吸引力。如果不简化也不知道从何入手。

白：结构的嵌入可没这么肤浅。向神经要潜力的话，表示（what）没什么好做的，把功夫下在控制（how）吧。表示就是语言学家、领域专家、知识工程师自己的事儿。另外，就数学本质来说，符号串的代数基础是幺半群，神经的代数基础是矩阵（线性变换群）。这两个群都是非交换的，深层次里有互通的基础。所以嵌入结构是正常的。

宋：@白硕向神经要潜力的话，表示（what）没什么好做的，把功夫下在控制（how）吧这个观点我挺有兴趣。能否详细阐述？谢谢，@白硕我最近一个理论是大脑除了基于矩阵的目前人工神经网络用得多的系统，还有一套控制系统。所以也许能把几何和代数统一起来。

白：可用的资源、输入输出都是符号表示，中间的计算是神经表示。输入是符号序列，输出是操纵符号的动作。有些动作是有副作用的，需要记忆。操纵符号的动作改变符号，类似“重写”，但是不限于“重写”。当你输出一个dependency link时，符号之间的邻居关系改变了。

宋：Causal Reasoning from Meta-reinforcement Learning，我最近看到这篇 arxiv 上的文章比较有趣。我在想 control 这边也许可以放到一个 meta-reinforcement 的框架里面最终去解决。

【相关】

《朝华午拾：Wonder Years: 青涩少年记事》

上个世纪74-75年左右，大概是初三的时候，学校组织我们学军，长途拉练，步行100多里路，去皖南新四军旧址云岭和茂林参观。我比较弱小，那次长途跋涉，真把我坑苦了，一辈子也没有走过这么远的路程，似乎没有尽头。学生队伍前后拉了好几里路长。我一瘸一拐，一根一根电线杆数着往前挪动。终于，有同学报信说，目的地已经在望，就是前面的那座小山。于是，鼓作最后的勇气。可望山跑死马，看着就在眼前的山，还是走了一两个小时，直到天快黑了才赶到。

吃罢晚饭，学校把我们安排在一个大礼堂里面休息。一屁股坐下去，就瘫软在地，居然再也起不来了。脚也没洗，在同学帮助下，挪到临时搭起的铺子和衣睡下。第二天早上，全身没有一块筋骨不疼，勉强可以站立。

虽然很狼狈，对于拉练在外的生活还是感到新鲜兴奋。特别难忘的是参观新四军事迹展览时和女同学耳鬓厮磨的经历，连带当时的心跳、惶惑和尴尬。

我们那个年代，男女生有一条无形的界限，在校园很少交往。不过，我是学习委员，在班委会活动中还是跟女班长和女团支书有工作往来，彼此印象都不错。尽管文化课已经不是学校主业，大概是惯性，学习好的同学还是自然受到青睐。不过她们都比我大两岁，感觉是姐姐一样的形象。女班长是个假小子，面色黝黑，作风泼辣，相处很愉快，但感觉是哥们儿。团支书端庄秀气，能干老练而不失文静。我平时到城外后桥河去游泳，每次经过她家门前，总见她在门口坐着织毛衣，仪态娴雅。她见到我也总落落大方地招呼一声，可我总自我感觉灰溜溜的，不知如何回应。

拉练在外，男女生就比较亲近起来，不象在校园那样拘束，这是当年学工学农学军最让人兴奋的地方。第二天参观新四军展览，不知怎的，跟团支书混在一起，她个头比我略高，站在身后，挨得很近，耳边是她温热的气息。我们两个人拉在最后，仔细切磋揣摩那些展示的图片和实物。两人很默契，一步一步向前挪动，有意无意身子碰到一起。我心痒如蚁，强作镇定，不敢回视。

那一年我14岁。西皮居士有诗云：

野营拉练知何似？跑马望山苦嫩兵。
学军之意不惟军，立委心飞云雨情。

记于2007年二月十九日（阴历大年初二）

《朝华点滴：老队长的歌声（3/3）》

敲锣打鼓把我们迎进村的老队长跟我们走得最近。事无巨细，他都爱来管，自然充当了知青监管人的角色。我们插队的时候，正是老队长大家庭最鼎盛的时期：五个孩子，三男二女，人丁兴旺。老伴操持家务，任劳任怨，对人热情有加。大儿子山虎算我们哥们，比我略长，但长得比我还矮小一大截，似乎发育有问题，但干活并不赖，是个整劳力，担任队里的记分员。山虎小学毕业就回乡种田，作为长子，与女民兵姐姐一起，帮助父亲分担家庭重负。三个劳力，加上两个弟弟拾粪、放鸭，放学做点零工，一家人挣足了工分。这个家庭的红火兴旺，加上老队长的威信，可与家有四朵金花的光头队长一比，这两大家是村子里六七十户人家里面的显赫人家。老队长的家也是我们的家，在他家里我们感觉在自己家一样地自在。一家都是热心人，包括最小的六岁女儿，我们一来，就手舞足蹈，欢呼雀跃。家里做了好吃的，老队长就把我们叫去。大娘从不抱怨，总是笑吟吟默默在一旁伺候我们吃喝。

山虎很活跃，实诚热心，跟我们知青亲如兄弟，给了我们很多帮助。他总是随身带着他的记分簿，满本子是他的涂鸦，只有他自己能看懂的那些工分记录。我见过不少字写得差的人，我自己也一手烂字，可把汉字写到他那样难看，那样奇形怪状，不可辨认，还真不容易。我离开尤村上大学期间，我们一直保持着联系，每次读他的信都要辨认老半天才能猜八九不离十。他每封信尾总是画点图示，两只手紧握啊，或者一颗心系上一条线，朴素地表示他对我们友谊地久天长的祝愿。

老队长是村里德高望重的人物，他清瘦黝黑，尖小巴，身子骨健朗，谈笑如洪钟。他哪年当的队长，哪年让位给光头小队长，我们不很清楚。只知道老队长是退伍军人，识文断字，见多识广，是尤村的核心。我们的到来，老队长异常兴奋。他跑前跑后，张罗安排，滴水不漏。只有一件事，我感觉有些滑稽，内心有抵触，却不敢流露：老队长雷打不动，每周要组织我们政治学习和座谈一次，一学就是一夜。每当这个时候，老队长就把家里的大小孩子统统驱离，把煤油灯点得亮亮的，一点不心疼熬油。他不苟言笑，正襟危坐，特别严肃深思的样子。记得他组织学习《哥达纲领批判》，一字一板地阅读，那样子很象个教授，可从来也没见他有自己的讲解。对于马列，我只在中学迷恋过“政治经济学”，对于其他著作不是很懂。我听不明白的，他其实也不懂，毕竟他也就小学毕业的文化程度。当时我就好奇，他心里在想什么。为什么对那些深奥难懂的马列原著那么热衷，而且总摆出若有所思的样子。我当年自觉是个小毛孩，老队长是可敬有威的长者，是我们的依靠，即便心里有疑惑，也从不敢追问。这样的学习一直持续到我离开尤村。

老队长唱歌富有磁性，略带沧桑，很有魅力。记得在水田薅草的时节，暖洋洋的阳光，绿油油的禾苗，春风和煦。老队长一边薅草，一边张池有度地唱起歌来。听上去有点象船工号子，声音高高低低的，随着风，一波一波袭来，抑扬悠长，不绝如缕。那是怎样一种有声有色，和谐无间，引人遐想的农耕图景啊。

很多年过去，老队长的歌声却一直留在我的记忆中，虽然我从未搞清这首歌的来历。直到去年，女儿的 iPod 新增的一首歌，一下子把我抓住了。这歌当然不是老队长的歌，可曲调内蕴与老队长的歌神似，是它复活了我心中掩埋已久的歌。每当歌声响起，老队长的面容身影，广阔天地的清风和日，单纯悠长的田家生活和劳动的场景，就在我眼前浮现。我问女儿这是什么曲子。女儿一副我是土老冒的惊讶，这是 Akon 啊，那首红透半边天的歌曲 don’t matter 啊。这首黑人歌曲2007年一出品，很快在电台热播，连续两周居于排行榜首。我惊喜，也感到诧异，远隔千山万水，神秘古老的中国民间小调居然与带有美国非裔色彩的黑人歌曲如此契合。甚至我在 Akon 本人身上也隐约看到黑瘦干练的老队长的身影。

请移步欣赏表演（土豆）:
Akon: don't matter

youTube (需要翻墙):
https://youtu.be/JWA5hJl4Dv0

我大学毕业的时候曾回村探望，那时老队长已经离开人世，是癌症夺走了他的生命。女儿远嫁，传回的消息是女婿赌博被抓进了局子，二儿子肝炎治疗不及时丢了性命。大娘经受这种种打击，显得衰老无语。家庭再也没有了欢声笑语，只有山虎撑着这个家，快30的人了一直未娶媳妇。谈起来，他总是苦苦一笑，说不急，先把弟妹上学供出来，自己的事可以放一放。我的心沉沉的，感伤世事无常，那么鼎盛兴旺的大家先失了顶梁柱，复遭种种不幸，如今如此零落。那记忆深处的歌声在我心中也更加增添了些许沧桑的苦涩和无奈。

至于原歌，现在也忘记具体曲调了，就是那种陶醉心迷的印象还在。认准了 Akon 以后，今天就是真的那个曲子再现，我不敢肯定我是否还能识出来。就 Akon 吧。

【相关】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

《插队的日子（2/3）：与女民兵一道成长的日子》

往事如烟：前天寻访旧地，遇到了插队时的那位女民兵，《朝花》里面写过的姐妹花中的二妹，如今也是子孙绕膝了。

现在才梳理清关系，原来老队长和新队长是村子里联姻的两大旺族。敲锣打鼓欢迎我们三位知青入乡的老队长一共兄妹仨，妹妹是赤脚医生，就是我们的东家，当年也对我们很照顾。老队长的弟弟娶了新队长的二妹（比我岁数大，我应该叫二姐）。照片就是他们的全家福。老队长和他姐弟三家都在这个池塘边不远。池塘边还有分给我们知青的菜地。

重返旧地巧遇二姐。二姐说，维当年就是学问人，会英语，老在家听英语广播。那是我把家里的晶体管收音机，带到乡下，为了听安徽台和江苏台的英语广播讲座。文革年代不知道哪位领导批准的很多省开办了电台的英语讲座是当年难得的外语学习机会了。二姐告诉我，三妹小妹如今日子都还不错。三妹不远，就在镇上。小妹在外地做工。

原立委按：朋友说想写点回忆，可是老是瞎忙，就明日复明日地推下去。我的回答是：不要等。老了有空闲，但不见得就写得出来。我插队一年，那些往事就已经连不成片，感觉将去未去，恍如隔世，想写写不出来，很别扭。分享是人生的一个重要部分。插队的日子，只留下零星的记忆碎片如下：

《朝华午拾: 与女民兵一道成长的日子》

我1976年高中毕业下放到皖南山区烟墩镇旁的尤村。不久赶上了“双抢”（抢收早稻，抢种晚稻），真地把人往死里累。双抢是一年挣工分的好季节，给双份工分，有时甚至给三倍，连续20多天，天不亮起床，到半夜才回，再壮的汉子都要累趴下才能休息半天。人民公社给双倍工分这种变相的资产阶级的“物质刺激”很厉害，不管多累，人都不敢懈怠，你怕累少上工，工就给别人赚去了，到年底分红，你分的稻谷、红薯和香油也相应减少了。其实，羊毛出在羊身上，每年生产队的收成是一个定数，工分多给少给不过是一种财富再分配的方式而已。如果单纯依靠农民的社会主义干劲，双抢跟平时同等工分数，工分总量下来了，单位工分的价格提高了，就没有物质刺激出来的积极性了。谁说经济学在一大二公的人民公社没有用处？

生产队照顾城里娃，工分给高些。于是给我们三个知青各开七分半工，相当于一个妇女全劳力的工分，包括早饭前上早工两个小时，否则只有六分半。那年十分工值RMB0.65元。我在妇女堆里干了半年多，年底分红，赚回了所有的口粮，外带半床红薯和四五斤香油。

妇女全劳力多是年轻的姑娘或媳妇，个个都是干农活的好手。尤村的十几位风华正茂姑娘组成了一个“女民兵班”，不甘寂寞，活动有声有色，曾名噪一时。不过到我去的时候，已经式微，因为其中的骨干大都到了嫁人的年纪，近亲远媒各处张罗，集体活动不能继续。尽管如此，跟女民兵在广阔天地一道成长，在当时是充满了革命浪漫主义的色彩的，让人沉迷和兴奋。干农活的辛苦也去了大半。

我们村村长人很精明，但脾气暴躁，又是光头，让我既怕又厌。倒是他家四个姐妹一个个如花似玉，大妹妹记不得见过，应该是外嫁了。二妹三妹都是女民兵班的主力，小妹妹刚十四五岁，皮肤白嫩，见人脸红，在社办一个作坊里做工。二妹（我叫二姐）刚嫁给本村老队长的弟弟，一个高个帅气的小伙子，感觉有些愣头青的样子。自由恋爱的，算是姑娘们中最幸运的了。刚去不久，这位二姐被照顾在场上打谷，没有下水田。我跟她一起干活，场上就两个人，总是她照顾我。从那时就落下了心猿意马的毛病，直到有一天发现她肚子越来越大，才意识到她跟其他民兵姑娘不同，原来是媳妇级的了。

后来跟三妹及一帮姑娘媳妇一道，在田里薅草（就是用耙子在水田里把杂草掀翻，不让杂草长出来），三妹总是侵犯我的领地，把她的耙子探过来帮我。没有她帮忙，我大概一半的速度也赶不上。我老指责她，“不许侵犯”，她总笑而不答，我行我素。三妹模样很好，稍微有些胖，很壮实，象个铁姑娘，但善解人意，脾气性情好得赛过薛宝钗，是我最心仪的。当时媒婆正在给她提亲，我离开村子不久，她就嫁了，听到消息后心里很不是滋味。

这些农家女在我看来都是仙女。从小在那样的艰苦环境中，却一个个风华正茂，英姿飒爽，而且不失农家女的善良朴实和冰雪聪明。我觉得当地没人配得上她们，她们自己也企图跟命运和媒人抗争，不过最后都一个个嫁走了，消没在人海中。

【相关】

《朝华点滴：插队的日子（1/3）

【置顶：立委NLP博文一览】

《朝华午拾》总目录

《李白109：深度学习的猪与符号逻辑的坎儿》

李：刘群老师转了一篇好文：The Bitter Lesson ，机器之心翻译过来了，《AI先驱Rich Sutton：利用算力才是王道，人工智能一直在走弯路》

是以历史事实对符号AI和规则NLU的批判。人的方式就是符号逻辑：这样比较舒服，容易理解。但是面对依赖蛮力（算力）的海量搜索和海量学习，符号逻辑显得单薄。无论多么 bitter，历史事实（speech，vision，MT）很难回避，不得不承认。剩下的问题集中在：

1. 可解释性/可定点纠错性

这是不是蛮力/算力的死结？符号逻辑不存在这个问题，by definition，它就是人可解释的。但实际上，可解释性只是一个表象，因为稍微复杂一点的任务，符号逻辑的模型和算法理论上虽然可解释，但实际上也不是容易说清楚的。

白：过程的可解释性和表示的可解释性是两个不同的issue，没有人苛求过程的可解释性。但是表示的可解释性不同。明明有合理的显性表示，非要把它“嵌入”，这就说不过去了。

李：那是。另外一点就是，可解释性背后的东西似乎更重要，那就是定点纠错的能力。因为是符号逻辑，甭管路径多复杂，专家真想 debug 的话，就可以追下去。学习的模型就很难。可解释性/可定点纠错性，这是符号派还可以拿得出手的一张王牌。第二张王牌就是：

2. 不依赖海量标注

这第二张王牌，也越来越让人“担心”了。倒不是担心无监督学习，或者迁移学习会突然有革命性突破。而是实际上看到的是一种渐进的改变。

第一个改变是所谓预训练的进展。的确从方法论上把通用的模型与应用的需求做了分工，使得对于后者的标注要求理论上是减轻了：这还是正在进行的过程。但预计不会太久，不同的效果就会显现得更有说服力。方向上，很看好预训练的作用，现在只是一个开始，但已经很让人兴奋/担心了。

第二个改变是，很多标注数据可以半自动收集，通过各种方法，各种 tricks，加上时间积累效应，再加上调动用户积极性的“引诱式”标注的反馈，等等。大规模标注数据的人力要求并不总是想象的那样无边无际和困难。

白：问题是：什么标注？标注体系的科学性，决定它的天花板。标注含不含复杂结构？如果含，又能自动标注，那还训练个啥，就是解析了。如果不含，怎么保证能“命中”目标语言？命中场景，而不是命中“端到端”游戏？

李：“复杂结构”和体系天花板，这些深层符号逻辑的东西，当然也可以是王牌。靠蛮力/算力的端到端学习可能难以应对。但是深层逻辑的东西，感觉上，在 real world 的任务中，占比不大。可以拿来说事，实际限制往往不大。

最近遇到一个同好，聊起来，朋友对我的符号悲观主义很不理解。说做了一辈子的符号了，“李老师”怎么自己跟自己过不去呢，灭自己威风，长他人志气。

这要看年龄段了，到了这个岁数了，威风志气都是小事，不值一提，主要还是看解决问题的能力和潜力。对于上面几张“王牌”或挡箭牌，估计还要两三年的时间可以化解，或见分晓。到那个时候，可以比较确定地看到符号路线的合理定位。到底有多大价值，如何相处和自处。相信不会“蒸发”，但定位成秘书或打杂的可能性，感觉不是完全不可能的事儿。

白：包含/容纳结构，是NLP不同于普通视觉任务的根本特质。深度学习的猪飞不了多久了。

李：“包含/容纳结构，是NLP不同于普通视觉任务的根本特质”，这话自然不错，可是MT是NLP呀，没有结构，NMT 达到的成就，不得不信服。唯一的退路就是，MT 太独特了，端到端的数据是几乎无限的。这自然是 NMT 奇迹发生的根本原因，但逻辑上这个奇迹反驳和弱化了没有显性结构，学习难以完成NLP任务的立论。当然，我们总可以找到 NMT 里面的痛点和笑话，来反证其缺乏结构的短板。可事实是，这些痛点和笑话确实没有什么统计意义，对于任务完成的整体效果，其实影响没那么大。对于传统的文法翻译派，NMT 是一个真正的苦果，又是一个不可逾越的标杆。

白：MT的成功是不可复制的。而且MT不是场景化的。这意味着它只能是陪衬。在核心应用的智能化方面起的作用很边缘，算不上什么苦果。

李：做过RMT很多年的人体会有所不同。苦果是说，曾经相信只要自己努力，RMT就可以创造奇迹，直到有一天发现，这是一个无法匹敌的力量对比。所谓“臣服”，大概就是这样。

白：我们提倡黑白双煞，提倡端到端和场景化并举。端到端不适合做产品，也不适合做整体解决方案。2B尤其如此。场景必须是黑白相得益彰，甚至是白远远大于黑。黑盒子做场景先天劣势。

李：场景化怎么说法？我以前的说法就是 NLU 支持 domain porting，NLU 做得功夫越足，domain 落地这边就越轻省，场景化效率越高。

白：我认为，在过程、控制这些地方，神经大用特用都没有关系，在表示则不然。

做场景化的，千万别被MT带歪了。

【相关】

《一日一析：“让不让我们上学的人见鬼去吧！”》

白：“他们还把不把领导放在眼里了？”

“把不把”，必选格介词加“不”构成疑问句。

N+ X++ N+，先由“不X++”与“把N+”结合，再由两个N+合并，其中后一个N+携带构式标签，符合白名单要求，进入合并merge操作。介词“在”，引导状语时是“S+/N”，引导补语时是“+S/N”。

李：他们还把不把领导放在眼里了 == 他们还把领导放不放在眼里了？？

应该是等价的。说明选择疑问句，可以从动词的重叠式，转为副动词（介词、助动词）的重叠式： X不X + V

“为人民服务”
“为不为人民服务”
“为人民服不服务”

“开车去南京 -- 开车去不去南京 -- 开不开车去南京” ：貌似有细微差别。

“被他揍了 -- 被他揍没揍 -- 被没被他揍”？？

介词重叠识别以后，就成为一个介词了，后面该怎么走怎么走。唯一需要注意的是，介词重叠得出的“选择疑问句 or-Question” 应该从介词身上，传递到谓语身上。这样就保证了谓词重叠与介词重叠的解析，是一致的。

还有的助动词 “是不是”：我们去不去？== 我们是不是去？

“有没有” 也是助动词：他们去了没去？== 他们有没有去？

白：“在不在食堂吃饭”和“在食堂吃不吃饭”似乎不等价。

副词性语素也可以拆解，但独立副词不行：狠不狠抓，严不严打，难不难为情；*马上不马上动手，*狠狠不狠狠打击，*太不太硬……

对副词的选择问句，要在副词前面加“是不是”。

李：“是不是不方便”

* 不不不方便

梁：要不要马上动手？

李：是不是要马上动手？

马不马上动手？

梁：没这么说的。

李：听得懂呀，不留神这么冒出来也是可能的。中文重叠式有时候真绝。

白：*立不立刻转账

李：“要不要立刻转账”

用助动词 “是不是”、“有没有”、“要不要”、“能不能”、“可不可以” ......

完成：有没有立刻转账；现在：是不是立刻转账；未完成：要不要立刻转账。

白：“让不让我们上学的人见鬼去吧！”

李：这个句子很绝，很绝。能注意到或想出这样例句的人很神很神。句子“鬼” 啊。

让不让（重叠式）vs 让/不让（非重叠式）。试比较：

“叫不让我们上学的人见鬼去吧！”
“让不让我们上学，我们都是要上学的。”
“让让不让我们上学的决定见鬼去吧！“

不好整：重叠式处理离词法较近，远远早于 VP 的句法阶段，二者纠缠的时候，除非特地做休眠唤醒，很难协调好。真要做，唤醒的思路是：让不让重叠式所反映的选择疑问句 or-Question 语义与祈使句（imperative）语气不兼容。这是个唤醒的 trigger：不能够一边说让还是不让一个event 发生，一边又说这个 event 是祈使的。要祈使，就是定下了 event 的走向；要选择，就是没有定下这个 event。譬如：

“你给我滚！”

不能与 “让你滚还是不你滚呢” 兼容。

parse parse，哈哈哈果然中招：

这个解析“几乎”无可挑剔，until it comes across 神人鬼句。

藏在树和图背后的解析结构表示里面有“选择疑问句”特征 orQ，这个 orQ 与“让”这个小词处于句首所应该表达的祈使语气，无法兼容。因此可以针对 “让” 做词驱动的休眠唤醒，可以搞定，但是显然不值得了。词驱动的休眠唤醒是定点解决问题，只要能落实到词，总是可以实现，虽然琐碎，实现起来其实不难，问题出在：1. 真地不值得：都是些长尾中的长尾，做了与不做，系统的性能测试上无感。2. 词驱动的定点休眠唤醒有一个前提，就是对于需要唤醒的另一条路径解读，需要有预见。

其实没人真地去做那么多“预见”，所以结果总是在遇到 bug 了以后去反思这个词驱动唤醒规则。这样一来，这个技术虽然机制上平台上可以实现，但没有有效的保证可以全面铺开，防患于未然。换句话说，对于小概率的长尾错误，值得做的方法应该可以 scale up，这样长尾积累效应使得系统性能最终得到可以认可并且难以逾越的提升。如果对付长尾需要零敲碎打，见到了才能想到去实现，这虽然比束手无策要强，但实践中也还是不能有真正的效果。词驱动就是零敲碎打，专家编码词驱动比愚公移山还要愚。

学习搞不定，专家又不够愚。难！愚公累了，不愿移山，能等得到上帝吗？

可scale up 的长尾处理案例也有, 譬如成语泛化（所谓 “1234应犹在，只是56改”），大多可以自动半自动批量进行。得益于成语的 ngram 特性，可以让成语词典自动增加变元实现泛化而且不用担心损失精准。

其实，没有比愚公更渴望自动化的 ---- 如果自动化能搞定的话。那天与@毛德操说，我对于完全自动化存有1%的念想，奇迹很难发生，但是毕竟见证过奇迹的发生，譬如NMT。

白：前面罗素悖论已经是“鬼”句子了。

“他专门给不给自己理发的人理发。”

看看，“给不给”中招不？

“他给不给自己理发的问题还没有答案。”

无论如何，局部构式的优先级一定大于构式拆解的优先级。这是毋庸置疑的。自动的峰回路转，关键在于“过河不拆桥”。构式拆解的优先级还没那么“不堪”，不用等到撞上南墙，只要先前的构式带上坛坛罐罐，速度立马下来。局部次优解没有睡死，还在梦游，梦游速度可以反超。

“打死人要偿命，打死人就不必偿命了。”
“打死了的人无法再说话，打死了的人需要好好说道说道。”

“卖火柴的盒子上的招贴纸的小女孩”。

向前偷看何时了，相谐知多少？

【相关】

《李白108：“他就是要裁你的人”》

李：看一下结构歧义的例3 “他就是要裁你的人”，如果你是个兵手下无人，这句对你就没有歧义。如果你是经理麻烦了。

你说：裁我的人痴心妄想！
我说：拜托他才不要裁你的手下呢，他是要炒你的鱿鱼！

你说会不会很糟心？

他就是要裁你
他要裁你的人
他就是要裁你的人

白：“你的人”局部优先于“裁你”，这没有错。

李：本来是靠相谐度力量对比，可是 “你” 和 “人” 都是 human。遇到双关式歧义，傻了。小概率事件发生了。

有意思的是，解析器做了一个候选定语M2，貌似为另一路的解读留有一些端倪：“你的人（your men）”。O 与 M2 不兼容（XOR），虽然借的是AND的表示，这是另一个相关话题了，叫做“如何用确定性数据流表示非确定性结果和歧义”，找时间再论。

上述歧义是不难识别的。中文的【V N1 的 N2】，与英文 PP attachment 句式【V NP PP】有一比，都是结构歧义的典型句式。为什么常常不愿意花力气去做结构歧义的识别工作？

与计算机语言不同，自然语言的特点就是有歧义，NLU的任务就是消歧。彻底消歧不容易，因为需要调动很多知识，不仅仅是语言学知识，还包括常识、领域知识和场景知识，这些知识的作用力不同，最后人是怎么综合各种力量对比做出理解的，是一个不好拿捏的过程。形式化建模有挑战。

然而，与词汇歧义的琐碎不同，结构歧义句式清晰，有迹可循，从理论上是可以识别的。识别歧义不需要世界知识，语言学内部的知识就足够了。结构歧义不是难在识别，而是难在识别了以后如何利用各种知识去进一步过滤消歧（剪枝）。

所以有人建议 nondeterministic parsing，把歧义都识别暴露出来，把球踢给接盘的人。这里面的argument就是，识别问题是解决问题的第一步，总比糊里糊涂好。但是实际上，虽然这是一个可以做的事儿，我们却选择不做非确定性输出。只要算一下账就明白为什么不做是更好的对策。

假如一个结构有两个解读，非确定性输出两个路径（解读），在难以确保后面模块有相当把握和精度消歧的情况下，其实不如从一开始就规定系统只能输出确定性路径，宁愿冒过早剪枝的险。（如果后面的落地方向是支持结构检索，俗称SVO搜索，那又另当别论，因为搜索讲求的是召回，非确定性比确定性的支持更有利。）

人对于二叉歧义（a|b）的理解，不外是三种情况：1. a；2.b；3. a|b：其中，3 是不可解的歧义，即便调动现有的知识，歧义还是存在（如双关语），是小概率事件，可以忽略。剩下的1和2不是均匀分布的，常见的情况是一种可能比另一种可能要大很多。

这时候，确定性系统在数据驱动的系统开发环境中，就会自然偏向于输出可能性大的路径。数据打磨越久，这种趋向越稳定。如果是不确定性的设计原则指导，就会不断追求召回，干扰了对于最大可能路径的目标追求。一般来说，最终结果自然是不合算的。换句话说，在实践中，不是不可以做到很好的召回和识别出（几乎）所有的歧义，但这个工作肯定会干扰集中精力逼近正确的目标。

自说自话半天，其实是自己给自己的“懒惰”寻找背后的动机，今天算是悟出来的。的确事出有因。很久了，一直觉得应该做也有能力做的这件识别所有歧义的事儿，一直没下决心去做。果然不仅仅是懒惰。既然如此，就有理由继续懒惰下去，好把精力放到更合算和有价值的地方去。

白：合算不合算的思维，不是极客思维。极客没有挡箭牌。

李：一般都是天然地批判 “（过早）剪枝”和确定性数据流，终于找到了这个做法的 “说得过去” 的理由和实际好处。当然前提是把开发看成是一个漫长的数据驱动的打磨迭代过程，今天的看似确定性输出的错误，到明天就纠正了，虽然同样是确定性输出。不确定性是假设在不必迭代的情况下，为后期应用保全潜力。迭代思维把这个后期消歧的假设转换成迭代过程中的前期消歧（譬如一条粗线条规则引起的歧义，在迭代中变成了粗细两组规则，消歧了也就没有非确定性了）。极客不极客，不重要。

白：很多技术可以让剪枝成为伪问题。合理的歧义也许就是前后脚的关系，伪歧义也并非始终寸步难行。允许依序择优梦游，天塌不下来。例如，坛坛罐罐走不齐——各种局部解析非等速前进，就可以把剪枝问题化解于无形。你永远无需做是否剪枝的判断。只要“长芽”被无限期推迟，事实上就相当于剪枝。但是无限期推迟只是一个后果，并不是一个决策。

李：在缺乏厚度或深度没有足够施展空间的情形下的问题。换了架构就可以化为伪问题。原来的痛点逐渐消解了。

白：截流的点可以设置。出一个解析和出N个解析，就是截流阈值的选择而已。所有有语言学意义的判断，都融合在优先级机制里了。截流阈值的选择与语言学无关。

“他就是想利用你，并且在利用完了就杀掉你的敌人。”

“就是”可以带体词性表语，也可以带谓词性表语，造成歧义。“利用”、“敌人”是负面sentiment，“杀掉”可反转sentiment。如果带谓词性表语，从“利用”得知“他”为正面，从“杀掉+敌人”得知“他”为负面。拧巴了。如果带体词性表语，“利用”和“敌人”相谐，“你”和“杀掉”、“敌人”不两立，于是“杀掉”和“敌人”也相谐。这个才是正解。

李：我经常纳闷。白老师冒出来的那些例句是怎么回事。肯定是平时有心，对数据超级敏感，这是数据驱动的角度看例句的收集。数据驱动的有心，本质还是被动的。另一个角度应该是主动的方向性收集+发挥？就是在多种因素中，有意识瞄准冲突最戏剧化的案例。譬如句法与常识的冲突，惯性与转向/刹车的冲突。

白：嗯，似乎有一种直觉，能筛选出哪条语料对于我来说是不寻常的。

李：中文的【V N1 的 N2】，主要看 V+N1 动宾相谐度与 V+N2 动宾相谐度的力量对比：

“卖火柴的小女孩”
“卖小女孩的火柴”

卖的是东西，不是人。

白：超相谐的填坑>修饰>相谐的填坑>不相谐的修饰>不相谐的填坑

李：这里面貌似有距离因素，修饰距离近动宾距离远，所以同等相偕修饰大于动宾。

白：【笑而不语】

三个境界：1、能单独处理“就是S+（重读）”；2、能单独处理“就是S/2N（轻读）”，其中修饰>填坑；3、能综合处理“就是S+||S/2N”。3又分：“正解+伪歧义”和“真歧义”。境界2中，一度占先的解读推进到某处卡住了，另一个解读后来居上。

“这是卖女孩的小火柴，不卖男孩。”

“卖”的间接宾语坑也来凑热闹了。只要相谐性并无禁止，就可以激活。

李：昨天我想的反例是：“这是卖小女孩的人贩子”。

白：无所谓反例，就是前后脚的事儿。不使用常识（事理），就是歧义。谁比谁先一步都是可能的。这种优先级上的误差，是在容忍范围内的。

【相关】

《目标导向的质量保证怎么强调也不过分》

我是我家的铲矢官。早晚两次，每天换猫砂，有机会观察猫咪是怎样使用卫生间方便的，很有感触。

猫咪是著名的五讲四美物种，无论多么内急，方便后都会特别仔细收拾干净，绝不像有些国人（或歪果仁），有随地大小便的恶习。

仔细观察，发现猫咪智能水平不一。行动虽然敏捷，但方向感差。嗅觉超灵敏，但动作很盲目。每次掩埋清理大小便，再笨的猫咪都会做得让人挑不出毛病来。怎么回事呢？

原来是目标导向（ goal-driven），反复检测以求质量保证（QA）。先是用鼻子去闻味道，凑得很近，确定目标。然后要爪子扒拉沙子，扒拉的速度很快，其实没啥章法，一多半落在目标之外。不是很讲效率。但是，猫咪的优点是，反复鼻子核查，反复爪子动作。宁滥勿缺，不厌其烦。

可见，质量不是靠耍小聪明，而是靠目标导向的劳动保障的，QA比巧妙重要。

所有的端到端系统其实都是这个原理。天知道内部做了多少虚功绕了多少弯路。但是，端到端的好处是目标明确。只要有不达目的不罢休的劲头，有作为目标的海量数据，没有不成事的。

想起来20年前开始做个人网页玩，学了点 HTML. 后来MS Word 等，所见即所得，做各种图文并茂的网页都很容易，满意了，save as HTML 一切搞定。出于好奇，有时候会看看那些自动生成的 HTML 编码是怎样的。与自己手工编码比较，那叫一个繁复，绝对不是人认为的到达最终显示效果的最佳路径。很多冗余，弯路，叠床架屋，看上去的无用功。但没关系，最终结果是确定的。

这件事给人的启发就是，不要怕“累着”机器。累死机器是不用偿命的。冗余给人的感觉是负重。人们容易忘掉的是，冗余带来的安全和周密。

专家编码也应如此目标明确后大多就是个力气活。不必追求精巧和概括性不怕冗余和无用功只要在目标导向中打磨迭代，甚至东一榔头西一棒头也不怕。可怕的是没有目标和QA。

自然语言就是猫屎，不妨学学猫咪的卫生习惯和质量保障。

【相关】

《一日一析：“以前没钱买华为，现在没钱买华为”》

这两天社会媒体疯了一般，华为发布折叠式大屏5G手机，超级昂贵，17000 元，让苹果 X Max 失色，赚了多少眼球啊！在美帝国主义处心积虑定点打击挤压的不利国际环境下，华为终于凭实力秀了一把。

于是朋友圈开始重传这个著名的段子：“以前没钱买华为，现在没钱买华为”，大家感叹中文太玄妙啦，看NLU如何应对。微信沙龙的老友开始议论纷纷：

马：新句式：以前没钱买华为，现在没钱买华为。

白：缩合因果复句 vs 兼语

这是啥情况？

不在于是什么，而在于怎么得到。华为自身从低端到高端的历史是唯一线索。否则，反过来也不能说错。

李：好咱来解析解析：“以前没钱买华为”

国人爱省略小词（“所以”），所以 NX（接续：next）常常表示因果，相当于then：“以前没钱” then “买华为”。倒是想买苹果，可买不起啊，总不能卖肾吧，也就只好拿华为凑合了。华为贱啊。

“现在没钱买华为”

怎么样？电脑不傻，这华为也太贵了，没钱买（cannot afford）呢。

自动解析是靠谱滴。

玩的什么 trick 呢？眼睛睁大一点看，前一句input有了个空格呢。但并非空穴来风，不信问小川老师，他在苹果Siri专门做语音的。

语言背景是，虽然省略小词是国人偷懒的坏习惯，但是口语中的停顿趋势应该还在，语音识别是可以、也应该捕捉的。既然有停顿转写的时候起码应该加个空格吧对于解析这就齐了：“过去没钱买华为现在没钱买华为”。

可是，人比机器差劲，完全的自私，彻底的懒惰，人写字硬是连空格也懒得加！这就逼迫听话的人去调动世界知识了。可华为手机由贱到贵这种世界知识（而且是动态知识）大海一样无边无沿，这不是“欺机太甚”嘛。国人宁愿靠这种知识也不愿按一下 spacebar，你说中文玄妙还是操蛋？

网上也看到规规矩矩加了标点的：“过去没钱，买华为；现在，没钱买华为。”

白：以前有人戴头巾，现在有人戴头巾。

李：异曲同工。以前有人（来/在的时候）then 戴头巾，现在有（某个）人戴头巾。

“以前有人罩面纱，现在没人罩面纱”。

加个空格有那么难吗？“以前有人罩面纱，现在没人罩面纱”。

“以前有人（的时候）then 罩面纱，现在没人罩面纱（即便人来）”。

白：为啥不是更自觉了呢，阿富汗，伊朗，都走了回头路。

李：也是一解：“以前有人（的时候）then 罩面纱，现在没人（的时候）then（也）罩面纱”。这是什么美德？

【相关】

华为手机刷屏：全球首款、5G+折叠屏又一个元年来了

【汉语句法的挑战之一：if-then的简约式】

【李白107: 让人咬牙的中文定语从句嵌套】

白：“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”

“软件开发人员”和“……公司”居然并没有从属关系。

从外向内比较清楚，从左到右就太累了：吸引-人员；依赖-公司；切断-权限。

李：难哪！

“依赖-权限/软件/公司/人员”，啥都可以依赖，所以搭配相谐没啥用。“吸引 - 用户/公司/人员”，也都可以的。

白：不是用相谐排除异己，而是用相谐先到先得。

李：那样的话，可能可行的办法是从内向外，而不是从外向内。先一杆子深入内部做（V1 …O1)，然后做中间的 [V2 …(V1 …O1) de O2]，最后做最外层的 {V3 …[V2…(V1…O1) de O2] de O3}。这种类似内嵌套的结构，绕三层算是极限了，超过三层嵌套，去它的。（定语从句有 “的” 作为标记，用了超过3个的的定语从句嵌套，少见而“缺德”，可以不管。）

从内向外的思想，30多年前，刘倬老师在小黑板上解说过。这可算是NLP掌故了。说的是如果把 VP 解析的方向，由从左向右一个模式一个模式的匹配，改成由右向左，那么就可以一杆子伸到最内层的 VP。这个技巧可以一次扫描对付不限层的右递归。

上面的类似定语从句嵌套的结构在一杆子自右向左捅到最内层VP上，有类似的表现。所以说，从内向外层层规约是可能的一个途径。

从外向内难行在搞不清该放过内部的什么材料。从外向内以前提过，如果是强搭配，还是可以的。以前提过的现象是句首词与句末词往往有关系可是跨度是句子极限因此要指靠自底而上自内而外的解析和短语结构的规约来拉近二者的距离很难。因为难保解析步步都走对了啊。但是天涯若比邻的一个简单办法就是把句首和句末接起来。让句子从一条线变成一个圈儿。天涯立即比邻了，这时候如果发现有搭配，那还犹豫啥。parsing 以句为界，远距离最远不过句首句末。一个长江头一个长江尾郎有情妾有意就好了。

almost there！

“依赖”的是“公司”，而不是“人员”，能改进这个就齐了。parse 直到 ”不想依赖可以切断用户访问权限的公司的软件开发人员”，难为它了。这个跨度已经达到 13 个节点足够长了。要想翻盘必须更大的上下文。

也不是没有痕迹。trigger 在那个 NX （next）上，可以做休眠唤醒的 trigger。正常的 parse 是没有断点的现在有了 NX 断点，就可以尝试另外的结构路径了。“那些”常常率领一个很长的 NP 而不是自己单独做 NP。如果是 NX 联系的是NP，“那些”就跟它接上合并了，断点消失，休眠就唤醒了，这个顺理成章，很好实现。可惜，NX 接的是个长长的内部结构复杂的 VP（“依赖”统率的VP子图），如何着手改造内部结构呢？唤醒休眠就难。

几乎没指望了，但是真要做，就可以尝试在 VP 里面翻盘。目标还算明白，就是要把 VP 改造成一个 NP 好与 “那些” 结合。挺累的。

白：就是假（du3）定（bo2）最外层括号只有一对

李：办法是有的，到这地步要做是可以做的。犹豫的原因是：1 值得吗毕竟这类现象已经有点长尾的样子了。2 更要紧的是，做下去有点太强力了（brute force），容易弄巧成拙，维护成本大。当然如果有自动的办法另当别论。专家做，到这地步，就非常犹豫，往往下不了手。

白：切断权限，对登录是负面的，于是切断权限的公司和从属于该公司的人员对登录也是负面的。吸引，对登录是正面的。从sentiment角度看，伟哥的图里，不论NX怎么解释，只要把“吸引”传导给“人员”，必然拧巴。

李：要把这套推理带到休眠唤醒去也很难（尽管其实 sentiment 是同时在做的，符号逻辑推理的基础都在。）。

白：都变成动态优先级的加减分，水落自然石出，此消正好彼长。

李：专家编码不行。头脑感觉不大够用。必须承认人算不过机。

白：唤醒也不是唯一路径。可以半睡半醒，可以梦游，你走百步我走五十步。

李：NLU 太难了吗？今天讨论的算是一例。可以摆个擂台，哪一位出来溜溜？

微博贴出后，王老师试了试神经MT，MT权威刘老师也惊叹：

刘群MT-to-Death：这个句子机器翻译得太好了，原中文句子人理解起来都很费劲。//@王伟DL: 对于“这种登录方式会吸引那些不想依赖可以切断用户访问权限的公司的软件开发人员”，试了一下有道“This approach appeals to software developers who don't want to rely on companies that can cut off access”

王伟DL：就时常在想，翻译都这么好了，那么句法分析会做不好？常有削弱自己做parser的动力。当然，这种end to end翻译路线，与描述句法结构的路线是不同的。若是句法分析做得也很好了，那么提取知识图谱等，及更复杂依靠句法分析基础的阅读理解等就更是春天漫步，鲜花朵朵开了，可现在好像还不是这么回事。

【相关】

语义沙龙小品：从侯宝林的四字相声说起

包容歧义与模糊理解是自然语言交流的常态

刘：侯宝林几个说方言的相声也印象深刻，一个是说宁波话像唱歌的，另一个是用几种方言模仿晚上起来撒尿的对话，想起来都好笑

毛：嗯，谁，俺，嘛，尿。

李：这里有什么玄机？单音词成句。who / me / what / pee。说起来最后两词理论上有歧义：pee 是动作还是物体？

歧义包容的说法是没必要消歧。因为动作也好物体也好背后的概念是一以贯之的并不影响交流。对于人类在语用中惯用的模糊理解来说包容歧义恰好与模糊理解相配。除非遇到较真的。较真的对话大体如下：

A：我问的是”嘛”
B：我答的是 “尿”
A：答非所问。我问的是你在干嘛？
B：没错啊我答的是尿尿呀
A：那我要问是什么呢？
B：也没错呀我答的是这儿一泡尿。

嘛：义项1 干什么；义项2 （是）什么;义项3 句末叹词

尿：义项1 撒尿，动词；义项2 排泄物，名词

歧义对歧义蛮好。消歧不是自找麻烦？

包容和模糊是人类交流的常态省力低碳而高效。

白：侯的四字相声，省略是主要的，包容歧义义项倒在其次。

李：@毛德操四字相声的事儿有历史的。记得你一年多前就问我什么叫机器理解？举的就是这个四字对话。当时没多想，觉得这都是词典里面的词（语素），有啥理解不理解的。查词典而已。词典里面绑架了语义，该啥啥，就算是解析了。自然语言理解是说怎么组词成句。

毛：是啊，“谁俺嘛尿”应该进教科书。你的书里何不把它写进去？

李：今天重提这个话头，想了想，机器可以做的，还有一些：1. 首先要确认这是两人对话的语用场景；2. 确定这是个单字句。

识别单字句对于理解重要。组词成句的极限形式就是这个词就1个，它成了句。怎么识别单字句？就是孤零零一个字（语素）蹦出来，带有语调，前后都有较长的停顿。

好，somehow 上述两点形式化了，提供给机器，下面就可以解说机器怎么理解的了。“谁” 在单字句的条件下，在对话的场景中，它的理解就是挖了一个【human】的坑，要求给填上。在常规的多词句子中，对话的所谓解析是要知道 intent / slot，现在 slot 出来了，就是【human】，intent 因为没有谓词，理论上是模糊不清的。但是在对话场景下，这个 intent 有个标配，可以“脑补”上，机器于是知道 intent 是：谁在那儿？那动静是谁？

有了这个 intent/slot 的解析，第二句对话“我”，作为合理的回答，就自然顺理成章了。如果是机器回答，可选的答案有：是我 / 是小偷 / 没看清（谁） / ......

毛：印象中这段相声好像是侯宝林和郭启儒说的。

李：接下来的“嘛”，词典有两个义项：1. 句末叹词；2.疑问代词 what。在“单字句”条件下，排除了句末叹词的可能性，只剩下what，挖了一个【thing】的坑，有了【slot】，还是没有 intent

在对话的场景里面，单字疑问词，可以“脑补”标配的 intent 是【do（what）】，或进一步脑补为：what are you doing

于是引来回答：1. 名词：尿；2. 动词：尿。对话场景标配延长是：1. 这是尿；2. 我尿尿。顺着这个思路，所谓机器理解及其背后的场景落地，显然是有迹可循的。

毛：以模糊对模糊，以歧义克歧义。负负得正。

白：@wei “嘛”的语音形式不同。做“什么”解的“嘛”，读第四声。做“干什么”解的“嘛”，读第二声。

毛：你的书里应该加一节“谁俺嘛尿辨”。

李：哈【自然语言答问：尿辩】。记得，语义泰山菲尔默教授写了 The case for case，许国璋教授翻译过来就叫《格辩》。

毛：不应该是“辩”，应该是“辨”。

李：对。他是辩护他的格理论。这里是辨识/包容“尿”的歧义：【自然语言答问：尿辨】。

【相关】