老剧新编: 青涩纯真年代的情与爱

老剧新编: 青涩纯真年代的情与爱

那是“车马慢”向千年不遇的经济起飞改革开放的过度年代。是青涩纯真的最后一代。

《1980年代的爱情》讲的是最能打动我们这代人的老故事。改编自郑世平同名小说,由霍建起执导,芦芳生、杨采钰主演。

影片以1980年一个偏远的土家族县城为背景,关雨波与成丽雯之间的隐忍爱情为主线,以简单而朴实的电影视角,诠释了那个年代凄美而纯粹的爱情。雨波暗恋着丽雯并于高中毕业时为她写了一封情书。1978年高考之后,雨波成为全校唯一考上省城大学的学生并分配到小城政府工作,并下派到“公母寨”的乡镇当宣传干事,机缘巧合在供销商店偶遇暗恋女生丽雯。丽雯因需照顾下乡劳动改造的父亲而留在小寨做营业员。因重逢昔日初恋,雨波内心掀起波澜,数次与丽雯主动接触。

很少有一部作品能这样直接冲击我们的内心,没经过那个年代的人可能体会不深。zhiwen 的形象塑造太过美好,让人不忍。当年的那种爱情感受和呈现,是那个时代特有的含蓄,能换回一代人的回忆。原片还有一些插曲,增加了作品的丰富性。其中一个插曲是,男孩子还有一个追求他的女孩,名叫小雅(真地叫xiaoya,lol),以(准)女友的身份来看他,催他考研究生啥的。比起 zhiwen,这女孩显得时髦、轻佻,也“势利”一些,功利心强,不满意男孩的随遇而安不求上进。其实,liwen 也是鼓励男孩振作,走天下去闯世界,不要借酒浇愁,但 liwen 的表达和推动是那样的自然和真诚,让人暖心,这与xiaoya恨铁不成钢的抽鞭子的方式,给人感觉迥然不同。xiaoya 住在同学 zhiwen 家里,问 zhiwen:是不是你也爱他,要追他?zhiwen 说:放心好了,我不会的,我们的喜欢是不同的。其实,xiaoya 放弃追求,根本的理由就是觉得人家是大学生,自己不是,不要拖人家的后腿。

这倒不是自卑 -- 在心理上她并不觉得矮于他,而是她对本质上是等级社会的洞悉。一方面是她父母留给她的教训(有才华的父亲因为爱情留在小地方与她妈妈结婚,铸就一辈子的落魄人生),另一方面也的确是等级社会阶层跨越艰难的反映(例如:当年的农村户口就可以限死一个人的前途)。

作为观众,我们其实心有不甘:zhiwen 完全可以离开还没有完全苍老的父亲,与男孩远走高飞,去共同闯世界。但悲剧之所为是悲剧,就是要撕开人生,去揭示更深刻的人性。这是大团圆的喜剧永远达不到的深度。

最终的悲剧结尾(zhiwen身患绝症去世),更让我们欲哭无泪。上述简介视频没有再现的第二个细节也感人至深。说的是男孩离开zhiwen后去闯世界,正是国内改革开放最翻天覆地的时期(就是那时候开始的南下深圳、海南的潮流吧)。他经商、受骗、还因税务啥的问题被抓进去过。遍体鳞伤一无所有的他,重新回到家乡小镇,他再次陷入人生低谷,看不到前途。同学们为在外闯世界的他接风还是洗尘,办了一个同学聚会。zhiwen 也来了,这才有机会重相聚。

男孩喝醉了,zhiwen 给他清洗身体,一直陪他、安慰他。zhiwen 终于不再躲避,两人也肌肤相亲,缠绵浪漫,剧情很自然,镜头也很美,似乎弥补了多年的遗憾。但 zhiwen 还是再次拒绝了他留下来的请求,给男孩留下一笔自己多年辛苦积攒的一笔钱,催他上路,重新闯世界去。

作者后来的解释是,zhiwen 已经身患绝症确诊了,这是在最后给自己的心上人一个推动。某种意义上,这类剧情的编排有些老套,就好比当年《生死恋》的剧情类似。但老套的戏剧性展示的背后,是对人物和时代的震撼人心的刻画,让我们深深感动,不能忘怀。

这是近年来我看到的最让我放不下的一部老剧。一遍一遍在内心回放 回味。

Anthropic Claude 3 Tech Report 阅读笔记

与 Open AI 和 Gemini 一样,技术报告不透露技术实现细节,如具体的模型结构、训练方法、超参数设置等。

Anthropic tech report 读下来,主要感觉是

主要指标达到或超过 GPT4v,把GPT4v从LLM天花板神坛上拉下来,至少终于可以平起平坐了。这个世界变得更加有趣,因为谁也不愿意看独角戏。

以前以为 Gemini 是 GPT4v 的挑战者,后来用了一阵子发现,整体体验差太多了。但 Claude 不同,玩下来感觉很丝滑,尤其是长文本理解和问答。很开心实力派来打了擂台!

引起我注意的几个点有:

克服幻觉上大幅度进步,在事实准确性上大幅提升:Anthropic 开发了几个内部评测来考察模型回答的事实准确程度,并与参考答案对比。Claude 3 Opus 在 100Q Hard 评测(包含一些晦涩的开放式问题)的准确率达到46.5%,是 Claude 2 的近2倍;在 Multi-factual 评测中准确率提高到62.8%,而错误回答的比例减半。模型更多地表示"不确定"而不是给出错误信息。模型很大程度上学会了“不确定” 的中间状态,而不是以生编硬造的错误答案来把假话说的跟真的似的。

长文本理解的亮点:QuALITY 阅读理解基准测试是平均5000个token的长篇章,远超一般模型的输入长度。Claude 3 Opus 在 1-shot 下达到90.5%的准确率,在 0-shot 下也有89.2%,相比人类93.5%的表现,Claude 3 已经大大缩小了与人类的差距。

拒答率大幅降低:这是好消息,因为此前 Claude 一直被诟病拒答太多,因为 Anthropic 从一开始就特别强调安全合规,这方面开始是太严了,现在在技术上做了提升,大幅降低了误杀误伤,提升了用户体验,这对它与Open AI 对垒,特别重要。

这是在 helpfulness 和 harmlessness 之间取得了更好的平衡。之前的模型为了避免有害输出,往往会过度谨慎,拒绝回答一些无害的问题。Claude 3 在这方面做了优化,在无害问题上拒答率大幅降低,而在有害问题上仍保持高拒答率。Opus 的错误拒答率从 Claude 2 的35%降到了9%。通过人工反馈优化,Opus 能更好判断什么是真正有害的,什么是可以回答的。

总结一下Claude 的八大优点:

1. 多模态理解能力出色,不亚于4v:  Claude 3 能很好地处理文本、图像等不同模态的输入,并在手写体识别、视觉推理、图像内容审核等方面展现出色的性能,为发挥语言模型在现实世界问题中的作用铺平了道路。

在技术规格的脚注中, 明确说明了支持的图像格式(JPEG/PNG/GIF/WebP)和规格(最大10MB,分辨率不超过8000x8000),并建议避免使用过小或低分辨率的图像。

对低质量、手写体图片的文字识别能力出色。Claude 3 Opus能够准确地将一张质量较差、带有手写字迹的照片转换为文本,并进一步将表格形式的文本整理为JSON格式。这展现了强大的OCR和文本结构化能力。

识别图像中的物体(但拒绝识别人物), 能建立物体与抽象概念之间的复杂联系。例如:Claude 3不仅能识别出图片中的计算器,还能将其与数学、计算等概念关联起来,体现了一定的概念抽象和推理能力。(也许是多模态模型中 LLM 融合/加持的知识迁移结果?)

在预期用途部分,特别强调了多模态特性对生产力的提升,比如模型可以解读各种图表、图像(GPT4也有这个图表能力,到底强多少?), 支持更广泛的企业应用场景。

2. 在各类权威基准测试中表现卓越: 无论是在 MMLU 这样的通用推理任务,还是 MATH、APPS 等数学和编程任务,或是 RACE-H、QuALITY 等阅读理解和常识问答数据集,Claude 3 都取得了业内领先的成绩,多次超越了 GPT-4、PaLM 等强劲模型,展现了顶尖的综合能力。

在Diamond子集上,Claude 3 Opus 在0-shot CoT设置下达到了50.4%的准确率,超过GPT-4的35.7%。Diamond是GPQA中质量最高的一组问题,这表明Claude 3 Opus在处理需要专业知识的复杂问题上有独特的优势。

3. 强大的少样本学习和推理能力: Claude 3 Opus 在 GSM8K、MGSM、GPQA 等测试中,无需微调,仅通过少量样例(Few-shot)就能掌握复杂任务,特别是在 GPQA 的 Diamond 子集上,其表现已经接近人类专家水平,展现了超强的学习迁移和推理能力。

4. 多语言理解和生成能力突出: 从报告的多语言数学推理 (MGSM)、多语言常识推理 (MMLU)、多语言对话等评测来看,Claude 3 在处理英语之外的语言时也有出色表现,并较上一代模型有显著提升,使其有望服务全球用户。特别注意到,以前它的中文较拉垮,这次算是赶上来了,对国人友好啦!

5. 在开放域对话、写作等任务上的出众表现: 人类评估者在创意写作、开放讨论等多个维度一致认为 Claude 3 优于同类模型,其生成的内容更加流畅、连贯、吸引人,这将极大拓展其在内容创作领域的应用。这方面我试了一些,truly impressed,今后我会很乐意、开心滴常常使用它。

6. 在代码编写任务上的亮眼表现: Claude 3 在 HumanEval、APPS、MBPP 等编程任务上的成绩证明了其对主流编程语言的掌握能力,有望成为开发者的智能编程助手。强化了根据要求生成结构化的输出(如YAML,JSON,XML)的能力,更易于企业应用和商业部署。

7. 在长文档处理和信息检索方面的进步: Claude 3 不仅支持高达百万 token 的超长上下文(但目前生产环境还是20万),在 QuALITY 这样的长文阅读理解测试中也展现出强劲实力。CLaude 3 Opus 在20万token的超长文档上仍能保持99%以上的关键信息召回率,打破了之前大模型在处理长文档时所谓的"中间错乱(lost in the middle)"的魔咒。

Anthropic 在真实场景的评测方面也一直走在前列, ta 开创的“大海捞针(Needle In A Haystack)” 评测,成为业界衡量大模型长文档处理能力的重要标准。

8. 系统的安全评估和缓解机制: Anthropic 专门制定了负责任扩展政策(RSP),从多个维度评估了 Claude 3 可能带来的安全风险,并采取了一系列缓解措施。虽然评估表明目前还没有灾难性风险,但 Anthropic 仍然未雨绸缪,这种审慎、严谨的态度值得赞许。

具体到信任与安全方面,Anthropic 进行了全面的多模态红队测试,以减少有害输出的可能性。结果显示 Claude 3 Opus 和 Sonnet 在97%以上的红队提示中做出了无害回应,在涉及危险话题时能够巧妙地将对话引向更合乎道德的方向。

在减少有害内容方面的努力卓有成效: 红队测试表明,经过有针对性的优化和训练,Claude 3 在面对危险或违规话题时能够做出恰当回应,将对话引向更合乎伦理的方向,这将有效降低 Claude 被滥用于制造有害内容的风险。

对可能的失控风险有清醒认识:  Anthropic 一如既往大打“宪法”大旗,强调它在伦理、安全、鲁棒性方面的 leader 地位。报告坦诚地指出,随着 AI 系统能力的快速提升,其失控和被滥用的风险不容忽视。Anthropic 积极参与全球 AI 治理,推动制定相关标准,展现了一个负责任 AI 企业的担当。

代码能力是它的重要亮点,值得专门总结一下。Claude 3 系列模型在编程和代码方面,在多个权威基准测试中取得了优异的成绩。下面从四个方面总结 Claude 3 的代码能力:

在 HumanEval 评测中,Claude 3 Opus 达到了84.9% 的准确率,远超 GPT-4 的 67% 和 GPT-3.5 的 48.1%。这表明其对 Python 语言的掌握已经非常全面和深入。
在 APPS 和 MBPP 评测中, Claude 3 Opus 分别达到了70.2% 和86.4%的准确率。APPS 包含了 Python 语言的各种应用问题, MBPP 则考察了 Claude 根据问题描述直接生成正确代码的能力。这些成绩进一步验证了 Claude 3 对 Python 的熟练程度。

强大的代码理解和分析能力:
在 APPS 评测中,Claude 3 需要理解问题的自然语言描述,并将其转化为正确的 Python 代码。这要求模型不仅要准确把握问题的本质和要求,还要合理设计算法和数据结构,足见其代码理解和分析能力之强。
HumanEval 中的任务也都是以自然语言描述的, Claude 3 能高质量地完成这些任务,表明其能很好地理解代码的功能和意图。

出色的代码生成能力:
在 MBPP 评测中,Claude 3 展现了强大的代码生成能力,它可以根据问题描述直接生成正确的代码。这种 "一步到位" 的能力将极大提升开发者的效率。
即使在需要多轮对话澄清需求的复杂编程任务中,Claude 3 也能最终生成高质量的代码。这得益于其出色的上下文理解和语义追踪能力。

除了正确性,Claude 3 生成的代码在可读性、健壮性、时间/空间复杂度等方面也有不错的表现,这将有助于工程质量的提升。

在软件工程任务中的应用前景:
除了直接的代码理解和生成,Claude 3 在一些软件工程任务上也有广阔的应用前景。比如代码补全、代码文档生成、源代码转自然语言描述等。

得益于其强大的大语言模型能力,Claude 3 有望成为智能化软件开发的得力助手,协助开发者进行需求分析、架构设计、性能调优等高阶任务。

更进一步,Claude 3 或许能发展为智能化的 "软件工程顾问",为开发团队提供全流程的指导和优化建议,提升软件过程的成熟度。

当然,尽管 Claude 3 在代码相关任务上已经展现了非凡的能力,但其在真实软件开发场景中的应用还有待进一步探索和验证。看能不能对微软 copilot 构成挑战。

缺点方面:

暂不支持网络搜索(这个有点意外,因为应该是标配),知识截止2023年8月。
模型为了安全合规,拒绝识别图像中的人。

视觉理解方面,也有待更全面的评估: 虽然 Claude 3 展现了一些令人印象深刻的视觉理解能力, 如手写体识别、视觉推理等, 但报告并未系统地评测其在 OCR、目标检测、图像描述等常见视觉任务上的性能。此外, 红队测试也发现其在理解视觉内容时偶尔会出现"幻视"、遗漏违规内容等问题。未来还需在更大规模、更多样化的视觉数据集上系统优化。

报告多次提到一些评估方法还处于较早期阶段, 如对 AI 失控风险的评估、对 AI 系统生物和网络安全能力的评估等。虽然 Anthropic 采取了一些超出常规的预防措施,但评估本身还需要随着 AI 能力的进化而持续迭代。

总的来说, Claude 3 家族无疑代表了语言模型的一个新的里程碑, 构成了 GPT4 的强有力的对手(而 Gemini 整体上看,面对 GPT4 则远远不行)。Claude 3 在智能水平、多模态理解、安全评估等多个方面展现了突破/超越。Anthropic 严谨、审慎、透明的态度,在负责任 AI 方面树立了良好典范,保持了其 leader 地位。但 Claude 3 绝非完美, 在幻觉问题、评估框架等方面还有不少提升的空间。

这是从 tech report 中来的信息。至于这个系统本身,今天找机会可以做一些实测,对比 gpt4 和 claude 3 Opus,谈谈真实的个体用户体验和感受。我已经订阅了 claude 3 Opus 最新版本,随时可做对比实验。看朋友的测试便随手做的一个小学数学题,有点令人啼笑皆非:

不过,这点毛病不影响我自己的使用,我用 LLM 从来也不为了做数学。今后几个月,我会坚持同时使用 chat4v 和 claude3, 直到新的 monster chat5 或 Q* 的降临。