Anthropic：最可能挑战OpenAI的那家公司-葫芦时刻

依法合规经营，保障用户权益是我们的生命线，对于部分广告发布者为牟取高收益侵犯用户权益行为，我司将通过法律途径追责到底！

Anthropic：最可能挑战OpenAI的那家公司

作者吴洋洋

发表于 2024年1月

全球生成式AI领域已经形成两大寡头，一家是创造了ChatGPT的OpenAI，另一家是Anthropic。

Anthropic的创始团队也是GPT系列产品的早期开发者。2020年6月，OpenAI发布第三代大语言模型（LargeLanguageModel，LLM）GPT-3。半年之后，研究副总裁达里奥·阿莫迪（DarioAmodei）和安全政策副总裁丹妮拉·阿莫迪（DanielaAmodei）决定离职，创立一家与OpenAI有不一样价值观的人工智能公司—Anthropic。

他们有一个很明确的目标，就是构建一套“可靠、可解释、可控的‘以人类（利益）为中心’”的人工智能系统。这些关键词听起来都很熟悉？没错，它们都曾是OpenAI宣称的愿景。但2019年之后，尤其在接受了微软的100亿美元投资之后，愿景与现实起了冲突，商业和第一个抵达通用人工智能（ArtificialGenenralIntelligence，AGI）的野心取代“对人类安全”成了OpenAI更重要的东西。

达里奥和丹妮拉是亲兄妹，2021年，他们带着OpenAI的愿景和OpenAI另外5名员工一起离开了，5名员工中的TomBrown曾领导GPT-3模型开发。新公司的名称“Anthropic”的意思是，与人类有关的。听起来，这是一个代表人类利益而不是AI利益的公司。

不过，要挑战OpenAI这样技术和资金实力俱佳的领先者（OpenAI早在2015年就创立了，ChatGPT所基于的GPT-3.5也在Anthropic创立之时就差不多训练好了），困难程度不亚于最初创立OpenAI的那批人立志要打破Google的AI垄断。但是当OpenAI变得不再Open，并且，用达里奥和丹妮拉的话说，变得不再“以人类为中心”，技术权柄被新的理想主义者夺走的故事就有可能再次上演。

生成式AI的悖论：追求有用？还是无害？

无害和有用在生成式AI身上是矛盾的。一个常常用“我不知道”回答问题的AI是无害的，但同時也是无用的。你可能已经碰到过这种状况，当你问出一些有争议的问题时，AI助手经常拒绝回答—像人一样。如果你多次追问，还会将其逼入困境，接下来的对话中，这位AI助手的回应可能都是回避性的—像经历过大量攻击性语言后产生回避型人格的人一样。

2022年4月，ChatGPT发布前，Anthropic就发表论文（31人署名）讨论了有用和无害之间存在的显著紧张关系。对其产生原因，Anthropic认为“这是因为我们的众包工作者对有害输入的回应是回避性的”。

在Anthropic之前，生成式AI（包括GPT）在训练AI与人类价值观保持一致（alignment，就是业内人所说的“对齐”）时，普遍采用的训练方式叫作“基于人类反馈的强化学习”（ReinforcementLearningfromHumanFeedback，RLHF）。训练过程中，人工智能公司会招募成千上万个人类训练师，对AI生成的答案做品质排序，由此保证那些符合人类价值观的答案获得更高排名、有更大可能性被再次生成，不符合人类价值观的答案则被排在后面，越来越不可能再次生成。

Anthropic

这样人为调教的好处显而易见，AI学会了礼貌、不会冲撞人类，但弊端也难以避免，尤其当向AI提供人类反馈的那些训练师刚好是回避型人格、属于高敏感人群。人群中总有这样的人，而人工智能公司在将其“基于人类反馈的强化学习”工作外包时，基本不会对外包人群做性格测试，甚至它们第一步收集到的训练数据中，也极少包含“积极处理有害请求”的那类数据。没错，人类自身本来就缺乏这种文化。

对这种“向人类偏好对齐造成的能力损耗”，业内人士有个戏称：对齐税。

Anthropic不愿掉入先行者ChatGPT遭遇的陷阱，它的目标是培养一个“不回避、有用且无害”的助手。2022年12月，ChatGPT刚发布不久，Anthropic又发表了（51人署名，没错，半年之内，Anthropic就壮大了）一篇论文，提出新的AI价值观训练方法—基于AI反馈的强化学习（ReinforcementLearningfromAIFeedback，RLAIF）。与GPT等使用人类为模型生成的答案打分、排序不同，Anthropic用另一个AI为生成式模型生成的答案打分、排序，这个AI叫作“宪法AI”（ConstitutionalAI，CAI）。

本文刊登于《第一财经杂志》2024年1期

龙源期刊网正版版权

第一财经

2024年1期

查看本期目录

更多文章来自