
2023年4月底,一个亚洲面孔登上了著名杂志《福布斯》的封面。这是一位年仅26岁的华裔企业家,名叫Alexandr Wang。
他手握最高估值73亿美元的科技公司。
2017年,Alexandr创立了一家名叫Scale AI的公司,走的是最热的AI赛道。7年后,他做的东西已经无可替代。据《福布斯》报道,Scale AI如今包揽了多家头部自动驾驶车企的服务,谷歌的Waymo、丰田汽车是它的拥趸。2020年起,它还从美国国防部处拿下了多个天价订单。
2022年,美国国防部已经在用该公司的技术分析乌克兰卫星图。
Scale AI走的路子,是常被头部大厂和AI创业者忽略的方向,叫AI的标注数据集。
这是AI领域里的石油,有数据才能源源不断给深度学习提供燃料。一项数据显示,截至2021年,全球排名前1000万的网站中,英文内容占比为60.4%,中文内容占比仅1.4%。中国AI需要依赖大量英文数据集训练。
实际上,国内不乏做AI数据集和数据标注的公司。上市公司海天瑞声、头部创业公司云测数据、数据堂等等,是业内佼佼者。
比起人工智能产业给人“高大上”的直觉,数据工作面临繁琐的清洗、标注、处理等过程。业内因此盛传一句话,“人工有多强大,智能才有多强大”。
AI分析公司Cognilytica数据显示,在AI项目中,数据相关的处理过程占据超过80%的时间。
云测数据总经理贾宇航对南风窗总结,互联网大厂、创业公司更多在研究算法,AI数据服务公司在做工程的事情。
在各家巨頭猛追Open AI的当下,是时候关注支持AI深度学习的第一步—数据了。
机遇来了
不管业务是否与大模型挂钩,国内AI数据服务公司近日受到了一大波关注。
数据集上市公司海天瑞声在3月底只用了3个交易日,累计涨幅近33%。股价创历史新高,比年初翻了三倍多,尽管该公司早已贴出风险提示:“自然语言业务对公司整体贡献大约在10%。”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入。”
因为ChatGPT,云测数据总经理贾宇航也在2023年收到了来自各行各业对大模型和数据集的关注和问询。“每个人都对大模型各有各的看法,我们相互学习。”他告诉南风窗。
单论技术角度而言,ChatGPT代表的大模型,采用了与过往AI数据标注不同的技术路径。在过去,机器学习的主流依赖于human-in-the-loop,即有监督的学习。
有监督学习依赖大量人工对数据进行预处理、标注。例如,猫的图片,需要人类事先标注,用机器听得懂的语言告诉它只是一只猫。行内公认的规则是,人类上传的标注数据越多、越准确,机器学习的效果越好。
而ChatGPT代表的大模型,采用的是自监督学习模式。简单来说,考验的是机器自我学习能力。
清华大学计算机系自然语言处理实验室副教授刘知远告诉南风窗:“大模型的不同之处在于,不事先假定到底需要完成哪些任务或者特定能力。它穷尽互联网尽可能获取多的数据,让模型自动地从这些数据里面学习知识。”
OpenAI曾披露,训练GPT的模型是基于公开网站的数据,包括维基百科、专业论坛、电子书网站和媒体报道等各类高质量文本。
据美媒报道,拥有发达智能水平的ChatGPT,背后还有一群来自非洲肯尼亚的数据标注员。他们每天工作9个小时,最终,一个月获得约合2500~3000元人民币的报酬。
尽管对数据标注的需求减少,ChatGPT的成功,却给了众人更有用的启示:高质量数据集对训练AI大模型至关重要。

