AI被数据扯了后腿
发表于 2020年8月

亚马逊的“Go”商店令人眼前一亮。这些不设收银员的店铺2018年首次在西雅图开业,顾客只要亮出手机应用,就可以拿了商品直接走人。该系统使用了大量传感器,但其魔法主要是由连接到AI系统的摄像头完成的。AI系统会追踪商品从架子上被取走的过程。一旦顾客拿着商品离店,账单就结算完毕,会自动向顾客收费。

在一个拥挤的商店里做到这一点并不容易。系统要能够应付人员密集的环境:摄像头可能被其他顾客阻挡而看不到某些人的动作。它必须能识别单个顾客,还有同行的朋友或是全家出动。如果一个孩子把一件商品放进自家购物篮,系统必须意识到应该向Ta的父母收费。而且它必须实时又高度准确地完成这一切。

为指导机器做这些,需要向它们展示大量“训练数据”:顾客浏览货架上的商品、拿取商品、把商品放回货架等各种行为的视频。对于像图像识别这样的标准化任务,AI开发人员可以使用公用训练数据集,每个都包含成千上万张图片。但记录人们逛商店的公用训练集尚不存在。

有些数据可由亚马逊自己的员工生成,公司此前让他们进入测试版店铺中。但这么做有其局限。人们会用各种各样的方式从架子上取走一件商品并决定买下它、立即把它放回架子,或稍后再放回去。要在现实世界中真正奏效,系统必须涵盖尽可能多的可能性。

从理论上讲,世界充斥着数据,这是现代AI的命脉。市场研究公司国际数据公司(IDC)估计,2018年全球生成了33ZB的数据,足以填满7万亿张DVD。但是,专注于AI领域的咨询公司Cognilytica的凯瑟琳·沃尔克(Kathleen Walch)表示,尽管如此,数据问题仍是所有AI项目中最常见的症结之一。和亚马逊Go商店的例子一样,某个项目需要的数据可能根本就不存在,或者数据可能被锁在竞争对手的保险库中。即便相关数据可以被挖出,可能也不适合输送给计算机。

Cognilytica表示,一个典型AI项目约80%的时间都花在了各种数据整理上。训练机器学习系统需要大量仔细标注的样本,而这些标注通常需由人类添加。大型技术公司通常在内部开展这项工作。那些缺少相关资源或技术知识的公司可以借力一个不断发展的外包产业来完成这个部分。例如,中国公司莫比嗨客雇用了30多万人来标注源源不断的人脸照片、街道场景或医疗扫描影像以便后续的机器处理。亚马逊的另一个部门土耳其机器人(Mechanical Turk)为企业与一个临时工大军牵线搭桥,向这些工人支付计件工资来执行重复性任务。

本文刊登于《第一财经杂志》2020年8期
龙源期刊网正版版权
更多文章来自
订阅