百模大战,困于语料
作者 徐乃帅
发表于 2024年4月

近两年来,以ChatGPT为代表的AIGC(生成式人工智能)产品的出现,引领了新一轮的科技热潮。国内的互联网科技企业紧跟潮流,纷纷推出各自研发的AIGC产品,目前已出现200多款大模型,形成了“百模大战”的混沌之势。

其中颇让人关心的一个命题是,中文世界的AIGC产品何时能赶超西方,尤其在大语言模型这一领域,能否撼动当前ChatGPT一家独大的地位?

今年3月9日,央视财经频道《对话》栏目对百度董事长李彦宏进行独家专访。李彦宏表示,文心大模型在中文领域已经明显超过了ChatGPT-4。然而此话一出,立刻引起了多方讨论和质疑。

其中最具代表性的,是前搜狗CEO、百川智能创始人王小川在一次访谈中给出的看法:李彦宏对自己的产品有误解,产生了一定“幻觉”;而另一个更广泛的观点则是,纵然文心大模型已经在中文某些特定的领域超过ChatGPT,也不值得国人感到骄傲,毕竟ChatGPT本就是一款以英语为主的产品。

英语是全球无可否认的世界语言,在政治、经济、文化和科技等领域都被广泛使用,这也使得大量的数据都以英语产生。这反映在不同语言AIGC的对比上,不仅意味着总数据量的差距,更体现在高质量训练语料的差距。

业界普遍认为,中国的大模型发展要实现突破,必然要依赖于中文语料库,而中文语料库有着显著的短板。从客观视角来看,中文AIGC产品想要真正赶超ChatGPT,或有着相当长的一段距离。

“质”与“量”双缺

语料,顾名思义,即语言的材料。

任何一款大语言模型,都需要对海量的、多样性的语料进行充分学习,这是其输出内容的基本素材,也是大数据时代人工智能的重要特征。

当然,这并不意味着只要搭建好框架,把足够多的中文数据“填鸭式”地喂给AI,就能让大模型“自学成才”。只有高质量的语料,才能训练出一个优质的模型。

诸如贴吧、微博等社交平台上的交流内容,诚然具有一定的真实性和多样性,能够反映人们的日常语言习惯和表达方式,但另一方面也存在大量重复的同质化、无意义内容;各个小说网站上海量的文学创作,也同样面临此类问题,更何况此类语料库往往还涉及隐私、版权等问题。

能够被认为是高质量训练语料的,一般认为包括了出版著作、文献期刊、新闻报道、百科全书式知识等,已经被人工筛选检验过的文本类型。

而这些优质文本,在投喂给AI之前,也仍需要对数据进行一定的“预处理”,使其成为结构化数据更便于AI识别。“预处理”的工作往往需要投入大量具有一定相关专业素养的人才去完成。因此这两年来,广州、杭州等一线城市“数据标注师”“AI训练师”等岗位的招聘需求激增。

中文“数据标注师”的具体工作,包括清理无效字符、纠正病句错字、对文本进行分词,以及就内容进行主题、场景等方面的关键词标注等。

本文刊登于《看世界》2024年7期
龙源期刊网正版版权
更多文章来自
订阅