东南亚构建本地人工智能的意义
在OpenAI公司于2022年11月公开发布ChatGPT后,其承认这款大型语言模型存在向西方观点和英语倾斜的状况。对于东南亚的开发者而言,需要一些能用多种语言为本地区服务的人工智能工具。这可不是一项小任务,因为该区域有超过1200种语言。例如,柬埔寨有近30种语言,泰国有大约70种语言,越南有100多种语言。
不出所料,那些试图为一个拥有如此多代表性不足的语言的地区建立真正本地化人工智能模型的人,面临着诸多障碍—从缺乏高质量、大批量的标注数据,到无法获得从头开始建立和训练模型所需的算力。在某些情况下,这些挑战甚至更为基础,源于母语使用者数量不足、标准化拼写体系的缺失或频繁的电力中断。
在这些制约因素下,对外国公司创建的既定模型进行微调,是通常做法。2020—2023年诸如PhoBERT(越南语)、IndoBERT(印尼语)和Typhoon(泰语)等东南亚语言模型,都是从谷歌的BERT、Meta的RoBERTa(后来的LLaMA)和法国的Mistral等更大型模型中衍生出来的。

登录后获取阅读权限
去登录
本文刊登于《南风窗》2025年17期
龙源期刊网正版版权
更多文章来自

订阅