在国内大模型领域同不断取得突破性进展时,2021年浪潮信息就发布了当时全球最大的中文AI训练模型“源”:各种诗文创作不在话下,玩转剧本杀,懂心理学......然而,衡量技术是否存在商业价值的核心在于其是否能够适用于企业数字化转型的业务场景。因此在不断创造神奇感知的同时,如何将大模型的智能落地在各行各业,创造更大的产业价值,才是重中之重。
目前,“源”已经落地在浪潮信息的服务领域,成功打造出“智能客服大脑”。值得一提的是,由于浪潮信息自身IT业务的原因,服务工作多是专业和复杂的垂直领域,这虽加剧了与AI应用结合的高难度和挑战性,但也为AI的发展提供了丰富的应用场景。
“从大模型的角度开看,尤其是落地到行业应用里边,需要跟行业业务相关的数据支持,智能客服就是一个很好的代表。”浪潮信息AI软件研发总监吴韶华介绍道,大模型学习的知识主要是来自于互联网上开源的各类对话、文档以及百科类知识等,在专业性方面需要行业专门的知识来做支撑,这种支撑方式可以有两种:大模型基于具体行业数据做微调以及采用外挂知识库的形式,浪潮信息选择的是第二种。“我们把行业数据编码成具体的知识库,在大模型在实际用的时候通过知识库的形式来做有针对性的检索以及知识的综合,随后将综合之后的知识返回给终端用户。”
那么如何针对已经拥有的行业数据来构建相关的知识库?这两个其实是相互连带的问题。事实上,行业数据,有相当一部分是没有经过处理的数据,浪潮信息需要把这些数据抽取,形成知识库。这些内容通过浪潮信息在智能客户方面的实践,最终形成比较好的知识库自动化构建的工具和方法。
当大模型落地到具体应用场景时,需要结合业务场景会做具体的适配,比如知识库的知识编码模型,由大模型蒸馏出来小模型,做知识编码,通过蒸馏出来的具体小模型,它不仅可以非常有效的提升大模型的编码效率,还可以针对编码后的知识进行二次检索的精度。
“浪潮信息探索的基于外挂知识库的方式,具有更强的特殊性——当我们把行业知识统一聚合到知识库,大模型的通用能力可以和行业知识形成一种松耦合。

