




摘要:为更好地提升商品、用户及购物场景之间的匹配效率,挖掘用户的潜在需求,利用电商平台的商品数据及外网数据,基于专家知识辅助,构建了以《商品属性属性值)为主的电商域商品知识图谱,并提出了构建电商常识属性知识三元组(头实体属性尾实体)的新思路,开发了图谱质量众包评估系统。将商品知识图谱创新性地应用于个性化商品新品推荐改善及兴趣知识导购卡片等场景中,通过50%流量对照的AB实验表明,应用场景的点击率分别有11.5%和8.6%的提升,点击转化率分别有23.2%和15.4%的提升.表明电商知识图谱可以有效应用于电商平台个性化及智能化的场景中。
关键词:电商域;知识图谱;常识属性;质量评估;个性化推荐
中图法分类号:TP391 文献标识码:A
1 概述
在互联网时代,人们的购物习惯逐渐从传统的搜索式购物向个性化推荐式购物方式转变,这也是互联网电商平台争相发力的突破口,即通过挖掘用户潜在的喜好或隐性需求,推动业绩进一步提升。通常的个性化推荐系统是采用机器学习的方式,利用用户的正负行为样本(如浏览或购买行为)来训练推荐算法模型,最终得到某一用户推荐商品的序列。这种方式对用户潜在喜好或隐性需求的挖掘效果不佳。而知识图谱中蕴含商品属性与属性之间,实体与实体之间丰富的关系,因而可以更好地挖掘用户的潜在偏好,并且具有更好的可解释性。
2012 年,人们开始广泛研究知识图谱并将其应用于产业领域[1] 。知识图谱用于描述和分析真实环境中各种类型的实体、概念以及它们之间的联系,通常由三元组来表示:〈实体⁃关系⁃实体〉,〈实体⁃属性⁃属性值〉[2] 。而在电商知识图谱中专家知识很多,核心是品类和概念。目前,市面上只有通用的公共百科类图谱,没有公开的电商领域的商品知识图谱,所以电商平台需要立足于自身能力和知识数据沉淀,构建属于自己的电商知识图谱。
本文阐述了项目是如何利用商品底层数据及外网数据,并在构建常规商品图谱的基础上,提出并构建常识属性知识三元组〈头实体⁃属性⁃尾实体〉。然后,将其创新性地应用于商品个性化新品推荐改善及兴趣知识导购卡片等场景中,并为后期其他的智能应用提供经验和基础。
2 构建和完善商品知识图谱
互联网电商平台的核心要素是商品,项目通过顶层定义和底层抽取的综合方式,采用自顶而下和自底而上的混合模式来构建商品图谱[3] ,如图1 所示。
2.1 知识建模
该模块核心任务主要是在多源数据中构建商品领域知识体系。商品领域知识体系的构建是对领域分类(如品类分类)、属性以及分类之间关系的定义,具有较强的抽象性和概括性[4] 。在公司商品类目属性体系的基础上,项目邀请了商品及运营专家共同参与构建。
同时,项目又通过爬虫及第三方获取的方式补充了大量外网数据,以丰富领域知识信息。以美妆商品为例,通过领域建模,明确了美妆分类、属性和分类之间关系(如大类和小类关系等)的定义。
2.2 知识图谱构建
在2.1 节的基础上,图谱构建的流程是:知识获取→知识抽取→知识融合→图谱评估[5] ,中间还穿插着常识属性知识三元组的抽取过程。项目应用多项技术栈,包括命名实体识别、关系抽取、槽填充、事件抽取等,以获取知识和抽取关系[6] ,构建图谱。
2.2.1 知识获取
图谱知识由2 部分组成,一部分是平台沉淀的商品数据(主要基于结构化数据的类目属性体系),另一部分是外网数据(“爬虫+第三方”方式获取),而这部分数据在初始阶段需要对商品ID 进行去重处理。
2.2.2 知识抽取
在2.2.1 节的基础上,针对商品标题等非结构性文本数据(如法国原装进口娇韵诗V 脸精华纤妍/ 纤颜紧致兰花面部护理精油30 ml)等,需要通过命名实体识别(如“bert+CRF 算法”[7] )等技术手段,识别出命名实体,并将其归类为商品名称、场景名称、人物姓名等事先定义好的类别。

