关键词:文物保护;知识图谱;三元组;关联数据
1构建文物知识图谱的关键技术
1.1实体抽取技术
实体抽取技术又被称作实体识别技术。该技术指在原始语料中自动识别和获取命名实体。常见的实体抽取技术主要包括通过统计机器学习方法抽取实体、根据规范和字典抽取实体以及通过深度认知技术抽取实体。近年来,科学家尝试以国际微生物命名规范和国际微生物学字典为依据确定文件中的微生物命名,并建立以国际微生物名称标准为依据的实体识别方法。技术人员便可以通过改进条件获得明信片中的地址实体。部分技术人员通过微博文脚本在滑动窗口上创建预测标签,并通过深度认知技术完成实体识别。博物馆文物知识中涉及较多专用名词,名词命名规律并不具备规律,当文物名称在文本中出现时,很难利用机器学习识别文物正确名称。所以,为了保证抽取实体准确率,必须采用以词典和规则为基础的方法达成实体抽取目标。
1.2实体关系和属性抽取技术
实体关系和属性抽取技术通过三元组表示方法呈现,即通过“实体一关系一实体”的对象属性或“实体一属性一属性值”方式表达。其中,属性指的是数据属性,数据属性的属性值归于文本类型,而对象属性的属性值则归属于另一个实体。而依照信息的资源类型划分,三元组提取方法也可被划分为2种类型,即基于基础结构化信息和半结构化信息的三元组提取方法、基于非结构化信息的三元组提取方法。基础结构化或半结构化信息都具有一种较好的分布结构,大众能够很容易地在其中获取所需的三元组。而非结构化数据仅使用比较规则,属于自然语言的文本类型,由于中文句法和语言系统的复杂性特点导致三元组工作过程具有复杂特征。目前,常见提取技术分为基于深度学习的三元组提取、基于机器歇息的三元组提取以及基于模式匹配的三元组提取。
1.3实体链接技术
在知识融合的过程中,要对抽取的三元组进行有效处理,再将其融人自身知识图谱之中,包括实体消歧和链接2种方式。其中,实体消歧指的是把名字中具有歧义的成分映射到具体知识中,以避免同一个实体的一词多义现象。基本解决办法将候选实物与知识图谱中的实体指称一个特征向量,并对其展开聚馓花序,完成整个实物消歧过程。进行消歧作用时,将其连接在图上已出现的实物上,这称为实体连接。
2构建文物知识图谱的实际流程
知识图谱在实质上属于一种以图像为基本的语义网络内容,其主体部分就是节点和边。这里的节点主要指的是现实世界中实体内容,边指的是实体间的内在联系。知识图谱使实际世界中的所有实体之间形成了联系,主体结构由“实体一关系一实体”或“实体一属性一属性值”这类三元组所构成。以知识图谱为基础的搜索引擎,实现了从传统Web页面连接到实体连接之间的转换,能够直接为用户指明搜索主体,在语义方面服务用户获取检索意图。通过知识图谱检索方式,用户可以精准获取所需信息,具体流程如下。
2.1知识表示
半结构化数据中包括很多文物知识,知识图谱中的数据存储形式具备结构化特征。所以,文物知识图谱主要研究的内容是在结构化数据中获取文物结构化知识,整合与构建文物知识图谱,将其应用到文物知识推理中。而文物知识图谱的形成与应用过程蕴含的关键概念是文物人士表示。例如,国际万维网协会所制定的资源描述框架技术标准就是以三元组表示为依据。当前,知识信息表示技术仍然面临知识信息缺失和运算质量较低等情况。传统知识库的知识信息表示技术以一阶谓词为基准,构成了符号信息表示模式中的最后一类,可以有效拓展二阶逻辑信息表示功能。现代知识库图谱在语义描述领域的范围已大幅缩小,以事实的知识为基础特征。随着计算式知识发展和深度神经网络发展,向量数据表征方法也将日益受到大众关注。对于以向量数据为核心的表征目的可以有效表述的实体数据,如非结构化的数据。利用计算机学习、数据方法等手段的向量特点,可以把具体的文物关系抽象成数字的向量特征,为文物关系的发现奠定了坚实基础。




