Overview of Knowledge Graph
在计算机世界中,节点和边的符号通过“符号具化(symbol grounding)”表征物理世界和认知世界中的对象,并作为不同个体对认知世界中信息和知识进行描述和交换的桥梁。这种使用统一形式描述的知识描述框架便于知识的分享与利用。
知识图谱的类型
- 语言知识图谱
主要是存储人类语言方面的知识,其中比较典型是英文词 汇知识图谱WordNet,它由同义词集和描述同义词集之间的关系构成。 - 常识知识图谱
主要有 Cyc和 ConceptNet等。其中 Cyc 由大量实体和 关系以及支持推理的常识规则构成;ConceptNet 由大量概念以及描述 它们之间关系的常识构成。 - 语言认知知识图谱
中文知网词库HowNet是一种典型的语言认知知识图谱(语言认知知识与常识知识区别不大,因为语言是人类表达和交换信息的主要载体),HowNet致力于描述认知世界中人们对词语概念的理解,基于词语义原,揭示词语的更小语义单元的含义。 - 领域知识图谱
针对特定领域构建的知识图谱,专门为特定的领域服务, 例如:医学知识图谱 SIDER(Side Effect Resource) ,电影知识图谱 IMDB (Internet Movie Database),音乐知识图谱MusicBrainz等,这些知识图谱在各自的领域都有着广泛的应用。 - 百科知识图谱
主要以 Linked Open Data (LOD)项目支持的开放知识 图谱为核心,主要有 Freebase、DBpedia、YAGO和Wikidata等,它们在信息检索、问答系统等任务中有着重要应用。
知识图谱的生命周期
知识体系构建
指采用什么样的方式表达知识,其核心是构建一个本体对目 标知识进行描述。
输入:领域(医疗、金融...)、应用场景
输出:领域知识本体
关键技术:Ontology Engineering
作为语义网的应用,知识图谱的知识建模采用语义网的知 识建模方式,分为概念、关系、概念关系三元组三个层次,并利用资源描述框架(RDF)进行描述。
RDF 的基本数据模型包括了三个对象类型:
- 资源
能够使用RDF表示的对象称之为资源,包括互联网上的实体、事件和 概念等。 -
谓词 (Predicate)
主要描述资源本身的特征和资源之间的关系。每一个谓词可以定义元知识,例如,谓词的头尾部数据值的类型(如定义域和值域)、谓词与其他谓词的关系(如逆关系)。
- 陈述 (Statements)
一条陈述包含三个部分,通常称之为RDF三元组<主体(subject),谓词(predicate),宾语(object)>。其中主体是被描述的资源,谓词可以表示主体的属性,也可以表示主体和宾语之间关系。当表示属性时,宾语就是属性值;当表示关系时,宾语也是一个资源。
知识获取
知识获取目标是从海量的文本数据中通过信息抽取的方式获 取知识,其方法根据所处理数据源的不同而不同。
知识图谱中数据的主要来源有: - 结构化数据
置信度高,规模小,缺乏个性化的属性信息 - 半结构化数据
置信度高,规模较大,个性化信息,形式多样,含有噪声 -
非结构化文本数据
- 纯文本
置信度低,复杂多样,规模大
输入:领域知识本体;海量数据:文本、垂直站点、百科 输出:领域知识(实体集合,实体关系/属性) 主要技术:信息抽取;文本挖掘
实体识别
实体识别任务的目标是从文本中识别实体信息。早期有关实体识别的研究主要是针对命名实体的识别。在知识图谱领域,从文本中识别实体不仅仅局限于命名实体 ,还包括其他类别的实体,特别是领域实体。与实体识别相关的任务是实体抽取。
实体消歧
目标是消除指定实体的歧义。实体消歧对于知识图谱构建和应用有着重要的作用,也是建立语言表达和知识图谱联系的关键环节。从技术路线上划分,实体消歧任务可以分为实体链接和实体聚类两种类型。
关系抽取
目标是获取两个实体之间的语义关系。
语义关系可以是一元关系(例如实体的类型),也可以是二元关系(例如实体的属性)甚至是更高阶的关系。在现有知识图谱中,所处理的语义关系通常指的是一元关系和二元关系。
根据抽取目标的不同,关系抽取任务可以分为: - 关系分类任务:判别一句话中两个指定实体之间的语义关系。 - 属性抽取任务:在给定一个实体以及一个预定义关系的条件下,抽取另外一个实体。 - 关系实例抽取任务:给定关系类型,抽取满足该关系的实例数据。
事件抽取
目标是从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来。
事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的,一个或者多个动作组 成的事情或者状态的改变。
现有知识图谱大多以实体和实体之间的关系为核心,缺乏事件知识。事件知识能弥补现有以实体和实体关系为核心的知识图谱知识表达能力不足的问题,是构建知识图谱不可或缺的技术。事件结构本身的复杂性以及自然语言表达的歧义性和灵活性 ,对事件抽取提出了很大的挑战。
根据抽取方法的不同,已有的事件抽取方法可以分为 - 基于模式匹配的事件抽取 - 基于机器学习的事件抽取
知识融合
对不同来源、不同语言或不同结构的知识进行融合, 从而对于已有知识图谱进行补充、更新和去重。
输入:抽取出来的知识;现有知识库;知识本体
输出:统一知识库;知识置信度
关键技术:Ontology Matching;Entity Linking
从融合的对象看: - 知识体系的融合:两个或多个异构知识体系进行融合,即对相同的 类别、属性、关系进行映射。 - 实例的融合:对于两个不同知识图谱中的实例(实体实例、关系实例)进行融合,包括不同知识体系下的实例、不同语言的实例。
从融合的知识图谱类型看: - 竖直方向的融合:融合(较)高层通用本体与(较)底层领域本体 或实例数据 - 水平方向的融合:融合同层次的知识图谱,实现实例数据的互补。
知识存储和查询
因为目前知识图谱大多是基于图的数据结构,它的存储方式 主要有两种形式: - RDF 格式存储:以三元组的形式存储数据 - 图数据库 (Graph Database)
输入:大规模知识库知识 输出:知识库存储和查询服务 主要技术:知识表示;知识查询语言;存储/检索引擎
知识推理
由于处理数据的不完备性,知识图谱中肯定存在知识缺失现象(包括实体缺失、关系缺失)。我们也很难利用抽取或者融合的方法对于缺失的知识进行补齐。因此,需要采用推理的手段发现已有知识中隐含的知识。
目前知识推理的研究主要集中在针对知识图谱中缺失关系的补足,即挖掘两个实体之间隐含的语义关系。所采用的方法可以分为两种: - 基于传统逻辑规则的方法进行推理:研究热点在于如何自动学习推理规则,以及如何解决推理过程中的规则冲突问题。 - 基于表示学习的推理:即采用学习的方式,将传统推理过程转化为基于分布式表示的语义向量相似度计算任务。这类方法优点是容错率高、可学习,缺点也显而易见,即不可解释,缺乏语义约束。