Author：薇拉vera@勾陈安全实验室

“The world is not made of strings , but is made of things.”
——辛格博士，from Google.

写在前面，对知识图谱的了解源于我在刘峤老师实验室里所做的【知识图谱中的关系推理】这方面的研究，在来到公司上班之后，意外发现在工业界这一块也有着非常巨大的需求。当然工业界面临的数据量和问题也是学术界远远不可启及的……
总之，最近决定把这个技能捡起来打磨打磨重新上膛，遂准备通过这一系列文章来对知识图谱进行一次梳理。

欢迎对这个方向感兴趣的童鞋们来交流~也欢迎同行指出这系列文章的不足！先行鞠躬笔芯感谢！

0x01 定义

俗话说：“看人先看脸。”在我们深入了解知识图谱之前，让我们先来看一下它长什么样子!

emmm这是百度知识图谱给出的小时代关系图谱的样子，你可以看到，如果两个角色之间有关系，他们就会被一条无向边连接在一起，那么这个角色，我们就称为实体（Entity）/节点（Point），他们之间的这条边，我们就称为关系（Relationship）/边（Edge）。
当然，实际的知识图谱当然不会像这种人为处理过的看起来这么舒服……给大家看几张更真实一点的知识图谱的样子——

还有这样……

总而言之，知识图谱本质上就是上图展示出来的这种语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。

0x02 存储方式

知识图谱的存储方式通常分为以下两种——

RDF存储格式
主要常用Jena
图数据库(Graph Database)
主要常用neo4j

采用图数据库而不是关系数据库的原因？

简单的知识图谱可以用关系数据库，但是一旦知识图谱变复杂，在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询，基于知识图谱的查询效率会高出几千倍甚至几百万倍。
基于图的存储在设计上会非常灵活，一般只需要局部的改动即可。
把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。

0x03 知识图谱的架构

知识图谱的架构主要可以被分为

逻辑架构
技术架构

3-1逻辑架构

在逻辑上，我们通常将知识图谱划分为两个层次：数据层和模式层。

模式层：在数据层之上，是知识图谱的核心，存储经过提炼的知识，通常通过本体库来管理这一层这一层（本体库可以理解为面向对象里的“类”这样一个概念，本体库就储存着知识图谱的类）。
数据层：存储真实的数据。

如果还是有点模糊，可以看看这个例子——

模式层：实体-关系-实体，实体-属性-性值
数据层：比尔盖茨-妻子-梅琳达·盖茨，比尔盖茨-总裁-微软

3-2 技术架构

知识图谱的整体架构如图所示，其中虚线框内的部分为知识图谱的构建过程，同时也是知识图谱更新的过程。

别紧张，让我们顺着这张图来理一下思路。首先我们有一大堆的数据，这些数据可能是结构化的、非结构化的以及半结构化的，然后我们基于这些数据来构建知识图谱，这一步主要是通过一系列自动化或半自动化的技术手段，来从原始数据中提取出知识要素，即一堆实体关系，并将其存入我们的知识库的模式层和数据层。
构建知识图谱是一个迭代更新的过程，根据知识获取的逻辑，每一轮迭代包含三个阶段——

信息抽取：从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；
知识融合：在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等；
知识加工：对于经过融合的新知识，需要经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量。

3-3构建方式

知识图谱有自顶向下和自底向上2种构建方式。

自顶向下：
借助百科类网站等结构化数据源，从高质量数据中提取本体和模式信息，加入到知识库中；
自底向上
借助一定的技术手段，从公开采集的数据中提取出资源模式，选择其中置信度较高的新模式，经人工审核之后，加入到知识库中。

0x04 构建技术

【这里提到的构建技术主要是自底向上的构建方式里会涉及到的构建技术】
如前所述，构建知识图谱是一个迭代更新的过程，根据知识获取的逻辑，每一轮迭代包含三个阶段——

信息抽取：从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；
知识融合：在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等；
知识加工：对于经过融合的新知识，需要经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量。

见下图——

4-1 信息抽取

信息抽取（infromation extraction）是知识图谱构建的第1步，其中的关键问题是——

如何从异构数据源中自动抽取信息得到候选指示单元。
信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。
涉及的关键技术包括：实体抽取、关系抽取和属性抽取。

4-1-1 实体抽取

实体抽取，也称为命名实体识别（named entity recognition，NER），是指从文本数据集中自动识别出命名实体。

研究历史：

面向单一领域，关注如何识别出文本中的人名、地名等专有名词和有意义的时间等实体信息
1. 启发式算法+人工规则，实现自动抽取实体的原型系统
2. 统计机器学习方法辅助解决命名实体抽取问题
3. 有监督学习+先验知识
开始关注开放域（open domain）的信息抽取问题，不再限定于特定的知识领域，而是面向开放的互联网，研究和解决全网信息抽取问题。
1. 人工建立科学完整的命名实体分类体系
2. 基于归纳总结的实体类别，基于条件随机场模型进行实体边界识别，最后采用自适应感知机实现对实体的自动分类
3. 采用统计机器学习的方法，从目标数据集中抽取出与之具有相似上下文特征的实体，从而实现实体的分类和聚类。
4. 迭代扩展实体语料库
5. 通过搜索引擎的服务器日志，聚类获取新出现的命名实体。——已应用于自动补全技术

4-1-2 关系抽取

文本语料经过实体抽取，得到的是一系列离散的命名实体，为了得到语义信息，还需要从相关语料中提取出实体之间的关联关系，通过关系将实体联系起来，才能够形成网状的知识结构。这就是关系抽取需要做的事。
研究历史：

人工构造语法和语义规则（模式匹配）
统计机器学习方法
基于特征向量或核函数的有监督学习方法
研究重点转向半监督和无监督
开始研究面向开放域的信息抽取方法
将面向开放域的信息抽取方法和面向封闭领域的传统方法结合

4-1-3 属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息，如针对某个公众人物，可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。

研究历史：

将实体的属性视作实体与属性值之间的一种名词性关系，将属性抽取任务转化为关系抽取任务。
基于规则和启发式算法，抽取结构化数据
基于百科类网站的半结构化数据，通过自动抽取生成训练语料，用于训练实体属性标注模型，然后将其应用于对非结构化数据的实体属性抽取。
采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式，据此实现对属性名和属性值在文本中的定位。

4-2 知识融合

通过信息抽取，我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。
如果我们将接下来的过程比喻成拼图的话，那么这些信息就是拼图碎片，散乱无章，甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。
也就是说——

拼图碎片（信息）之间的关系是扁平化的，缺乏层次性和逻辑性；
拼图（知识）中还存在大量冗杂和错误的拼图碎片（信息）

那么如何解决这一问题，就是在知识融合这一步里我们需要做的了。
知识融合包括2部分内容：

实体链接
知识合并

4-2-1 实体链接

实体链接（entity linking）是指对于从文本中抽取得到的实体对象，将其链接到知识库中对应的正确实体对象的操作。
其基本思想是首先根据给定的实体指称项，从知识库中选出一组候选实体对象，然后通过相似度计算将指称项链接到正确的实体对象。

研究历史：

仅关注如何将从文本中抽取到的实体链接到知识库中，忽视了位于同一文档的实体间存在的语义联系。
开始关注利用实体的共现关系，同时将多个实体链接到知识库中。即集成实体链接（collective entity linking）

实体链接的流程：

从文本中通过实体抽取得到实体指称项；
进行实体消歧和共指消解，判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义；
在确认知识库中对应的正确实体对象之后，将该实体指称项链接到知识库中对应实体。

实体消歧是专门用于解决同名实体产生歧义问题的技术，通过实体消歧，就可以根据当前的语境，准确建立实体链接，实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题，类似于词性消歧和词义消歧。

共指消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中，多个指称可能指向的是同一实体对象。利用共指消解技术，可以将这些指称项关联（合并）到正确的实体对象，由于该问题在信息检索和自然语言处理等领域具有特殊的重要性，吸引了大量的研究努力。共指消解还有一些其他的名字，比如对象对齐、实体匹配和实体同义。

4-2-2 知识合并

在前面的实体链接中，我们已经将实体链接到知识库中对应的正确实体对象那里去了，但需要注意的是，实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。
那么除了半结构化数据和非结构化数据以外，我们还有个更方便的数据来源——结构化数据，如外部知识库和关系数据库。

对于这部分结构化数据的处理，就是我们知识合并的内容啦。
一般来说知识合并主要分为两种——

合并外部知识库
合并关系数据库

合并外部知识库：
需要处理两个层面的问题：

数据层的融合，包括实体的指称、属性、关系以及所属类别等，主要的问题是如何避免实例以及关系的冲突问题，造成不必要的冗余
模式层的融合，将新得到的本体融入已有的本体库中

一般有以下四个步骤：

获取知识
概念匹配
实体匹配
知识评估

合并关系数据库：
在知识图谱构建过程中，一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中，可以采用资源描述框架（RDF）作为数据模型。业界和学术界将这一数据转换过程形象地称为RDB2RDF，其实质就是将关系数据库的数据换成RDF的三元组数据。

4-3 知识加工

经过刚才那一系列步骤，我们终于走到了知识加工这一步了！
感觉大家可能已经有点晕眩，那么让我们再来看一下知识图谱的这张架构图。

在前面，我们已经通过信息抽取，从原始语料中提取出了实体、关系与属性等知识要素，并且经过知识融合，消除实体指称项与实体对象之间的歧义，得到一系列基本的事实表达。
然而事实本身并不等于知识。
要想最终获得结构化，网络化的知识体系，还需要经历知识加工的过程。
知识加工主要包括3方面内容：本体构建、知识推理和质量评估。

4-3-1 本体构建

本体（ontology）是对概念进行建模的规范，是描述客观世界的抽象模型，以形式化的方式对概念及其之间的联系给出明确定义。其最大特点在于它是共享的，本体中反映的知识是一种明确定义的共识。在知识图谱中，本体位于模式层，用于描述概念层次体系，是知识库中知识的概念模板。

本体是同一领域内的不同主体之间进行交流的语义基础。

本体可以采用人工编辑的方式手动构建（借助本体编辑软件），也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大，且很难找到符合要求的专家，因此当前主流的全局本体库产品，都是从一些面向特定领域的现有本体库出发，采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段——

实体并列关系相似度计算
- 用于考察任意给定的2个实体在多大程度上属于同一概念分类的指标测度，相似度越高，表明这2个实体越有可能属于同一语义类别。
- 如“中国”和“美国”作为国家名称的实体，具有较高的并列关系相似度；而“美国”和“手机”这两个实体，属于同一语义类别的可能性较低，因此具有较低的并列关系相似度
- 主流计算方法：模式匹配法和分布相似度。
实体上下位关系抽取
- 用于确定概念之间的隶属（IsA）关系，这种关系也称为上下位关系。
- 如词组（导弹，武器）构成上下位关系，其中的“导弹”为下位词，“武器”为上位词。
- 主要研究方法：①基于语法模式（如Hearst模式）抽取IsA实体对；②利用概率模型判定IsA关系和区分上下位词，通常会借助百科类网站提供的概念分类知识来帮助训练模型，以提高算法精度；③用跨语言知识链接的方法来构建本体库；
本体的生成
- 本体生成主要是对各层次得到的概念进行聚类，并对其进行语义类的标定，即为该类中的实体指定1个或多个公共上位词。
- 主要研究方法：实体聚类方法

4-3-2 知识推理

知识推理是指从知识库中已有的实体关系数据出发，进行计算机推理，建立实体间的新关联，从而拓展和丰富知识网络。知识推理是知识图谱构建的重要手段和关键环节，通过知识推理，能够从现有知识中发现新的知识。
比如——

如果我们知道这两个信息(A,father,B),(B,father,C)，那么知识推理就可以帮助我们得到(A,grandfather,C)的事实。

当然知识推理的对象也并不局限于实体间的关系，也可以是实体的属性值，本体的概念层次关系等。
比如——

推理属性值：已知某实体的生日属性，可以通过推理得到该实体的年龄属性；
推理概念：已知(老虎，科，猫科)和（猫科，目，食肉目）可以推出（老虎，目，食肉目）

知识推理方法目前可以分为3大类，基于逻辑的推理、基于图的推理和基于深度学习的推理

基于逻辑的推理方法主要采用抽象或具象的Horn子句建模，然后基于一阶逻辑谓词、描述逻辑以及规则进行推理。
基于图的推理方法主要思想是将实体和关系映射到一个低维的embedding空间中，基于知识的语义表达进行推理建模。
基于深度学习的推理方法主要考虑使用神经网络进行建模，并且往往会和上面两种推理方法结合起来进行建模。

如果想要具体了解知识推理过程的算法综述的话，可以详见我的这篇博文：知识图谱中的关系推理，究竟是个什么玩意儿？

4-3-3 质量评估

质量评估也是知识库构建技术的重要组成部分，这一部分存在的意义在于：可以对知识的可信度进行量化，通过舍弃置信度较低的知识来保障知识库的质量。

好啦，在质量评估之后，你是不是想说，妈耶知识图谱终于构建完毕了。终于可以松一口气了。

emmmm好吧，实不相瞒，知识图谱这个宝宝目前虽然我们构建成功了。
但是！你家宝宝不吃饭的啊！你家宝宝不学习的啊！

所以，让我们冷静一下，乖乖进入知识更新这一步……

4-4 知识更新

从逻辑上看，知识库的更新包括概念层的更新和数据层的更新

概念层的更新是指新增数据后获得了新的概念，需要自动将新的概念添加到知识库的概念层中。
数据层的更新主要是新增或更新实体、关系、属性值，对数据层进行更新需要考虑数据源的可靠性、数据的一致性（是否存在矛盾或冗杂等问题）等可靠数据源，并选择在各数据源中出现频率高的事实和属性加入知识库。

知识图谱的内容更新有两种方式：

全面更新：指以更新后的全部数据为输入，从零开始构建知识图谱。这种方法比较简单，但资源消耗大，而且需要耗费大量人力资源进行系统维护；
增量更新：以当前新增数据为输入，向现有知识图谱中添加新增知识。这种方式资源消耗小，但目前仍需要大量人工干预（定义规则等），因此实施起来十分困难。

0x05 知识图谱的应用

好了！终于终于！知识图谱的构建方式我们就此结束了！
为了让大家不立刻弃疗，让我们来看看知识图谱能做到什么，以及目前已经做到了什么~

智能搜索——也是知识图谱最成熟的一个场景，自动给出搜索结果和相关人物
构建人物关系图，查看更多维度的数据
反欺诈：这主要有两部分原因，一个是反欺诈的数据来源多样，结构化和非结构化，二是不少欺诈案件会涉及到复杂的关系网络
不一致性验证（类似交叉验证）——关系推理
异常分析（运算量大，一般离线）
- 静态分析：给定一个图形结构和某个时间点，从中去发现一些异常点（比如有异常的子图）。
- 动态分析：分析其结构随时间变化的趋势。（假设短时间内知识图谱结构的变化不会太大，如果它的变化很大，就说明可能存在异常，需要进一步的关注。会涉及到时序分析技术和图相似性计算技术。）
失联客户管理
挖掘出更多的新联系人，提高催收的成功率。
……

事实上，知识图谱的应用远不止于此。在我看来，这个世界就是一张巨大的知识图谱，是无数个实体关系对，这两年工业界对图数据库、知识图谱的巨大需求也同样反映出了这一点。
就像这篇文章开头说的那句一样——

“The world is not made of strings , but is made of things.”
——辛格博士，from Google.

那么后面会涉及到的跨语言知识图谱的构建、知识图谱的构建算法细节、实战、更新和维护等等内容，就让我慢慢更新起来吧~
再次欢迎对这个方向感兴趣的童鞋们来交流~也欢迎同行指出这系列文章的不足！再次鞠躬笔芯感谢！

我的博客地址：薇拉航线

附赠一张知识图谱的mindmap~
（因为以前老是遇见盗图不写来处的人……所以打了丑丑的水印……请右键→在新标签中打开图片，查看高清大图(:з」∠)）

References

1 刘峤, 李杨, 段宏,等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3):582-600.
2 薇拉航线. 知识图谱中的关系推理，究竟是个什么玩意儿. 2017,03. http://www.zuozuovera.cn/archives/491/#directory077175446956507751
3 打怪的蚂蚁. CSDN. 知识图谱技术技巧. http://blog.csdn.net/xgjianstart/article/details/70214852

知识图谱系列（1）基础知识简介

0x01 定义

0x02 存储方式

0x03 知识图谱的架构

3-1逻辑架构

3-2 技术架构

3-3构建方式

0x04 构建技术

4-1 信息抽取

4-1-1 实体抽取

4-1-2 关系抽取

4-1-3 属性抽取

4-2 知识融合

4-2-1 实体链接

4-2-2 知识合并

4-3 知识加工

4-3-1 本体构建

4-3-2 知识推理

4-3-3 质量评估

4-4 知识更新

0x05 知识图谱的应用

References

Hacking more