前沿技术第九章
9.知识图谱
总结
总结:为什么需要知识图谱以及其相关概念
1 知识图谱的必要性
◦ 传统搜索引擎只能返回与查询字符串相关的网页,而无法理解查询背后的语义信息。知识图谱通过构建机器的先验知识,使计算机能够理解文本背后的含义。
◦ 知识图谱的核心理念是”things not strings”,即关注对象或事物本身,而非无意义的字符串。
2 知识图谱的概念
◦ 知识图谱是由相互连接的实体及其属性构成,用SPO三元组(Subject-Predicate-Object)表示知识。
◦ 它的本质是为了表示知识,帮助机器理解文本背后的意义,并进行推理和关联。
3 发展历程
◦ 知识图谱的思想可以追溯到上世纪五六十年代的语义网络(Semantic Network),后来发展出专家系统、语义网(Semantic Web)和关联数据(Linked Data)等。
◦ Google于2012年发布知识图谱,旨在提升搜索引擎返回答案的质量和效率。
4 典型项目
◦ Cyc:始于1984年,目标是建立最大的常识知识库,包含50万条术语和700万条断言,采用形式化知识表示方法。
◦ WordNet:由普林斯顿大学开发,主要用于词义消歧,定义了名词、动词、形容词和副词之间的语义关系。
◦ ConceptNet:基于众包构建的常识知识库,采用自然语言描述,支持多语言。
◦ DBPedia:从Wikipedia中抽取的链接数据集,采用RDF语义数据模型,包含30亿RDF三元组。
◦ YAGO:集成Wikipedia、WordNet和GeoNames的数据,包含时间和空间维度的属性描述。
5 技术概览
◦ 知识表示:包括语义网框架(如RDF、RDFS、OWL)和SPARQL查询语言。
◦ 知识抽取:结合自然语言处理(NLP)和知识表示(KR)技术。
◦ 知识存储:分为基于关系数据库和基于原生图的存储方式。
◦ 知识问答(KBQA):实现自然语言提问的自动回答。
◦ 知识推理:基于已知事实推出未知事实。
◦ 知识融合:整合不同数据源中的实体信息,形成更全面的描述。
6 典型案例
◦ 知识图谱在搜索引擎、智能问答、推荐系统等领域有广泛应用,提升了用户体验和信息获取效率。
总结来说,知识图谱通过构建机器可理解的知识体系,帮助解决计算机对文本语义的理解问题,推动了人工智能和信息检索技术的发展。
大纲
为什么需要知识图谱
• 解决计算机无法获取网络文本语义信息的问题
• 提升搜索引擎返回的答案质量和用户查询效率
什么是知识图谱
• 知识图谱的核心概念
• “things not strings”:获取字符串背后隐含的对象或事物
一、看到的不仅仅是字符串
• 计算机面临的困境:无法理解文本背后的含义
• 通过实体建模、属性填充和关系拓展构建机器的先验知识
• Google知识图谱的应用场景及意义
实体扩展示例
• 围绕罗纳尔多实体进行扩展,构建知识图
• 机器能够理解文本背后的含义
搜索引擎改进
• Google知识图谱提升搜索结果质量
• 返回结构化信息和相关对象的基本信息
发展趋势
• 知识图谱符合计算机科学与互联网发展潮流
二、知识图谱的前世今生
• 知识图谱的概念溯源
• 与语义网络、专家系统、语义网、关联数据的关系
知识图谱定义
• 知识图谱是由相互连接的实体及其属性构成
• SPO三元组形式表示知识
RDF形式化表示
• 资源描述框架(RDF)标准数据模型
• IRI、blank node和literal类型说明
• SPO三元组类型约束
示例
• 使用RDF表示”罗纳尔多的中文名是罗纳尔多·路易斯·纳扎里奥·达·利马”
正式知识图表示
• 知识图的正式图形化表示
三、典型知识库项目
Cyc
• 常识知识库项目
• 包含术语和断言
• 形式化知识表示方法支持复杂推理
WordNet
• 词典知识库
• 定义名词、动词、形容词和副词之间的语义关系
ConceptNet
• 常识知识库
• 非形式化描述,接近自然语言
• 支持多种语言
Freebase
• 开放式协作知识库
Wikidata
• 维基百科的数据集
DBPedia
• 数据库版本的Wikipedia
• 包含严格本体和大量RDF三元组
YAGO
• 链接数据库
• 集成Wikipedia、WordNet和GeoNames数据
• 具有时间和空间维度属性
中文知识图谱资源
• OpenKG.CN
• Zhishi.me
四、知识图谱技术概览
知识表示
• 核心概念和技术框架
语义网知识表示框架
• RDF、RDFS、OWL
• SPARQL:访问和操作RDF数据的核心技术
知识图谱的分布式表示
• 分布式存储和处理技术
知识抽取
• 自然语言处理(NLP)和知识表示(KR)
知识存储
• 图的特点、复杂知识结构存储、索引和查询优化
典型引擎
• 基于关系数据库的存储
• 基于原生图的存储
知识问答KBQA
• 自动问答系统基本形态
• KBQA实现流程
知识推理
• 推理过程定义
• 搜索引擎支持的推理能力
知识融合
• 不同数据源中实体信息整合
• 形成更加全面的实体信息
五、典型案例
• 知识图谱在各领域的实际应用