知识图谱杂七杂八的
写于 2019-02-09 | 分类于 编程
-
知识图谱体系结构:知识获取》知识存储》知识表示》知识应用
-
数据(处理)》》信息(转化)》》知识(内化)》》智慧
- 数据:抽象的内容,独立时无含义
- 信息:经过收集和处理的数据
- 知识:经过人为的解读和经验充实的信息
-
智慧:以直觉和深邃的洞察力前提产生的辨析能力,发明创造能力
-
图数据库是基于图论而实现的新型数据库系统,擅长处理大量的、复杂的、互联的、多变的网状数据,其效率远远高于传统的关系型数据库
- 应用:
- 1、领英用它来管理社交关系,实现朋友推荐
- 2、沃尔玛用它来连接“商品关联”和买家习惯,实现零售商品的实时推荐
-
3、思科用它来做主数据库管理,将企业内部的组织架构,产品订购,社交网络,IT网络等有效的管理起来
- 数据库分为关系数据库(如Oracle、Mysql、SQL server、Access、DB2、Sybase等)和非关系数据库
-
非关系数据库又分为键值数据库(如Redistricting、Memcached等)、文档数据库(如MongoDB、CouchDB等)、列数据库(HBase、Cassandra等)、图形数据库(Neo4j、Titan等)
-
Neo4j支持的特性:基于JVM,高性能,复杂数据模型,代码开源,ACID事务,声明式图查询语言,界面友好,图数据库
-
Neo4j的使用方式:Neo4j-web、Neo4j-shell
-
Neo4j图数据中的基本元素:节点、关系、属性、路径、遍历
-
Cypher:一种声明式图数据库查询语言,丰富的表现力,高效的查询和更新图数据库
-
Cypher查询语言中的所有函数:断言(Predicate)函数、标量(Scalar)函数、列表(List)函数、数学(Math)函数、字符串(String)函数、自定义函数
-
索引和约束是图的模式
-
Neo4j是用Java语言开发的,基于JVM
-
Neo4j程序开发模式:Java嵌入式开发模式,Java开发人员完全可以直接在代码中调用Neo4j的API,并将对Neo4j数据库的操作嵌入到Java代码中;驱动开发模式,使用.net、JavaScript、Python、php等集成的驱动包或驱动库就可以与Neo4j相互对话
-
知识图谱相关用途:搜索、聊天机器人、问答、私人助理、穿戴设备、出行助手
- 通用知识图谱:面向通用领域,以常识性知识为主,结构化的百科知识,强调知识的广度,使用者是普通用户
-
行业知识图谱:面向某一特定领域,基于行业数据构建,基于语义技术的行业知识库,强调知识的深度,潜在使用者是行业人员
-
行业知识图谱应用:企业知识图谱、金融交易知识图谱、医疗知识图谱、国情资源知识图谱、识别农作物危害、政府大数据管理、智能客服系统
- 知识图谱应用挑战:
- 1、多源异构数据难以融合
- 解决方法:使用知识图谱对各种类型的数据进行抽象建模,基于可动态变化的“概念-实体-属性-关系”数据模型,实现各类数据的统一建模
- 2、数据模式动态变迁困难
- 解决方法:针对可支持数据模式动态变化的知识图谱的数据存储,实现大数据及数据模式动态变化的支持
- 3、非结构化数据计算机难以理解
- 解决方法:利用信息抽取、实体链接相关的技术,对非结构化及半结构化的知识进行链接
- 4、数据使用专业程度过高
- 解决方法:在知识融合的基础上,基于语义检索,智能问答,图计算,推理,可视化等技术提供统一的数据检索、分析和利用平台
- 5、分散的数据难以统一消费利用
-
解决方法:同上
-
知识图谱生命周期:知识建模》知识获取》知识融合》知识存储》知识计算》知识应用
-
生命周期中9大关键技术:知识建模、知识抽取、实体链接、知识存储、知识推理、语义搜索、可视化、知识融合、图挖掘
- 一些常用的图算法:
- 1、图遍历:广度优先遍历、深度优先遍历
- 2、最短路径查询:笛杰斯特算法,弗洛伊德算法
- 3、路径探寻:给定两个或多个节点,法现他们之间的关系
- 4、权威节点分析:PageRank算法
- 5、族群分析:最大流算法
-
6、相似节点发现:基于节点属性、关系的相似度算法
- 知识图谱两种存储方式:
- 1、基于RDF的存储:重点是数据的易发布以及共享
-
2、基于图数据库的存储:重点放在高效的图查询和搜索上
-
搭建一个知识图谱系统的重点不在于算法和开发,而在于对业务的理解以及对知识图谱本身的设计
- 三元组是一个既容易被人类解读,又容易被计算机来处理和加工的结构,而且足够简单
-
知识图谱其实是富含实体、属性、概念、事件、关系等信息,能够基于一定的推理,具有可解释性
-
利用知识图谱提供个性化推荐:场景化推荐、任务型推荐、冷启动环境下推荐、跨领域推荐、知识型推荐
- 知识图谱应用展望:
- 1、营销类应用:挖掘潜在客户、深挖客户潜在需求
- 2、风控类应用:反欺诈应用、内审内控应用、反洗钱应用
-
3、预测类应用:潜在风险行业预测、潜在风险客户预测
-
由来:专家系统 》 语义网 》 链接数据 》 知识图谱
-
Neo4j在整个图存储领域里面占据着重要的地位,在RDF领域里面Jena是目前最为流行的存储框架
- Titan是分布式图数据库