知识图谱杂七杂八的

写于 2019-02-09 | 分类于 编程

  • 知识图谱体系结构:知识获取》知识存储》知识表示》知识应用

  • 数据(处理)》》信息(转化)》》知识(内化)》》智慧

  • 数据:抽象的内容,独立时无含义
  • 信息:经过收集和处理的数据
  • 知识:经过人为的解读和经验充实的信息
  • 智慧:以直觉和深邃的洞察力前提产生的辨析能力,发明创造能力

  • 图数据库是基于图论而实现的新型数据库系统,擅长处理大量的、复杂的、互联的、多变的网状数据,其效率远远高于传统的关系型数据库

  • 应用:
  • 1、领英用它来管理社交关系,实现朋友推荐
  • 2、沃尔玛用它来连接“商品关联”和买家习惯,实现零售商品的实时推荐
  • 3、思科用它来做主数据库管理,将企业内部的组织架构,产品订购,社交网络,IT网络等有效的管理起来

  • 数据库分为关系数据库(如Oracle、Mysql、SQL server、Access、DB2、Sybase等)和非关系数据库
  • 非关系数据库又分为键值数据库(如Redistricting、Memcached等)、文档数据库(如MongoDB、CouchDB等)、列数据库(HBase、Cassandra等)、图形数据库(Neo4j、Titan等)

  • Neo4j支持的特性:基于JVM,高性能,复杂数据模型,代码开源,ACID事务,声明式图查询语言,界面友好,图数据库

  • Neo4j的使用方式:Neo4j-web、Neo4j-shell

  • Neo4j图数据中的基本元素:节点、关系、属性、路径、遍历

  • Cypher:一种声明式图数据库查询语言,丰富的表现力,高效的查询和更新图数据库

  • Cypher查询语言中的所有函数:断言(Predicate)函数、标量(Scalar)函数、列表(List)函数、数学(Math)函数、字符串(String)函数、自定义函数

  • 索引和约束是图的模式

  • Neo4j是用Java语言开发的,基于JVM

  • Neo4j程序开发模式:Java嵌入式开发模式,Java开发人员完全可以直接在代码中调用Neo4j的API,并将对Neo4j数据库的操作嵌入到Java代码中;驱动开发模式,使用.net、JavaScript、Python、php等集成的驱动包或驱动库就可以与Neo4j相互对话

  • 知识图谱相关用途:搜索、聊天机器人、问答、私人助理、穿戴设备、出行助手

  • 通用知识图谱:面向通用领域,以常识性知识为主,结构化的百科知识,强调知识的广度,使用者是普通用户
  • 行业知识图谱:面向某一特定领域,基于行业数据构建,基于语义技术的行业知识库,强调知识的深度,潜在使用者是行业人员

  • 行业知识图谱应用:企业知识图谱、金融交易知识图谱、医疗知识图谱、国情资源知识图谱、识别农作物危害、政府大数据管理、智能客服系统

  • 知识图谱应用挑战:
  • 1、多源异构数据难以融合
  • 解决方法:使用知识图谱对各种类型的数据进行抽象建模,基于可动态变化的“概念-实体-属性-关系”数据模型,实现各类数据的统一建模
  • 2、数据模式动态变迁困难
  • 解决方法:针对可支持数据模式动态变化的知识图谱的数据存储,实现大数据及数据模式动态变化的支持
  • 3、非结构化数据计算机难以理解
  • 解决方法:利用信息抽取、实体链接相关的技术,对非结构化及半结构化的知识进行链接
  • 4、数据使用专业程度过高
  • 解决方法:在知识融合的基础上,基于语义检索,智能问答,图计算,推理,可视化等技术提供统一的数据检索、分析和利用平台
  • 5、分散的数据难以统一消费利用
  • 解决方法:同上

  • 知识图谱生命周期:知识建模》知识获取》知识融合》知识存储》知识计算》知识应用

  • 生命周期中9大关键技术:知识建模、知识抽取、实体链接、知识存储、知识推理、语义搜索、可视化、知识融合、图挖掘

  • 一些常用的图算法:
  • 1、图遍历:广度优先遍历、深度优先遍历
  • 2、最短路径查询:笛杰斯特算法,弗洛伊德算法
  • 3、路径探寻:给定两个或多个节点,法现他们之间的关系
  • 4、权威节点分析:PageRank算法
  • 5、族群分析:最大流算法
  • 6、相似节点发现:基于节点属性、关系的相似度算法

  • 知识图谱两种存储方式:
  • 1、基于RDF的存储:重点是数据的易发布以及共享
  • 2、基于图数据库的存储:重点放在高效的图查询和搜索上

  • 搭建一个知识图谱系统的重点不在于算法和开发,而在于对业务的理解以及对知识图谱本身的设计

  • 三元组是一个既容易被人类解读,又容易被计算机来处理和加工的结构,而且足够简单
  • 知识图谱其实是富含实体、属性、概念、事件、关系等信息,能够基于一定的推理,具有可解释性

  • 利用知识图谱提供个性化推荐:场景化推荐、任务型推荐、冷启动环境下推荐、跨领域推荐、知识型推荐

  • 知识图谱应用展望:
  • 1、营销类应用:挖掘潜在客户、深挖客户潜在需求
  • 2、风控类应用:反欺诈应用、内审内控应用、反洗钱应用
  • 3、预测类应用:潜在风险行业预测、潜在风险客户预测

  • 由来:专家系统 》 语义网 》 链接数据 》 知识图谱

  • Neo4j在整个图存储领域里面占据着重要的地位,在RDF领域里面Jena是目前最为流行的存储框架

  • Titan是分布式图数据库