【导读】近日,清华大学人工智能研究院、清华-中国工程院知识智能联合研究中心和智谱AI联合发布了《人工智能之图数据库》报告。报告围绕图数据库的基本概念、技术发展、产业应用、人才概况和热点趋势这五大方面进行深入挖掘。
1 什么是图数据库
图数据库(Graph Database)是一个基于图模型的在线数据库管理系统,具有图数据的创建(Create)、读取(Retrieve)、更新(Update)和删除(Delete)功能,简称CRUD。
面对各种海量数据、尤其是对海量非结构化数据的存储,传统的信息存储和组织模式已经无法满足客户需求,图数据库却能够很清晰地揭示各类复杂模式,尤其针对错综复杂的社交、物流、金融风控行业,其优势更为明显,发展潜力巨大。
2 图数据库的相关技术
报告对图数据模型、图数据的存储与管理、面向图数据的查询语言等相关技术进行了详细介绍,还搜集整理了图数据库的若干资源并对数据库的一些基本属性进行了对比。
(1)图数据模型
图数据模型主要包括资源描述框架(Resource Description Framework, RDF)和属性图(Property Graph)。
(2)图数据的存储与管理
图数据库存储图的方式,对存储效率和查询效率都至关重要,具体包括链表、排序树、哈希表和NoSQL数据库。
(3)图数据查询
报告详细介绍了主流的图数据库查询语言,例如Cypher、Gremlin、SPARQL、GQL和其他查询语言。
(4)常见图数据库
此外,报告还对Neo4j、ArangoDB、Virtuoso、Neptune、JanusGraph、TigerGraph、TuGraph等数据库的属性进行了对比。
3 图数据库的典型应用场景
该报告还从实际用例(Use Case)和解决方案(Solution)出发,以数据的关联特征与问题的相似性为基础进行归类和展开,挑选其中9个典型的图数据库应用场景进行介绍。
图数据库应用场景
(1)反欺诈
反欺诈场景适用的行业和部门有金融,保险,电信,医疗,公共安全,情报等。
(2)推荐引擎
推荐引擎适用的行业和部门有零售、餐饮、广告、媒体出版及影视等。
(3)知识图谱
知识图谱适用的行业有能源,机械制造,教育培训,政府机关,咨询等。
(4)身份和访问管理
身份和访问管理场景适用的行业和部门有政府机关,军事,公共安全,大型企事业,科研机构,医疗机构,高校等。
(5)主数据管理
主数据管理场景适用的行业和部门有能源,机械制造,航空航天,化工,大型企业等。下图描述一个实际生活中的企业的组织架构管理。
(6)网络和IT设备管理
无论你的业务处在防火墙的哪一边,图数据库都是设计,存储和查询网络,IT设备数据的很好选择之一。下图为某企业网络设备拓扑和报警管理应用方案的示意图:
某企业网络设备拓扑和报警管理应用方案的示意图
(7)地理空间分析
地理空间分析场景适用的行业和部门有交通运输、旅游、气象、采矿、地质、水利、新能源(风能,太阳能)等。
(8)时序数据分析
时序数据分析场景适用的行业和部门有工业制造、能源环保、医疗健康及IoT等。
(9)社交网络
社交网络场景适用的行业和部门有互联网、广告、媒体出版、零售、公共安全等。
4 图数据库领域的人才分布情况
该报告还对图数据库领域学者的分布情况进行了总结,从国家角度来看,美国的论文数量和人才数量位于全球第一,遥遥领先于排位第二的中国,随后为德国、英国、法国等欧洲国家。
图数据库领域Top 10国家论文发表数量和人才数量对比
数据库学者的h-index分布如下图所示,大部分学者的h-index都在10以下,其中h-index小于10的人数最多,有588人,占总学者数量的59.51%。由此可见,在图数据库领域,世界级科研领军人物极度稀缺。
图数据库领域学者h-index分布
报告展示了图数据库领域全球顶尖学者分布状况。其中,颜色越趋近于红色,表示学者越集中;颜色越趋近于绿色,表示学者越稀少。从地区角度来看,欧洲、北美洲、东亚是图数据库领域学者分布最为集中的地区。从国家角度来看,图数据库领域的人才在法国最多,德国和美国等国家次之,中国也有较多的学者。特别是与中国周边,如韩国、东南亚等一些亚洲国家相比,中国在图数据库领域顶尖学者数量方面具有较为明显的优势。
图数据库全球顶尖学者分布
该报告还绘制了学者国内分布地图,珠三角地区在图数据库领域的人才数量最多,京津冀地区也有较多的人才分布。相比之下,内陆地区图数据库产业人才较为匮乏,这也从一定程度上说明了图数据库领域的发展与该地区的地理位置和经济水平都是息息相关的。
图数据库国内学者分布
此外,报告对图数据库领域的学者的迁徙路径进行分析,如下图所示,美国图数据库领域人才的流失和引进相对比较均衡,作为图数据库领域人才流动大国,人才输入和输出都大幅度领先,且从数据来看人才流入大于人才流出。中国、英国、德国和法国都落后于美国,中国和英国有轻微的人才流失现象,而法国有少量的人才流入。
图数据库全球学者迁徙图
将论文映射到各个单位机构中,统计每个机构的论文发表数量、学者数量以及h-index,并按照论文发表数量从高到低对机构进行排序。美国、中国、德国、英国和法国拥有世界上最多的顶尖科研机构。其中在美国发表论文数量排名前三的顶尖机构分别为加利福尼亚大学、斯坦福大学、布朗大学。在中国发表论文排名前三的顶尖机构分别为北京大学、香港中文大学、香港科技大学。
“图数据库”领域学术机构对比
报告还收集整理了图数据库领域的部分高水平学者的信息,通过“学者画像”的方式进行展示。
5 图数据库的发展趋势
该报告以会议上发表的图数据库相关论文、图数据库相关专利(智慧芽专利分析系统)以及国家自然科学基金委员会扶持的基金项目作为研究基础,对图数据库领域的热点趋势进行详尽分析。
(1)国家趋势
通过国家趋势分析可以发现当前图数据库领域研究热度Top10的国家分别是:美国、中国、德国、英国、意大利、澳大利亚、加拿大、印度、法国、日本。
图数据库国家趋势
(2)论文技术趋势
根据图数据库的关键词,从AMiner数据库中查找数据生成趋势图,可以看出查询语言的研究热度一直位居图数据库领域的首位。
图数据库的热点趋势图
(3)领域热点话题
为了帮助读者了解图数据库领域的热点研究话题,本报告针对AMiner平台上收录的专家推荐的100篇必读论文(https://www.aminer.cn/topic/5eec8ad092c7f9be2177bcc 6),采用主题生成模型(Latent Dirichlet Allocation, LDA),分析了这些论文的研究主题分布情况。其中,查询语言、资源描述框架、图分析、社交网络和图数据库管理都是该领域的研究热点。
(4)专利趋势
根据“图数据库”领域关键词,从AMiner数据库中搜索2000年至2019年图数据库相关专利在全球范围内的申请情况。
2000年至2019年图数据库相关专利变化趋势
从国家层面来说,中国、美国和日本是申请图数据库专利最多的三个国家。
全球图数据库相关专利TOP3国家
从各省排名来看,当前申请人(专利权人)主要分布于北京、广东、江苏、上海等具有一定经济基础,科技投入度高的发达省市。
中国图数据库相关专利各省排名
“机器学习”,获取《人工智能之机器学习》报告全文