本来想收笔,开过社交网络在风控中的应用的会后,提到了NEO4J 在更新数据库的时候,会比较慢,当然一般的操作流程是,通过传统数据库查找相关信息后,在根据主键查找NEO4J 的数据,保证查询的速度。隐约记得 NOE4J 是支持索引的,但由于NEO4J 和传统数据库是非常不一致的,所以对索引能否提高查询和更新的速度这方面是需要验证。
本着这个想法,开始做这方面的研究,NEO4J 官方是非常肯定,INDEXES 在一个节点中,是可以加速相关和改善性能的。通过INDEX 在 MATCH WHERE IN 这三种COLUMNS中的应用来提高 NEO4J 的相关方面的速度。
但NEO4J 明显和传统数据库在结构设计上的不同,在创建索引的时候也有所体现.
在图数据库中需要理解三个模块, 节点,关系,标签。
什么是标签,在NEO4J 中 标签可以理解为表,但也不一样,暂时这样理解,因为标签内的节点可以看做一个组
什么是节点: 节点记录着属性,一个节点可以记录多个属性,所以我们理解节点,是行的概念
属性名: 列(不解释了)
这里混乱的就是,表,的概念,按理说一个表有行,而这行信息必然属于这个表,但是在NEO4J 中 节点(行),可以拥有多个标签,也就是这一行可能属于多个表(暂时这样理解,有好的理解方式在改正)。所以就牵扯出关系。
关系就可以理解为传统的主外键之间的联系,但不完全,这里仅仅有关系,没有谁要服从谁的概念。
好吧我知道,说到这里,基本上脑子已经是乱乱的。
下面是一个不和任何传统数据库之间有联想的方式对NEO4J 数据库中的东西进行的总结。
节点,关系和属性是图数据库重要组成部分
节点和关系都包含属性
关系连接节点
属性是键值对
节点用圆圈表示,关系用方向键表示。
关系具有方向:单向和双向。
每个关系包含“开始节点”或“从节点”和“到节点”或“结束节点”
回到具体的工作,下面是一条语句,需要我们
MATCH (e1:Borrower{ApplicationNO_ID:"rt-996899991"}),(e2:borrower) where e1<>e2 and e1.Phone =e2.Phone Merge (e1)-[:`电话=`{Role:'9999999999'}]->(e2)
(数据已经脱敏,都不是真实数据)
大致意思是 E1节点的数据 和 E2 节点的数据去重,然后发现电话相同的情况下,建立一个E1到E2节点的关系,而我们都知道,E1 不等于E2的数据,是要进行 NESTLOOP的操作,必定快不了,而每次更新数据,这么来,必然很慢,实测数据(数据量较少) 在 700-900MS 左右。
NEO4J ,在数据类(表设计)和 查询关系的建立比传统数据库要更烧脑,所以不良好的设计,也会造成问题。
以上已经添加索引了,在 E1 E2 节点中的 PHONE 属性。 但实际上没有帮助,问题在于数据的搜索是节点是所有的属性进行比对,E1 和 E2 中只要有一个属性不同就被挑选出来(这有点类似全行全表扫描),然后还要挑拣出数据中 电话号码相同的情况。然后CREATE 一个关系。
以上这样的逻辑,基本上在大部分数据库中的逻辑查询都是很难搞的。必然牵扯全表扫描。
所以目前两种方法可行, 1 在传统数据库中进行数据的过滤,直接将这样的数据过滤出来,直接插入到 NEO4J中。
2 可以尝试REDIS 将两个节点的数据上传,进行REDIS 之间的KEY VALUE的比对,终究内存数据库比所有数据库的速度都快。
如果有什么其他好方法,小窗我哈
本文分享自微信公众号 - AustinDatabases(AustinDatabases)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。