Neo4j和Elasticsearch

Stella981
• 阅读 756

Neo4j和Elasticsearch

Neo4j和Elasticsearch是一种让人眼前一亮的组合,为什么需要把搜索和图表结合起来呢?它们是如何使用的呢?

在无处不在的互联网搜索引擎的推动下,全文搜索占据了主导地位。图形数据库在高度连接的领域上支持事务性和分析性。将两者结合在一起可以增强基于图的搜索结果,比如推荐特性或概念搜索,还可以将高级搜索结果作为图遍历的入口点。

基于推荐的多元化搜索

以下是案例是产品搜索,零售商(亚马逊,eBay,Target等)会经常用到。文本搜索和目录导航不仅仅是用户入口,还是主要的“销售人员”。与专业的搜索引擎相比,这里说的搜索“条目”集更加可控和规范。

对于搜索基础设施,需考虑到这些方面

多个数据源

产品和相关信息来自各种异构源,如产品供应商、信息提供者和销售商。

营销策略

创建新的促销、优惠和营销活动来推广网站或特定产品。所有这些都会影响结果提升。

个性化

为了提供更好、更个性化的用户体验,必须捕获、处理和使用:点击、购买、搜索查询等用户行为来个性化搜索结果。

供应商信息

产品供应商是最重要的,它们提供诸如数量、可用性、交付选项、时间以及产品细节等信息。

所有这些需求和数据源都会以几种方式影响搜索结果。为电商供应商设计搜索,需要一个完整的数据生态系统和相关数据流,用于管理他们的平台。

搜索的价值

搜索是用户和搜索引擎之间的对话

搜索在现代应用中无处不在。是海量数据中查找相关信息的最快方法。搜索引擎需要能够通过用户的搜索词提供相关结果,并进一步细化和过滤搜索。

Faceting(分组)

初始搜索结果通常过于宽泛,需要进行过滤或细化,例如,使用facets,Facets是从搜索结果派生的类别,用于缩小搜索范围。
每个facet代表结构化信息的属性,如类别,价格,颜色,位置等,并包含结果的数量。

搜索引擎内部组成

Indexing(索引)

处理文档使其可用于搜索。

User input(用户输入)

用户通过用户界面或API发送搜索请求。

Ranking(排名)

搜索引擎将输入与索引进行比较,并根据文档与查询的匹配程度对文档进行排序。

Results display(结果显示)

将结果返回给用户界面。

索引是具有某些共同特征的文档的集合,例如,客户数据、产品目录、订单数据等,用这些数据建立不同的索引。

它由一个名称标识(全小写),用于对包含的文档执行索引、搜索、更新和删除操作。文档是建立索引的基本信息单元,这些索引中存储了任意数量的JSON文档,文档的类型不同。

Indexing

分析和准备添加到索引的文档,以便在Lucene和其他相关结构中创建反向索引数据结构,从而在搜索期间快速检索结果,这些是文档分析的步骤:

Tokenization

将字符串分解为要索引的令牌

对标点、数字和其他符号的一致处理

处理复合词的多个标记以匹配可能的输入

Downcasing

对于不区分大小写的搜索,所有单词都转换为小写。

Stemming/stopword removal

去掉后缀、复数和共轭的单词

Synonym expansion

删除常用词

更新的搜索引擎会保留它们以获得更好的结果

通过同义词库解析同义词并添加到索引中

另外,同义词解析也可以在搜索词上进行

创建索引的示例

在Elasticsearch中,在索引创建过程中,可以指定:

索引的所有设置

    碎片和副本的数量

    自定义分析

定义文档和其包含的字段以及如何存储和索引的映射。要为customer的名称和描述字段(使用预定义的英文文本分析器)创建一个简单的索引,需要使用一个切分和两个副本:

 PUT customers { "settings" : { "number\_of\_shards" : 1, "number\_of\_replicas": 2 }, "mappings" : { "customer" : { "properties" : { "name" : { "type" : "keyword" }, "description" : { "type" : "text", "analyzer": "english" } } } } }

有关创建Elasticsearch索引的更多细节,请参阅官网文档

搜索查询语言(Search Query Language)

Elasticsearch提供搜索API和基于json的进行查询定义的DSL。

DSL有两种类型的子句:

叶子句(Leaf clauses)

检查字段中的特定值(例如,匹配、术语或范围查询)。这些可以单独使用。

复合子句(Compound clauses)

包装其他leaf或复合子句,以合乎逻辑的方式组合它们(如bool或dis\_max),或更改它们的行为(如constant\_score)。

查询子句的行为取决于上下文

查询上下文:搜索与查询匹配的文档并根据相关性计算得分

过滤上下文:检查文档是否匹配,不计算分数。

GET /\_search { "query": { "bool": { "must": \[ { "match": { "title": "Search" }}, { "match": { "content": "Elasticsearch" }} \], "filter": \[ { "term": { "status": "published" }}, { "range": { "publish\_date": { "gte": "2015-01-01" }}} \] } } }

更多细节可以参见文档 。由于篇幅所限会在后续文章更新。 

原文地址:https://cs.xieyonghui.com/database/neo4j-and-elasticsearch\_88.html
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这