Elasticsearch Dynamic Mapping(动态映射机制)

Stella981
• 阅读 643

Elasticsearch可以根据待索引数据自动建立索引、自动定义映射类型。

1PUT data/_doc/1 2{ "count": 5 }

执行上述请求时,索引"data"不必预先创建,该API首先会自动创建索引data、类型映射_doc,其映射类型下包含字段count,其类型为long。自动根据文档的值推测其类型的过程,就是本文要重点描述的机制:动态类型映射机制。动态映射机制包含如下两种映射规则:

  • Dynamic field mappings

  • Dynamic templates

接下来就分别介绍上述两种动态映射规则。

字段动态映射

动态字段映射规则。默认情况下,当在文档中发现未存在的字段时,Elasticsea-rch将使用动态映射机制为字段添加映射定义。通过将映射参数dynamic设置为f-alse(忽略新字段)或strict(遇到未知字段时抛出异常),可以在文档和对象级别禁用此行为。

类型关系对应表

JSON datatype

Elasticsearch datatype

null

不会自动增加类型映射

true or false

boolean

floating

float

integer

long

object

object

array

根据数组中第一个非空值来判断

string

date、double、long、text(带有keyword子字段)

Date detection

日期类型检测,如果启用了date_dete-ction(默认),那么将检查新增的字符串字段,以查看它们的内容是否匹配dyn-amic_date_format中指定的任何日期模式。如果匹配其中任意一种格式,则添加字段映射时,字段的类型为date,并指定日期的format为匹配的模式。例如-:

1PUT my_index/_doc/12{3  "create_date": "2015/09/02"4}

由于create_date字段在json中的类型是字符串,但如果date_detection设置为t-rue,则creqate_date会映射为date类型而不是string类型。

可以在类型_type级别设置是否开启日期类型检测(date_detection),示例如下:

1PUT my_index2{3  "mappings": {4    "_doc": {5      "date_detection": false6    }7  }8}

定制日期类型检测格式

可以通过类型级别(_type)级别通过dyn-amic_date_formats参数来自定义日期检测格式,示例如下:

 1PUT my_index 2{ 3 "mappings": { 4   "_doc": { 5     "dynamic_date_formats": ["MM/dd/yyyy"] 6   } 7 } 8} 910PUT my_index/_doc/111{12 "create_date": "09/25/2015"13}

numeric detection

数字类型检测。同样如果数字类型的值在JSON中是用字符串表示的话,如果开启日期类型检测,同样在创建映射时会映射为数字类型,而不是字符串类型-。

1PUT my_index2{3  "mappings": {4    "_doc": {5      "numeric_detection": true6    }7  }8}

默认情况下,numeric_detection为fal-se。

动态映射模板

Dynamic field mappings默认情况下根据elasticsearch支持的数据类型来推测参-数值的类型,而动态模板允许您改变字-段动态映射的默认行为。动态映射模板-通过如下方式进行定义:

1"dynamic_templates": [      // @12    {3      "my_template_name": {    // @24        ...  match conditions ...    // @35        "mapping": { ... }              // @46      }7    },8    ...9  ]

代码@1:在类型映射时通过dynamic_-templates属性定义动态映射模板,其类型为数组。
代码@2:定义动态映射模板名称。
代码@3:匹配条件,定义方式包括ma-tch_mapping_type、match、 match_p-attern、unmatch、path_match、path_-unmatch。
代码@4:匹配@3的字段使用的类型映射定义(映射参数为类型映射中支持的参数)。

动态类型映射模板的核心关键是匹配条件与类型映射,接下来按照匹配条件定义方式来重点讲解动态类型模板映射机制。

match_mapping_type

首先使用json解析器解析字段值的类型-,由于JSON不能区分long和integer,也不能区分double和float,所以它总是选-择更广泛的数据类型,例如5,在使用字段动态映射时,elasticsearch会将字段-动态映射为long而不是integer类型,那-如何将数字5动态映射为integer类型呢,利用match_mapping_type可以实现上述需求,例如,如果希望将所有整数字段-映射为整数而不是long,并将所有字符-串字段映射为文本和关键字,可以使用-以下模板:

 1PUT my_index 2{ 3  "mappings": { 4    "_doc": { 5      "dynamic_templates": [ 6        { 7          "integers": { 8            "match_mapping_type": "long", 9            "mapping": {10              "type": "integer"11            }12          }13        },14        {15          "strings": {16            "match_mapping_type": "string",17            "mapping": {18              "type": "text",19              "fields": {20                "raw": {21                  "type":  "keyword",22                  "ignore_above": 25623                }24              }25            }26          }27        }28      ]29    }30  }31}

一言以蔽之,match_mapping_type为字段动态映射(字段类型检测)得出的类型-建立一个映射关系,将该类型转换为m-apping定义中的类型。

match、unmatch

match参数使用模式匹配字段名,而un-match使用模式排除匹配匹配的字段。

match、unmatch示例如下:

 1PUT my_index 2{ 3  "mappings": { 4    "_doc": { 5      "dynamic_templates": [ 6        { 7          "longs_as_strings": { 8            "match_mapping_type": "string",   // @1 9            "match":   "long_*",                        // @210            "unmatch": "*_text",                       // @311            "mapping": {                                  // @412              "type": "long"13            }14          }15        }16      ]17    }18  }19}20PUT my_index/_doc/121{22  "long_num": "5",       // @523  "long_text": "foo"      // @624}

代码@1:表示该自动映射模板针对的字段为JSON解析器检测字段的类型为stri-ng的新增字段。
代码@2:字段名称以long_开头的字段-。
代码@3:排除字段名称以_text的字段。
代码@4:符合long_开头的字段,并且不是以_text结尾的字段,如果JSON检测为string类型的新字段,映射为long。
代码@5:long_num,映射类型为lon-g。
代码@6:long_text虽然也满足long_开-头,但是以_text结尾,故该字段不会映射为long,而是保留其JSON检测到的类型string,会映射为text字段和keyword-多字段(参考字段动态映射机制)。

match_pattern

使用正则表达式来匹配字段名称。

 1"dynamic_templates": [ 2  { 3    "longs_as_strings": { 4       "match_mapping_type": "string",   5    "match_pattern": "regex",   // @1 6       "match": "^profit_\d+$"       // @2 7       "mapping": {                                   8           "type": "long" 9        }10    }11  }12]

代码@1:设置匹配模式为regex代表ja-va正则表达式
代码@2:java正则表达式

path_match、path_unmatch

path_match与path_unmatch的工作方式与match、unmatch一样,只不过path_-match是针对字段的全路径,特别是针--对嵌套类型(object、nested)。

下面一个示例:将name下的字段除了middle字段为copy到name属性并列的full_name字段中。

 1PUT my_index 2{ 3  "mappings": { 4    "_doc": { 5      "dynamic_templates": [ 6        { 7          "copy_full_name": { 8            "path_match":   "name.*", 9            "path_unmatch": "*.middle",10            "mapping": {11              "type":       "text",12              "copy_to":    "full_name"13            }14          }15        }16      ]17    }18  }19}20PUT my_index/_doc/121{22  "name": {23    "first":  "Alice",24    "middle": "Mary",25    "last":   "White"26  }27}

{name}、{dynamic_type}

  • {name}展位符,表示字段的名称。

  • {dynamic_type}:JSON解析器解析到的字段类型。

    1PUT my_index 2{ 3  "mappings": { 4    "_doc": { 5      "dynamic_templates": [ 6        { 7          "named_analyzers": {                           // @1 8            "match_mapping_type": "string", 9            "match": "",10            "mapping": {11              "type": "text",12              "analyzer": "{name}"13            }14          }15        },16        {17          "no_doc_values": {                         // @218            "match_mapping_type":"",19            "mapping": {20              "type": "{dynamic_type}",21              "doc_values": false22            }23          }24        }25      ]26    }27  }28}2930PUT my_index/_doc/131{32  "english": "Some English text", 33  "count":   5 34}

代码@1:映射模板的含义为:对所有匹配到的字符串类型,类型映射为text,对应的分析器的名称与字段名相同,这个在使用时慎重,可能不存在同名的分析器,本例只是一个展示。
代码@2:对于匹配到的任何类型,其映射定义为类型为自动检测的类型,并且禁用doc_values=false。


更多文章请关注微信公众号:

Elasticsearch Dynamic Mapping(动态映射机制)

本文分享自微信公众号 - 中间件兴趣圈(dingwpmz_zjj)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这