MongoDB聚合查询

Wesley13
• 阅读 620

ps:以前都在iteye写博文,现在工作换了,转战前端,基本告别了java和python,看这边氛围还不错,就把那里的博客迁移过来了~~~

出于对性能的要求,公司希望把Mysql的数据迁移到MongoDB上,于是我开始学习Mongo的一些CRUD操作,由于第一次接触NoSQL,还是有点不习惯。

先吐个槽,公司的Mongo版本是2.6.4,而用的java驱动包版本是超级老物2.4版。当时一个“如何对分组后的文档进行筛选”这个需求头痛了很久,虽然shell命令下可以使用Aggregation很方便地解决,但是java驱动包从2.9.0版本才开始支持该特性,我至今没有找到不用Aggregation解决上述需求的办法。只能推荐公司升级驱动包版本,希望没有后续的兼容问题。

Mongo2.2版本后开始支持Aggregation Pipeline,而java驱动包从2.9.0版本才开始支持2.2的特性,2.9版本是12年发布的,mongodb在09年就出现了,似乎Mongo对java的开发者不怎么友好←_←

MongoDB目前提供了三个可以执行聚合操作的命令:aggregate、mapReduce、group。三者在性能和操作的优劣比较见官网提供的表格 Aggregation Commands Comparison,这里不再赘述细节。

aggregate、mapReduce、group原型及内部实现

我从官网总结出来了这三个函数的原型及底层封装的命令

函数名:db.collection.group()

函数原型:

db.collection.group(
    {
        key,
        reduce,
        initial
        [, keyf]
        [, cond]
        [, finalize]
    }
)

封装的命令:

db.runCommand(
    {
      group:
       {
        ns: <namespace>,
        key: <key>,
        $reduce: <reduce function>,
        $keyf: <key function>,
        cond: <query>,
        finalize: <finalize function>
       }
    }
)

函数名:db.collection.mapReduce()

函数原型:

db.collection.mapReduce(
    <map>,
    <reduce>,
    {
        out: <collection>,
        query: <document>,
        sort: <document>,
        limit: <number>,
        finalize: <function>,
        scope: <document>,
        jsMode: <boolean>,
        verbose: <boolean>
    }
)

封装的命令:

db.runCommand(
    {
    mapReduce: <collection>,
    map: <function>,
    reduce: <function>,
    finalize: <function>,
    out: <output>,
    query: <document>,
    sort: <document>,
    limit: <number>,
    scope: <document>,
    jsMode: <boolean>,
    verbose: <boolean>
    }
)

函数名:db.collection.aggregate()

函数原型:

db.collection.aggregate(
    pipeline,
    options
)

封装的命令:

db.runCommand(
    {
      aggregate: "<collection>",
      pipeline: [ <stage>, <...> ],
      explain: <boolean>,
      allowDiskUse: <boolean>,
      cursor: <document>
    }
)

Mysql与MongoDB对聚合处理的对比

好记性不如烂笔头,下面通过操作来了解这几个函数和命令

1、准备测试数据

先准备SQL的测试数据(用来验证结果、比较SQL语句和NoSQL的异同):

先创建数据库表:

create table dogroup (  
       _id int,  
       name varchar(45),  
       course varchar(45),  
       score int,  
       gender int,  
       primary key(_id)  
);

 插入数据:

insert into dogroup (_id, name, course, score, gender) values (1, "N", "C", 5, 0);  
insert into dogroup (_id, name, course, score, gender) values (2, "N", "O", 4, 0);  
insert into dogroup (_id, name, course, score, gender) values (3, "A", "C", 5, 1);  
insert into dogroup (_id, name, course, score, gender) values (4, "A", "O", 6, 1);  
insert into dogroup (_id, name, course, score, gender) values (5, "A", "U", 8, 1);  
insert into dogroup (_id, name, course, score, gender) values (6, "A", "R", 8, 1);  
insert into dogroup (_id, name, course, score, gender) values (7, "A", "S", 7, 1);  
insert into dogroup (_id, name, course, score, gender) values (8, "M", "C", 4, 0);  
insert into dogroup (_id, name, course, score, gender) values (9, "M", "U", 7, 0);  
insert into dogroup (_id, name, course, score, gender) values (10, "E", "C", 7, 1);

接着准备MongoDB测试数据:

创建Collection(等同于SQL中的表,该行可以不写,Mongo会在插入数据时自动创建Collection)

db.createCollection("dogroup")

插入数据:

db.dogroup.insert({"_id": 1,"name": "N",course: "C","score": 5,gender: 0})
db.dogroup.insert({"_id": 2,"name": "N",course: "O","score": 4,gender: 0})
db.dogroup.insert({"_id": 3,"name": "A",course: "C","score": 5,gender: 1})
db.dogroup.insert({"_id": 4,"name": "A",course: "O","score": 6,gender: 1})
db.dogroup.insert({"_id": 5,"name": "A",course: "U","score": 8,gender: 1})
db.dogroup.insert({"_id": 6,"name": "A",course: "R","score": 8,gender: 1})
db.dogroup.insert({"_id": 7,"name": "A",course: "S","score": 7,gender: 1})
db.dogroup.insert({"_id": 8,"name": "M",course: "C","score": 4,gender: 0})
db.dogroup.insert({"_id": 9,"name": "M",course: "U","score": 7,gender: 0})
db.dogroup.insert({"_id": 10,"name": "E",course: "C","score": 7,gender: 1})

以下操作可能逻辑上没有实际意义,主要是帮助熟悉指令

2、查询每门课程参与考试的人数

SQL写法:

select course as '课程名', count(*) as '数量' from dogroup group by course;

MongoDB写法:

① group方式

db.dogroup.group({  
key : { course: 1 },  
initial : { count: 0 },  
reduce : function Reduce(curr, result) {  
    result.count += 1;  
},  
finalize : function Finalize(out) {  
    return {"课程名": out.course, "数量": out.count};  
}  
});

 返回的格式如下:

{  
        "课程名" : "C",  
        "数量" : 4  
},  
{  
        "课程名" : "O",  
        "数量" : 2  
},  
{  
        "课程名" : "U",  
        "数量" : 2  
},  
{  
        "课程名" : "R",  
        "数量" : 1  
},  
{  
        "课程名" : "S",  
        "数量" : 1  
}

② mapReduce方式

db.dogroup.mapReduce(  
    function () {  
        emit(  
            this.course,  
            {course: this.course, count: 1}  
        );  
    },  
    function (key, values) {  
        var count = 0;  
        values.forEach(function(val) {  
            count += val.count;  
        });  
        return {course: key, count: count};  
    },  
    {  
        out: { inline : 1 },  
        finalize: function (key, reduced) {  
            return {"课程名": reduced.course, "数量": reduced.count};  
        }  
    }  
)

这里把count初始化为1的原因是,MongoDB执行完map函数(第一个函数)后,如果key所对应的values数组的元素个数只有一个,reduce函数(第二个函数)将不会被调用。

返回的格式如下:

{  
      "_id" : "C",  
      "value" : {  
              "课程名" : "C",  
              "数量" : 4  
      }  
},  
{  
      "_id" : "O",  
      "value" : {  
              "课程名" : "O",  
              "数量" : 2  
      }  
},  
{  
      "_id" : "R",  
      "value" : {  
              "课程名" : "R",  
              "数量" : 1  
      }  
},  
{  
      "_id" : "S",  
      "value" : {  
              "课程名" : "S",  
              "数量" : 1  
      }  
},  
{  
      "_id" : "U",  
      "value" : {  
              "课程名" : "U",  
              "数量" : 2  
      }  
}

③ aggregate方式

db.dogroup.aggregate(  
    {  
        $group:  
        {  
            _id: "$course",  
            "数量": { $sum: 1 }  
        }  
    }  
)

返回格式如下:

{ "_id" : "S", "数量" : 1 }  
{ "_id" : "R", "数量" : 1 }  
{ "_id" : "U", "数量" : 2 }  
{ "_id" : "O", "数量" : 2 }  
{ "_id" : "C", "数量" : 4 }

以上三种方式中,group得到了我们想要的结果,mapReduce返回的结果只能嵌套在values里面,aggregate必须返回_id,无法为分组的字段指定别名,但是无疑第三种是最简单的。

虽然上面的问题不影响程序在前台展现数据,但是对于一个略微有强迫症的开发者确实难以忍受的。本人才疏学浅,刚接触Mongo,不知道后两者有没有可行的方法来获取想要的结果,希望网友指教。

3、查询Docouments(等同于SQL中记录)数大于2的课程

SQL写法:

select course, count(*) as count from dogroup group by course having count > 2;

MongoDB写法:

① aggregate方式(注意$group和$match的先后顺序)

db.dogroup.aggregate({  
    $group: {  
        _id: "$course",  
        count: { $sum: 1 }  
    }  
    },{  
    $match: {  
        count:{  
            $gt: 2  
        }  
    }  
});

 目前尚未找到group和mapReduce对分组结果进行筛选的方法,欢迎网友补充

4、找出所有分数高于5分的考生数量及分数,返回的格式为“分数、数量”

SQL写法:

select score as '分数', count(distinct(name)) as '数量' from dogroup where score > 5 group by score;

MongoDB写法:

① group方式

db.dogroup.group({  
    key : { score: 1 },  
    cond : { score: {$gt: 5} },  
    initial : { name:[] },  
    reduce : function Reduce(curr, result) {  
        var flag = true;  
        for(i=0;i<result.name.length&&flag;i++){  
            if(curr.name==result.name[i]){  
                flag = false;  
            }  
        }  
        // 如果result.name数组里面没有curr.name则添加curr.name  
        if(flag){  
            result.name.push(curr.name);  
        }  
    },  
    finalize : function Finalize(out) {  
        return {"分数": out.score, "数量": out.name.length};  
    }  
});

② mapReduce方式

db.dogroup.mapReduce(  
    function () {  
        if(this.score > 5){  
            emit(  
                this.score,  
                {score: this.score, name: this.name}  
            );  
        }  
    },  
    function (key, values) {  
        var reduced = {score: key, names: []};  
        var json = {};//利用json对象的key去重  
        for(i = 0; i < values.length; i++){  
            if(!json[values[i].name]){  
                reduced.names.push(values[i].name);  
                json[values[i].name] = 1;  
            }  
        }  
        return reduced;  
    },  
    {  
        out: { inline : 1 },  
        finalize: function (key, reduced) {  
            return {"分数": reduced.score, "数量": reduced.names?reduced.names.length:1};  
        }  
    }  
)

③ aggregate方式

db.dogroup.aggregate({  
        $match: {  
            score: {  
                $gt: 5  
            }  
        }  
    },{  
        $group: {  
            _id: {  
                score: "$score",  
                name: "$name"  
            }  
        }  
    },{  
        $group: {  
            _id: {  
                "分数": "$_id.score"  
            },  
            "数量": { $sum: 1 }  
        }  
});

弄熟上面这几个方法,大部分的分组应用场景应该没大问题了。

这张图示可以更直观地理解(点击看大图):

MongoDB聚合查询

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这