数据存储-大数据的三种存储方式
互联网时代各种存储框架层出不穷,眼花缭乱,比如传统的关系型数据库:Oracle、MySQL;新兴的NoSQL:HBase、Cassandra、Redis;全文检索框架:ES、Solr等。如何为自己的业务选取合适的存储方案,相信大家都思考过这个问题,本文简单聊聊我对Mysql、HBase、ES的理解,希望能和大家一起探讨进步,有不对的地方还请指出。MySQL:
CuterCorley CuterCorley
3年前
Python数据分析实战(1)数据分析概述
一、入门数据分析1.大数据时代的基本面大数据产业发展现状:现在数据已经呈现出了爆炸式的增长,每一分钟可能就会有:13000个iPhone应用下载Twitter上发布98000新微博发出1.68亿条Email淘宝双十一10680个新订单12306出票1840张在大数据时代,出现了三大变革:从随机样本到全量数据
BichonCode BichonCode
3年前
大数据排序
一、如何给100亿个数字进行排序? 1.1解答:1.把这个37GB的大文件,用哈希分成1000个小文件,每个小文件平均38MB左右(理想情况),把100亿个数字对1000取模,模出来的结果在0到999之间,每个结果对应一个文件,所以我这里取的哈希函数是hx%1000,哈希函数取得"好",能使冲突减小,结果分布均匀。2.拆分完了之后
Wesley13 Wesley13
3年前
mysql数据库中的数据导入与导出
需求:  在本地电脑上的mysql中创建了一个数据库,并且在该数据库中创建了很多表,表中数据比较多;  现在想换一台电脑,但是又不想重新建数据库、建表、造数据。解决方案:  利用mysql提供的命令,在本地将所需数据和表导出成.sql文件;  然后在另外一台电脑中使用mysql提供的命令,将导出的.sql文件导入,这样就能
Stella981 Stella981
3年前
GeoJson数据合并
本文主要是基于geojsonmerge,实现多个geojson文件合并为一个geojson文件,以便实现基于该文件进行数据分析展示geojson合并概述当前在datav的geoatlas中,可以下载单个地市或区县的数据,例如福建省下面每个地市都可以单独下载一个geojson文件,现在需要将所有地市的geojson合并为
Stella981 Stella981
3年前
Django上传excel表格并将数据写入数据库
前言:  最近公司领导要统计技术部门在各个业务条线花费的工时百分比,而jira当前的Tempo插件只能统计个人工时。于是就写了个报表工具,将jira中导出的个人工时excel表格导入数据库,在后端处理各个业务工时占比。后来研究了jira的API文档,放弃了之前的思路,直接调用jira API处理数据,这个先不谈。这
Stella981 Stella981
3年前
Kettle下实现Excel数据导入至数据库
Kettle下实现Excel数据导入至数据库https://www.lanhusoft.com/Article/723.html(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.lanhusoft.com%2FArticle%2F723.html)本文分享CSD
Wesley13 Wesley13
3年前
mysql数据过滤
1、AND操作符:select表的字段名from对应的表名where表的字段名AND表的字段名运算符值;例子:selectprod\_id,prod\_price,prod\_namefromproductswhereven\_id1003ANDprod\_price<10;2、OR操作符:sele
Stella981 Stella981
3年前
Python大数据分析(二):大数据技术基础
文章目录(一)Linux系统和大数据(二)Hadoop(1)Hadoop包含哪些模块?(2)Hadoop的生态成员(3)哪些人在使用Hadoop?(三)Spark(1)Scala(2)RDD(3)主件(四)云计算(1)虚拟化技术
数据分析七大能力:梳理数据需求
大数据数据分析数据需求,就是业务部门对数据分析产出的需求。有小伙会说:这还有需求呀,我们公司都是一通电话:“歪!给我个XX数据,快!”就完事了,根本不存在啥需求。大家好,我是爱学习的小xiong熊妹。今天分享数据分析师必备的工作能力——需求梳理。需求梳理很不起眼,甚至很多小伙伴感受不到他的存在。但它结结实实影响到大家的下班时间和绩效。一、什么是数据需求?顾名