hadoop所有文章-最新hadoop相关文章汇总-第19页-HelloWorld开发者社区

•

4年前

上一章分享了IKAnalyzer中文分词及词频统计基于Hadoop的MapReducer框架Java实现。这次将与大家分享Jieba中文分词Python简单实现，由于Jieba分词是基于词频最大切分组合，所以不用做词频统计，可以直接得到其关键字。1、安装jieba安装方式可以查看博主的中文分词工具（http://my.oschina.net/ea

Stella981

•

4年前

Hadoop 2.8 二进制包安装和配置

环境：centos7准备工作：三台机器（内存大于2G）分别写hosts、设定hostname192.168.8.139master192.168.8.131slave1192.168.8.132slave2关闭防火墙关闭selinux关闭firewalld

Wesley13

•

4年前

VMware中 CentOS7挂载windows共享文件夹

在编译自己的hadoop时，不想再次在虚拟机中下载jar包，就想到了挂载自己本地的maven仓库，使用本地仓库来进行编译，这里就需要使用VMware的VMwareTools了，直接复制官方文档(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fdocs.vmware.com%2Fcn%2

Wesley13

•

4年前

HDFS的升级管理

升级HDFS的概要过程和命令Hadoop的官方文档中，对于HDFS的升级建议分三个步骤，1，先停掉HDFS服务，再启动，HDFS合并FsEditLog到FsImage之中，再停掉HDFS服务，2，备份namenode的meta文件，在新版本HDFS安装目录的配置文件中，配置namenode的meta文件目录指向旧有的meta文件目录，以upg

Wesley13

•

4年前

HDFS目录（文件）权限管理

用户身份在1.0.4这个版本的Hadoop中，客户端用户身份是通过宿主操作系统给出。对类Unix系统来说，用户名等于\whoami\；组列表等于\bashcgroups\。将来会增加其他的方式来确定用户身份（比如Kerberos、LDAP等）。期待用上文中提到的第一种方式来防止一个用户

Stella981

•

4年前

Clickhouse v18编译记录

简介ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库，是面向OLAP的分布式列式DBMS，圈内人戏称为“喀秋莎数据库”。ClickHouse有一个简称"CK"，与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量级，其特点：列式存

Stella981

•

4年前

Hbase启动hbase shell运行命令报Class path contains multiple SLF4J bindings.错误

1：Hbase启动hbaseshell运行命令报ClasspathcontainsmultipleSLF4Jbindings.错误，是因为jar包冲突了，所以对于和hadoop的jar包冲突的，可以将其他jar包删除，如果你不确定是否删除正确，可以将其他的jar包复制备份或者修改名称，确保操作以后失败了，还可以找回。SLF4J:Cl

Stella981

•

4年前

HBase 架构和 Java Api

HBase架构HBase是Hadoop的数据库，能够对大数据提供随机、实时读写访问。他是开源的，分布式的，多版本的，面向列的，存储模型。在讲解的时候我首先给大家讲解一下HBase的整体结构，如下图!(https://static.oschina.net/uploads/space/2016/1124/172034_9o3y

Wesley13

•

4年前

Hadoop2.4编译伪分布安装集群安装笔记

安装hadoop的时候每次重新安装都有些配置会记不太清楚，要去查询很麻烦这次做了个笔记，在这里和大家分享下，如果内容有错误，请指正。因为是从word中复制出来的截的图片都没了，可以从下面链接中下载到word原版！之前没有写博客的习惯，以后会陆续分享一些之前的笔记!!微笑(http://static.oschina.net/uploads/img/2015

小白学大数据

•

1年前

使用Hadoop MapReduce进行大规模数据爬取

HadoopMapReduce概述HadoopMapReduce是一个编程模型，用于处理和生成大数据集。它由Map和Reduce两个主要阶段组成。Map阶段负责处理输入数据，并将结果输出为键值对；Reduce阶段则对Map阶段的输出进行汇总和合并，生成最终