Hadoop框架:HDFS读写机制与API详解

Stella981
• 阅读 544

本文源码:GitHub·点这里 || GitEE·点这里

一、读写机制

1、数据写入

Hadoop框架:HDFS读写机制与API详解

  • 客户端访问NameNode请求上传文件;
  • NameNode检查目标文件和目录是否已经存在;
  • NameNode响应客户端是否可以上传;
  • 客户端请求NameNode文件块Block01上传服务位置;
  • NameNode响应返回3个DataNode节点;
  • 客户端通过输入流建立DataNode01传输通道;
  • DataNode01调用DataNode02,DataNode02调用DataNode03,通信管道建立完成;
  • DataNode01、DataNode02、DataNode03逐级应答客户端。
  • 客户端向DataNode01上传第一个文件块Block;
  • DataNode01接收后传给DataNode02,DataNode02传给DataNode03;
  • Block01传输完成之后,客户端再次请求NameNode上传第二个文件块;

2、数据读取

Hadoop框架:HDFS读写机制与API详解

  • 客户端通过向NameNode请求下载文件;
  • NameNode查询获取文件元数据并返回;
  • 客户端通过元数据信息获取文件DataNode地址;
  • 就近原则选择一台DataNode服务器,请求读取数据;
  • DataNode传输数据返回给客户端;
  • 客户端以本地处理目标文件;

二、基础API案例

1、基础演示接口

public interface HdfsFileService {

    // 创建文件夹
    void mkdirs(String path) throws Exception ;

    // 文件判断
    void isFile(String path) throws Exception ;

    // 修改文件名
    void reName(String oldFile, String newFile) throws Exception ;

    // 文件详情
    void fileDetail(String path) throws Exception ;

    // 文件上传
    void copyFromLocalFile(String local, String path) throws Exception ;

    // 拷贝到本地:下载
    void copyToLocalFile(String src, String dst) throws Exception ;

    // 删除文件夹
    void delete(String path) throws Exception ;

    // IO流上传
    void ioUpload(String path, String local) throws Exception ;

    // IO流下载
    void ioDown(String path, String local) throws Exception ;

    // 分块下载
    void blockDown(String path, String local1, String local2) throws Exception ;
}

2、命令API用法

@Service
public class HdfsFileServiceImpl implements HdfsFileService {

    @Resource
    private HdfsConfig hdfsConfig ;

    @Override
    public void mkdirs(String path) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                                               configuration, "root");
        // 2、创建目录
        fileSystem.mkdirs(new Path(path));
        // 3、关闭资源
        fileSystem.close();
    }

    @Override
    public void isFile(String path) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                                               configuration, "root");
        // 2、判断文件和文件夹
        FileStatus[] fileStatuses = fileSystem.listStatus(new Path(path));
        for (FileStatus fileStatus : fileStatuses) {
            if (fileStatus.isFile()) {
                System.out.println("文件:"+fileStatus.getPath().getName());
            }else {
                System.out.println("文件夹:"+fileStatus.getPath().getName());
            }
        }
        // 3、关闭资源
        fileSystem.close();
    }

    @Override
    public void reName(String oldFile, String newFile) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                configuration, "root");
        // 2、修改文件名
        fileSystem.rename(new Path(oldFile), new Path(newFile));
        // 3、关闭资源
        fileSystem.close();
    }

    @Override
    public void fileDetail(String path) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                                               configuration, "root");
        // 2、读取文件详情
        RemoteIterator<LocatedFileStatus> listFiles =
                                    fileSystem.listFiles(new Path(path), true);
        while(listFiles.hasNext()){
            LocatedFileStatus status = listFiles.next();
            System.out.println("文件名:"+status.getPath().getName());
            System.out.println("文件长度:"+status.getLen());
            System.out.println("文件权限:"+status.getPermission());
            System.out.println("所属分组:"+status.getGroup());
            // 存储块信息
            BlockLocation[] blockLocations = status.getBlockLocations();
            for (BlockLocation blockLocation : blockLocations) {
                // 块存储的主机节点
                String[] hosts = blockLocation.getHosts();
                for (String host : hosts) {
                    System.out.print(host+";");
                }
            }
            System.out.println("==============Next==============");
        }
        // 3、关闭资源
        fileSystem.close();
    }

    @Override
    public void copyFromLocalFile(String local, String path) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                                configuration, "root");
        // 2、执行上传操作
        fileSystem.copyFromLocalFile(new Path(local), new Path(path));
        // 3、关闭资源
        fileSystem.close();
    }

    @Override
    public void copyToLocalFile(String src,String dst) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                                               configuration, "root");
        // 2、执行下载操作
        // src 服务器文件路径 ; dst 文件下载到的路径
        fileSystem.copyToLocalFile(false, new Path(src), new Path(dst), true);
        // 3、关闭资源
        fileSystem.close();
    }

    @Override
    public void delete(String path) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                                configuration, "root");
        // 2、删除文件或目录 是否递归
        fileSystem.delete(new Path(path), true);
        // 3、关闭资源
        fileSystem.close();
    }

    @Override
    public void ioUpload(String path, String local) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                                configuration, "root");
        // 2、输入输出流
        FileInputStream fis = new FileInputStream(new File(local));
        FSDataOutputStream fos = fileSystem.create(new Path(path));
        // 3、流对拷
        IOUtils.copyBytes(fis, fos, configuration);
        // 4、关闭资源
        IOUtils.closeStream(fos);
        IOUtils.closeStream(fis);
        fileSystem.close();
    }

    @Override
    public void ioDown(String path, String local) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                configuration, "root");
        // 2、输入输出流
        FSDataInputStream fis = fileSystem.open(new Path(path));
        FileOutputStream fos = new FileOutputStream(new File(local));
        // 3、流对拷
        IOUtils.copyBytes(fis, fos, configuration);
        // 4、关闭资源
        IOUtils.closeStream(fos);
        IOUtils.closeStream(fis);
        fileSystem.close();
    }

    @Override
    public void blockDown(String path,String local1,String local2) throws Exception {
        readFileSeek01(path,local1);
        readFileSeek02(path,local2);
    }

    private void readFileSeek01(String path,String local) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                                configuration, "root");
        // 2、输入输出流
        FSDataInputStream fis = fileSystem.open(new Path(path));
        FileOutputStream fos = new FileOutputStream(new File(local));
        // 3、部分拷贝
        byte[] buf = new byte[1024];
        for(int i =0 ; i < 1024 * 128; i++){
            fis.read(buf);
            fos.write(buf);
        }
        // 4、关闭资源
        IOUtils.closeStream(fos);
        IOUtils.closeStream(fis);
        fileSystem.close();
    }

    private void readFileSeek02(String path,String local) throws Exception {
        // 1、获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(new URI(hdfsConfig.getNameNode()),
                configuration, "root");
        // 2、输入输出流
        FSDataInputStream fis = fileSystem.open(new Path(path));
        // 定位输入数据位置
        fis.seek(1024*1024*128);
        FileOutputStream fos = new FileOutputStream(new File(local));
        // 3、流拷贝
        IOUtils.copyBytes(fis, fos, configuration);
        // 4、关闭资源
        IOUtils.closeStream(fos);
        IOUtils.closeStream(fis);
        fileSystem.close();
    }
}

3、合并切割文件

cat hadoop-2.7.2.zip.block1 hadoop-2.7.2.zip.block2 > hadoop.zip

三、机架感知

Hadoop2.7的文档说明

Hadoop框架:HDFS读写机制与API详解

第一个副本和client在一个节点里,如果client不在集群范围内,则这第一个node是随机选取的;第二个副本和第一个副本放在相同的机架上随机选择;第三个副本在不同的机架上随机选择,减少了机架间的写流量,通常可以提高写性能,机架故障的概率远小于节点故障的概率,因此该策略不会影响数据的稳定性。

四、网络拓扑

HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据,基于机架感知,NameNode就可以画出上图所示的datanode网络拓扑图。D1,R1都是交换机,最底层是datanode。

Hadoop框架:HDFS读写机制与API详解

Distance(/D1/R1/N1,/D1/R1/N1)=0  相同的节点
Distance(/D1/R1/N1,/D1/R1/N2)=2  同一机架下的不同节点
Distance(/D1/R1/N1,/D1/R2/N1)=4  同一IDC下的不同datanode
Distance(/D1/R1/N1,/D2/R3/N1)=6  不同IDC下的datanode

五、源代码地址

GitHub·地址
https://github.com/cicadasmile/big-data-parent
GitEE·地址
https://gitee.com/cicadasmile/big-data-parent

Hadoop框架:HDFS读写机制与API详解

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
Java获得今日零时零分零秒的时间(Date型)
publicDatezeroTime()throwsParseException{    DatetimenewDate();    SimpleDateFormatsimpnewSimpleDateFormat("yyyyMMdd00:00:00");    SimpleDateFormatsimp2newS
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这