大数据
课程安排 一、大数据概述 二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序 八、PythonSpark集成开发环境 九、PythonSpark决策树二分类与多分类 十、PythonSpark支持向量机 十一
Stella981 Stella981
3年前
Apache Flink on K8s:四种运行模式,我该选择哪种?
1\.前言ApacheFlink是一个分布式流处理引擎,它提供了丰富且易用的API来处理有状态的流处理应用,并且在支持容错的前提下,高效、大规模的运行此类应用。通过支持事件时间(eventtime)、计算状态(state)以及恰好一次(exactlyonce)的容错保证,Flink迅速被很多公司采纳,成为了新一代的流计算处理引擎。
Stella981 Stella981
3年前
Apache Flink漏洞复现
简介ApacheFlink是高效和分布式的通用数据处理平台,由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎(简单来说,就是跟spark类似)。Flink具有监控API,可用于查询"正在运行的jobs"和"最近完成的jobs"的状态和统计信息。该监控API被用于Flink自
Stella981 Stella981
3年前
Hadoop+Spark分布式集群环境搭建
  Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,而Spark是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。下面使用在同一个局域网下的两台电脑搭建分布式计算的环境:  其中JDK、Hadoop、Spark都已经在两台电脑上安装好。  一台Ubuntu主机系统Master,IP地址假设为:192.168.1.101(i
Stella981 Stella981
3年前
Spring Boot 2.x 快速集成Kafka
1KafkaKafka是一个开源分布式的流处理平台,一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Kafka由Scala和Java编写,2012年成为Apache基金会下顶级项目。2Kafka优点低延迟:Kafka支持低延迟消息传递,速度极快,能达到200w写/秒
Stella981 Stella981
3年前
Disconf 分布式配置管理平台(安装配置)
Disconf分布式配置管理平台(安装配置)依赖环境Nginx:处理静态资源请求、动态请求转发到TomcatTomcat:处理Nginx的请求Redis:用户session管理MySQL:应用管理、用户管理、角色管理、环境管理、配置持久化Zookeeper:管理Disconf配置信息
Wesley13 Wesley13
3年前
Riak
分布式高可用键值对数据库Riak背景篇(3)Dynamo对于数据版本的处理数据版本问题不止存在于分布式系统,这里针对分布式数据库系统简单讨论下。先看一个简单的例子,用户x对key1做了一次写入操作,我们设值是数字3。然后用户y读取了key1,这个时候用户y知道的
Stella981 Stella981
3年前
Hadoop技术原理总结
Hadoop技术原理总结1、Hadoop运行原理Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce和HDFS。基于Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。基于MapReduce计算模型编写分布式并行程序相对简单,
Wesley13 Wesley13
3年前
Selenium2 Python 自动化测试实战学习笔记(八)
Python多线程分布式和并行是完全不同的概念,分布式只负责将一个测试脚本可调用不同的远程环境来执行;并行强调“同时”的概念,它可以借助多线程或多进程技术并行来执行脚本技术。10.1单进程的时代        在单线程的时代,当处理器要处理多个任务时,必须要对这些任务排一下执行顺序并按照这个顺序