现在位置: 首页 > Hadoop
这四个项目能放在一起比较的背景应该是分布式计算的演进过程。 开源分布式计算的第一个流行的框架是 Hadoop 项目中的 MapReduce 模块。它将所有计算抽象成 Map 和 Reduce 两个阶段,在计算时通过增加机器,并行的读取数据文件,进行 Map 或 Reduce 的操作,并将结果写到文件中。如此反复得到最终的结果。 上面过程中,每个 Map 和 Reduce 阶段所能表达的计算逻辑是有限的,因此完整的业务逻辑往往包含了多个阶段。注意到每个阶...
阅读全文
要想正确理解一门技术,一定要理解它产生的背景,解决的问题。 背景一:世界需要更多的计算能力 信息技术时代的基石是建立在“计算”之上的。以搜索引擎为例,早期的搜索引擎是人工分类索引的,类似黄页,但是随着网站数量的增多,人工索引的工作量变得巨大,而且更新时效低得难以忍受了。后来的一波搜索引擎都采用了由计算机算法自动索引,查找相关文档,并排序展示的方式。这种方式就导致了对计算能力的巨大需求,类似的趋势出...
阅读全文
问题描述: 搭建私有云平台选择Hadoop还是OpenStack? 想搭建一个私有云平台,主要是用于机器人工作站的各种传感器、相机等传感设备对工业作业现场环境数据的采集和实时处理,为机器人的运动提供决策。传感器采集的数据量大且该系统希望实时性较好,所以希望数据处理等过程快而准确。 最近在调研各种组件各种工具,但是资料太多眼花缭乱了。据我目前了解的话,Hadoop更侧重的是分布式存储和计算,而OpenStack则是对平台和虚拟机...
阅读全文
2017-12-05 22:25 工业·编程 ⁄ 共 4111字 暂无评论
1.hadoop-3.0要求JDK版本不低于1.8,对之前的Java版本不再提供支持. 所有Hadoop JAR现在都是针对Java 8的运行时版本编译的。 2.部分服务默认端口修改,不再绑定到Linux临时端口 (HDFS-9427,HADOOP-12811) Namenode ports: 50470 --> 9871, 50070--> 9870, 8020 --> 9820 Secondary NN ports: 50091 --> 9869,50090 --> 9868 Datanode ports: 50020 --> 9867, 50010--> 9866, 50475 --> 9865, 50075 -...
阅读全文
2016-08-25 22:13 工业·编程 ⁄ 共 6319字 暂无评论
文章目录 2013年10月,Hadoop 2.0发布 2014年4月,Hadoop 2.4.0发布 2014年8月,Hadoop 2.5.0发布 2014年11月,Hadoop 2.6.0发布 2015年7月,Hadoop 2.7.0发布 Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0....
阅读全文
2016-06-02 16:04 工业·编程 ⁄ 共 739字 暂无评论
(一) openstack仿照的Amazon的云,hadoop仿照的是Google的云 openstack注重的是虚拟化/虚拟机及其配套的服务,hadoop注重的是海量的数据分析和处理。 (二) 2OpenStack 主要目的是做一整套的云计算基础构架。包括 云计算(Compute), 网络(Network),对象存贮(Object Store),镜像文件存储 (Image),身份认证(Authentication),BlockStorage 以及 前端UI 。 OpenStack的每个模块都对外提供API,可以独立供云用户调用,在OpenS...
阅读全文
2016-05-21 16:23 工业·编程 ⁄ 共 16922字 暂无评论
一瞬间Hadoop也到了要初中择校的年龄了。 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(即Core Hadoop项目)以及与之相关的一个不断成长的生态系统。这个和Linux非常类似,都是由一个核心和一个生态系...
阅读全文
2016-03-08 23:30 工业·编程 ⁄ 共 4866字 暂无评论
翟周伟,资深Hadoop技术专家,专注于Hadoop&大数据,数据挖掘,自然语言处理领域,目前就职于百度。2009年,利用Hadoop构建商业级大数据系统,是国内该领域最早的一批人之一;负责设计多个基于Hadoop的大数据平台和分析系统;2011年合著出版《Hadoop开源云计算平台》,并在自然语言处理领域申请过一项发明专利;2015年,完成著作《Hadoop核心技术》一书。 日前,CSDN记者采访了翟周伟,请他解读Hadoop发展现状、特性及发展...
阅读全文
2015-06-17 15:40 工业·编程 ⁄ 共 654字 暂无评论
云计算目前没有公认的定义,而NIST(美国国家标准与技术研究院)对云计算下的定义相对能得到广泛认可,NIST是这么定义云计算的。 云计算是一种按使用量进行付费的模式,这种模式提供可用的、便捷的、按需的网络访问,使用可配置的计算资源共享池,共享池的资源包括网络、服务器、存储、应用软件、服务等,这些资源能够通过云计算平台快速提供给客户,只需投入很少的管理工作,或与服务供应商进行很少的交互。 云计算是分布式计算...
阅读全文
2015-06-15 18:39 工业·编程 ⁄ 共 359字 暂无评论
新技术如社交媒体、电邮、博客、地理信息系统GIS、无线射频识别RFID和智能手机等为基于服务信息构建提供了新的机会。 处理大数据常见的方法和框架是Apache Hadoop,它以批处理的方式运行数据处理任务。现在,如果需要实时处理数据和实时显示数据,那这种基于批处理的方式并不是很适合。 STORM是一个开源框架,来自Twitter公司,其目标是大数据流的实时处理。STORM可以可靠地处理无限的数据流,实时处理Hadoop的批任务。STORM...
阅读全文