现在位置: 首页 > Hadoop
2016-03-08 23:30 工业·编程 ⁄ 共 4866字 暂无评论
翟周伟,资深Hadoop技术专家,专注于Hadoop&大数据,数据挖掘,自然语言处理领域,目前就职于百度。2009年,利用Hadoop构建商业级大数据系统,是国内该领域最早的一批人之一;负责设计多个基于Hadoop的大数据平台和分析系统;2011年合著出版《Hadoop开源云计算平台》,并在自然语言处理领域申请过一项发明专利;2015年,完成著作《Hadoop核心技术》一书。 日前,CSDN记者采访了翟周伟,请他解读Hadoop发展现状、特性及发展...
阅读全文

2015-06-17 15:40 工业·编程 ⁄ 共 654字 暂无评论
云计算目前没有公认的定义,而NIST(美国国家标准与技术研究院)对云计算下的定义相对能得到广泛认可,NIST是这么定义云计算的。 云计算是一种按使用量进行付费的模式,这种模式提供可用的、便捷的、按需的网络访问,使用可配置的计算资源共享池,共享池的资源包括网络、服务器、存储、应用软件、服务等,这些资源能够通过云计算平台快速提供给客户,只需投入很少的管理工作,或与服务供应商进行很少的交互。 云计算是分布式计算...
阅读全文
2015-06-15 18:39 工业·编程 ⁄ 共 359字 暂无评论
新技术如社交媒体、电邮、博客、地理信息系统GIS、无线射频识别RFID和智能手机等为基于服务信息构建提供了新的机会。 处理大数据常见的方法和框架是Apache Hadoop,它以批处理的方式运行数据处理任务。现在,如果需要实时处理数据和实时显示数据,那这种基于批处理的方式并不是很适合。 STORM是一个开源框架,来自Twitter公司,其目标是大数据流的实时处理。STORM可以可靠地处理无限的数据流,实时处理Hadoop的批任务。STORM...
阅读全文
有人问我,“你在大数据和Hadoop方面有多少经验?”我告诉他们,我一直在使用Hadoop,但是我处理的数据集很少有大于几个TB的。 他们又问我,“你能使用Hadoop做简单的分组和统计吗?”我说当然可以,我只是告诉他们我需要看一些文件格式的例子。 他们递给我一个包含600MB数据的闪盘,看起来这些数据并非样本数据,由于一些我不能理解的原因,当我的解决方案涉及到pandas.read_csv文件,而不是Hadoop,他们很不愉快。 Hadoop实际上是...
阅读全文