从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐,Spark何以被IBM赌博式的押注?在技术开放时代,IBM又将发生怎样的变化?带着种种问题,IBM大中华区大数据与分析事业部总经理钟泽敏先生;IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利先生;IBM大中华区软件架构师总监、IBM技术科学院委员林旭光先生;IBM大中华区大数据分析平台销售总监洪建勋先生与CSDN进行了独家沟通。
Spark——IBM未来十年最重要的事
如果说Hadoop引发了大数据分析方法的技术潮流,那么Spark现已成为这场变革中更具革命性的技术。
作为一种可伸缩(scalable)的基于内存计算(In-Memory Computing)的数据分析平台,Spark比Hadoop-mapreduce集群存储方法更有性能优势。此外,通过简洁的Scala脚本,Scala像管理本地collective对象那样管理分布式数据集也让Spark烙上了另一个特点——高效。
开源的集群计算环境、基于内存的分布式数据集、优化了迭代式的工作负载以及交互式查询功能,这显然是IBM将自有硬件性能发挥到极致的最佳大数据架构选择。
IBM大中华区大数据与分析事业部总经理钟泽敏表示:IBM近年来正在将战略重点转向数据领域,在大数据、物联网、软件定义存储及Watson系统等领域投入大量资金,Spark作为大数据当前最热的关键词,IBM一直都非常关注,在中国,开源技术的发展也非常之快,因此,IBM将开源与数据结合起来“数据的力量+壮大的开源”,希望通过开源社区,将Spark处理技术真正推动到行业中去。
“这是我们未来十年IBM在开源社区以及Spark是一个最重要的项目”,钟泽敏强调,“在Spark开源软件方面的举动将会对许多以Spark为框架协议的初创公司带来利好,最重要的是会使业界对Spark开源软件的接受度和应用率增加。因为Spark开源软件不仅对初创公司有利,对于一些大的数据项目来说,它将是非常好的解决方案。”
IBM携手Spark开启开源大数据时代
在采访中,IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利先生特别提到了未来IBM在Spark上的几个关键的投入:从SystemML到Streams再到Bluemix。
SystemML是IBM超过十年以上的时间已经在研发的机器学习的技术。IBM在SystemML研究上至少在主流业界上领先十年以上,并且有实际的产品化平台,2011年1月26日, IBM超级计算机沃森(Watson)在公开测试中击败了美国智力竞赛节目《危险边缘》的两位总冠军,这里面其中整合了很多SystemML技术学习的功能,当然沃森(Watson)本身是一个非常复杂的人工智能的系统,其中核心之一就是机器学习的一些内容。而IBM则希望能够实现对于Spark本身把SystemML的功能输送给Spark,能够让Spark具有更强大的学习能力,让数据科学家专注于算法,而不是一些很简单的很细节的技术本身。同时能够让机器学习的历程逐渐标准化。
而Streams流分析则是IBM在实时数据处理上的另一个重要模块,IBM Streams现在已经可以跑在Spark上。Spark以快诸称,而流计算本身的特点也是快,加在一起则是快上加快。“我们希望IBM流处理技术能够可以和Spark开源技术结合在一起,能够更好的提供业界的开放的流计算的模式。” IBM技术科学院委员林旭光先生说。“在年内我们还会陆续推出更多基于Spark的产品出来,包括Watson Analytics、DataWorks,以及PuerData相关解决方案和正在孵化的项目。IBM将在年内晚些时候陆续在在产品、技术、方案上推出更多一些举措。”
而Bluemix则已经将Spark作为一项云服务提供给客户。把Spark转到Bluemix上,符合IBM的大战略——CMASS,也就是云、大数据分析、社交媒体、移动互联、安全。
“把Spark在在云环境里,用户既可以用Hadoop也可以用Spark”,IBM技术科学院委员林旭光先生表示,“对于有迭代需求的大规模作业,bluemix的Spark计算环境是一个很好的选择,对使用过Hadoop的开发者而言,Spark和现有的Hadoop生态整合得很好,所以数据方面没有迁移成本。”
注入蓝色基因的Spark如何引领大数据潮流?
Spark带来了耳目一新的大数据处理能力,没人会否认内存计算技术将是未来大数据处理的一个重要技术方向。
但于此同时,我们也必须看到,Spark未臻完美。它有先天的限制,比如不能很好地支持细粒度、异步的数据处理;此外,由于才刚刚起步,在性能、稳定性和范式的可扩展性上还有很大的空间。
而这些拯待解决的技术问题,对IBM而言也就意味着机会。
钟泽敏对于IBM方面对Spark的支持提出两点:首先IBM作为一个在数据处理技术上非常成熟的厂商,非常愿意把一些最新的技术带到开源包括Spark里面;第二个,IBM要使开源社区有序的发展,必须非常重视对技术人员有关技术培训。
据悉,目前IBM已经在Developer Works上提供免费的Spark课程,在第三季度,就会有第二波的Spark基本的课程放出,更多的技术从业者可以透过IBM技术培训去理解最新的Spark的发展。而IBM的培训不光是对IBM内部人员的培训,也为市场上的开发人员以及市场上一些公司的技术人员能够提供比较先进的这些技术。
培养100万数据科学家
就在宣布重金投入Spark的同时,IBM同时宣布要在全球培养100万数据科学家(data scientist)。
100万数据科学家——这并不是IBM为了吸引市场眼球的口号,目前IBM方面已经准备好的培训课程包括Spark基本原理的初级和二级培训,以及Spark高级开发系列培训和数据科学一些方法论的培训。这些培训不光是IBM自己做,也和IBM在全球一些主要的合作伙伴像Databricks、AMPLab等等,这些都是在技术上非常具有创新、领先的一些合作伙伴。
IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利表示:在全球IBM也会成立Spark技术中心,现在在美国Spark技术中心已经成立起来。这个技术中心的一个任务是推广Spark技术在公司以及在客户的采用,对Spark的采用。我们会围绕着Spark在商业问题上的解决提供一些方案,包括免费的教育资源以及Spark的一些改进和Spark上的应用。
刘胜利强调:IBM大数据分析部门希望在这几点上能够对整个业界产生一定的影响,包括专家的培养、互动体验、培训以及端对端,也就是到最终客户实际应用到应用方面的咨询、实施和运行,也要结合云数据中心这样的概念,把Spark技术利用起来。
对此,我们也不难看出IBM此举的决心和魄力,更乐意看到融合了IBM传统的研发能力,加上IBM对新技术的快速推动,和这些公司的合作, 可以推动Spark在全球客户快速采用以及方便采用上能够提供极大的便利性。
后记:在JAVA上开源,过去的15年中,企业级的核心应用围绕Java这样一个平台运行,可以说IBM在Java的开源贡献以及IBM Websphere在支撑整个业界Java的运行上起到一个非常重要的作用,应该是业界排第一的一个平台;2001至2005Linux在中国大热的这几年,在中国大规模采用Linux技术,IBM也是Linux开源的主要推动者。今天Hadoop和Spark作为开源,我们也看到了IBM的大规模投入。
作为一家百年老店,IBM却在创新上始终不遗余力,我们也期待看到IBM与Spark的携手,开启一个崭新的开源的时代。