2015年4月,美国商务部决定对中国四家国家超级计算机中心禁售至强PHI计算卡,当时各种唱衰中国超算的声音不绝于耳。即便天河2号在2015年国际超级计算机大会上蝉联5连冠,但因使用美国Intel公司的CPU而饱受一些别有用心之人的诟病,不少人声称没有美国的CPU,天河2号要完蛋了。
现实却截然相反:
在ISC 2015发布会上,国防科大公布天河2A的升级方案,将采用国防科大自主研发的矩阵2000(GPDSP)替代至强PHI计算卡。矩阵2000采用40nm制程,拥有16核,主频1G,双精浮点2.4TFlops,功耗为200W。
新年伊始,从科技部公开的文章中透露出好消息——由上海高性能集成电路设计中心设计的国产众核芯片已达到世界先进水平(美国情报部门对该芯片非常感兴趣,因此笔者将其称为国产众核芯片)。该众核芯片采用28nm制程,峰值双精度浮点运算速度超过每秒3万亿次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的众核芯片)——第二代至强PHI计算卡产品代号“Knights Landing”,采用了14nm工艺,双精度浮点性能超过3TFlops,功耗250-300W。
1月22日,新华社报道了一则更为振奋人心的消息——中国计划今年在天津启动新一代百亿亿次(百亿亿次是1000P,天河2号为55P,若不是记者笔误,就真心是黑科技了)超级计算机的研制规划……与此同时,国防科大正在设计新一代飞腾芯片。
由此可见,美国商务部的禁售计算卡的行为根本没有对中国超算发展起到多大制约作用。其实,在过去半个世纪的时间里,历史已经证明了毛泽东同志的那句话——“封锁吧,封锁十年八年,中国的问题就解决了”。
凡是能买到的都很难做出来
虽然自80年代以来,中国的计算机大多没有中国芯,即便是天河1号、天河2号这些曾经让中国人扬眉吐气的超级计算机也基本使用国外芯片,国产芯片仅用于高速互联网络。
但在毛泽东时代,中国拥有自己的半导体工业,掌握了从单晶制备、设备制造、集成电路制造的全过程技术,中国制造的计算机也都有中国芯。
但在80年代奉行“造不如买、买不如租”、“市场换技术”后,中国集成电路产业遭到毁灭性的打击——毛泽东时代积累下的家底被败得精光,技术人才要么流失到国外,要么去大学教书,有的甚至被调去看守机房,毛泽东时代培养起来的技术人才流失殆尽。
在这段时间里,自主技术被无限贬低,而洋技术被过度美化,“外国专家”更是被奉为上帝,决策者对其缺乏最基本的警惕——很多非常有前途的科研项目在领导听取“外国专家”的意见后被否决;不少科研项目更是在“外国专家”的“悉心指导”下被引上了歧路;对“外国专家”索要技术资料予取予求,大量宝贵的自主技术被“外国专家”窃取后摇身一变成为“洋技术”,酿成中国企业使用自己研发的技术依旧要给外商缴纳专利费的窘境。
而自主研发CPU也被进口CPU取代,比如1983年,浪潮开始采用进口Intel8088芯片,而非国产芯片组装0520微机,在80年代至90年代初研制的长城286、长城386、长城486、2780机、太极2220、银河超级小型机、HN2730超级小型机等计算机均采用国外芯片。中国第四代计算机中的巨型机代表机型——“银河1”巨型计算机耗资1亿元人民币,但因大量购买国外硬件,未能对中国的半导体产业进步起到多大积极作用。
在“造不如买、买不如租”理论的指导下,至80年代末,中国凭自己的技术已经很难生产出一台计算机了。到90年代初,以联想为代表的中国计算机企业纷纷转向“贸工技”路线,只从事低附加值的微机组装,无力也无心从事芯片研发,国内芯片市场彻底落入外资掌控。
凡是买不到的都做出来了
中苏论战后,美苏同时对中国进行技术封锁,迫使中国走上独立自主、自力更生的发展道路。正如赫鲁晓夫撤走了苏联援华专家后,逼着中国凭借自己的能力搞出了“两弹一星”。在美国和苏联共同技术封锁下,哈军工于1962年成功研发出晶体管,使中国比美国晚8年进入晶体管时代,中国第一台全晶体管计算机441B-I于1964年诞生,相对于美国于第一台全晶体管计算机RCA501晚了6年。1965年,中国研制出第一块集成电路,比美国晚了5年进入集成电路时代。1972年,中国研制出大规模集成电路比美国晚4年实现了从中小集成电路发展到大规模集成电路的跨越。
在中国丧失独立自主研发制造计算机的能力后,美国政府严格限制对中国出口高性能计算机,除了采购价格高昂外,还要把计算机放在透明的玻璃房中,由美国人监控,钥匙在美国人手中,每次使用都要向美国人请示,并说明具体用途,由美国人核准使用。
痛定思痛后,中国重启高性能计算机研发项目,1992年银河2诞生。1993年,曙光1号诞生,曙光1号研制成功后3天,西方解除对中国高性能计算机出口限制。在坚定了自主发展超算的决心后,中国超算捷报频传——先后自主研发曙光1000、曙光2000、曙光3000、曙光4000、曙光5000、曙光6000、银河3、银河4、天河1号、天河2号、神威蓝光等超算,并逐步形成了天河(国防科大)、神威、曙光(曙光公司)三大系列超算。
与此同时,国产超算的软件系统和硬件系统的国产化也在稳步推进——天河2号的硬件系统除了高速运算系统中采用了Intel的E5和至强PHI之外,高速互连通信网络系统、存储系统(I/O 管理结点和 I/O 存储结点)、维护监控系统、电源系统、冷却系统和结构组装设计等基本实现国产化,在软件系统方面,操作系统、编译系统、并行程序开发环境、科学计算可视化系统大多实现国产化。而神威蓝光超算则实现了除冷却系统之外的软件和硬件的全国产。
更为重要的是,这些超算并非像某些人说的为争夺世界第一的虚名建设,而是实实在在的用于弹道计算、核物理研究、气候气象、海洋环境、数值风洞、碰撞仿真、生命科学、石油物探等科研领域。另外,国产超算/高性能计算机还广泛用于工业生产、气象预报和影视娱乐。
曙光公司的高性能计算机在中石油、中石化和中海油勘探计算机房内随处可见,这些高性能计算机为工程师提供高精度的采油区地下构造和地质信息。
“天河-酷卡”云计算渲染平台使动画渲染的制作周期由原来的4至6个月缩短到1天,平均每天同时为8部动漫影视作品提供渲染。《阿凡达》动漫渲染制作耗时1年多完成,如果用“天河二号”,则仅需1个月时间。
随着雾霾现象越来越受人民关注,雾霾天气预警预报已经成为“天河一号”的又一项任务。国家超算天津中心已经研发出雾霾自动化实时预警预报系统,正以河北保定作为试点,对未来5天雾霾天实时预报,未来3年内逐步建成全国性的雾霾预警预报系统。此外,天河超算还能回溯地球的气候变迁,“天河一号”可以模拟2000年前的变化,“天河二号”则可以模拟到5000年前甚至更远。
中科曙光与大气物理所等单位共同研发“地球数值模拟装置”原型机系统,则填补了我国地球系统模式大数据实践平台的空白。
可以说,超级计算机为中国的国防、科研、工业、经济等诸多方面做出了巨大贡献!
以史为鉴,技术封锁其实是件好事,在信息技术领域,建国以来的这段历史就可说明“凡是能买到的都很难做出来了,凡是买不到的都做出来了”。因为只要西方技术封锁,国内买办和国外势力就不可能用“市场换技术”、“造不如买、买不如租”的方式来扼杀自主技术。
那么,中国的人力物力财力将全部投入到自主技术的研发中,辅以中国全世界最齐全的工业部门和扎实的工业基础,加上中国庞大的市场和丰富的资源,就能做到“封锁什么,解决什么”,所以从长期来看,技术封锁是好事。
中美众核芯片对比
在几年前,当Intel第一代至强PHI上市之时,国内根本就没有类似的产品,而龙芯、申威、飞腾准备用于超算的多核芯片也远远无法与Intel匹敌:
飞腾1500,16核,制程40nm,1.8G主频,最大功耗65W,双精浮点144G;
申威1600,16核,制程65nm,1.1G主频,最大功耗70W,双精浮点140G;
申威1610,16核,制程40nm,1.6G主频,最大功耗50W,双精浮点200G;
龙芯3B1000,8核,制程65nm ,1G主频,最大功耗65W,双精浮点128G;
龙芯3B1500,8核,制程32nm ,1.2G主频,最大功耗40W,双精浮点192G。
即便是成绩最好的申威1610的理论双精浮点峰值也只有200G,而Intel第一代至强PHI的理论双精浮点峰值高达1T,是申威1610的5倍。正是因此,天河2号只能无奈的选择Intel至强PHI作为其加速器。
光阴似箭,时过境迁,经过数年的卧薪尝胆,国内IC设计单位的实力与日俱增,不仅能拿出至强PHI计算卡的替代产品,而且在性能上丝毫不落下风。国防科大自主研发的矩阵2000理论双精浮点峰值达2.4T,功耗为200W,理论双精浮点峰值达到第二代至强PHI的80%,性能功耗比略优于第二代至强PHI。
如果说矩阵2000是GSDSP,而非众核加速器,在性能上也稍逊第二代至强PHI一筹,那么上海高性能集成电路设计中心设计的国产众核芯片是对美国禁售至强PHI计算卡最有力的回击,特别是在设计理念上,国产众核加速器非常先进。
因采用异构计算可以获得更好的性能功耗比和峰值性能,目前中美正在建设的100P超算基本采用异构计算,也就是一个计算节点由CPU+加速器组成,比如天河2A号一个计算节点由2个E5(将来可能会替换成国防科大自主研发的64核服务器芯片“火星”)和三个矩阵2000组成。加速器可以是K80这样的GPGPU,也可以是矩阵2000这样的GPDSP,还可以是Intel至强PHI、国产众核芯片这样的众核加速器。
异构计算虽然有很多优点,但也会带来很多缺点,比如通用性不够好,效率不够高,编程比较麻烦,另外,天河2号和美国超算Stampede中的Intel至强PHI计算卡和E5是不共享内存的,因而需要程序员显式拷贝,进而造成性能损失。而国产众核芯片通过设计理念的革新,很大程度减轻了上述方面的负面影响,在某些方面甚至彻底避免了性能损失。
因此,笔者认为,国产众核芯虽然因采用28nm制程,使其在制程上逊色于第二代至强PHI的14nm。但凭借设计理念的先进性,相对于Intel第二代至强PHI会有一定优势。而双精浮点运算峰值高达3T的性能指标,使其成为完全不逊色于Intel第二代至强PHI的存在。
在中国芯片制造水平不断提升,并有望不断缩短和美国芯片制造水平的情况下,如果Intel不能在超算芯片的设计理念上有革命性的改进,那么被国产众核芯片的下一代产品超越只是时间问题。
(作者微信公众号:tieliu1988)