天河二号超级计算机机房。(资料图片)何书远 摄
老一辈银河人攻坚克难。(资料图片)
8月盛夏,位于湘江之滨的国家超级计算长沙中心,由国防科技大学研发的“天河”系列超级计算机运算正酣。2000万亿次每秒的峰值计算能力,相当于5万台个人计算机同时计算,为科学研究、信息服务、装备制造等领域发展提供强大支撑,产生了重要的应用效益。
超级计算机是一个国家科技水平和战略能力的重要标志。从“银河”实现我国巨型机“零”的突破,到“天河”超级计算机多次问鼎世界超算之巅,41年来,国防科大的科研人员胸怀祖国,不畏艰难,自主创新,勇攀高峰,在中国科技发展之路上书写了一个又一个的辉煌。
“银河”诞生:中国巨型机研制实现“零”的突破
今天的辉煌,源于昨天的屈辱。
上世纪70年代,高性能计算成为推动科技创新和经济社会发展的战略高技术。然而,由于没有自己的巨型计算机,中国在经济社会发展当中常常受制于人。勘探出来的矿藏、石油数据资料,得送到国外去处理,不但花费昂贵,而且数据首先要被外国专家掌握。
“中国要搞四个现代化,不能没有巨型机!”1978年,在中央召开的一次重要会议上,邓小平同志的话掷地有声。就是在这次会议上,我国决定自主研制巨型机,以解决现代化建设中的大型科学计算问题。邓小平同志郑重地将这一重任交给了国防科大。
当时,国防科大虽是国内最早研制计算机的单位,但此前研制的“151”计算机,运算速度只有每秒100万次,如今要研制每秒运算1亿次的机器,意味着运算速度要提高100倍,技术难度可想而知。
“为中华民族争光!”面对前所未有的困难,科研人员们憋足了一股劲:豁出命也要搞出巨型机来,不让外国人卡我们的脖子。
“那真是一段耐着性子却激情燃烧的岁月。”回忆当时的情景,今年78岁的国防科大计算机学院教授李思昆感慨道。研制工作展开之后,各种复杂技术问题随之冒了出来。走什么样的技术路线?采取什么样的体系结构?如何实现每秒一亿次的运算速度……问题像一个个“拦路虎”。科研人员们迎难而上,把实验室当战场,夜以继日地进行着这场没有硝烟的战斗。
改革开放之初,我国工业基础薄弱,加工设备简陋,元器件落后,在这样的条件下,设计巨型机的艰难程度可见一斑。
李思昆回忆说,比如做计算机硬件的电路设计,当时纯靠一个一个在纸上画出来,画错了又得重新再来。一个小规模的集成电路设计,光画图就得半个月。
为了赶进度,大家吃在工厂,睡在机房,晚上至少工作到12点。当时,加班费一个晚上两毛钱,却没一个人愿意领。大家心里想的是省下每一分钱,尽快造出中国的巨型机。
天道酬勤!5年没日没夜的顽强拼搏,以慈云桂教授为代表的科研人员,闯过了一个个理论、技术和工艺难关,创造性地提出了“双向量阵列”结构,大大提高机器的运算速度,提前1年完成了研制任务,且经费只用了原计划的五分之一。
1983年11月26日,我国首台每秒运算1亿次的巨型计算机顺利通过了国家技术鉴定,标志着中国在巨型机研制领域实现了“零”的突破,成为当时继美、日之后,能独立设计和制造巨型机的国家。
时任国防科委主任的张爱萍将军为巨型机挥笔命名为“银河”,并赋诗一首:“亿万星辰汇银河,世人难知有几多。神机妙算巧安排,笑向繁星任高歌。”
此后,他们又依靠自主创新,相继研制出“银河-Ⅱ”“银河-III”等一系列巨型机,一步步将我国高性能计算机研制技术推向国际前沿,经济社会发展中一系列迫在眉睫的问题也逐渐解决。
1997年6月,当运算速度为每秒130亿次的“银河-III”研制成功后,国家气象局以此来做中长期数值预报系统,对于天气的预报由以前提前两三天推进到提前7天左右。
“天河”问世:中国超算研制水平跻身世界前列
进入新世纪后,我国各项事业进入高速发展时期,对高性能计算机的运算速度和容量都有了更迫切的需求。但与发达国家相比,我国不仅在计算能力上相差一个量级,装机数量也相去甚远。
国防科大再次受命担负重任,吹响了攀登世界科技高峰的冲锋号——早日研制出我国的千万亿次超级计算机系统。
世界超级计算机的发展表明,计算能力每提高一个量级,都需要体系结构的创新和一系列关键技术的新突破。彼时,国防科大虽然具有较为雄厚的技术积累和丰富的工程实践经验,但要实现从百万亿次到千万亿次的技术跨越,同样困难重重。
面对多方面的技术难题与严峻挑战,科研人员群策群力,自主创新,努力攻克核心关键技术,推动我国高性能计算事业向前发展。
“天河”超级计算机之所以拥有全球最快的运算性能,其奥秘就在于它独创的CPU+GPU异构体系结构。然而,这一全新的异构体系在创建过程中,遇到了一系列重大技术瓶颈。
“天河”超级计算机副总设计师杨灿群教授回忆说,GPU的特点是进行图形和视频处理,要将它和擅长运算的CPU组合在一起进行计算,不仅编程很难,计算效率也很低,国际上公认的计算效率最高只有20%。
创新的关键,就在于怎样把“不可能”变为“可能”,在没有路的地方走出一条路。
“早上一起床就开始干,一干就是一整天,晚上睡觉一闭上眼睛,屏幕上的数据还在脑海里滚动。”杨灿群和课题组成员开始了长达4个月的攻关,在经过了8万多次实验与性能优化后,终于找到突破口,使GPU的计算效率达到了70%,创造了一个世界奇迹。
超级计算机系统要实现每秒运算千万亿次,还必须有一个快捷通畅的网络系统,让各种信息“跑得快”。他们为此设计了一种新型交换机的方案,但美国的芯片制造商不肯支持,要求按照美国人的方案设计。可如此一来,成功虽有把握,却没有了创新和优势。
国防科大的研究团队不信邪。他们坚持走自己的设计路线,从头探索,努力攻关。仅用10个月时间,一款新型交换机研制完成,实测技术指标大大超过同类系统,而成本仅是同类同规模产品的80%。
随着一系列关键技术的突破与工程实现,2009年10月29日,我国首台千万亿次超级计算机“天河一号”研制成功,实现了我国自主研制超级计算机能力从百万亿次到千万亿次的跨越,成为继美国之后世界上第二个能够研制千万亿次超级计算机系统的国家。
面对超算领域的激烈竞争,国防科大的科研人员并没有陶醉在成功的喜悦之中,而是迅速组织开展技术升级与综合优化,着手扩建二期系统。
2010年11月17日,“天河一号A”超级计算机,以峰值速度4700万亿次、持续2566万亿次浮点运算每秒的优异性能,荣登第36届世界超级计算机500强排行榜榜首。
中国人首次将五星红旗插上了超级计算的世界之巅,标志着中国自主研制超级计算机综合技术水平进入世界领先行列。
2013年6月17日,他们研制的“天河二号”又以每秒5.49亿亿次的峰值计算速度和每秒3.39亿亿次实测计算速度,再次登上全球超算500强榜首。此后,“天河二号”连续6次位居世界超算榜首。
去年7月下旬,国防科大再传喜讯,由该校牵头研制的“E级原型机系统”完成研制部署并通过验收,标志着我国向新一代百亿亿次(E级)超级计算机发起了冲锋。
“银河精神”:铸就中国科技辉煌的“根”和“魂”
“胸怀祖国、团结协作、志在高峰、奋勇拼搏”,在国防科大计算机学院院史馆醒目位置的16个大字,浓缩了国防科大一代代“银河人”的艰苦探索,揭示了从“银河”到“天河”的成功真谛。在他们心中,“银河精神”,是他们坚守的精神高地,更是他们的“根”和“魂”。
几十年来,国防科大的科研团队牺牲了假日的悠闲,舍弃了家庭的温馨,推迟了婚期,耽误了治病,放弃了出国深造,许多人把青春甚至生命无怨无悔地献给了祖国的超算研制事业。
“天河一号”有一位副总设计师,患有糖尿病等多种疾病。在“天河一号”二期系统安装调试期间,他在机房里整整坚守了半年时间。生活、饮食不规律导致他的病情不断加重,但他坚持不离开岗位。直至从美国传来“天河一号”首次登上世界超算排名榜首的消息,他才走出机房,住进医院。
为设计出高水平的计算机运算控制系统,青年讲师俞午龙连续5天5夜没合眼。第六天深夜,从梦中醒来的妻子发现他还在着魔似的伏案工作,一把抢过书桌上的图纸说:“你再这样拼下去,我就把这些图纸剪碎了!”第二天一早,俞午龙又出差去了黄山。谁也没想到,他病倒在黄山脚下,再也没能回来。
还有43岁的蹇贤福、40岁的张树生、41岁的王育民……在国防科大,仅为“银河”系列巨型机事业而献出年轻生命的科研人员就有20多人。他们以事业丈量生命,化作一块块基石,托举起中国科技腾飞的梦想。
艰难困苦,玉汝于成!
通信光纤铺设,是“天河一号”二期系统进驻国家超算天津中心的首期工程,时间紧迫、任务艰巨。时值盛夏,由于沟槽温度高达40多摄氏度,水泥表层太粗糙,刚铺下的光纤的绝缘胶皮被磨出了道道裂痕,个别地方还露出线芯。这个问题不解决,轻则信号中断、通信短路,重则导致系统紊乱。
面对这种境况,指挥员把衣裤一脱,跳进闷热的沟槽,俯卧在粗糙的水泥地上。大家纷纷效仿,很快铺就了一条“人肉地毯”,一根根光纤顺着官兵的身躯通畅地向前延伸。
几十个人在沟槽里赤身裸背趴了数十天,被坚硬的水泥地和光纤刮擦得遍体鳞伤,使15000根光纤毫发无损。系统试机那天,打开机器的一瞬,全部通信线路畅通无阻……
“正是这种在披荆斩棘、攻坚克难中形成的‘银河’精神,书写出了中国特色自主创新之路的辉煌。”年逾六旬的国防科大计算机研究所胡庆丰教授欣慰地对记者说。(记者 施泉江 刘文韬 通讯员 韩雪)
链接
目前,天河超级计算机系统在国家超级计算天津中心、国家超级计算广州中心和国家超级计算长沙中心使用。
其中,长沙中心是我国中西部地区唯一的国家级超级计算中心,拥有“天河一号”超级计算机,以及“天河·天马”人工智能计算集群,“天河三号”也将于2020年落户该中心。依托天河超级计算机系统,目前中心已形成集“科技研发、技术创新、公共服务、人才培养”于一体的产学研用的融合创新应用服务平台:支撑国家和湖南科技创新,共为1205家用户提供高性能计算、大数据、云计算及人工智能等服务,支撑国家级科研项目142项,其他省部级科研项目及企业合作项目430余项;创新服务模式,成立了多个超算分中心、行业联合实验室、产业园区超算服务站等;构建了企业大数据、金融风控、中小企业超算社区、仿真模拟服务、视频文创等各类创新平台,服务全行业发展;紧盯国际、国家科技前沿,建设科普基地、“超算之星”众创空间,助力湖南及中西部地区的科技创新和人才培养。
亲历者说
超前布局 自主创新
口述者:“银河”/“天河”新一代高性能计算机互连系统副主任设计师 董德尊
我从2010年博士毕业留校开始,一直在国防科大计算机学院计算机研究所604研究室工作。
604研究室是一个有着悠久辉煌历史和光荣传统的研究集体,一直是“银河”“天河”高性能计算机系统研制的关键技术团队。我有幸伴随集体,经历了“天河二号”研制周期的全过程。
“银河”“天河”团队在高性能计算系统研发上一直是紧跟国际前沿,超前谋划,利用技术进步推动应用的发展。实际上,2010年底“天河一号”首次获得世界超算排名第一之际,“天河”总师组就已经开始谋划“天河二号”的工作。
在“天河二号”项目初期,我就参与了项目论证工作,同时作为高速互连系统的参研人员,经历了数不清的互连分系统的项目讨论、集中封闭开发、全系统调试等工作。特别是2013年上半年,我们为了赶进度,24小时倒班进行全系统调试,大家晚上经常在机房和调试间打地铺睡觉。当时是五六月份,长沙已经开始热起来,国防科大的供电系统由于重点保障“天河”调机,全校的办公室空调都停掉了,但我们所在的调试机房却极其凉快,这也算是调机带来的一个“福利”吧。
在参与“天河”互连系统论证和研制过程中,我体会到“天河”团队对基础研究的重视,以及勇于自主创新的精神。高性能计算机系统的研制,特别强调硬件、软件协同设计方法学,而协同设计方法学的有效性,依赖于对硬件—软件—应用的改变具有持续的性能评估能力。在“天河一号”项目后期,我们互连团队就开始布局开发针对“天河”系统自主的协同设计工具。
到目前为止,经过8年多的持续自主开发,我们已经突破了应用驱动的大规模高性能互连网络性能评测等关键技术,研制出支持真实应用负载、网络功能模型精确、可扩展性好的大规模高性能互连网络模拟仿真软件,填补了“天河”团队乃至我国在该领域的长期空白,为“天河”高性能互连通信网络持续保持国际领先,提供了有力的自主设计工具。(施泉江 整理)