MSCBSC 移动通信论坛
搜索
登录注册
网络优化工程师招聘专栏 4G/LTE通信工程师最新职位列表 通信实习生/应届生招聘职位

  • 阅读:3015
  • 回复:2
世界最快超级计算机天河2号实用记
cc公主
资深元老



 发短消息    关注Ta 

积分 30103
帖子 2577
威望 217786 个
礼品券 47 个
专家指数 3684
注册 2008-6-4
专业方向  交换维护
回答问题数 0
回答被采纳数 0
回答采纳率 0%
 
发表于 2015-05-16 16:04:10  只看楼主 

作者:机械化神经元

来源:我的中国网

与超算结缘

从前对超级计算机的感受多是科幻电影里的事物。记得一部老电影 “战争游戏”,讲述一部超级电脑启动了战争的故事。那时觉得超级计算机是顶顶神秘的高科技庞然大物,距离自己很遥远。第一次感受到并行计算的威力是多年前参与的一个计算语言学研究项目。需要从庞大的语料库里对某些特定的英语单词做统计并建立统计模型。程序麻溜的编好了,可是发现仅仅处理“a” 起头的单词我的电脑就已经是死慢了。咋整?想辙,将程序上传到公司网络,将26个字母开头的单词分布到不同的服务器上跑。处理速度大大加快,最终搞定。

后来在学校开始做移动通信仿真时发现,一个只有几个小区的网络,单机运行就已经很吃力了。难怪那么多IEEE论文,仿真的基站都不多呢。于是参加了学校超算中心的培训,尝试用学校的超级计算机工作。一试哥就给跪了,原来跑一天一夜都不见得跑完的仿真不到两个小时就算完了。至此,咱就陷进去了。不过,看来陷进去的不少,僧多粥少。有一些。。。我是说。。。某些有钱银仗着往超算中心捐过设备,他们有优先级哦!俺们穷人的计算任务就只能往后排!看来超级计算机上基尼系数也在拉大嘛。一次又一次的查看自己任务队列,优先级0.1208,第120位,半天不动窝,艾玛,没脾气。动过一回歪脑筋,插队了,爽了几个月被发现了。超算中心发了封电邮还给抄送老板,咱就装傻,毕竟是第一次算给糊弄过去了。咋办?去别处学么学么吧。亚马逊云计算服务,看看那价目表,手一摸口袋里的钱包,心头骤然一疼,赶紧把网页关了。曾以学校研究项目的名义蹭过18摸的一个数学优化软件,网页上说可以顺便提供超算资源。去信询问,被告知只能用他们的软件。商业机构缺人品,哼!偶然在网上看到一采访广州超算中心的新闻。文中提到天河2可以接受个人用户帐号申请。啊?有这好事?米帝国家级实验室的超算外人想都别想好吗。立马要了张申请表试试运气再说吧。申请表问了研究项目内容,计算任务量,研究经费多少,哥恬不知耻的写上俩字儿“没钱”。没多久,收到一万运算核免费帐号开通通知。艾玛,这得多少人品才能刷出的惊喜啊!喜刷刷,喜刷刷。。。

登录天河2

[attach]319964[/attach]
言归正传,收到通知后开始忙活。天河2这大块头落户广州中山大学,有16000个计算结点,学校的超算好像就6000多个。天河2的管理更加严格,只许登入不许登出,这给使用造成一些麻烦。出于安全考虑可以理解。前两年学校的超算被无人品黑客入侵了一回。结果我们所有的帐户都被重新恢复一遍,好麻烦。这里提一句,天河2的帐户创建过程是有安全漏洞的,细节不多说。

照着手册下载安装好VPN软件(吐槽一下,居然只支持windows),登录天河2的虚拟专网网页后看到这个。

在输入用户名和口令后就算接入虚拟网,接下来可以用万能的 ssh 登录天河2结点。天河2共有LN0-5,6个登录结点。使用的是国防科大在Redhat上修改的麒麟操作系统。下图便是天河2硬件系统部署图。

[attach]319965[/attach]
登录后先是好奇看看还有啥其他用户在上面。毫无悬念的看到中国商飞,这个之前就有过报道。相信流体力学方面的仿真计算量应该还是比较大的。还有不少大学都在上面有帐号,包括很多医学院。药物,遗传学方面的研究应该可以借力超算。天河2使用协议里要求用户自行解决软件,他们负责安装维护。超算上默认也安装了通用的科学计算软件,和并行计算软件库。时不时的会收到广州超算中心(NSCC-GZ)发来的培训电邮,包括流体力学,结构力学分析软件的应用培训。除此之外,MPI自然是必不可少的。事实上,天河2的使用手册特别声明,研发团队对MPI做了大量的优化工作,推荐使用Intel 编译器 + 优化MPI的组合。最近米帝宣称土鳖用天河2做模拟核爆,因此要禁运英特尔处理器。我多少觉得有点扯,核武器研发应该是密级很高的项目。虽然你可以想办法在天河2上单开一个工作区,可是毕竟是在同一台超算上,时间长了难保不泄密。土鳖党有点啥玩意都喜欢藏着掖着,保密很变态的。这样的项目怎么说也得是专用机器并且网络同外界物理隔绝才说的过去。

天河2使用与对比

当初刚拿到帐号时,有人建议咱拿去挖比特币矿,呵呵。真用起来还是碰到一些麻烦的。广州超算中心的VPN客户端仅支持windows,这就惹出不少麻烦。只能利用网上的一台windows服务器做桥梁先联上NSCC-GZ,然后再建立反向ssh 隧道登录天河2。登录后,因为天河2不允许外联,就只能将用户目录再通过 ssh 映射到本地目录。这样才解决了版本控制软件不能从家里的文件服务器拉送源码文件的问题。天河2的软件架构如图2是个很典型的高性能计算的层次结构。另一个闹心的事就是MPI库的使用。虽然NSCC-GZ号称他们也支持OpenMPI + GCC 的组合,可用起来问题重重。咱对计算速度也没那么高的要求,本来图省事用了最新版的GCC,因为它支持C++11,而我用了C++11的随机函数库。程序一启动就碰到链接库的问题。白浪费了不少时间,最后只能换掉C++11的随机函数库老老实实的用他们推荐的 Intel+MPI。不过最终搞定后还是蛮高兴哒!同样的程序,同样使用 Intel 14编译器,58个进程,同样跑60个点的仿真,天河2上用了8.03秒;在学校超算中心,不算排队等待时间,用了22.36秒。如果按计划将来跑300个进程,6000个点,差别就出来了,吼吼。

[attach]319967[/attach]
对比学校超算,天河2当然是强大很多。只是用户服务界面,软件配置易用性方面有进一步提高的空间。也许是学校的超算用的人多,用户计算服务接口方面做的更好些。天河2没有发布用户使用统计数据。下图是学校超算今年二月的一些很有意思的统计,可以一窥超算的应用现状。

[attach]319966[/attach]
从图中可以看出占90%以上的任务都是单机任务,也就是说用户不过是随机的选择一个计算节点当PC用。这并没发挥超算的优势。不得不承认,超算的编程门槛还是相对高一些。在机时使用上倒是反了过来,数量较少的并行任务占了大量的实际使用时间。不过就算是并行任务,真正的多节点并行计算也仅占了不到33%。究其原因,我觉得这跟MPI的编程难度有关。MPI是个获奖的设计,但其MapReduce类的编程模式着实让新手不太适应且极易出错。

超算与云计算和大数据

云计算大数据当下炒得正热,不过很多也就是套个名词来炒而已。弄个网络硬盘就号称云端,云计算了。可笑程度可比戴个耳机就叫可穿戴式设备。云计算最早是因为码工们喜欢在白板上画些“棉花团”来表征未知的网络拓扑结构。后来有好事者以此发明云计算这个新名词套在早前的网络计算的概念上,来个借壳上市。如果云计算不过就是通过网络联系一个单一的计算或者储存资源的话充其量这就是一个有负载均衡功能的客户机服务器体制,了无新玩意。个人认为云计算怎么也得让这片云,或至少部分云同时,分布式的为你计算才可称为云计算。超算无疑在这方面的潜力是巨大的。刚才的统计表明真正做并行分布式计算的用户很少,这同软件的发展跟不上硬件的步伐有关。处于垄断地位的MPI的编程模式沿用了UNIX fork的形式,MapReduce也是更加适合科学计算中的矩阵运算。很并行但不够动态,易用性差。近些年,业界有新的更易用的中间件技术出来,比如AMQP,ZMQ,DDS。我做了一个软件包把MPI和ZMQ整合在一起,对上层软件来说是透明的。在天河2上跑得很顺畅,若非天河2不让外连,理论上我可以将天河2和学校的超算通过我的软件包方便的连成一片云。

大数据在互联网普及前其实就一直在华尔街得以应用。当然,那时数据维度不像现在这么大。但本质上方法是相同的。刚看到新闻,北师大天文学家用天河2完成3万亿粒子数的宇宙中微子和暗物质数值模拟。这样的计算量假如没有超算的助力的根本就是不可能任务。超算之于大数据好似挖掘数据矿藏的强力采矿机。在数据量爆炸的网络时代,超算一定可以开启一扇通往数据金矿的大门!
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 2、回复“ZGDX”免费领取《中国电信5G NTN技术白皮书
  • 3、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 4、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 5、回复“5GX3”免费领取《 R16 23501-g60 5G的系统架构1
  • 6、回复“iot6”免费领取《【8月30号登载】物联网创新技术与产业应用蓝皮书——物联网感知技术及系统应用
  • 7、回复“6G31”免费领取《基于云网融合的6G关键技术白皮书
  • 8、回复“IM6G”免费领取《6G典型场景和关键能力白皮书
  • 对本帖内容的看法? 我要点评

     
    [充值威望,立即自动到帐] [VIP贵宾权限+威望套餐] 另有大量优惠赠送活动,请光临充值中心
    充值拥有大量的威望和最高的下载权限,下载站内资料无忧
    龙卷风
    钻石会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 10956
    帖子 257
    威望 40853 个
    礼品券 8 个
    专家指数 18
    注册 2006-11-25
    专业方向  网优
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2015-05-17 00:36:04 
    技术问题,回答得专家指数,快速升级
    超算还没有发挥其作用啊。浪费了啊。推广应用吧.

    对本帖内容的看法? 我要点评

     
    [立即成为VIP会员,百万通信专业资料立即下载,支付宝、微信付款,简单、快速!]
    niehui
    高级会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    纪念勋章·六周年   纪念勋章·九周年  
    积分 1243
    帖子 235
    威望 26412 个
    礼品券 42 个
    专家指数 68
    注册 2009-9-24
    专业方向  核心网数据业务
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2015-05-17 15:33:21 
    国安要请你喝咖啡哦

    对本帖内容的看法? 我要点评

     
    最新通信职位:广东通信人才网 | 北京通信人才网 | 上海通信人才网 | 南京通信人才网 | 西安通信人才网 | 重庆通信人才网 | 中国通信人才网

    快速回复主题    
    标题
    内容
     上传资料请点左侧【添加附件】

    当前时区 GMT+8, 现在时间是 2024-05-17 06:40:58
    渝ICP备11001752号  Copyright @ 2006-2016 mscbsc.com  本站统一服务邮箱:mscbsc@163.com

    Processed in 0.274493 second(s), 18 queries , Gzip enabled
    TOP
    清除 Cookies - 联系我们 - 移动通信网 - 移动通信论坛 - 通信招聘网 - Archiver