|
3月25日美国加州大学河滨分校陈子忠教授学术报告预告
作者:cwj
发布日期:2015-03-18
浏览次数:
报告题目:百亿亿次超级计算系统中错误恢复机制研究的最新进展 报 告 人:陈子忠教授 报告人简介: 陈子忠,美国国家基金委杰出青年教授奖获得者(U.S. NSF CAREER Award),美国加州大学河滨分校超级计算实验室主任,国际期刊Elsevier Parallel Computing分区主编,IEEE高级会员,ACM终身会员,中国科学院先进技术研究院客座教授。从事高性能计算,云计算,数据分析与处理,算法设计与软件开发,计算机仿真等领域的知名专家,先后在国际顶级期刊或会议发表60多篇高水平学术论文,其研究成果被来自美国麻省理工学院、斯坦福大学、加州大学伯克利分校、普林斯顿大学、耶鲁大学等多个国际知名高校,以及Intel、IBM、AMD、HP等国际知名IT企业广泛引用或采用。学术成果被美国加州大学伯克利分校等世界名校作为教科书,同时也是IEEE高级会员(电气和电子工程师协会),久负盛名的美国国家自然科学基金会突出贡献奖获得者,是《Elsevier并行计算》国际知名期刊的高级编辑。 报告摘要: 下一代百亿亿次超级计算机将会拥有上亿颗计算核心。计算和存储错误在如此庞大的超算系统中不可避免。本报告主要讨论加州大学在百亿亿次超级计算系统错误恢复机制研究中的最新进展。在过去几十年超级计算实践中,计算节点的崩溃一般通过开销高昂的检测点技术来恢复。我们首次发现当超算系统在运行大部分广泛使用的数值线性代数库代码时,计算节点的崩溃无需开销高昂的检测点技术即可以恢复。在今天的超算实践中,计算错误一般通过验证计算结束后所得结果来探测。我们首次发现在大部分广泛使用的数值线性代数库中的计算错误无需计算结束就可以提早探测并更正。提早更正计算错误可以避免浪费昂贵的超算机时,成倍地提高超算系统的计算效益。 |