阿里云AI基础设施升级亮相,模型算力利用率提升超20%

2024-09-20 14:16

9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。

VazlscG752-800.jpg

“AI创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。

基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持Solar RDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障 AI 算力的性能和稳定性。

在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。

为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上

通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞吐20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。

面向AI业务,阿里云计算产品也大幅演进更新。本次云栖大会上,容器服务ACK面向AI实现重磅升级,大模型应用冷启动延迟降低85%,并可提供15000个超大规模节点支持。同时,容器计算服务ACS 即将推出 GPU容器算力

1、该内容为作者独立观点,不代表观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
7月10日消息,全球研究和咨询公司Forrester发布最新全球AI基础设施解决方案研究报告《The Forrester Wave: AI Infrastructure Solutions, Q1 2024》,阿里凭借领先的产品性能进入竞争者象限,并获评AI基础设施服务产品力全球第二。
9月5日消息,2024 Inclusion·外滩大会今日在上海开幕。在开幕式主论坛上,中国工程院院士、阿里创始人王坚分享了他对于AI、AI+和AI基础设施的思考。他指出,AI+不是AI和产业的简单结合,而是数据、模型和算力的组合,计算就是AI时代的基础设施
会上公布了算力中国·年度突破成果,阿里“PAI灵骏智算服务”作为国内AI智算基础设施代表获得该重磅奖项。
8月21日消息,近日由工业和信息化部、宁夏回族自治区人民政府共同举办的2023中国算力大会在银川举行。会上公布了算力中国·年度突破成果,阿里“PAI灵骏智算服务”作为国内AI智算基础设施代表获得该奖项。
5月15日消息,阿里今日入选超以太网联盟 技术咨询委员会,成为唯一的中国公司成员,将与微软、Meta、AMD、博通等其他12名成员,共同推进开放网络系统及核心技术的研发及标准制定,打造下一代AI网络基础设施
《晚点LatePost》在本次栖大会前对话周靖人,他谈了阿里如何看待AI带来的计算新机会,他们计划如何搭建新环境下的计算基础设施,以及在这次技术变革中的转型。
大赛以“AI辅助电商经营”为赛题方向,探索和推动AI先进生产力作为基础设施在电子商务中广泛应用。
    Baidu
    map