在陕西省西安市雁塔区未来人工智能计算中心监控运维室,工作人员通过智慧大屏监测平台运行情况。该中心是我国西部首个大规模人工智能算力集群,目前投产的算力居全国第二位。 新华社记者 张曼怡摄
当前,我国算力基础设施发展成效显著,但与推动数字经济与实体经济深度融合、实现经济社会高质量发展的目标任务相比,与应对国际市场激烈竞争的要求相比,仍有一定差距。
“为加强计算、网络、存储和应用协同创新,推进算力基础设施高质量发展,充分发挥算力对数字经济的驱动作用,工业和信息化部、中央网信办、国务院国资委等六部门近日联合印发《算力基础设施高质量发展行动计划》。”中国信息通信研究院产业与规划研究所副总工程师王青说。
重点布局智能算力
当前,以大模型训练为代表的新应用、新技术正快速崛起、反复迭代,各行业对智算需求越来越大。据信通院测算,截至今年6月,全国已投运的人工智能计算中心达25个,在建的超20个。地方依托智能计算中心,为当地科研院所和企事业单位提供普惠算力,支撑当地科研创新和人才培养。同时,结合本地智能产业发展需求,培育人工智能产业生态,推进人工智能应用创新。
《行动计划》明确提出,到2025年,算力规模超过300EFLOPS,智能算力占比达到35%。如何实现这一目标?王青认为,应结合人工智能产业发展和业务需求,重点在西部算力枢纽及人工智能发展基础较好地区集约化开展智算中心建设,逐步合理提升智能算力占比。推动不同计算架构的智能算力与通用算力协同发展,满足均衡型、计算和存储密集型等各类业务算力需求。
“智算产业发展仍存在概念认知尚不清晰、建设标准尚不统一、应用场景尚不丰富、运营模式尚不成熟等问题。”王青表示,《行动计划》要求加快制定面向业务需求的算力设施、IT设备、智能运营等方面的基础共性标准,完善相关技术要求、测试方法等,充分发挥标准对产业发展的引领和推动作用。
上海市通信管理局信息通信发展处副处长魏征告诉记者,目前国内智算中心建设面临的一项挑战是软硬件适配难问题。很多企业反映,在使用国产芯片和软件做集群式大模型训练时,偶尔会出现未知错误,需要产业链上下游协同攻克。
燧原科技公共政策研究院副院长徐愚同样认为,探索人工智能软硬件适配之路,是我国人工智能芯片生态发展的关键一步。例如,上海人工智能实验室已推出浦算(DeepLink)人工智能开放计算体系,作为连接硬件芯片与深度学习软件框架的“桥梁”。在该体系下,硬件一次适配即可兼容多款框架,降低了算力使用门槛,提升了整体训练效率。
“从政府角度来说,一方面,要搭建数据中心企业和国产芯片企业的沟通桥梁,鼓励数据中心企业推动国产芯片落地,只有在使用中才会发现不足,进而不断改进产品;另一方面,建议资金支持向需求侧倾斜,国产芯片研发成本高,导致数据中心要以较高价格购入,如果没有相应补贴,很难使其有动力使用国产芯片。”魏征说。
应用场景不断扩展
随着基础设施建设底座日益夯实,算力赋能千行百业正向纵深推进。“数字经济时代,计算力就是生产力。当前,数字技术与实体经济正在加速融合,数字技术正在工业、金融、农业、教育、能源等领域加速应用。”浪潮信息高级副总裁刘军分享了公司在汽车领域的案例:吉利汽车携手浪潮信息打造星睿云·智算中心,用于支撑智能网联、驾驶试制实验等场景,整体研发效率提升20%。
数据中心的运维、检修往往需要工程师在现场抱着电脑搜索不同文档,进行复杂且大量的排查,有时候还需要通过电话与后台同事一起协作处理,十分不便。中企通信研发的AR千里眼项目能够有效解决上述问题:工作人员佩戴AR眼镜可以看到待处理的服务工单,定位到具体设备,实时展示设备运行数据,直观判断设备状态。后台团队可以共享视角,通过音视频对话、现场物件辨识及定位等,进行讨论分析,解决企业跨区运营、设备复杂多样化的问题。
为进一步深化算力赋能行业应用,《行动计划》围绕“算力+工业”“算力+教育”“算力+金融”“算力+交通”等方面作出部署,并给出具体目标:工业、金融等领域算力渗透率显著提升,医疗、交通等领域应用实现规模化复制推广,能源、教育等领域应用范围进一步扩大。每个重点领域将打造30个以上应用标杆。
对此,王青分析,目前工业、金融、医疗等领域数据积累量较大,算力应用场景逐渐多样和成熟,因此重点着力于提升渗透率和复制化推广,而能源、教育等领域应用范围目前还较为局限,因此着力于扩大应用范围。
提升网络运载能力
网络是保障算力发挥作用的关键基础设施。《行动计划》提出,运载力方面,到2025年,国家枢纽节点数据中心集群间基本实现不高于理论时延1.5倍的直连网络传输,重点应用场所光传送网覆盖率达到80%,骨干网、城域网全面支持IPv6、SRv6等新技术使用占比达到40%。
业内相关企业抢抓机遇,积极布局。上海联通在实现商业楼宇全覆盖的基础上,引入业界先进的全光传送技术,实现传送网络一跳直达、超高可靠、灵活切片、带宽可调。
“我们在宁波至贵阳段进行超长距离全光网技术验证项目;在河北实现了‘RAN+CN’跨域联合编排,开辟算力网络极简低时延新道路;在广州,为工业物联网智能制造服务平台和虚拟调试等部署环境和算力,工控机减少60%,成本降低50%。”中兴通讯总裁徐子阳说。
“下一步,要探索构建布局合理、泛在连接、灵活高效的算力互联网。增强异构算力与网络的融合能力,实现计算、存储高效应用;推动算力网络国家枢纽节点直连网络骨干节点,建成集群间一跳直达链路。”王青说。
真正用好算力不仅要解决时延问题,更为关键的是要对其进行有效合理调度,提升算力效率。据统计,目前全国已发布或建设10余个算力调度平台,主要由基础电信运营商、算力枢纽节点城市政府、企业以及行业机构等主导建设。
“算力调度发展仍面临诸多挑战,例如算网调度技术机制不统一,算力调度商业模式不清晰、跨域跨主体协作合力不足等。”王青建议,要推动以云服务方式整合算力资源,充分发挥云计算资源弹性调度优势。鼓励各方探索打造多层次算力调度架构体系,建设可满足各类创新主体开展多元异构算力调度、应用、研发、验证的平台环境。(记者 李芃达)