近来,在2023年敞开核算社区我国峰会(OCP China Day 2023)上,《敞开加快标准AI服务器规划攻略》(以下简称《攻略》)发布。《攻略》面向生成式AI使用场景,进一步展开和完善了敞开加快标准AI服务器的规划理论和规划办法,将助力社区成员高效开发契合敞开加快标准的AI加快卡,并大幅缩短与AI服务器的适配周期,为用户供给最佳匹配使用场景的AI算力产品计划,掌握生成式AI迸发带来的算力工业巨大机会。
当时,生成式AI技能飞速展开,引领了新一轮AI立异浪潮。AI大模型是生成式AI的要害底座,对出产功率进步、传统工业转型晋级具有严重的价值潜力,而大模型的高效练习一般需求具有千卡以上高算力AI芯片构成的AI服务器集群支撑。跟着生成式AI加快落地,业界对装备高算力AI芯片的AI服务器需求也不断高涨。在此布景下,全球已有上百家公司投入新式AI加快芯片的开发,AI核算芯片多元化趋势凸显。因为缺少一致的业界标准,不同厂商的AI加快芯片存在明显差异,导致不同芯片需求定制化的体系硬件渠道承载,带来更高的开发本钱和更长的开发周期。
OCP是全球根底硬件技能范畴覆盖面最广、最有影响力的开源安排。2019年OCP建立OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习练习的AI加快卡形状进行了界说,以处理多元AI加快卡形状和接口不一致的问题。2019年末,OCP正式发布了OAI-UBB(Universal Baseboard)1.0规划标准,并随后推出了根据OAI-UBB1.0标准的敞开加快硬件渠道,无需硬件修正即可支撑不同厂商的OAM产品。近年来,以浪潮信息为代表的体系厂商研制了多款契合敞开加快标准的AI服务器,完结了敞开加快AI服务器的工业化实践。
根据在敞开加快核算范畴的产品研制和工程实践经验,《攻略》进一步展开和完善了敞开加快标准AI服务器的规划理论和规划办法,提出四大规划准则、全栈规划办法,包括硬件规划参阅、办理接口标准和功能测验标准,旨在协助社区成员更快更好地开发AI加快卡并适配敞开加快AI服务器,应对生成式AI的算力应战。
《攻略》指出,敞开加快标准AI服务器规划应遵从四大规划准则,即使用导向、多元敞开、绿色高效、统筹规划。在此根底上,应选用多维协同规划、全面体系测验和功能测评调优的规划办法,以进步适配布置功率、体系稳定性、体系可用性。
多维协同规划是指体系厂商和芯片厂商在规划初期要做好全方位、多维度的协同,最大化削减定制开发内容。大模型核算系一致般是一体化高集成度算力集群,包括核算、存储、网络设备,软件、结构、模型组件,机柜、制冷、供电、液冷根底设施等。只要经过多维协同,才干完结大局最优的功能、能效或TCO目标,进步体系适配和集群布置功率。《攻略》给出了从节点到集群的软硬全栈参阅规划。
全面体系测验是指异构加快核算节点一般毛病率高,需求愈加全面、苛刻的测验,才干最大程度下降体系出产、布置、运转过程中的毛病危险,进步体系稳定性,削减断点对练习持续性的影响。《攻略》对结构、散热、压力、稳定性、软件兼容性等方面的测验关键进行了全面整理。
功能测评调优是指需求对大模型加快核算体系展开多层次的功能评测和软硬件深度调优。《攻略》给出了根底功能、互连功能、模型功能测验的关键和目标,并指出了针对大模型练习和推理功能调优的关键,以保证敞开加快标准AI服务器可以有用完结当时干流大模型的立异使用支撑。