在手游行业,随着游戏模型的不断复杂化,对算力的需求也在急剧增加,为了提升游戏品质,缩短开发周期,手游公司纷纷寻求高效、稳定的算力解决方案,万卡集群,作为高性能计算系统的一种,正逐渐成为解决大模型训练算力需求的关键,万卡集群的建设并非易事,面临着诸多挑战,本文将从手游公司的角度,探讨万卡集群如何满足大模型训算力需求,并分析建设过程中遇到的主要挑战。
万卡集群:大模型训练的算力基石

万卡集群,顾名思义,是由一万张或以上的计算加速卡(如GPU)组成的高性能计算系统,这种集群整合了高性能GPU计算、高性能并行文件存储、智算平台等关键技术,将底层基础设施整合成为一台“超级计算机”,它能够支持千亿级甚至万亿级参数规模的大模型训练,从而大幅压缩训练时间,实现模型能力的快速迭代。
对于手游公司而言,万卡集群的引入意味着游戏开发效率的显著提升,以一款大型角色扮演手游为例,其游戏模型可能包含数以亿计的参数,传统的计算资源难以支撑如此庞大的训练任务,而借助万卡集群,手游公司可以在短时间内完成模型的训练和优化,确保游戏品质的同时,缩短开发周期,快速响应市场变化。

建设万卡集群面临的挑战
尽管万卡集群为手游公司带来了显著的算力提升,但其建设过程却面临着诸多挑战。
1. GPU供应与性能瓶颈
万卡集群的建设首先面临的是GPU的供应问题,由于全球范围内万卡集群的建设都处于起步阶段,部署模式多以英伟达GPU及配套设备为主,目前国内在获得英伟达旗舰高性能GPU方面受限,这直接影响了万卡集群的建设进度,国产AI芯片虽然在近年来取得了显著进步,但在性能上仍与英伟达GPU存在一定差距,难以满足大模型训练的高性能需求。
2. 分布式训练的互联带宽限制
在大模型场景下,算力需要大规模集中式训练,单个GPU无法完全容纳整个模型训练,因此必须采用分布式训练,分布式训练会带来GPU之间互联带宽受限或AI服务器之间网络互联带宽有限的问题,这会导致训练过程中的数据传输延迟和瓶颈,影响整体训练效率,为了解决这个问题,手游公司需要投入大量资源来优化网络架构,提升互联带宽,确保训练过程的顺畅进行。
3. 高能耗与散热难题
万卡集群的建设还面临着高能耗和散热的难题,随着集群规模的扩大,能耗也随之增加,这对数据中心的能源供应和散热系统提出了更高要求,新建智算中心的单机柜功率已从7-8KW跃升至40KW甚至60KW,重量达1-2吨,为了确保系统的稳定运行,手游公司需要采用绿色低碳能源、高功率机架和液冷技术等先进手段来降低能耗和提升散热效率。
4. 硬件故障与运维挑战
万卡集群由数千智算服务器、交换机和存储设备构成的庞大网络,以及数万光纤和光模块组成,承载着繁重的训练任务,由于硬件失效率和大规模器件的存在,硬件故障频发,故障模式复杂多变,给运维管理带来了巨大挑战,手游公司需要建立高效的运维体系,包括故障预警、快速定位、自动恢复等功能,以确保训练过程的连续性和稳定性。
5. 软件生态与算法适配
除了硬件方面的挑战外,万卡集群的建设还面临着软件生态和算法适配的问题,由于不同GPU厂商之间的软件生态存在差异,手游公司需要在选择GPU时考虑其软件支持和算法适配情况,为了充分发挥万卡集群的性能优势,手游公司还需要对算法进行优化和调整,以适应分布式训练的场景。
应对挑战的策略与实践
面对万卡集群建设过程中的诸多挑战,手游公司需要采取一系列策略和实践来应对。
1. 多元化GPU供应策略
为了解决GPU供应受限的问题,手游公司可以采取多元化GPU供应策略,除了与英伟达等主流GPU厂商合作外,还可以积极寻求与国产AI芯片厂商的合作机会,以拓宽GPU供应渠道,通过自主研发和合作研发等方式,提升国产AI芯片的性能和竞争力。
2. 优化网络架构与提升互联带宽
为了提升分布式训练的互联带宽和效率,手游公司需要优化网络架构,可以采用高性能的网络设备和协议来降低数据传输延迟和瓶颈;通过引入参数面技术、流控设计等手段来提升网络性能和可靠性,还可以考虑采用分布式存储和并行文件系统等技术来优化数据存储和访问效率。
3. 绿色低碳与高效散热
为了降低能耗和提升散热效率,手游公司需要采用绿色低碳能源和高效散热技术,可以引入太阳能、风能等可再生能源来降低数据中心的能耗;通过采用液冷技术、高功率机架等手段来提升散热效率,还可以建立智能化的能源管理系统来实时监测和控制能耗情况。
4. 建立高效的运维体系
为了应对硬件故障和运维挑战,手游公司需要建立高效的运维体系,可以引入自动化运维工具和平台来降低运维成本和提高运维效率;通过建立故障预警和快速恢复机制来确保训练过程的连续性和稳定性,还可以加强运维人员的培训和技术支持来提升其运维能力和水平。
5. 加强软件生态与算法适配
为了充分发挥万卡集群的性能优势,手游公司需要加强软件生态和算法适配工作,可以与GPU厂商合作共同开发适用于分布式训练的算法和工具;通过自主研发和合作研发等方式来推动算法的优化和创新,还可以积极参与开源社区和标准化组织的工作来推动软件生态的发展和完善。
万卡集群作为解决大模型训练算力需求的关键手段,正逐渐成为手游公司提升开发效率和游戏品质的重要选择,其建设过程中面临着诸多挑战,需要手游公司采取一系列策略和实践来应对,通过多元化GPU供应策略、优化网络架构与提升互联带宽、绿色低碳与高效散热、建立高效的运维体系以及加强软件生态与算法适配等措施,手游公司可以克服万卡集群建设过程中的挑战,充分发挥其性能优势,为游戏开发提供更加高效、稳定的算力支持。
参考来源
本文信息来源于微信公众平台、小红书、网易瑶台及百家号等平台的公开信息整理。