中国电信韦乐平：大模型需要大网络超级以太网必将成为市场主流

发布: 2024-04-10 20:00 | 作者: MSCBSC | 来源: 移动通信网 | 字体: 小中大

C114讯 4月10日消息在今天召开的“2024年云网智联大会”上，中国电信集团科技委主任韦乐平应邀作了题为《人工智能时代大模型的发展与思考》的主题报告，详尽分享了他对于人工智能/大模型的最新观点。

在韦乐平看来，人工智能有三大要素，而大模型则可以分为三个层次；大模型的核心价值在于应用，基础大模型将会是一场惨烈的淘汰赛，未来三到五年，将可能会收敛到数家；在大模型应用价值凸显的当下，小模型的作用也不容轻视。

韦乐平指出，大模型需要大算力，大算力需要大集群，大集群则需要大网络。产业界不能把目光只停留在以GPU为代表的算力上，作为算力载体的智算中心，网络同样至关重要。

韦乐平强调，在智算中心网络技术演进路径中，除了在当前近乎垄断的InfiniBand，以及在快速成长的UEC（超以太网）以外，PCIe、CXL和芯片光互连技术一样值得关注。韦乐平判断，作为当前性能最佳的联网技术，InfiniBand虽然产业封闭且价格昂贵，但它仍将维系高端大模型训练市场的相当份额；而随着标准成熟与产品落地，拥有强大产业生态的UEC技术在性价比方面将逐渐赶超InfiniBand，预计到2027年成为市场主流。

AGI长路漫漫：客观理性看待发展水平

对于人工智能的三大要素，韦乐平有着自己的观点。

算力是人工智能的基础，算力的载体是芯片，芯片水平决定了AI计算能力物理上限，关键是GPU及其应用生态。高端芯片制程，特别是GPU及其应用生态是我国AI发展的最大短板。

数据是人工智能的根本，数据要素是数字经济的核心生产要素和重要经济资源。数据的规模、质量和治理体系决定了AI应用的效果和质量，数据的可用数量和质量也同样是短板。

算法是人工智能的灵魂。算力离开了算法，只是一个巨大的高耗能电热器，基于深度学习的高效智能算法是发挥算力作用，规避低效蛮力计算的必然方向。

与人工智能的三要素相对应，韦乐平愿意将大模型分为三个层次：

第一层次是任务模型，模型就是应用，比如围棋、人脸识别等单一应用，得益于数据量的优势，我国在此领域处于领先地位；第二层次是领域模型（行业模型），它能够完成多领域诸多任务，开发者只要在基础大模型上根据具体任务做微调即可；第三层次是认知模型AGI，即通用人工智能，能看、能听、能思考、能规划，能真正实现类人的智慧，而这长路漫漫。

大模型应用价值凸显小模型也不容轻视

韦乐平认为，大模型具有三点基本特征。

首先是大算力、大参数、大数据、大智能。算力越大、参数越多、数据越多，智能就越高，越能解决复杂的任务。“行业模型，需要百亿至千亿的参数；基础通用大模型，需要千亿至万亿参数；全球领先的基础通用大模型，则需数万亿至数十万亿级的参数。”

其次是一定的通用性，起码具备领域型模型特点，能完成多领域的诸多任务，非单一任务。

第三是神奇的涌现性。当算力和模型参数足够大，训练到一定程度后，能够突然出现预料之外的某种能力，产生逻辑自恰的类人语言表达，这种能力会达到乃至超过人类某方面的智能。

韦乐平表示，大模型特别是认知模型AGI，虽然应用前景非常美好，但存在着高技术、高投入、高能耗、高风险。“未来三五年以后，世界上就五六个基础大模型能活下来。”但在此之上的行业大模型将层出不穷，行业应用将成为各类大模型真正体现价值和商业落地的地方。

韦乐平同时提醒，在大模型应用价值凸显的当下，小模型的作用也不容轻视。因为大模型训练所需要的技术、算力、语料以及成本很高，却通而不专，在面向具体运行环境的适应性和经济性方面，往往小模型更加实用，省钱、省力、省时间。

目前已经有多种小模型产品问世，从技术角度看，有两大方向。一是知识蒸馏，主要对大模型进行裁剪、优化，使训练好的模型的体积和尺寸更小，成本更低、更适合具体部署环境的实际需求；其二是微型机器学习(TinyML)，该方向旨在低于1mw功耗下(如纽扣电池)运行机器学习，在成本和功率受限系统中完成机器学习任务，是物联网领域AI的主要方向之一。

大模型需要大网络：UEC必将成为市场主流

大模型的尽头在哪？算力、能源？但在韦乐平看来，网络的影响因素同样难以评估。

韦乐平指出，大模型需要大算力，大算力需要大集群，当前的数据中心很难满足大集群算力的要求，一定要重新建设智算中心。以中国电信在上海投产的“临港国产万卡算力池”为例，其投资规模超过20亿，单机柜能耗达到了4.8万瓦，常规IDC很难满足需求。

另外，主要由GPU服务器联网构成的智算中心需要完全不同的网络架构。当大模型训练时，并行计算节点越多，通信效率越重要，智算网络性能成为集群算力提升的关键。“智算中心网络要求很特殊，需要高带宽、零丢包、超低时延、高可用性，月级零故障。”

网络技术角度，从目前情况来看，英伟达主导的InfiniBand是市场主流选择，但InfiniBand在产业开发性、部署成本方面非常不友好。韦乐平认为，增强无损以太网（例如超以太网UEC）将逐渐成为市场主流选择，UEC通过重构高扩展、高稳定、高可靠的以太网堆栈，有望在性价比方面媲美InfiniBand。

韦乐平看好UEC最重要原因还是生态。“产业链很重要，技术高低不一定；拿ATM跟以太网相比，ATM比以太网性能高多了，为什么不行？因为（以太网）产业链比它大了几十倍。”

当然，除了InfiniBand和UEC，韦乐平还建议关注PCIe、芯片光互连和CXL等连接技术。PCIe可以为复杂的生成式人工智能扩展距离、简化系统架构、减少功耗；芯片光互连可以大幅提升计算集群的扩展性(超100T)，且功耗很低，物理尺寸也更小；而CXL不仅可以继续用来增大服务器的内存规模，而且将越来越多的用来承担生成式人工智能训练的加速器作用。

单集群、单体智算中心的算力总归是有极限的，对于超大参数大模型训练而言，在大范围内由多个物理集群构成一个超级逻辑集群进行联合训练，将会成为必然选择。

也就是说，如何解决不同集群间参数的传递和同步，以及大量数据跨群跨域跨云传输的不同时延导致的训练速度减慢的问题。对此，韦乐平认为，根据不同的训练任务和场景，可以采用数据并行、流水线并行、张量并行等多种不同策略，但这些都不能从根本上解决。“根本解决还要依靠空芯光纤，直接在物理层将时延降低33%。”