多年来,扩展人工智能模型主要意味着添加更多参数和训练数据。
虽然这种方法可以提高性能,但也显著增加了计算成本。混合专家 (MoE)已成为解决这一挑战的有前途的解决方案,它使用稀疏激活的专家模块代替传统的密集前馈层。
MoE 的工作原理是,根据专家在主题方面的专业知识,将任务委托给他们。每位专家都接受过特定数据集的严格训练,以服务于特定目的,而另一个组件,即门控网络,则负责委派这些任务。
MoE 高级工作流程
虽然 MoE 模型的表现优于具有前馈层的传统模型,但由于使用固定数量的训练标记的限制,它们的效率会随着模型规模的增加而趋于稳定。
解决这个问题需要高粒度的架构和大量的专家。然而,目前唯一支持超过一万名专家的架构,即混合词专家 (MoWE),是特定于语言的,并且依赖于固定的路由方案。
本文介绍的百万专家混合架构 (MoME)通过引入参数高效专家检索 (PEER)架构解决了这一挑战,该架构采用产品密钥检索来高效地路由到大量专家。
成为一名机器学习科学家
提升 Python 技能,成为一名机器学习科学家。
理解 PEER:平行专家的力量
扩展LLM的主要挑战之一在于 Transformer 块内前馈层的计算和内存需求。MoE 通过用稀疏激活的专家模块替换这些层来解决此问题,每个模块专门负责任务的不同方面。这种方法通过仅激活给定输入的相关专家来提高效率,从而减少计算开销。
当前的 MoE 方法存在局限性,例如,固定路由器在添加新专家时需要重新调整。因此,引入了一种新的路由方法,用学习索引取代固定路由器。
参数高效专家检索 (PEER)减少了 MoE 层中的活动参数数量,从而影响预训练和推理期间的计算和激活内存消耗。
PEER 证明,通过应用正确的检索和路由机制,MoE 可以扩展到数百万专家,从而降低训练成本和复杂性并为非常大的语言模型提供服务。
百万专家混合工作流程与产品密钥检索技术
来源
在上图中,输入查询首先经过产品密钥检索,以确定前k 名专家。然后,这些选定的专家根据他们的专业知识处理输入,并在推理阶段将他们的输出组合起来以生成最终的模型输出。
百万专家的混合:技术细节
PEER 的核心创新是使用产品密钥检索。其目标与传统 MoE 相同:找到最适合给定任务的前 k 名专家。但是,如果专家数量庞大(可能超过一百万),以前的技术就会变得计算成本高昂或效率低下。
考虑一个有N 个专家的场景,每个专家都用一个d维向量表示。直接计算前k 个专家将涉及计算输入查询与所有N 个专家键之间的相似度,导致时间复杂度为 O(Nd)。当N非常大时(例如,N ≥ 10^6 ),这会变得非常昂贵。
PEER 采用了一种巧妙的策略来解决这个问 贷款数据库 题:它不再使用N 个独立的d维专家密钥,而是将每个密钥拆分为两个独立的子集,每个子集的维数为d/2 。同样,查询向量也被分成两个子查询。然后将 top-k 操作应用于这些子查询和子密钥之间的内积。
这种密钥的笛卡尔积结构大大降低了计算复杂度,从O(Nd)降低到了O((N^.5+ k2)d),这样即使专家数量巨大,也能高效地找出前 k 名专家。
PEER 层架构
参数高效专家检索 (PEER) 层是一种 MoE 架构,它使用路由器中的产品密钥和单神经元 MLP 作为专家。
PEER 层由三个组件组成:
由N 名专家组成的人才库E
对应的一组N 个产品密钥K
查询网络q
工作原理如下:
给定输入查询x ,检索k 个专家的子集,这些专家的对应产品键与查询q(x)具有最高的内积。
应用sigmoid 或 softmax 等激活函数来获取这些检索到的前k名专家的路由器分数。
通过线性组合由路由器分数加权的专家输出来计算输出。
从本质上讲,PEER 层可以高效地识别与给定输入最相关的专家,从而可以有效利用大量专家,同时保持计算的可处理性。这一创新是将 MoE 模型扩展到数百万专家的关键推动因素,为更强大、更高效的 LLM 铺平了道路。
PEER 方法的优势
PEER 与 MoME 架构相结合,相较于传统的 MoE 方法具有多项引人注目的优势,突破了 LLM 功能的界限:
提高效率:通过利用大量专业专家,PEER 能够更准确、更高效地检索相关信息,从而提高整体模型性能。
终身学习:PEER 促进持续学习和模型成长。可以逐步添加新专家,扩大模型的知识库,而无需完全重新训练,从而保留以前获得的知识。
可扩展性:PEER 解决了传统 MoE 架构的可扩展性限制,支持开发 GPT-MoE-1.8T 等万亿参数模型。这为创建更强大、更强大的 LLM 开辟了新的可能性。
MoME 的潜在应用
混合专家模型已经是业界广泛使用的模型范例,YouTube 等公司已将其集成到推荐系统中。MoME 的未来看起来也类似,Nvidia 在 GTC 2024 上谈到 GPT 的 1.8 万亿模型时就已经暗示了这一点。
NVIDIA GTC 2024——提及 GPT-MoE-1.8T
来源
百万专家混合模型 (MoME) 采用了 PEER 架构,在需要广泛知识库和快速响应检索的复杂 NLP 任务中表现出特别好的前景。它解决了训练和服务超大型语言模型所固有的可扩展性挑战,为它们在计算机视觉、内容生成、推荐系统和智能计算等领域的应用开辟了新的可能性。
挑战与限制
从效率的角度来看,将模型扩展到百万专家似乎很有希望,但管理如此庞大的网络也带来了挑战。让我们探讨其中的一些挑战:
计算复杂性和效率:
专家检索成本:从一百万专家池中计算出前K名专家的计算成本非常高。即使采用产品密钥检索等优化方法,有效管理检索过程仍然具有挑战性。
训练开销:训练如此庞大的模型并需要大量专家,需要大量的计算资源,这对于所有研究实验室或公司来说可能都是不可行的。
内存限制:
激活记忆:随着专家数量的增长,训练和推理期间存储激活和中间结果所需的内存可能会变得难以承受。
参数存储:存储一百万位专家需要大量的内存容量,这会限制在资源受限的设备上部署。
正则化和稳定性:
过度拟合:由于参数数量如此之多,存在过度拟合训练数据的风险。有效的正则化技术至关重要,但设计和实施起来却颇具挑战性。
稳定性:训练稳定性可能是一个问题,因为管理一百万专家的梯度和更新可能导致数值不稳定性和收敛问题。
结论
在本文中,我们探讨了百万专家混合 (MoME) 技术,这是一种可扩展的大型语言模型方法。
MoME 利用专门的专家网络和 PEER 路由机制来提高效率和性能。
我们讨论了其核心组件、优势和潜在应用。如需深入了解,请参阅研究论文以了解技术细节和基准测试结果。
有关更多信息,请参阅研究论文以了解技术细节和基准结果。