联系我们大型铝电解电容小微型铝电解电容贴片铝电解电容器聚合物铝电解电容器

品质诚信服务

当前位置:首页 >> 产品和行业资讯 >> Google训练并开发了万亿参数的AI语言模型

Google训练并开发了万亿参数的AI语言模型

参数是机器学习算法的关键。

它们是从历史训练数据中学到的模型的一部分。

一般来说,在语言领域,参数数量与复杂度之间的相关性很好。

例如,OpenAI的GPT-3是有史以来使用1750亿个参数进行训练的最大语言模型之一。

它可以执行原始类比,生成公式,甚至完成基本代码。

最近,Google研究人员开发了一项技术并对其进行了基准测试。

他们声称,这项技术可以训练包含超过一万亿个参数的语言模型。

????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????? ???他们表示,他们的1.6万亿参数模型是迄今为止最大的参数模型,比之前的Google开发的最大语言模型(T5-XXL)快4倍。

研究人员指出,大规模培训是建立强大模型的有效方法。

简单的体系结构,对大数据集和参数计数的支持超过了更复杂的算法。

但是,尽管大规模训练是有效的,但是计算强度却非常高。

这就是为什么研究人员追求他们所谓的Switch Transformer(“稀疏激活”)的原因。

仅使用模型权重的子集或在模型内转换输入数据的参数的技术。

Switch Transformer的新颖之处在于,它有效利用了为密集矩阵乘法(语言模型中广泛使用的数学运算)而设计的硬件,例如GPU和TPU。

在研究人员的分布式训练环境中,他们的模型为不同的设备分配了不同的权重,因此权重将随着设备数量的增加而增加,但将保持可管理的内存以及每台设备上的内存。

计算空间。

在一个实验中,研究人员使用32个TPU内核来预训练几种不同的Switch Transformer模型。

该语料库是一个750GB的数据集,包含从Reddit,Wikipedia和其他Internet资源获得的文本。

他们让这些模型预测被15%的单词掩盖的段落中的丢失单词,以及其他挑战,例如检索文本以回答一系列日益棘手的问题。

研究人员声称,与拥有3950亿参数和64位专家的较小模型(Switch-XXL)相比,他们与2048位专家发明的1.6万亿参数模型(Switch-C)“根本没有培训。

不稳定”。

但是,在SQuAD基准测试中,Switch-C得分较低(87.7),而Switch-XXL得分为89.6。

研究人员将其归因于微调质量,计算要求和参数数量关系之间的歧义。

在这种情况下,Switch Transformer改善了其对许多下游任务的影响。

例如,在使用相同数量的计算资源的情况下,它可以将预训练的速度提高7倍以上。

同时,研究人员证明,可以使用大型稀疏模型来创建更小,更密集的模型,这些模型可以微调任务,而仅获得大型模型30%的质量增益。

在一个测试中,训练了一个“ Switch-Transformer”模型以在100多种不同的语言之间进行翻译,研究人员观察到其中的101种已普遍得到改进。

在未来的工作中,研究人员计划将Switch Transformer应用于新的和不同的形式,包括图像和文本。

他们认为模型稀疏性在各种不同的媒体和多模式模型中具有优势。