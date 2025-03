在 2017 年由 Ashish Vaswani、Google Brain 的团队以及来自多伦多大学的团体所共同发表的一篇名为《Attention is All You Need》的论文中,首次介绍了该模型。鉴于目前转换器已在训练 LLM 等应用中的广泛使用程度,此论文的发表即被视为该领域的一大分水岭。

这些模型可近乎实时地翻译文本和语音。例如,现在已有某些应用程序允许游客使用自己的主要语言在街上与当地人进行交流。它们有助于研究人员更好地了解 DNA 并加快药物设计。它们有助于检测异常情况,并防止出现金融与安全领域的欺诈行为。同样,视觉转换器也被用于计算机视觉任务。

OpenAI 出品的流行 ChatGPT 文本生成工具利用转换器架构进行预测、总结、问答等,因为此类架构可让该模型专注于输入文本中相关度最高的部分。该工具的各个版本中出现的“GPT”(例如 GPT-2、GPT-3)代表“生成式预训练转换器”。ChatGPT 等基于文本的生成式 AI 工具可从转换器模型中受益,因为此类工具可根据大型复杂数据集更轻松地预测文本序列中的下一个单词或字。

BERT 模型(即,来自转换器的双向编码器表示)以转换器架构作为基础。截至 2019 年,几乎所有采用英语的谷歌搜索结果均已使用 BERT,并已推广到其他 70 多种语言。1