在这场争夺 AI 领域主导地位的竞争中，更大通常意味着更好。有更多的数据和参数，就能创建更大的 AI 系统；与小型系统相比，大型系统不仅功能更强大，而且效率和速度更高，产生的错误更少。
登上新闻头条的科技公司进一步印证了这一趋势。Microsoft 首席技术官 Kevin Scott 谈到为 Chat GPT-5 提供支持的超级计算机时表示：“我们刚部署的系统，从规模上来看，大约有鲸鱼那么大。”Scott 在该公司 5 月下旬举办的 Build 活动中，介绍了 Open AI 生成式 AI 聊天机器人的最新版本。他表示：“事实证明，用鲸鱼级规模的超级计算机可以构建大量 AI。”
与此同时，Nvidia 市值在 6 月突破 3 万亿美元。这家芯片制造商正以惊人速度发展，其芯片为日益庞大的语言模型、超级计算机以及全球迅速扩张的数据中心提供动力。
但是，是不是越大越好呢？这取决于您的视角。对于从事大型语言模型开发的公司而言，规模在大多数情况下确实是一种优势。然而，当企业尝试区分炒作与 AI 的实际价值时，越来越大的语言模型是否总能为企业提供更优解决方案仍未可知。
展望未来，IBM 生成式 AI 研究项目总监 Kate Soule 在最新一期的《IBM Mixture of Experts》播客中表示：“我们无需使用比现有模型大 100 倍的模型，就能挖掘大部分价值。”许多已经从 AI 投资中获益的公司，将其用于分类和摘要等任务，而这些任务甚至并未充分利用当前语言模型的全部能力。
“越大越好”的观点源于数据扩展定律，这一讨论始于 2012 年 Prasanth Kolachina 在论文中将扩展定律应用于机器学习。Kolachina 及其同事表明，随着模型规模增大，它们通常更准确，性能也更出色。2017 年，Hestness 等人进一步展示了深度学习的规模扩展也可通过经验进行预测。随后在 2020 年，Kaplan 等人证明，数据扩展定律同样适用于语言模型。
尽管这些定律对追求通用人工智能的语言模型提供商有帮助，但企业是否必须投入如此规模的投资或 AI 才能获得最大价值，还尚不明确。
IBM 的 Soule 表示：“仅因为你知道如何以最具成本效益的方式训练 nth 级规模的模型，并不意味着你从该模型获得的实际收益能够抵消成本。这是一个完全不同的问题，扩展定律无法回答。”
随着用于训练 AI 模型的高质量数据日益稀缺，数据成本也在不断攀升。人工智能研究机构 Epoch AI 的一篇论文指出，到 2026 年，AI 模型可能就会耗尽互联网上现有的所有高质量语言数据。
因此，企业在获取新数据以训练模型并控制成本方面展现出了更多创新手段。例如，Open AI 最新版本的 Chat GPT 向用户免费开放，以换取部分用户数据及第三方数据。主要企业还在探索合成数据，包括 2D 图像、3D 数据、文本等，这些数据会与真实世界的数据结合，用于 AI 模型训练。
虽然开发大型语言模型的公司承担数据成本，但随模型规模增长带来的气候成本却在很大程度上被忽视。随着模型日益复杂且使用量不断增加，它们会消耗庞大的计算资源。承载这些模型超级计算机的数据中心会消耗大量能源，从而产生相应的碳排放。
华盛顿大学语言学教授 Emily Bender 表示：“问题不仅在于巨大的能源消耗，更在于碳排放的成本首先会落在那些未从这项技术中受益的人身上。”她曾发表论文《随机鹦鹉的危险：语言模型会不会太大？》。
Bender 在华盛顿大学的一份新闻稿中指出：“进行成本效益分析时，必须考虑谁在受益、谁在承担成本，因为两者往往不是同一群人。”
企业平衡成本与收益的一种策略是，先用规模更大的模型解决最具挑战性的业务问题。随后，一旦获得答案，他们便转向较小的模型来复现大型模型的结论，从而降低成本并减少延迟。
较小语言模型的使用也在增加，作为大型语言模型的一种替代方案。
Dialpad 联合创始人兼首席技术官 Brian Peterson 面对 PYMNTS 谈道：“与 ChatGPT 或 Anthropic 的 Claude 等大型语言模型相比，较小的 LLM 能提供更多控制权，因此在许多场景下更受青睐。
它们能够处理较小的数据子集，从而速度更快、成本更低，而且如果使用自有数据，还能实现更高的定制化和更高的准确性。”构建更大、更强大 LLM 的竞赛短期内不太可能放缓。但展望未来，大多数专家认为，我们还将迎来一波紧凑而高效的 AI 模型，这些模型在特定领域表现卓越，为希望更好平衡 AI 价值与成本的企业提供了另一种选择。
