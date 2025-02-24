如今，几乎每家科技巨头都在研发自研定制硅芯片，或考虑收购现有芯片制造商。这背后的原因是什么？IBM Consulting 副总裁兼高级合伙人 Shobhit Varshney 表示，随着驱动各类纷繁复杂的 AI 应用所需的芯片数量激增，自研芯片能够降低成本并提升 AI 系统性能。
“当您优化硬件架构，使其与软件架构配合使用时，就会创造奇迹，”他在最近一期的 IBM《Mixture of Experts》播客中表示。“这能降低总成本与延迟，同时提升吞吐量。”
通过自研芯片，企业还能减少对芯片制造商 NVIDIA 的依赖——该公司占据了全球 70% 至 95% 的 AI 芯片市场份额。不过，IBM Research 首席研究科学家兼经理 Kaoutar El Maghraoui 在接受 IBM Think 采访时表示，事情并非这么简单。她指出，减少对 NVIDIA 的依赖只会让“权力中心从一个巨头转移到另一个”。
Varshney 表示，即便企业加强了对设计流程的掌控（近年来该领域一直由 NVIDIA 主导），仍会严重依赖台湾积体电路制造股份有限公司（TSMC，简称台积电）。全球大部分 AI 芯片均由台积电代工生产，应用场景覆盖智能手机、军事设备等多个领域。
Varshney 称，台积电是不折不扣的“行业巨头”。“如今各家都在设计芯片，但台积电仍是整个行业的核心。”
早在生成式 AI 应用激发科技公司对芯片的强烈需求之前，硅谷的芯片竞赛就已拉开序幕。2015 年，Google AI 系统 AlphaGo 凭借谷歌自研的张量处理单元 (TPU) 芯片，在古老的中国围棋项目中击败了人类职业棋手。此后，Google 陆续推出多款自研芯片，用于驱动其数据中心的 AI 系统。最近在 2024 年 12 月，Google 发布了一款名为 Willow 的量子计算专用 AI 芯片。Google 表示，Willow 可在 5 分钟内完成一项标准基准计算，而当今最快的超级计算机完成该项计算则需要 10 的 25 次方年（即 10 亿亿亿年）。
大约在 Google 推出 AlphaGo 的同期，IBM 的研究人员也开始着手 AI 硬件的研发探索。2021 年，IBM 在纽约州奥尔巴尼市开设了 AI 硬件中心，旨在构建更广泛的 AI 软硬件生态系统；2022 年，IBM 全新 Telum 微处理器芯片为 IBM Z® 大型机带来了 AI 推理功能——按交易价值计算，全球约 70% 的交易都由该系列大型机处理。2024 年底，IBM 推出全新 Spyre™ 加速器芯片，为企业用户的 IBM Z® 大型机赋能生成式 AI。
与此同时，AWS 至少从 2018 年起就开始为 AI 项目研发自研计算机芯片。时间来到 2024 年 AWS 年度大会，Amazon 在会上发布了最新自研 Trainium3 AI 芯片，并将其与合作伙伴 Anthropic 的大语言模型搭配推向客户。包括 Apple 公司在内的多家企业纷纷采用 AWS 的 AI 芯片——这一情况在 2024 AWS 大会上引发关注，因为 Apple 极少公开讨论其供应商。
不甘落后的 Microsoft 多年来一直研发游戏专用芯片，于 2023 年宣布推出自研 AI 芯片，而同期科技巨头 Meta 也公布了自家的芯片研发计划。OpenAI 是最新加入定制芯片研发行列的企业，但尚未发布任何官方公告。尽管尚未公开具体细节，但 Reuters 本月早些时候报道称，OpenAI 正在敲定芯片设计方案，计划于 2025 年通过台积电启动代工生产。
为何近期芯片竞赛愈演愈烈？IBM 的 Varshney 表示，当企业能够根据自身用例的特定语言模型定制芯片时，就能降低成本、减少延迟或提升跨网络数据传输速度。他举了一个例子：过去，企业进行欺诈检测和发票核验时，由于处理量庞大且对延迟要求极高，往往采用传统计算技术。Varshney 表示：“他们每天还要执行百万次此类操作，因此成本会迅速累积。”
如今，企业可针对特定模型优化芯片，高吞吐量用例的成本随之降低，规模化落地这些解决方案也变得更具成本效益。““因此，从企业视角来看，用例并未发生变化，”Varshney 称。“但现在我们能够涉足那些此前缺乏投资回报空间的高吞吐量场景。”
鉴于越来越多科技公司启动自研芯片，台积电如何保持其竞争优势？首先，台积电从一开始就采用了与其他科技公司截然不同的经营模式。IBM 的 El Maghraoui 解释道：“台积电是一家专业代工企业，这意味着他们不参与芯片设计，仅为其他公司提供芯片制造服务。”多年来，随着芯片品类日益多样化，制造成本不断攀升，越来越多企业将芯片制造业务外包给台积电。
半导体研究分析公司 SemiAnalysis 创始人 Dylan Patel 在近期播客采访中表示：“与此同时，单颗芯片的制造成本也在飙升。”Patel 称，台积电一直专注于芯片制造，并为企业客户提供了极为便捷的服务。
“半导体制造技术非常陈旧，且难度极高，”他解释道“由于相关岗位专业性极强，该行业的准入门槛远高于大多数科技领域。”Patel 补充道，台积电员工对自身工作抱有极强的自豪感。“他们每周在工厂工作 80 小时，一旦出现任何状况（例如地震），即便在深夜也会第一时间赶到现场，因为他们是唯一能修复特定设备的人。”
难以复制台积电模式的另一个原因是，其已投资数十亿美元，采购了另一家半导体巨头，荷兰公司 ASML 生产的数十台高度专业化先进芯片制造设备。
ASML 是极紫外光刻技术 (EUV) 的先驱，该技术核心是大量产生极短波长的光，在微芯片上蚀刻小型复杂的电路图案。ASML 的芯片制造设备每台造价在 1.83 亿美元至 3.8 亿美元之间。2014 年，全球首批 EUV 设备之一安装于奥尔巴尼纳米技术综合体，该综合体由 NY CREATES 拥有并运营，IBM Research 是其核心合作伙伴。
从那时起，IBM Research 及其合作伙伴构建了一套生态系统，用于开发和优化 EUV 光刻技术，这使得 IBM 及其他企业能够将晶体管尺寸缩小至仅几纳米，比一根发丝细数万倍。
尽管 ASML 与 IBM 等合作伙伴持续致力于研发更小尺寸的芯片，但台积电作为芯片代工厂仍将在产业链中占据重要地位。SemiAnalysis 的 Patel 并不认为台积电的参与是问题所在。“我认为这未必能打破依赖关系，” 他表示。“但这会推动台积电在美国建厂。”台积电于 2020 年宣布将在美国建设芯片工厂，此后这家制造巨头已投资 650 亿美元，在亚利桑那州开发三座芯片工厂。2024 年第四季度 ，台积电在美国的第一座芯片工厂正式投产。
El Maghraoui 等专家认为，企业利用 AI 寻找新型芯片材料为 AI 供能，具有广阔前景。为此，IBM 与 Meta 的新模型或能帮助研究人员发现芯片制造用新材料，这些材料有望在未来重塑行业竞争格局。
“当我们将这些模型开源时，就能加速创新、促进合作，并推动全新半导体技术的发展，”El Maghraoui 表示。
例如，IBM 可持续材料战略联席主管 Jed Pitera 指出，IBM Research 材料基础模型 (FM4M) 项目的一个团队正利用 AI 设计新型芯片，这些芯片能实现同等或更优性能，且环境足迹更小。“如果我拥有一座晶圆厂，正在生产十种不同类型的芯片，那么每种芯片的总环境足迹是多少？” 他解释道，这指的是制造某款芯片所需的电力消耗、用水量以及产生的排放量。
“当我们了解芯片 A 的总环境足迹后，就能着手调整芯片制造方式，使其在保持同等性能的同时，将环境影响降至最低，”Pitera 表示。“而当环境足迹降低时，成本也会随之下降。”
了解基础设施即服务 (IaaS)、平台即服务 (PaaS) 和软件即服务 (SaaS) 之间的主要区别。深入了解每种云模型如何提供不同水平的控制、可扩展性和管理能力，以满足不同的业务需求。
IBM Cloud Infrastructure Center 是一款兼容 OpenStack 的软件平台，用于管理 IBM zSystems 和 IBM LinuxONE 上的私有云基础架构。
发现专为企业混合云和 AI 策略设计的服务器、存储器和软件。
查找适合企业的业务需求的云基础设施解决方案，并按需扩展资源。
利用 IBM 的混合云和 AI 就绪解决方案来实现企业基础设施转型。了解旨在保护、扩展和实现企业的现代化改造的服务器、存储和软件，或获取专家洞察分析，从而强化您的生成式 AI 战略。