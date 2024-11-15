毫无疑问，新闻媒体行业的一些高管曾以焦虑的态度看待人工智能 (AI)。但未来的新闻编辑部完全不具备任何 AI 工具的可能性极低。
根据 Nieman Lab1 的报告， 全国各大新闻编辑部一直在围绕如何开发和使用 AI 工具及流程、同时维护伦理和编辑标准，设计新的岗位和举措。
《纽约时报》、《美联社》、《华盛顿邮报》、ESPN 和 Semafor 等新闻出版商已经公开表示，他们正在投资相关项目，探索如何将 AI 技术与人类记者结合使用。
本文将探讨 AI 如何在新闻业中得到应用，顶级媒体机构如何规划其 AI 战略，以及行业分析师对新闻业未来发展的预测。
在生成式 AI 流行之前，新闻机构就已经在使用机器学习和某种形式的 AI 技术来协助进行社交媒体监测2、 管理新闻报道中使用的大型数据集3，以及为数字产品组织工程工作流4 。
记者们已经受益于 Otter 和 Trint 等基于自然语言处理的转录服务。新闻机构则利用来自 CrowdTangle 和 ChartBeat 等平台的 AI 算法来分析观众参与度并追踪社交媒体上的热门话题。
早期的一些实验，例如 AI 驱动的新闻应用程序 Artifact5，已经暗示了 AI 可能让新闻变得更有趣的潜在方式，比如具备“以 Z 世代风格总结新闻”等功能。
在大多数情况下，这类工具能使记者扩展报道规模、减少繁琐工作，并解读他们从多来源抓取的数据中的关联或模式。
生成式 AI 带来的新意在于，它能够生成诸如文字、音频、视频和图像等内容。在某些用例中，生成式 AI 可以帮助编辑和记者为不同的分发渠道翻译和改编他们的报道。然而，这项技术也可能被恶意行为者利用来制造虚假信息和深度伪造，这加大了记者们的工作难度。
AI 技术已到达一个拐点；各行业正超越炒作阶段，努力实际理解 AI 能做什么、不能做什么。但为了跟上创新和变革的步伐，企业必须尝试使用 AI 的不同方式。新闻编辑部也不例外。
媒体行业分析师预测，生成式 AI 可以缓解新闻编辑部中一些更为枯燥的后台工作6。这包括诸如添加标签、分类、添加元数据、提供标题和 SEO 建议、文案校对、整理研究资料、处理授权和审核评论等任务7。
路透研究院的一份报告 6 指出，生成式 AI 也可能适用于那些不需要引入文档中原本不存在的新信息的语言任务。这些任务包括总结、翻译、简化、以不同风格重写，以及为社交媒体、新闻通讯和脚本提取文案。
由伦敦政治经济学院 (LSE) 新闻智库 Polis 发起的“JournalismAI”等项目，一直在收集关于全球新闻编辑室如何部署 AI 的成功案例8 。以下是新闻业已经在使用 AI 的一些方式：
新闻采集
新闻生产
受众互动
美联社、彭博社和路透社等主要新闻机构早已使用计算机和某种程度的自动化技术在全球范围内寻找新闻。
例如，彭博社创建了自己的大语言模型 (LLM)9 ，该模型使用他们精选的财务文档和彭博终端上的数据进行训练。据称，该模型提升了自然语言处理任务的能力，例如涉及金融术语的情感分析、命名实体识别和新闻分类。
另一方面，Semafor 与微软和 OpenAI 合作，构建了一个名为“Signals”的由 AI 驱动的“多源突发新闻推送”10 工具。该 AI 工具侧重于研究，帮助 Semafor 的记者搜索全球不同语言的新闻来源。最终由人类编辑评估和核实来源、撰写摘要，并通过相关链接引用原始信息。
美联社利用 AI 11 ，通过综合来自新闻稿、分析师报告和股票表现的信息，实现某些公司收益报道的自动化处理。他们表示，这种能力使其记者能够专注于更深入的报道。美联社还在尝试使用 AI 从社交媒体警报中检测突发新闻事件。《金融时报》12 和《华尔街日报》13 都在开发能够预测热门话题的 AI 模型，以便为记者提供潜在的报道线索并发现报道覆盖上的空白14。
AI 也可以发掘相关研究作为调查性报道的起点。无论文档格式如何，AI 语言模型都能帮助记者在海量文件中精准定位感兴趣的部分15 。对于地方监督类媒体，AI还可能识别政府审计报告中的异常之处，从而为记者发掘线索16。AI 还能处理来自竞选财务记录、州立法文件、民事诉讼、市政预算等大型数据集，并总结这些文件的内容协助记者17。 挪威的一家地方报纸 iTromsø 甚至设计了自己的 AI 驱动工具，用于抓取市政档案数据、按相关性对文档排序，并提取可能成为报道线索的关键信息。
AI 驱动的工具还可以记录并整理地方会议或市议会的笔记，筛选新闻线索，并为录制的视频创建文字稿。许多新闻编辑部都在使用某种 AI 语音转文字软件进行转录和翻译。
路透社发现，AI 生成的高亮片段和摘要18 使记者更容易在存档视频中搜索关键人物和时刻。AI 视频高亮功能在体育报道中也变得很有用。ESPN 使用 AI 来识别高光片段并大规模生成赛事回顾19。
有一系列 AI 工具可以帮助记者校对、草拟标题和构思大纲。在十月份的一篇帖子20中，《纽约时报》表示他们不使用 AI 撰写文章。然而，他们确实使用 AI 来筛选用于调查性报道的数据，制作文章音频版，并提供文章推荐。有时，他们可以使用生成式 AI 来草拟可能的标题、文章摘要，以及将报道从英语到西班牙语的初版翻译。所有这些都在人工监督下进行，并在发布前经过编辑。
《华盛顿邮报》与文本转语音软件公司 Eleven Labs 合作，为其部分文字版新闻通讯21提供 AI 生成的音频内容。这些音频可以在《邮报》的应用程序中添加到播放列表，与其他内容（如播客剧集和音频优先文章）一同呈现。
BBC 此前曾尝试使用自动化工具22 ，可能为他们的视频和音频节目生成“粗剪版”。
NLP 应用，如 Newtral 的自动事实核查工具和杜克记者实验室的 FactStream，可以协助识别需要核查的言论。编辑们总体上似乎认可 AI 辅助的校对和文案编辑。
检测深度伪造的 AI 工具正在测试和开发中。然而，专家警告称23 ，它们只应作为核实流程的起点。
在媒体争夺注意力的过程中，AI 摘要显示出吸引读者的潜力。在早期测试中，它提高了挪威一家公共广播电台24 和南非一家日报25的读者量。瑞典一家小型报纸发现，包含 AI 摘要增加了读者在 文章上停留的时间26。
AI 摘要功能也可以以聊天机器人的形式呈现给读者。例如，《华盛顿邮报》有一个基于其存档文章训练的AI聊天机器人，可以回答读者关于气候科学的问题。该工具由《邮报》与弗吉尼亚理工大学的工程师27共同设计。该 AI 采用检索增强生成技术 (RAG)，并在《邮报》的存档上进行训练。它根据从存档文章中提取的信息生成摘要。该模型还会在信息不足无法回答读者问题时予以说明。同时，它会列出所参考的文章并告知读者可查阅核实。
英国《金融时报》在 Anthropic 的协助下部署了类似的聊天机器人，回答订阅者关于近期事件以及更广泛主题的问题。该聊天机器人正处于 Beta 测试阶段，但当 The Verge 的记者在 2024 年初对其进行测试时，发现其回答存在不一致之处28。JournalismAI 的一项研究29发现，这些工具在总结较长的文章时存在困难，尤其是那些更具创造性而非直截了当的文章。
除了严格的语言任务之外，AI 还能通过管理动态付费墙30 来帮助提高用户参与度，以增加订阅和留存。AI 还能利用读者的行为、习惯和浏览路径来推荐内容并个性化用户体验。良好的 AI 内容策展或许能通过将读者引向他们可能喜欢以及他们通常不会阅读的报道，促使人们变得更见多识广。
尽管有前景看好的案例研究，但生成式 AI 工具仍伴随着一系列风险。这包括围绕准确性、透明度、公平性、隐私和知识产权侵权等方面悬而未决的问题。
AI 生成的报道不仅因文笔拙劣，还因抄袭和事实错误引发了广泛争议。随着更多搜索引擎部署 AI 摘要功能，人们担心这些功能通过包含信息来源链接来营造权威表象。但它们可能断章取义，并提供错误信息31。此外，根据其训练数据的来源，AI 模型可能会放大已有的偏见。
尽管很容易将矛头指向 ChatGPT 之类的聊天机器人，但路透社研究所 6 指出，新闻机构无法轻易规避这个问题。内部开发专有模型具有挑战性。即使最大的新闻编辑部，其档案库也可能不足以提供一个 LLM 所需的全部训练数据。
最佳解决方案可能是对现有模型进行微调或提示调优，但这些方法本身也可能带来安全性、稳定性和可解释性方面的问题。
尽管生成式 AI 能完成令人印象深刻的任务，但它们最终缺乏对世界连贯的认知32。因此，AI 无法审查信息来源的质量，有时也可能会被误导。例如，Wired33 发现，谷歌、微软和 Perplexity 的 AI 产品曾基于网上已被广泛揭穿的伪科学种族理论给出 AI 答案，这是因为网络上缺乏高质量的信息。除此之外，AI 模型可能产生幻觉，并且仍在学习如何表达不确定性。
以前，媒体机构在发表利用机器学习或 AI 创作的作品时，会同时公布其数据和代码。现在，人们对算法问责和可解释性的要求更高了——受众希望知道内容何时由 AI 生成34。 即便如此，一些早期研究表明，当新闻内容被标记为 AI 生成时，受众往往会降低对其的信任度。
新闻业依赖于作者与读者之间的关系。维持信任至关重要。随着 AI 在新闻生产各个环节中的应用日益增多，媒体公司正努力在其披露中尽可能保持透明。
在 2024 年 5 月《纽约时报》发布的一份指导方针35 中，其编辑们表示，生成式 AI 将被用作服务于其揭露真相、帮助更多人理解世界这一使命的工具。该技术的使用需在人工指导和审核下进行，编辑们会解释作品是如何创作的，以及他们采取了哪些步骤来降低风险、偏见和不准确性。
正如《哥伦比亚新闻评论》36所述：“记者与 AI 之间的关系，类似于建立信源关系或培养在地联络人的过程。”“如同人类信源一样，人工智能可能知识渊博，但其设计并非没有主观性——它们同样需要被置于背景中考量并加以鉴别。”
各行业的 AI 系统正呈现更加透明的趋势。然而，企业仍在权衡更开放的源代码与安全性之间的利弊。
AI 的到来，使大型科技公司与新闻媒体行业之间本已不断演变的关系条款变得更为复杂。过去几十年里，新闻机构一直与分发其内容的科技平台处于对立状态。由于商业模式的冲突，诉讼不断，出版商们主张科技巨头垄断广告收入、流量，并在未给予公平补偿37的情况下使用其内容。AI 似乎加剧了这一问题。
一些媒体高管告诉《纽约杂志》 19 ，他们担心谷歌等搜索引擎中的 AI 摘要功能使聚合网站更容易“窃取其内容”，并用低质量信息淹没网络。
《哥伦比亚新闻评论》2024 年的一份 Tow 报告38 指出，由于定制化 AI 难以在内部开发，新闻机构必须依赖科技公司。此外，AI 增强的搜索功能可能影响受众参与度，并巩固科技平台对信息生态系统的控制。
不过，媒体公司在此轮与科技公司的谈判中确实占据一些优势。AI 只能基于现有信息工作。AI 无法深入现实世界去收集新的信息、经验或与他人互动。布鲁金斯研究院的一篇评论文章39指出，在存在偏见、错误信息和垃圾信息的背景下，新闻内容是改善基础模型质量的宝贵实时信息来源。事实上，根据《华盛顿邮报》40的一项调查，新闻文章构成了用于训练主流 LLM 数据集的重要组成部分。
重要的是，AI 系统始终渴求更多数据。而科技公司用于训练这些模型的公开可用数据正迅速耗尽41 。若没有新的高质量数据，这些模型可能会退化甚至崩溃。
这意味着新闻机构在定义其与开发 AI 系统的公司之间的关系时可能拥有更多话语权。同时，科技公司也更有动力选择与媒体公司合作，否则将面临知识产权方面的问题。
目前，已有部分出版商正在起诉 AI 公司侵犯版权，而另一些则签订了许可协议42。
这突显了更新知识产权与补偿相关法律框架的必要性。《华盛顿邮报》43 发现，有时 AI 摘要功能使科技平台得以规避先前要求其向出版商（尤其是付费墙后的内容）支付内容使用费的规定。
尽管仍有法律层面的问题需要解决，但未来 AI 公司和新闻机构仍可能以互利共赢的方式进行合作。关键在于开放的沟通与讨论。AI 开发者不应假定自己了解44用户需求，而应主动向各行业利益相关方咨询对用户有益的工具和服务。
1《华盛顿邮报首任 AI 战略编辑谈新闻编辑室中的 LLM》，Nieman Lab，2024 年 3 月 28 日
2《路透新闻追踪器》， 路透社，2017 年 5 月 15 日
3《从佛罗伦萨到机器：数据新闻学的演变——图说》， 《卫报》，2021 年 8 月 13 日
4《新闻机构中桥梁角色的兴起》， Nieman Lab，2017 年 12 月
5 “Instagram 联合创始人的人工智能驱动新闻应用程序 Artifact 可能并不会关闭”，TechCrunch，2024 年 3 月 26 日
6《AI 与新闻业：未来何在？》， 路透社研究所，2023 年 9 月 19 日
7 “想要更好的评论区？Graham Media Group 认为 AI 可以帮忙”，Nieman Lab，2023 年 7 月 13 日
8《探索 AI 与新闻业的交汇点》， 伦敦政治经济学院
9 《介绍 BloombergGPT：彭博 500 亿参数大语言模型，专为金融领域从头构建》， 彭博社，2023 年 3 月 30 日
10 “Semafor Signals 简介”，Semafor，2024 年 2 月 5 日
11《美联社的人工智能》， 美联社
12《预测金融时报热门话题》，Medium，2021 年 3 月 29 日
13《紧扣主题——构建华尔街日报新闻报道的自动化主题模型》， Medium，2021 年 3 月 26 日
14《华尔街日报如何利用深度学习指导内容策略》， Medium，2019 年 10 月 11 日
15《Quartz 如何利用 AI 梳理罗安达解密文件》， Quartz，2020 年 1 月 19 日
16《教自定义 GPT 阅读审计报告并支持监督新闻报道》， Medium，2024 年 1 月 30 日
17《地方新闻中的人工智能》， 美联社/ResearchGate，2022 年 3 月
18 《路透社在路透连接平台上为视频库推出 AI 驱动的可发现性功能，加速发现、编辑和发布进程》， 路透社，2023 年 7 月 10 日
19《媒体能生存下去吗？》， NYMag，2024 年 10 月 21 日
20 “纽约时报如何利用 AI 进行新闻报道”，纽约时报，2024 年 10 月 7 日
21《华盛顿邮报为三份新闻通讯添加 AI 生成音频》， Digiday，2024 年 5 月 20 日
22《数字文稿剪辑》， BBC 新闻实验室，2020 年 6 月 2 日
23《在今年的选举季中发现深度伪造：AI 检测工具如何工作及其局限》， 路透社研究所，2024 年 4 月 15 日
24《挪威公共广播公司如何利用 AI 生成摘要触达年轻受众》， 路透社研究所，2024 年 6 月 4 日
25《AI 用例：生成式 AI 摘要如何提升每日独行侠的读者量》， 世界报业协会，2023 年 9 月 29 日
26《瑞典晚报 Aftonbladet 发现读者在含 AI 生成摘要的文章上停留时间更长》， 新闻公报，2023 年 7 月 26 日
27《华盛顿邮报与弗吉尼亚理工大学合作开发 AI 新闻搜索工具》， 弗吉尼亚理工大学新闻，2024 年 9 月 9 日
28《金融时报测试基于其数十年文章训练的 AI 聊天机器人》， The Verge，2024 年 3 月 23 日
29《利用 AI 摘要将用户与优质新闻连接》， 伦敦政治经济学院 JournalismAI
30《经过多年测试，华尔街日报打造出能根据个体读者调整的付费墙》， Nieman Lab，2018 年 2 月 22 日
31《谷歌的 AI 摘要引发头痛并催生网络迷因》， Axios，2024 年 5 月 24 日
32《尽管输出令人印象深刻，生成式 AI 对世界并无连贯的理解》， MIT 新闻，2024 年 11 月 5 日
33《谷歌、微软和 Perplexity 在搜索结果中宣扬科学种族主义》， Wired，2024 年 10 月 24 日
34《公众对 AI 在新闻业中应用的态度》， 路透研究院，2024 年 6 月 17 日
35《纽约时报新闻编辑室使用生成式 AI 的原则》，纽约时报，2024 年 5 月 9 日
36《实则关乎伦理、AI 与新闻业：报道并利用计算与数据》， 哥伦比亚新闻评论，2019 年 11 月 21 日
37《为何谷歌和 Meta“亏欠”新闻出版商》， Poynter，2024 年 2 月 1 日
38《新闻中的人工智能：AI 如何重构、合理化并重塑新闻业与公共领域》， 哥伦比亚新闻评论，2024 年 2 月 6 日
39《新闻业能在 AI 时代生存吗？》， 布鲁金斯，2024 年 3 月 25 日
40《揭秘让 ChatGPT 等 AI 显得聪明的秘密网站清单》， 华盛顿邮报，2023 年 4 月 19 日
41《AI 聊天机器人训练数据的“淘金热”或将耗尽人类编写的文本》， 美联社，2024 年 6 月 6 日
42《AI 模型迫使媒体公司在许可与诉讼间做出选择》， 彭博法律， 2024 年 8 月 5 日
43 《Meta 放弃了新闻合作。如今该公司却利用新闻内容生成 AI》， 华盛顿邮报， 2024 年 5 月 22 日
44《谷歌向纽约时报、华盛顿邮报推介 AI 新闻撰写产品》， The Wrap，2023 年 7 月 20 日
