什么是 Hugging Face?

Hugging Face 徽标

作者

Cole Stryker

Staff Editor, AI Models

IBM Think

Hugging Face 是什么?

Hugging Face 是一家公司,它维护着一个庞大的同名 开源 社区。该社区致力于构建用于人工智能开发 的工具、机器学习模型和平台,重点关注 数据科学 机器学习 自然语言处理 (NLP)领域。Hugging Face 因其 NLP transformers 库及允许用户共享模型与数据集的平台而闻名。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

使用 Hugging Face 的优势

Hugging Face 培育了全球最具活力的 AI 社区之一,用户每日持续贡献新的 AI 模型数据集、教程与研究内容。该平台提供丰富的 API 接口,允许开发者将模型直接集成到应用程序中,其平台支撑着跨越多行业及应用场景的广泛任务需求。以下是该平台的主要优势:

  • 及时获取最新模型

  • 简化工作流程

  • 便捷部署与弹性扩展

  • 活跃的开发者社区

  • 聚焦负责任的人工智能

使用 Hugging Face 的优势

及时获取最新模型

Hugging Face 通过其 Model Hub 提供数千个预训练模型的访问权限,涵盖语音识别、文本分类、文本生成文本摘要、问答、图像生成等各类任务。Model Hub 就像一个模型市场,用户可轻松查找模型,并通过寥寥数行代码完成下载与微调,相比从零开始训练,为开发者和研究人员节省了大量时间与资源。

简化工作流程

Hugging Face 系列库以用户友好和文档完善著称。初学者能够快速微调强大模型,并借助 Hugging Face 工具执行分布式训练、token 化、效果评估及模型部署等复杂任务。这种兼顾基础工具与高级功能的设计,为更广大的开发者群体敞开了 AI 开发的大门。

便捷部署与弹性扩展

除模型训练外,Hugging Face 极大简化了生产环境部署流程。借助其工具,用户无需深厚的基础设施背景,即可将模型部署至 Web 端、移动应用程序或内部系统。这种全栈支持使该平台对初创企业及大型公司都具有特殊吸引力。

活跃的开发者社区

除了触手可及的技术资源,Hugging Face 充满活力的社区生态已使其成为开发者、数据科学家和研究人员的聚集地。对于缺乏经验的开发人员而言,这里是一个向经验丰富的从业者学习,并向可能已面临过类似挑战的人员请教问题的平台。

聚焦负责任的人工智能

许多 Hugging Face 模型均附带了关于其局限性、认知偏差及适用场景的说明文档。该公司投入大量资金用于完善开放治理机制,积极推动社区主导的 AI 伦理探讨。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

开源带来的差异化价值

在 Hugging Face 出现之前,最强大的模型往往因需要专业知识和巨大算力而难以普及。通过将工具开源化,并配套提供完整的代码与文档,这些模型的使用门槛得以显著降低。这使得研究人员、学生和初创公司能够进行实验与构建,全球创新进程由此大幅加速。在 Hugging Face 之后,开发者能够便捷地分享知识并相互借鉴成果,从而共同打造更优秀的模型。

这种对开源的重视也鼓励了大型企业分享其成果,使整个生态系统受益。微软已将 Hugging Face 模型集成至其 Azure 服务中,为企业客户直接提供先进的 AI 工具。同样,英伟达与 Hugging Face 合作,优化了 GPU 上的模型训练与推理,帮助将深度学习工作流扩展到海量数据集。

Hugging Face 历史

Hugging Face 由法国创业者 Clément Delangue、Julien Chaumond 与 Thomas Wolf 于 2016 年在纽约创立。1创始团队最初致力于开发面向青少年的聊天机器人,但在认识到支撑聊天机器人技术的模型潜力后,果断将业务重心转向模型开发本身。

他们将内部工具开源,并推出初代 Hugging Face Transformers 库,该库很快就在研究人员和工程师群体中迅速流行起来。Hugging Face 由此成为预训练Transformer 模型的权威资源库,并于 2020 年推出模型仓库 Hugging Face Hub,使用户能够轻松上传、下载和共享模型。次年,他们发布 Datasets 数据集库简化数据集共享流程,同时推出 Hugging Face Spaces 用于部署交互式 AI 演示应用。2022 年,该公司收购了 Gradio,这是一个用于在 Python 中开发机器学习应用的开源 AI 库。2

Hugging Face 已发布面向多模态模型、大语言模型、扩散模型和强化学习的工具。2023 年,Hugging Face 开始与 IBMwatsonx.ai 展开合作,该平台是 IBM 的 AI 工作室,使用户能够训练、验证、调整并部署传统机器学习模型及当时新兴的生成式 AI 功能。同年晚些时候,IBM参与了 Hugging Face 的 D 轮融资

Hugging Face 服务

以下是 Hugging Face 的主要服务:

Hugging Face Hub

Hugging Face Hub 是一个基于网络的中央平台,用户可在此共享、发现模型、数据集及应用程序,并开展协作。其功能类似于“面向 AI 的 GitHub”,托管了数千个公开可用的资源。模型与数据集页面大多包含文档、示例、版本跟踪及实时演示。该平台同时为团队和企业提供私有代码库,以保障协作安全。

Transformers 库

Transformers 库是自然语言处理、计算机视觉深度学习模型领域应用最广泛的工具之一。这是一个需要用户安装于计算机或服务器上的 Python 库,用户可通过其提供的代码调用在 Hub 中找到的模型。该库涵盖模型架构、预处理工具、训练实用程序等功能。基于 PyTorch 和 TensorFlow 等流行框架构建,Transformers 库使用户仅需几行代码即可加载 BERT、GPT 等强大机器学习模型。它还提供丰富工具,支持基于自定义数据集对开源模型进行微调,从而提升研究与生产应用的实用性。

其他资源库

除了 Transformers 和 Hub 之外,Hugging Face 生态系统还包含用于其他任务的资源库,例如数据集处理(“Datasets”)、模型评估(“Evaluate”)和机器学习演示(“Gradio”)。

脚注:
  1. Hugging Face 希望成为你的人工智能挚友,TechCrunch,2017 年 3 月

  2. 《Gradio 加入 Hugging Face!》 ,Hugging Face,2021年 12 月