什么是 LangSmith？| IBM

什么是 LangSmith？

构建可靠的大语言模型 (LLM) 应用程序面临的最大挑战之一便是，了解人工智能 (AI) 系统在部署后出现故障或异常行为的原因。在复杂的智能体工作流中，开发人员往往很难追踪错误、微调提示、评估极端情况下的性能表现或调试工具使用和内存问题。LangSmith 由 LangChain 背后的团队开发，为解决这些挑战提供了一个强大的解决方案。LangSmith 是一个专用平台，用于监控、调试和评估使用大语言模型构建的应用程序。它让开发者能够实时进行检查跟踪、监控性能、测试不同的提示版本，并实时跟踪外部工具和内存的使用情况，而且所有这些均可在一个统一界面中完成，旨在使 LLM 应用程序更加稳健、更适合生产部署。

了解 LangSmith 与 LangChain

LangChain 和 LangSmith 都是支持 LLM 开发的工具，但每个工具的用途有所不同。

LangChain 是一个开源 Python 框架，可简化 LLM 应用程序的构建和部署过程。它通过使用链、代理和内存等模块化构建块，将多个 LLM 组件整合到结构化的工作流中。这些组件支持将 LLM 与外部工具、应用程序编程接口 (API) 和数据源相集成，以构建复杂的应用程序。它不依赖于单一模型，而是支持将用于文本理解、响应生成和推理等任务的模型串联起来，让每一步都建立在上一步的基础上。LangChain 通过可重复使用的模板支持提示工程，并可与 LangGraph 集成以实现工作流可视化设计。这种能力使其特别适用于构建需要进行上下文处理和逻辑推进的会话式智能体和 AI 系统。

此外，LangSmith 是支撑 LangChain 开发功能的核心运维支柱。LangChain 可帮助您构建工作流，而 LangSmith 则通过提供调试、监控和管理复杂 AI 系统的工具来确保工作流平稳运行。LangSmith 能够深入了解模型行为，从而更容易识别性能问题、跟踪错误并实时优化响应。它还支持跨多个模型和管道进行编排，以实现无缝部署和协调。LangSmith 可与 TensorFlow、Kubernetes 等外部工具无缝集成。它还可以与 AWS、GCP 和 Azure 等主要云供应商的平台集成，同时为混合架构和本地部署提供强有力的支持。LangSmith 可支持开发实际应用的 AI 应用程序，包括聊天机器人和其他交互式系统，例如 AI 智能体、虚拟助手和对话式界面。这种能力可以帮助开发人员简化工作流。

LangChain 和 LangSmith 相结合，可简化从原型设计到生产的整个开发过程。

LangSmith 的工作原理是什么？

LangSmith 通过将自身嵌入到 LLM 应用程序堆栈中来运行，无论您是使用 LangChain 还是构建自定义管道，它都可以确保开发和生产的每个阶段清晰可见、可追溯且可管控。它从每次 LLM 交互中捕获细粒度数据并将其可视化，帮助开发人员查明问题、测试解决方案并优化性能。

LangSmith 的主要功能包括：

调试
测试
评估
监控

调试

LLM 应用程序通常涉及复杂的推理路径、动态工具使用和多步骤链。当出现无限循环、输出错误或工具调用失败等错误时，传统的调试方法显得力不从心。LangSmith 可针对与 LLM 的每次交互提供详细、有序的洞察分析，从而确保整个过程清晰可见且可追溯。通过使用 LangChain 表达式语言 (LCEL)，可描绘、追踪并展示数据是如何逐步通过应用程序的。这种可见性有助于对响应时间长、错误或意外行为进行故障排除。LangSmith 提供丰富的可视化工具，用于展示 LLM 调用追踪结果，帮助开发人员轻松了解和调试复杂工作流。开发人员可以检查每个提示和响应、链条和代理中的中间步骤，以及工具调用操作及其对应输出。这种细粒度的可视能力有助于快速识别和解决问题，显著缩短开发时间并提升应用程序稳定性。

测试

LLM 应用程序需要频繁更新，无论是优化提示、调整链逻辑还是更改模型参数。确保这些变更不会导致退步至关重要。LangSmith 支持进行数据集驱动的测试，允许开发人员对不同的应用程序版本运行预定义或自定义的测试套件，从视觉层面和语义层面比较输出，并在部署到生产环境之前识别行为变化。这种测试有助于实现严格的质量保证，并促进安全的迭代开发。LangSmith 支持自动评估，使团队能够快速迭代提示设计和模型参数，以确保始终如一的高质量。

评估

除了功能正确性之外，还必须根据企业和用户期望持续评估 LLM 生成的输出的质量。LangSmith 提供内置和可定制的评估工具，用于评估准确性、相关性和连贯性等多个维度的表现。借助 LangSmith 的评估功能，团队可以基于数据集和提示变体对表现情况进行基准测试，找出降低用户体验的极端情况，并通过清晰的指标跟踪改进或退步情况。这种结构化的评估流程有助于确保 LLM 系统保持高效、准确并能达到预期结果。

监控

将 LLM 应用部署至生产环境需要健全的监控机制，以确保性能稳定与即时事件响应。LangSmith 为 LLM 工作流提供端到端的可观测性，例如：实时记录执行过程、延迟与错误率；与警报系统集成实现即时事件报告；通过仪表板洞察使用模式与系统健康状况。这种运营智能使工程团队能够主动管理应用行为，从而帮助确保生产环境的可靠性与高响应能力。利用 LangSmith 进行实际部署监控，可帮助团队优化事件响应流程并维持稳健的系统健康状态。

LangSmith 通过简单的 Python SDK 帮助开发人员轻松构建和管理 AI 应用程序。它可与 OpenAI GPT 等 AI 模型对接，并使用检索增强生成 (RAG) 等技术来改进这些模型的工作方式。通过使用 API 密钥，开发人员可以跟踪和调试 AI 智能体，包括基于 ChatGPT 的智能体，确保生成式 AI 项目顺利运行并表现良好。

例如，这项研究提出了一种 LangSmith 编辑器，可帮助非英语母语的研究人员用英语撰写学术论文，尤其是 NLP 领域的论文。该系统提供三大功能：基于草稿的文本修订建议、基于上下文的文本补全以及语法或拼写错误纠正。^[1]结果表明，LangSmith 可以提高草稿修订质量，尤其是在人机协作的情况下，帮助非英语母语的作者写出更流畅、风格合适的学术文本。该系统通过消除科学交流中的语言障碍，增强了多元性和包容性。这是一个真实用例，突出了 LangSmith 如何在学术写作领域增进人类与 AI 之间的协作，从而促进数据科学研究。此类用例表明，LangSmith 能够在各种 AI 赋能的领域提高包容性和生产力。

Factory 公司致力于开发用于自动化软件开发生命周期 (SDLC) 的 AI 智能体，该公司利用 LangSmith 确保企业环境中 LLM 操作的安全可靠。^[2]该公司将 LangSmith 与 AWS CloudWatch 集成，实现了跨 LLM 流程的完整可追踪性，从而加快调试速度并优化上下文管理。通过使用 LangSmith 的反馈 API，他们基于真实用户输入实现了提示词评估与优化的自动化。此举使其迭代速度提升一倍，并将从创建到合并的时间缩短 20%，使 LangSmith 成为其 AI 开发与可观测工作流的关键组成部分。

LangSmith 的优势和挑战

优势

一体化平台：LangSmith 将所有核心功能（调试、测试、部署、监控）整合到一个统一平台中。使用 LangSmith 进行实际部署监控，可帮助团队简化事件响应并保持系统的稳健运行。它的界面简洁、对开发者友好，让用户可以轻松驾驭复杂的工作流并高效管理项目，而无需在多个工具之间切换。

健全的调试与评估功能：提供详细的追踪记录分析、提示词测试和数据集管理工具，帮助精准定位问题、评估性能并优化 LLM 行为。

企业级可扩展性：旨在支持大容量、生产级应用程序，非常适合用于帮助企业团队构建和维护复杂的 AI 系统。

挑战

学习曲线陡峭，不适合初学者：对于初学者来说，LangSmith 可能具有挑战性，因为它需要对 LLM 工具和 DevOps 流程有深入的了解，而这可能会限制新手的使用。

高度依赖 LangChain 生态系统：LangSmith 与 LangChain 深度绑定。这对 LangChain 框架的用户来说十分友好，但对于使用其他编排工具或自定义堆栈的用户来说可能没有那么友好。

大规模项目的扩展性与成本考量：在企业应用中，成本可能随规模增长，尤其是在频繁评估、大量追踪记录存储或高级分析场景下。

是选择 LangChain、LangSmith 还是将两者结合，取决于您的 LLM 应用程序的具体要求。LangChain 非常适合进行复杂语言模型工作流的设计和原型开发，能够与外部工具和 API 无缝集成。当您准备投入生产并需要强大的工具来大规模调试、测试、监控和维护 LLM 应用程序时，请使用 LangSmith。将这两个平台结合使用，可为构建、部署和维护高质量 LLM 应用程序提供全面且可扩展的解决方案。

脚注

¹ Ito, T.、Kuribayashi, T.、Hidaka, M.、Suzuki, J. 和 Inui, K.，2020 年，《Langsmith: An interactive academic text revision system》，arXiv 预印本 arXiv:2010.04332。

² LangChain，2024 年 6 月 19 日，《How Factory used LangSmith to automate their feedback loop and improve iteration speed by 2x》，LangChain 博客。https://blog.langchain.dev/customers-factory/

如何选择合适的基础模型

什么是 LangSmith？

什么是 LangSmith？

了解 LangSmith 与 LangChain

LangSmith 的工作原理是什么？

调试

测试

评估

监控

LangSmith 的优势和挑战

优势

挑战

脚注

资源