在这里插入图片描述

OpenCompass介绍

OpenCompass 是面向大模型评测的一站式平台。其主要特点如下:

  • 开源可复现:提供公平、公开、可复现的大模型评测方案

  • 全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力

  • 丰富的模型支持:已支持 20+ HuggingFace 及 API 模型

  • 分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测

  • 多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能

  • 灵活化拓展:想增加新模型或数据集?想要自定义更高级的任务分割策略,甚至接入新的集群管理系统?OpenCompass 的一切均可轻松扩展!

性能榜单

我们将陆续提供开源模型和API模型的具体性能榜单,请见 OpenCompass Leaderbaord 。如需加入评测,请提供模型仓库地址或标准的 API 接口至邮箱 opencompass@pjlab.org.cn.

数据集支持

模型支持

安装

下面展示了快速安装的步骤。有部分第三方功能可能需要额外步骤才能正常运行,详细步骤请参考安装指南

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/InternLM/opencompass opencompass
cd opencompass
pip install -e .
# 下载数据集到 data/ 处
wget https://github.com/InternLM/opencompass/releases/download/0.1.0/OpenCompassData.zip
unzip OpenCompassData.zip

评测

请阅读快速上手了解如何运行一个评测任务。

https://opencompass.readthedocs.io/zh_CN/latest/get_started.html#id2

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐