Deep Research自2025年2月初由OpenAI推出后迅速引发全球关注,其通过端到端强化学习技术实现多步骤研究任务自动化,能在数十分钟内生成分析师水平报告,效率远超人类(耗时从30分钟到30天不等),被学者评价为“堪比优秀博士生助理”。该功能不仅吸引Pro用户付费订阅,还促使谷歌、xAI等企业加速推出竞品(如Gemini和Grok 3),形成技术竞争热潮

。学术界对其颠覆性潜力反应强烈,宾夕法尼亚大学、多伦多大学等学者称赞其在论文撰写、数据整合等场景的实用性,甚至认为可支持B级期刊快速发文。开发者社区也积极复现该技术,涌现出基于DeepSeek R1等开源模型的本地部署方案。实测案例显示,其在爬取论文作者信息、医学研究等复杂任务中表现优于传统工具,同时引发教育、科研领域对AI替代人类研究能力的广泛讨论。 

迄今为止,github上,有20+个复现deep-research的开源项目。

名称 项目名 star 链接 备注
theworldofagents Agentic-Reasoning 158 https://github.com/theworldofagents/Agentic-Reasoning
HKUDS Auto-Deep-Research 299 https://github.com/HKUDS/Auto-Deep-Research 香港大学开源的。虽然star少,但是效果很不错。对应的评测比较完整,有论文
Cognio-so deep-research 0 https://github.com/Cognio-so/deep-research
dzhng deep-research 12.8k https://github.com/dzhng/deep-research 作为复现deep-research的开源项目,star最多,但是实际上逻辑非常简单!
mingdaoai deep-research 0 https://github.com/mingdaoai/deep-research
ssdeanx (和 dzhng是一个) deep-research-mcp-server - https://github.com/ssdeanx/deep-research-mcp-server
epuerta9 deep-research-py - https://github.com/epuerta9/deep-research-py
AnotiaWang deep-research-web-ui 986 https://github.com/AnotiaWang/deep-research-web-ui web前端ui界面搭建
zilliztech deep-searcher 902 https://github.com/zilliztech/deep-searcher
omni-georgio deep_research- 125 https://github.com/omni-georgio/deep_research- 很简单,就一个文件
HarshJ23 Deeper-Seeker https://github.com/HarshJ23/Deeper-Seeker 很简单,就一个文件
assafelovic gpt-researcher 19k https://github.com/assafelovic/gpt-researcher 作为多智能体框架,开源时间较早
jina-ai node-DeepResearch 2.5k https://github.com/jina-ai/node-DeepResearch
langchain-ai ollama-deep-researcher 2.4k https://github.com/langchain-ai/ollama-deep-researcher
btahir (nickscamara)有改造 open-deep-research - https://github.com/btahir/open-deep-research 重复
fdarkaou (AnotiaWang) open-deep-research - https://github.com/btahir/open-deep-research 重复
nickscamara open-deep-research 4.4k https://github.com/nickscamara/open-deep-research
langchain-ai open_deep_research 1.1k https://github.com/langchain-ai/open_deep_research
mshumer OpenDeepResearcher 2.2k https://github.com/mshumer/OpenDeepResearcher
HF
huggingface
smolagents https://github.com/huggingface/smolagents
grapeot deep_research_agent 62 https://github.com/grapeot/deep_research_agent
LearningCircuit local-deep-research 85 https://github.com/LearningCircuit/local-deep-research
kaymen99 local-rag-researcher-deepseek 34 https://github.com/kaymen99/local-rag-researcher-deepseek

 如何评测其效果,就要用到寻找专业、公认的测试数据集。本文结合最近看的,分享三个反响大的数据集。以及对应的资料。

一、“人类的最后考试”(Humanity's Last Exam)

数据集内容:

该测试包含 2,700 道题,涉及数十个学科,包括数学、人文科学和自然科学。HLE 由全球学科专家开发,包含适合自动评分的多项选择题和简答题。

数据特点

HLE 包含两种问题格式:精确匹配问题(模型需输出一个精确的字符串作为答案)和 多项选择题(模型需从五个或更多选项中选择一个正确答案)。HLE 是一个多模态基准,其中约 13% 的问题 需要理解文本和图像24% 的问题 是多项选择题,其余为精确匹配问题。

每道题目的提交需包含多个必需组件:问题文本、答案说明(包括精确匹配答案,或多项选择答案及正确答案标注)、详细的解题逻辑所属学科,以及贡献者的姓名和机构信息,以确保问答的可追溯性和准确性

该数据集是困难级别的测试数据集。各类模型在此数据集下测试的准确率效果低于10%

测试效果:

当前openai 的DeepResearch在此测试中的准确率达到26.6%,显著超过DeepSeek-R1的9.4%。这一成绩凸显其通过端到端强化学习优化的多步骤推理能力,尤其在跨学科知识关联和信息验证方面表现突出。

数据集相关论文:https://arxiv.org/abs/2501.14249

github地址:https://github.com/centerforaisafety/hle

二、GAIA基准测试

数据集内容:

GAIA(A Benchmark for General AI Assistants)是由Meta、HuggingFace等团队提出的通用AI助手评估基准,旨在测试AI系统在现实任务中的推理、多模态处理、工具使用等基础能力。GAIA(测试重点考察模型的网络浏览、多模态处理、代码执行和文件推理能力,并设置三个难度级别(基础、进阶、专家级)。例如,任务可能涉及从动态网页中提取数据、解析PDF图表,或结合图像与文本进行综合分析。

问题规模:共包含466个问题,其中166个公开开发集问题和答案,300个测试集问题保留答案用于排行榜竞争。

问题类型文本为主:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。

任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。

答案格式:每个问题对应唯一、简短的事实性答案(如字符串、数字或列表),便于自动化评估。

难度分级

Level 1:简单任务,通常无需工具或仅需1个工具,步骤不超过5步(例如查找网页中的特定信息)。

Level 2:中等任务,需5-10步操作,结合多种工具(如网络搜索+表格解析)。

Level 3:复杂任务,要求近乎完美的通用助手能力,需任意长操作序列和多工具协同(如跨模态信息整合与推理)

论文地址:https://arxiv.org/pdf/2311.12983

huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard

三、GPQA数据集

领域构成:448道高质量多选题,涵盖生物学(33%)、物理学(35%)和化学(32%)

设计目标:构建一个连搜索引擎都难以解决的"抗谷歌"级难题集,用于测试人类专家、非专家和AI系统的极限

专家表现:相关领域博士/在读博士正确率65%(若排除事后发现的明显错误可达74%)

非专家表现:高技能非领域专家(给予30分钟+网络权限)仅34%正确率

AI表现:基于GPT-4的最强基线模型正确率39%

论文地址:https://arxiv.org/pdf/2311.12022

huggingface数据集地址:https://huggingface.co/datasets/Idavidrein/gpqa

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐