HuggingFace团队发了篇博客介绍了对OpenAI的DeepR

Hugging Face 团队发了篇博客介绍了对 OpenAI 的 Deep Research 系统的开源复现工作

huggingface.co/blog/open-deep-research

“昨天，OpenAI 发布了 Deep Research，这是一个可以通过浏览网页来总结内容并基于总结回答问题的系统。当我们第一次尝试这个系统时，它给我们留下了深刻印象，简直让我们惊艳。

其主要成果之一是在通用人工智能助手基准测试 (GAIA) 上的性能显著提升。GAIA 基准测试是我们最近也在研究的，他们在该基准测试中成功达到了接近 67% 的单样本平均正确率，在尤其具有挑战性的“level 3”问题上，涉及到多步骤推理和工具使用的问题，也达到了 47.6% 的正确率（GAIA 的介绍见下文）。

Deep Research 由一个 LLM（可以从 OpenAI 提供的当前 LLM 列表中选择，例如 4o、o1、o3 等）和一个内部的 “agentic framework” 组成。这个框架引导 LLM 使用诸如网络搜索之类的工具，并按步骤组织其操作。

虽然强大的 LLM 现在可以在开源领域免费获得（例如，参见最近的 DeepSeek R1 模型），但 OpenAI 并没有过多透露关于 Deep Research 底层 agentic framework 的信息…

因此，我们决定开始一项 24 小时的任务，来复现他们的结果，并在过程中开源所需框架！”

“结果 🏅

在我们超过24小时的复现攻关中，我们已经看到我们的智能体在 GAIA 上的性能持续提升！

我们已经迅速从之前基于开源框架的最先进水平（Magentic-One 大约为 46%）提升至我们目前在验证集上的 54% 性能。

这次性能的显著提升主要归功于我们让智能体使用代码编写他们的行动！实际上，当切换到使用 JSON 而不是代码编写行动的标准智能体时，相同配置的性能立即下降至验证集上平均 33% 的水平。”