undergraduate_stem_exam本科级多学科 STEM 综合考题集
覆盖数学、物理、化学、生物、计算机、工程、统计等十余个一级门类,下分数百细分子方向,适合大规模预训练、SFT 与广谱推理能力铺底。
/ 后训练数据集
以学科多样性、题型多样性、难度梯度多样性为核心设计目标,聚焦当前顶尖模型“可解但不可靠”的黄金评测区间。全量数据自带 Gemini 3.1 Pro Preview 原生思维链标注。
undergraduate_stem_exam覆盖数学、物理、化学、生物、计算机、工程、统计等十余个一级门类,下分数百细分子方向,适合大规模预训练、SFT 与广谱推理能力铺底。
graduate_stem_exam贴合研究生入学考核场景,数学基础、自然科学、工程与信息、交叉应用全覆盖,定标本科高级至研究生入门。
graduate_stem_gpqa聚焦数学、计算机、生命科学、物理化学多向交叉地带,难度锚定 GPQA 基准,需多步数学推演与算法/系统机理联立建模。
expert_general_hlePhD / 博士后 / 高校教师命制,多轮同行盲审,单题 3–5 轮返工。难度对齐 Humanity's Last Exam,是评估旗舰模型推理天花板的试金石。
expert_math_frontiermath在读数学博士、博士后与高校数学系教师命题,单题 4–8 小时专家工时,至少两位领域专家交叉盲审,覆盖代数 / 几何拓扑 / 分析 / 数论 / 逻辑全谱系。
/ 更多数据形态
除 STEM 推理题库与编码轨迹外,我们另外维护四套面向不同训练阶段的高质量数据集,全部支持按学科、按难度、按场景定制切片交付。
multimodal_reasoning图文混合(几何图、函数图、统计图表、显微图像、电路图、地图等)+ 完整链式推理标注,覆盖 STEM、经济、医学三大领域,专为 VLM 后训练设计。
code_repair_swebench源自真实 GitHub issue → patch 工作流,含 base_commit、failing_tests、patch、test_patch、test_report,可一键在 Docker 内复现,适配 SFT / RL 编码训练。
multiturn_tooluse覆盖差旅、运维、数据分析、客服、营销等 30+ 业务场景,平均 5–12 轮对话,全程含 tool schema、tool_call、tool_output 与最终回复,是 Agent SFT 的黄金语料。
rlhf_preferencechosen / rejected 双响应均由两位领域标注员独立打分,附 rubric 与 rationale,覆盖解释、代码、写作、客服、安全拒答五大维度,直接喂入 DPO / PPO / GRPO。
/ Agent 轨迹数据
为下一代 Coding Agent 与 Tool-Use 模型提供工业级监督信号——从任务描述、Docker 环境、多轮推理到测试反馈,端到端完整保留。
Claude Code 在真实编码任务中的完整 JSON 轨迹,含多轮 reasoning / tool_call / tool_output,可直接用于编码 Agent 的 SFT 与行为克隆。
包含 task_source(Dockerfile / 测试 / 任务说明)+ trajectory + test_report 的完整任务包,适合复现执行环境、强化学习与端到端编码评测。
/ 字段 schema
| 字段 | 类型 | 含义 |
|---|---|---|
| uuid | string | 题目全局唯一标识符,跨数据集不重复,可作主键与去重依据 |
| question | string | 题目原文(含题干、公式、代码块等,保留原始 Markdown / LaTeX 格式) |
| answer | string | 参考标准答案,支持数值、代数表达式、选项、集合、多字段组合等多种形态 |
| gemini_traj | list<struct> | 完整推理轨迹,每条记录含 turn / type (reasoning|tool_call|tool_output) / content |
| topics | list<string> | 题目涉及的核心知识点列表 |
| solution_steps | list<string> | 关键解题步骤,按逻辑顺序记录主要推理环节,可直接用作 SFT / RL 监督信号 |
| insights | list<string> | 解题关键洞察与难点提示,帮助定位推理瓶颈 |
| knowledge_level | string | 所需知识深度层级(undergraduate / graduate / research 等) |
| problem_nature | string | 题目性质(computational / conceptual / proof / modeling 等) |
| major | string | 一级学科大类(Mathematics / Physics / Computer Science 等) |
| subject | string | 细分子学科(Algebraic Topology / Statistical Mechanics 等) |
/ 样例数据
所有样例均来自正式交付批次,字段、格式、标注质量与商业版本完全一致,可直接用于试评测与 PoC。
/ 关于我们
麦芽新程专注于为前沿大模型实验室提供前训练与后训练阶段的高质量数据。我们与海外顶级专业标注机构、高校实验室及在读 PhD 团队深度协作,从命题、构造、答案封闭形式验证到多轮独立专家盲审,逐题打磨研究级训练样本。
我们的数据已被用于推理模型的 SFT、RL 高信号奖励设计与旗舰模型评测基线,单题信号密度数倍于常规题库。
PhD / 博士后 / 高校教师参与,单题 3–8 小时专家工时
至少两位领域专家交叉审核,逐条核验定义、符号、定理可追溯性
11 个标准字段,跨数据集去重,开箱即可入 SFT / RL 流水线
全量自带原生思维链标注,可直接用作监督信号
/ 联系合作
企业级批量采购、定制学科 / 难度 / 语言、私有题库共建均可洽谈。我们将在 1 个工作日内回复并安排样本试评。