面向前沿大模型的前 / 后训练数据供应商

为下一代推理模型
提供高密度训练语料

深圳市麦芽新程科技有限公司专注于大模型前后训练数据的生产与交付，覆盖本科至博士专家级 STEM 推理题库、Claude Code 与 Codex 真实编码轨迹数据集，全量自带 Gemini 3.1 Pro Preview 原生思维链标注。

下载样例数据浏览数据集 →

3,162,500+: 已交付推理题数
200+: 细分学科覆盖
PhD: 专家级命题与盲审
Gemini 3.1 Pro: 原生思维链标注

/ 后训练数据集

五套定标顶尖基准的高质量题库

以学科多样性、题型多样性、难度梯度多样性为核心设计目标，聚焦当前顶尖模型“可解但不可靠”的黄金评测区间。全量数据自带 Gemini 3.1 Pro Preview 原生思维链标注。

undergraduate_stem_exam

本科级多学科 STEM 综合考题集

Undergraduate

覆盖数学、物理、化学、生物、计算机、工程、统计等十余个一级门类，下分数百细分子方向，适合大规模预训练、SFT 与广谱推理能力铺底。

预训练SFT广谱推理

数据规模

1,760,000 题

下载样例 ↓

graduate_stem_exam

研究生级 STEM 综合考题集

Graduate

贴合研究生入学考核场景，数学基础、自然科学、工程与信息、交叉应用全覆盖，定标本科高级至研究生入门。

研究生 SFT失败模式定位

数据规模

1,125,000 题

下载样例 ↓

graduate_stem_gpqa

研究生级跨学科高阶推理集（GPQA 级）

Graduate · GPQA

聚焦数学、计算机、生命科学、物理化学多向交叉地带，难度锚定 GPQA 基准，需多步数学推演与算法/系统机理联立建模。

GPQA跨学科SFT

数据规模

240,000 题

下载样例 ↓

expert_general_hle

专家级综合学科前沿推理集（HLE 级）

Expert · HLE

PhD / 博士后 / 高校教师命制，多轮同行盲审，单题 3–5 轮返工。难度对齐 Humanity's Last Exam，是评估旗舰模型推理天花板的试金石。

HLEHard ExampleRL 高信号

数据规模

30,000 题

下载样例 ↓

expert_math_frontiermath

专家级理论数学深推题库（FrontierMath 级）

Expert · FrontierMath

在读数学博士、博士后与高校数学系教师命题，单题 4–8 小时专家工时，至少两位领域专家交叉盲审，覆盖代数 / 几何拓扑 / 分析 / 数论 / 逻辑全谱系。

FrontierMath证明题SFT/RL

数据规模

7,500 题

下载样例 ↓

/ 更多数据形态

覆盖 VLM、Agent、Coding、RLHF 的全栈训练语料

除 STEM 推理题库与编码轨迹外，我们另外维护四套面向不同训练阶段的高质量数据集，全部支持按学科、按难度、按场景定制切片交付。

multimodal_reasoning

多模态推理数据集

Multimodal · Reasoning

图文混合（几何图、函数图、统计图表、显微图像、电路图、地图等）+ 完整链式推理标注，覆盖 STEM、经济、医学三大领域，专为 VLM 后训练设计。

VLM图表理解几何

数据规模

320,000 题

下载样例 ↓

code_repair_swebench

代码生成与修复数据集（SWE-bench 级）

Code · Repo-level

源自真实 GitHub issue → patch 工作流，含 base_commit、failing_tests、patch、test_patch、test_report，可一键在 Docker 内复现，适配 SFT / RL 编码训练。

SWE-benchPatch可复现

数据规模

85,000 任务

下载样例 ↓

multiturn_tooluse

多轮对话与工具调用数据集

Agent · Function Calling

覆盖差旅、运维、数据分析、客服、营销等 30+ 业务场景，平均 5–12 轮对话，全程含 tool schema、tool_call、tool_output 与最终回复，是 Agent SFT 的黄金语料。

Function CallingAgent多场景

数据规模

180,000 会话

下载样例 ↓

rlhf_preference

人类偏好 / RLHF 偏好对数据集

RLHF · DPO

chosen / rejected 双响应均由两位领域标注员独立打分，附 rubric 与 rationale，覆盖解释、代码、写作、客服、安全拒答五大维度，直接喂入 DPO / PPO / GRPO。

DPOPPORubric

数据规模

260,000 对

下载样例 ↓

/ Agent 轨迹数据

真实可复现的编码 Agent 轨迹

为下一代 Coding Agent 与 Tool-Use 模型提供工业级监督信号——从任务描述、Docker 环境、多轮推理到测试反馈，端到端完整保留。

Claude Code 真实编码轨迹

Claude Code 在真实编码任务中的完整 JSON 轨迹，含多轮 reasoning / tool_call / tool_output，可直接用于编码 Agent 的 SFT 与行为克隆。

单条轨迹 100–500 KB
工具调用粒度完整保留
可按任务难度切分

下载样例 ↓ claude_code_trajectory.sample.json

Codex / Claude Code 中转站轨迹数据集

包含 task_source（Dockerfile / 测试 / 任务说明）+ trajectory + test_report 的完整任务包，适合复现执行环境、强化学习与端到端编码评测。

任务级 sandbox 全量保留
含 test_report 评分信号
Docker 环境可复现

下载样例 ↓ codex_trajectory.sample.zip

/ 字段 schema

五套数据集共享统一列级 Schema

字段	类型	含义
uuid	string	题目全局唯一标识符，跨数据集不重复，可作主键与去重依据
question	string	题目原文（含题干、公式、代码块等，保留原始 Markdown / LaTeX 格式）
answer	string	参考标准答案，支持数值、代数表达式、选项、集合、多字段组合等多种形态
gemini_traj	list<struct>	完整推理轨迹，每条记录含 turn / type (reasoning\|tool_call\|tool_output) / content
topics	list<string>	题目涉及的核心知识点列表
solution_steps	list<string>	关键解题步骤，按逻辑顺序记录主要推理环节，可直接用作 SFT / RL 监督信号
insights	list<string>	解题关键洞察与难点提示，帮助定位推理瓶颈
knowledge_level	string	所需知识深度层级（undergraduate / graduate / research 等）
problem_nature	string	题目性质（computational / conceptual / proof / modeling 等）
major	string	一级学科大类（Mathematics / Physics / Computer Science 等）
subject	string	细分子学科（Algebraic Topology / Statistical Mechanics 等）