数据集:小学生数学题数据集
本数据集专为小学数学教育研究设计,包含3997个结构化JSON文件,覆盖小学1-6年级核心数学题型,以应用题为主,聚焦代数、几何、统计等模块。数据标注基于2025年5月14日的教学标准,年级分布以四年级占比最高(32%),难度分为简单(25%)、中等(55%)、困难(20%)三级。知识图谱涵盖12大领域,代数类题目占比47%。数据集通过多维特征标注支持教育数据分析、自动解题系统开发及认知诊断研究,
·
数据集介绍
本数据集专为小学数学教育研究设计,包含3997个结构化JSON文件,覆盖小学1-6年级核心数学题型。数据以应用题为主,聚焦代数、几何、统计等模块,通过多维特征标注支持教育数据分析、自动解题系统开发及认知诊断研究。
一、数据概况
- 时间基准:数据标注基于新历2025年5月14日的教学标准
- 年级分布:四年级占比最高(约32%),低年级(1-3)与高年级(5-6)分别占28%、40%
- 难度梯度:简单(25%)、中等(55%)、困难(20%)三级分类
- 知识图谱:涵盖12大知识领域,包括和差问题、分数运算、平面几何等,其中代数类题目占比达47%
二、内容结构
- 核心字段组:
- 题目元数据(类型/年级/难度)支持教学进度匹配
- 解题路径包含正确步骤与典型错误(如示例中的方程建立错误),揭示常见认知误区
- 多维特征标注(文本/结构/符号)支持NLP模型训练,其中词嵌入特征采用BERT-base预训练模型生成
- 特色字段解析:
- 结构特征标注问题构成要素(如"双物品比较关系"),支持题型自动分类
- 特殊符号特征记录数学符号密度(平均每题含3.2个运算符),反映题目复杂度
- 解析说明字段包含教学指导建议(如"强化等量关系分析"),可直接用于教案生成
三、应用场景
- 教育技术开发:支持智能题库系统、作业自动批改、个性化学习路径规划
- 认知诊断研究:通过典型错误分析建立学生错误模式库
- 教材编写辅助:基于知识点分布分析优化章节难度曲线
- 跨模态研究:文本特征与词嵌入的对应关系可用于图文结合题生成
数据集下载地址:

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)