数据上新 | 全新高质量训练数据集重磅发布

数据堂全新发布多语种大模型预训练数据集、多模态大模型数据集、语音识别与计算机视觉训练数据集，全面助力企业打造更高精度、更强泛化能力的AI模型，轻松应对全球用户多样化的语言与应用场景需求，为智能升级提供坚实数据支撑。

大模型预训练数据集

- 3,200万道理工科试题文本结构化解析处理数据 包含小学、初中、高中、大学的数学、物理、化学、生物等理工科学科。每道试题包含问题、答案、解析、题型、学科、学段等字段。针对问题、解答过程及答案等做了解析处理，做了公式latex转换和表格格式转换，内容也做了清洗。该数据可用于大模型学科知识增强任务。

- 100万道中文代码试题文本结构化解析处理数据 代码试题文本数据，包含c、 c++、python、 java、javascript多种语言代码试题。每道试题都包含问题、答案、解析和语言字段。该数据可以帮助模型构建和巩固代码编程技能，从而在编程任务中具有更好的表现。

- 800万日语问答平台文本数据 包含问题、答案、类别、发布日期、发布作者等多个字段。内容覆盖通用领域。数据持续更新，截至25年4月底，提问840万条、23亿文字。回答2700万条、76亿文字。感谢（提问者对回答者表达的谢意）1550万条、17亿文字。补充说明210万条、3.6亿文字。

- 240万道韩语试题结构化解析处理数据 试题总量约240万道。每道题包含题型、问题、答案、解析等字段；学科包含小学至初中的国语、数学、英语、社会、科学。高中阶段涵盖国语、英语、数学、物理、化学、生物、历史、地理。题型包含选择题、填空题、判断题、问答题等。该数据可用于大模型学科知识增强任务。

大模型-多模态数据集

数据上新 | 全新高质量训练数据集重磅发布

- 3,000万段高质量视频数据 涵盖人像、美食、风景、建筑等多种类别。视频格式为.mp4，.avi。图像分辨率大部分为720P及以上。所有素材均通过合法渠道获取，明确标注版权归属与使用授权范围，全部素材提供商业级使用授权且已获得科研使用许可，知识产权归属清晰可溯。可为计算机视觉领域的研究、图像识别算法的训练、创意设计的素材获取等众多场景提供强大支持。

- 20万组多模态GUI Agent数据（连续帧） 包含手机、平板电脑、PC三种设备的GUI交互轨迹数据，涵盖桌面应用操作、网页浏览行为等多种场景，并对用户操作步骤、界面元素状态、任务目标及执行结果进行了精细化标注。该数据集包含完整的操作逻辑链与思维链，可显著提升智能体的界面理解与任务自动化能力。

- 4万张多模态GUI Agent数据（单帧） 采集设备涵盖平板、手机、PC。对截图页面上的所有可操作内容进行标注。标注类型覆盖输入框、搜索框、图标、图片、文字、按钮、选择框等11种类别。标注准确率不低于97%。

- 5万组图像编辑数据 编辑类型包括目标消除、新增目标、修改目标、替换目标。编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面，根据编辑指令，将图像中需要编辑的目标进行抠图和消除、新增、修改、替换标注。数据可用于图像合成、数据增强、虚拟场景生成等任务。

多语种/方言语音数据集

数据上新 | 全新高质量训练数据集重磅发布

- 200万小时全双工英语客服语音数据 8kHz16bit、wav、全双工双声道。包含不影响语音辨识的背景噪音，包括保险、电商、房地产、销售、法律等领域。可用于语音识别声学、语音模型训练或算法训练。

- 100人中文多情感语气词与自由对话合成库 语气词为48kHz、24bit、wav、单声道。自由对话为48kHz、24bit、wav、立体声，两位说话人的声音各占一个声轨。100位专业声优针对含语气词的文本进行自然朗读，根据给定话题进行自由对话。在录音棚环境下，使用专业录音设备及软件进行录制。参与项目的录音人均已签订数据使用授权协议。

- 8人中文多情感自由对话合成库 录音棚符合专业音库录制标准：噪音小于30db，混响时间小于0.1s。由中文母语发音人录制，自由对话风格。给定话题，发音人自我发挥，情感主要包含开心、好奇、困惑、安慰、中立。专业语音学家参与标注，带有情感和副语言标注。精准匹配自然度高且富有情感的语音合成的研发需求。

- 500小时柳州方言自然对话手机采集语音数据 给出话题列表，录音人从中挑选多个自己熟悉的话题以确保对话的流畅自然，围绕每个话题展开一段对话并录制。约700名录音人，录音人来自柳州地区县市，男女比例均衡，覆盖多个年龄段。标注文本内容、普通话释义、有效句子的起止时间点、说话人标识。

计算机视觉训练数据集

数据上新 | 全新高质量训练数据集重磅发布

- 三维场景高保真合成数据集_座舱 三维场景建模合成的与真实世界高度相似的传感器输出数据，包括相机图像、视频序列和点云等。可提供的标注内容包括相机参数、目标类别、检测、分割、时间、光照、天气元信息、头部、眼睛、手臂、腿部位置和方向等人体姿态。该数据集可用于自动驾驶、机器人等的环境建模和数据合成。

- 250万框7,262张人脸肤质缺陷标注数据 人种涵盖黄种人、白种人、黑种人、棕种人、印度人。从少年到老人，中青年为主，男女比例均衡。人脸五官无严重遮挡，照片人脸清晰可见，脸部无严重美颜。肤质缺陷包括痤疮痘痘、痣、疤痕、疱疹（疮）、斑、雀斑、其他7种类型。对相应缺陷标注矩形框及对应属性，标注准确率不低于97%。

- 5000段中文儿童生活常识教育视频 包含多种绘画风格、多种故事类型。每段视频不少于30秒，视频分辨率不低于720P。在数据采集、存储和使用的过程中，数据堂始终严格遵循数据保护和隐私法规，确保用户的隐私和合法权益得到维护。此数据可为多模态大模型提供丰富的资源，有助于模型在真实世界的应用中表现出色。

- 10万段单人舞蹈唱歌视频数据 舞蹈和唱歌各5万，视频分辨率不低于1080P，时长不低于10s，小于30s，竖屏为主。每个视频仅采集一个人物，外貌条件良好，人体成像清晰，视频内容清晰可见，相同人物ID视频数量不超过10段。该数据为AI提供了丰富的训练素材，帮助提升多种娱乐、教育、社交和健康领域的产品性能与用户体验。