数据堂全新发布多语种大模型预训练数据集、多模态大模型数据集、语音识别与计算机视觉训练数据集,全面助力企业打造更高精度、更强泛化能力的AI模型,轻松应对全球用户多样化的语言与应用场景需求,为智能升级提供坚实数据支撑。
大模型预训练数据集
- 3,200万道理工科试题文本结构化解析处理数据 包含小学、初中、高中、大学的数学、物理、化学、生物等理工科学科。每道试题包含问题、答案、解析、题型、学科、学段等字段。针对问题、解答过程及答案等做了解析处理,做了公式latex转换和表格格式转换,内容也做了清洗。该数据可用于大模型学科知识增强任务。
- 100万道中文代码试题文本结构化解析处理数据 代码试题文本数据,包含c、 c++、python、 java、javascript多种语言代码试题。每道试题都包含问题、答案、解析和语言字段。该数据可以帮助模型构建和巩固代码编程技能,从而在编程任务中具有更好的表现。
- 800万日语问答平台文本数据 包含问题、答案、类别、发布日期、发布作者等多个字段。内容覆盖通用领域。数据持续更新,截至25年4月底,提问840万条、23亿文字。回答2700万条、76亿文字。感谢(提问者对回答者表达的谢意)1550万条、17亿文字。补充说明210万条、3.6亿文字。
- 240万道韩语试题结构化解析处理数据 试题总量约240万道。每道题包含题型、问题、答案、解析等字段;学科包含小学至初中的国语、数学、英语、社会、科学。高中阶段涵盖国语、英语、数学、物理、化学、生物、历史、地理。题型包含选择题、填空题、判断题、问答题等。该数据可用于大模型学科知识增强任务。
大模型-多模态数据集
- 3,000万段高质量视频数据 涵盖人像、美食、风景、建筑等多种类别。视频格式为.mp4,.avi。图像分辨率大部分为720P及以上。所有素材均通过合法渠道获取,明确标注版权归属与使用授权范围,全部素材提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯。可为计算机视觉领域的研究、图像识别算法的训练、创意设计的素材获取等众多场景提供强大支持。
- 20万组多模态GUI Agent数据(连续帧) 包含手机、平板电脑、PC三种设备的GUI交互轨迹数据,涵盖桌面应用操作、网页浏览行为等多种场景,并对用户操作步骤、界面元素状态、任务目标及执行结果进行了精细化标注。该数据集包含完整的操作逻辑链与思维链,可显著提升智能体的界面理解与任务自动化能力。
- 4万张多模态GUI Agent数据(单帧) 采集设备涵盖平板、手机、PC。对截图页面上的所有可操作内容进行标注。标注类型覆盖输入框、搜索框、图标、图片、文字、按钮、选择框等11种类别。标注准确率不低于97%。
- 5万组图像编辑数据 编辑类型包括目标消除、新增目标、修改目标、替换目标。编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面,根据编辑指令,将图像中需要编辑的目标进行抠图和消除、新增、修改、替换标注。数据可用于图像合成、数据增强、虚拟场景生成等任务。
多语种/方言语音数据集
- 200万小时全双工英语客服语音数据 8kHz16bit、wav、全双工双声道。包含不影响语音辨识的背景噪音,包括保险、电商、房地产、销售、法律等领域。可用于语音识别声学、语音模型训练或算法训练。
- 100人中文多情感语气词与自由对话合成库 语气词为48kHz、24bit、wav、单声道。自由对话为48kHz、24bit、wav、立体声,两位说话人的声音各占一个声轨。100位专业声优针对含语气词的文本进行自然朗读,根据给定话题进行自由对话。在录音棚环境下,使用专业录音设备及软件进行录制。参与项目的录音人均已签订数据使用授权协议。
- 8人中文多情感自由对话合成库 录音棚符合专业音库录制标准:噪音小于30db,混响时间小于0.1s。由中文母语发音人录制,自由对话风格。给定话题,发音人自我发挥,情感主要包含开心、好奇、困惑、安慰、中立。专业语音学家参与标注,带有情感和副语言标注。精准匹配自然度高且富有情感的语音合成的研发需求。
- 500小时柳州方言自然对话手机采集语音数据 给出话题列表,录音人从中挑选多个自己熟悉的话题以确保对话的流畅自然,围绕每个话题展开一段对话并录制。约700名录音人,录音人来自柳州地区县市,男女比例均衡,覆盖多个年龄段。标注文本内容、普通话释义、有效句子的起止时间点、说话人标识。
计算机视觉训练数据集
- 三维场景高保真合成数据集_座舱 三维场景建模合成的与真实世界高度相似的传感器输出数据,包括相机图像、视频序列和点云等。可提供的标注内容包括相机参数、目标类别、检测、分割、时间、光照、天气元信息、头部、眼睛、手臂、腿部位置和方向等人体姿态。该数据集可用于自动驾驶、机器人等的环境建模和数据合成。
- 250万框7,262张人脸肤质缺陷标注数据 人种涵盖黄种人、白种人、黑种人、棕种人、印度人。从少年到老人,中青年为主,男女比例均衡。人脸五官无严重遮挡,照片人脸清晰可见,脸部无严重美颜。肤质缺陷包括痤疮痘痘、痣、疤痕、疱疹(疮)、斑、雀斑、其他7种类型。对相应缺陷标注矩形框及对应属性,标注准确率不低于97%。
- 5000段中文儿童生活常识教育视频 包含多种绘画风格、多种故事类型。每段视频不少于30秒,视频分辨率不低于720P。在数据采集、存储和使用的过程中,数据堂始终严格遵循数据保护和隐私法规,确保用户的隐私和合法权益得到维护。此数据可为多模态大模型提供丰富的资源,有助于模型在真实世界的应用中表现出色。
- 10万段单人舞蹈唱歌视频数据 舞蹈和唱歌各5万,视频分辨率不低于1080P,时长不低于10s,小于30s,竖屏为主。每个视频仅采集一个人物,外貌条件良好,人体成像清晰,视频内容清晰可见,相同人物ID视频数量不超过10段。该数据为AI提供了丰富的训练素材,帮助提升多种娱乐、教育、社交和健康领域的产品性能与用户体验。