数据上新 | 全新高质量训练数据集重磅发布

数据堂
• 阅读 1

数据堂全新发布多语种大模型预训练数据集、多模态大模型数据集、语音识别与计算机视觉训练数据集,全面助力企业打造更高精度、更强泛化能力的AI模型,轻松应对全球用户多样化的语言与应用场景需求,为智能升级提供坚实数据支撑。

大模型预训练数据集

数据上新 | 全新高质量训练数据集重磅发布

- 3,200万道理工科试题文本结构化解析处理数据 包含小学、初中、高中、大学的数学、物理、化学、生物等理工科学科。每道试题包含问题、答案、解析、题型、学科、学段等字段。针对问题、解答过程及答案等做了解析处理,做了公式latex转换和表格格式转换,内容也做了清洗。该数据可用于大模型学科知识增强任务。

- 100万道中文代码试题文本结构化解析处理数据 代码试题文本数据,包含c、 c++、python、 java、javascript多种语言代码试题。每道试题都包含问题、答案、解析和语言字段。该数据可以帮助模型构建和巩固代码编程技能,从而在编程任务中具有更好的表现。

- 800万日语问答平台文本数据 包含问题、答案、类别、发布日期、发布作者等多个字段。内容覆盖通用领域。数据持续更新,截至25年4月底,提问840万条、23亿文字。回答2700万条、76亿文字。感谢(提问者对回答者表达的谢意)1550万条、17亿文字。补充说明210万条、3.6亿文字

- 240万道韩语试题结构化解析处理数据 试题总量约240万道。每道题包含题型、问题、答案、解析等字段;学科包含小学至初中的国语、数学、英语、社会、科学。高中阶段涵盖国语、英语、数学、物理、化学、生物、历史、地理。题型包含选择题、填空题、判断题、问答题等。该数据可用于大模型学科知识增强任务。

大模型-多模态数据集

数据上新 | 全新高质量训练数据集重磅发布

- 3,000万段高质量视频数据 涵盖人像、美食、风景、建筑等多种类别。视频格式为.mp4,.avi。图像分辨率大部分为720P及以上。所有素材均通过合法渠道获取,明确标注版权归属与使用授权范围,全部素材提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯。可为计算机视觉领域的研究、图像识别算法的训练、创意设计的素材获取等众多场景提供强大支持。

- 20万组多模态GUI Agent数据(连续帧) 包含手机、平板电脑、PC三种设备的GUI交互轨迹数据,涵盖桌面应用操作、网页浏览行为等多种场景,并对用户操作步骤、界面元素状态、任务目标及执行结果进行了精细化标注。该数据集包含完整的操作逻辑链与思维链,可显著提升智能体的界面理解与任务自动化能力。

- 4万张多模态GUI Agent数据(单帧) 采集设备涵盖平板、手机、PC。对截图页面上的所有可操作内容进行标注。标注类型覆盖输入框、搜索框、图标、图片、文字、按钮、选择框等11种类别。标注准确率不低于97%。

- 5万组图像编辑数据 编辑类型包括目标消除、新增目标、修改目标、替换目标。编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面,根据编辑指令,将图像中需要编辑的目标进行抠图和消除、新增、修改、替换标注。数据可用于图像合成、数据增强、虚拟场景生成等任务。

多语种/方言语音数据集

数据上新 | 全新高质量训练数据集重磅发布

- 200万小时全双工英语客服语音数据 8kHz16bit、wav、全双工双声道。包含不影响语音辨识的背景噪音,包括保险、电商、房地产、销售、法律等领域。可用于语音识别声学、语音模型训练或算法训练。

- 100人中文多情感语气词与自由对话合成库 语气词为48kHz、24bit、wav、单声道。自由对话为48kHz、24bit、wav、立体声,两位说话人的声音各占一个声轨。100位专业声优针对含语气词的文本进行自然朗读,根据给定话题进行自由对话。在录音棚环境下,使用专业录音设备及软件进行录制。参与项目的录音人均已签订数据使用授权协议。

- 8人中文多情感自由对话合成库 录音棚符合专业音库录制标准:噪音小于30db,混响时间小于0.1s。由中文母语发音人录制,自由对话风格。给定话题,发音人自我发挥,情感主要包含开心、好奇、困惑、安慰、中立。专业语音学家参与标注,带有情感和副语言标注。精准匹配自然度高且富有情感的语音合成的研发需求。

- 500小时柳州方言自然对话手机采集语音数据 给出话题列表,录音人从中挑选多个自己熟悉的话题以确保对话的流畅自然,围绕每个话题展开一段对话并录制。约700名录音人,录音人来自柳州地区县市,男女比例均衡,覆盖多个年龄段。标注文本内容、普通话释义、有效句子的起止时间点、说话人标识。

计算机视觉训练数据集

数据上新 | 全新高质量训练数据集重磅发布

- 三维场景高保真合成数据集_座舱 三维场景建模合成的与真实世界高度相似的传感器输出数据,包括相机图像、视频序列和点云等。可提供的标注内容包括相机参数、目标类别、检测、分割、时间、光照、天气元信息、头部、眼睛、手臂、腿部位置和方向等人体姿态。该数据集可用于自动驾驶、机器人等的环境建模和数据合成。

- 250万框7,262张人脸肤质缺陷标注数据 人种涵盖黄种人、白种人、黑种人、棕种人、印度人。从少年到老人,中青年为主,男女比例均衡。人脸五官无严重遮挡,照片人脸清晰可见,脸部无严重美颜。肤质缺陷包括痤疮痘痘、痣、疤痕、疱疹(疮)、斑、雀斑、其他7种类型。对相应缺陷标注矩形框及对应属性,标注准确率不低于97%。

- 5000段中文儿童生活常识教育视频 包含多种绘画风格、多种故事类型。每段视频不少于30秒,视频分辨率不低于720P。在数据采集、存储和使用的过程中,数据堂始终严格遵循数据保护和隐私法规,确保用户的隐私和合法权益得到维护。此数据可为多模态大模型提供丰富的资源,有助于模型在真实世界的应用中表现出色。

- 10万段单人舞蹈唱歌视频数据 舞蹈和唱歌各5万,视频分辨率不低于1080P,时长不低于10s,小于30s,竖屏为主。每个视频仅采集一个人物,外貌条件良好,人体成像清晰,视频内容清晰可见,相同人物ID视频数量不超过10段。该数据为AI提供了丰富的训练素材,帮助提升多种娱乐、教育、社交和健康领域的产品性能与用户体验。

点赞
收藏
评论区
推荐文章
数据堂 数据堂
1年前
大模型数据集:构建、挑战与未来趋势
一、引言随着深度学习技术的快速发展,大型预训练模型如GPT4、BERT等在各个领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集,为模型提供了丰富的知识和信息。本文将探讨大模型数据集的构建、面临的挑战以及未来发展趋势。二、大模型数据集的构建收集数
数据堂 数据堂
1年前
大模型数据集:突破边界,探索未来
一、引言随着人工智能技术的快速发展,大型预训练模型如GPT4、BERT等在自然语言处理领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集,为模型提供了丰富的知识和信息。本文将探讨大模型数据集的突破边界以及未来发展趋势。二、大模型数据集的突破边界数
直播预告丨电商内容营销的AIGC式进化
以大模型为驱动的AIGC应用指数级迭代在各应用领域,不同的任务需求、数据集、算法,带来了巨大的AIGC应用差异。在电商内容营销领域,最终用户关注什么?如何针对任务需求持续优化调整?如何打造高质量的数据集,为AIGC模型提供优质训练基础?12月8日(本周五)
数据堂 数据堂
1年前
大模型数据集:构建、挑战与未来发展
一、引言随着深度学习技术的迅速发展,大型预训练模型如GPT4、BERT等在自然语言处理领域取得了显著的成果。这些大模型的表现得益于其背后庞大的数据集,这些数据集为模型提供了丰富的知识和信息。本文将探讨大模型数据集的构建、面临的挑战以及未来的发展趋势。二、大
数据堂 数据堂
1年前
大模型数据集:探索新维度,引领AI变革
一、引言在人工智能(AI)的快速发展中,大型预训练模型如GPT、BERT等已经取得了令人瞩目的成果。这些大模型的背后,离不开规模庞大、质量优良的数据集的支撑。本文将从不同的角度来探讨大模型数据集的新维度,以及它们如何引领AI的变革。二、大模型数据集的新维度
数据堂 数据堂
1年前
大模型数据集:力量的源泉,进步的阶梯
一、引言在人工智能的繁荣发展中,大模型数据集的作用日益凸显。它们如庞大的知识库,为AI提供了丰富的信息和理解能力。本文将用一种独特的风格来探讨大模型数据集的魅力和潜力。二、大模型数据集:宏大的舞台大模型数据集如广袤的舞台,为AI技术的展现提供了广阔的空间。
数据堂 数据堂
1年前
大模型数据集:揭秘AI背后的魔法世界
一、引言在人工智能的奇幻世界中,大模型数据集如同神秘的魔法书,蕴藏着无尽的智慧与力量。它们为AI注入了生命,使其具备了理解和改变世界的能力。今天,就让我们一起揭开大模型数据集的神秘面纱,探索其背后的魔法世界吧!二、大模型数据集:智慧的宝库大模型数据集就如同
数据堂 数据堂
1年前
语音数据集:AI语音技术的基石
一、引言在人工智能领域,语音技术正逐渐成为研究的热点之一。语音数据集作为AI语音技术的基石,对于模型的训练和应用至关重要。本文将深入探讨语音数据集的重要性、构建方法、挑战以及未来的发展趋势。二、语音数据集的重要性语音识别:语音数据集是实现语音识别的关键。通
高耸入云 高耸入云
1年前
如何做Bert模型的fine-tuning?近屿智能OJAC带你一探究竟
📖更多AI资讯请👉🏾选择合适的预训练模型:从预训练的BERT模型开始,例如Google提供的BERTbase或BERTlarge。这些模型已经在大量文本数据上进行过预训练了,我们如何对BERT模型进行finetuning呢?准备和预处理数据:集针对特
“模”力十足!天翼云息壤一体化智算服务平台训推服务能力重磅升级!
9月4日,“天翼云息壤——大模型训推一体化服务能力升级”线上发布会成功举办。会上,息壤平台训推服务能力重磅升级,新增闭源、多模态基座大模型以及数据集,支持万卡规模训练,训练稳定性再次提升,新增体验空间,为基础大模型训练、行业大模型训推提供一站式解决方案。
数据堂
数据堂
Lv1
数据堂(北京)科技股份有限公司,成立于2011年(股票代码:831428),专业的人工智能数据服务提供商,致力于为全球人工智能企业提供数据获取、处理及数据产品服务。 数据堂自主研发的基于“Human-in-the-loop人在回路”人机交互参与的人工智能数据加工平台,在实际的数据处理过程中,极大提高了数据生产效率,已实现人工智能数据的规模化生产,摒弃以往的纯手工作业模式。
文章
172
粉丝
1
获赞
2