大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!

数据堂
• 阅读 0

高质量、多场景、合规可用的数据集已成为大模型与AI产品迭代的关键支撑。数据堂深耕AI数据服务领域十余年,现推出2025年度大厂热销版权数据集,为AI技术研发与商业化落地提供坚实底座。数据堂严格遵循数据相关法律法规,确保数据采集、标注、存储和使用的全流程安全合规。

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!

数据堂2025年度版权数据集热销榜

大模型热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!

TOP 1 1,044万道英文试题文本数据结构化解析处理数据

每道试题包含问题、答案、解析、学科、年级、题型字段,覆盖小初高到大学等各学科,如数学、生物、会计等,解析了学科、问题、解析及答案等,做了公式latex转换和表格格式转换,内容也做了清洗,该数据为英美体系下试题文本。 获取数据样例

TOP 2 3,200万道理工科试题文本结构化解析处理数据

包含小学、初中、高中、大学的数学、物理、化学、生物等理工科学科。每道试题包含问题、答案、解析、题型、学科、学段等字段。该数据可用于大模型学科知识增强任务。 获取数据样例

TOP 3 202,735组PPT图像描述&问答数据 每组含PPT图像(RGB,内容清晰)、图像描述&问答标注文档,PPT图像覆盖架构图、数字图表、流程图和插图共4种类型,对PPT图像内容进行描述和问答两种形式的标注,主要语言为中文或英文。该数据可用于文档智能等任务。 获取数据样例

TOP 4 200,000组多模态GUI Agent数据(连续帧) 包含手机、平板电脑、PC三种设备的GUI交互轨迹数据,涵盖桌面应用操作、网页浏览行为等多种场景,并对用户操作步骤、界面元素状态、任务目标及执行结果进行了精细化标注。该数据集包含完整的操作逻辑链与思维链,可显著提升智能体的界面理解与任务自动化能力。

TOP 5 5万组图像编辑数据 编辑类型包括人像属性编辑、图像语义编辑、图像结构编辑,编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面,根据编辑指令对图像中需要编辑的目标进行编辑。数据可用于图像合成、数据增强、虚拟场景生成等任务。 获取数据样例

OCR热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!

TOP 1 105,941张12种语言自然场景OCR数据 涵盖12种语言,包括6种亚洲语、6种欧洲语,采集覆盖多种自然场景、多种拍摄角度。在标注方面,标注行级文本的四边形框,行级文本转写,检测框及文本转写精度均达98%以上。本套数据可用于多国语言OCR任务。 获取数据样例

TOP 2 千万级文档OCR及结构化解析数据

包含说明书、办公文档、表格等多种文档类型,原始文档文件格式为pdf,文档图像文件格式为png,OCR标注文件格式为json,结构化解析文件格式为markdown(表格及公式采用的为Latex格式或截图链接),并严格对照文本位置进行转写,个人信息进行脱敏处理,其检测框标注、文本转写精度达97%以上。

TOP 3 2,504张中文手写体OCR数据

书写环境包括A4纸、方格纸、横格纸、白板、彩色便签和答题卡等。书写内容包括诗歌、散文、店铺活动通知、祝福语、摘抄文本等。数据多样性包括多种书写纸张、多种字体、多种书写内容、多种采集角度。采集、标注及文本转写精度均达98%以上,可用于手写体OCR任务。 获取数据样例

TOP 4 500,000张21国自然场景&文档场景&截屏场景OCR标注数据

包含21个语种,每个语种数量分布为20,000-25,000张。数据类型包括自然场景、文档拍照场景和电子场景。数据多样性包括多种数据类型、多种拍摄角度、多语种。在标注方面,采用行(列)级四边形或多边形标注、行(列)级内容转写。数据可用于多语种OCR识别任务。 获取数据样例

语音识别热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!

TOP 1 800小时上海话自然对话(双语标注)手机采集语音数据

由1200名来自上海地区使用江淮官话的县市的录音人录制,男女比例均衡,覆盖多个年龄段,在相对安静的室内进行录制。标注内容包括文本内容、普通话释义、有效句子的起止时间点、说话人标识,字准确率达98%以上。

TOP 2 799小时四川方言自然对话手机采集语音数据

由1,700余名来自四川地区的川渝方言使用者自由交谈并进行录制,标注了文本内容、句时间戳、说话人身份、性别等多种属性,句准确率达97%以上,为语音识别相关研究及应用提供了丰富的资源。 获取数据样例

TOP 3 3,000小时全双工普通话自然对话语音数据 约3600名录音人,男女比例均衡,覆盖多个年龄段。 无预制文本,录音人围绕话题以自然方式进行对话,同时录制对话的内容。此数据集标注了文本内容、句时间戳、性别等多种属性,准确性高,参与项目的录音人员均已签订数据使用授权协议。 获取数据样例

TOP 4 500小时青岛话自然对话(双语标注)手机采集语音数据 由来自青岛地区的县市母语方言使用者自由交谈并进行录制。此数据集标注了文本内容、普通话释义、句时间戳、说话人身份、性别等多种属性,字准确性达98%以上。 获取数据样例

TOP 5 633小时日语自然对话手机采集语音数据 基于30余个常见主题来模拟录制。此数据集标注了文本内容、句时间戳、说话人身份、性别等多种属性,由1000余名来自不同地域和文化背景的日本本土人录制,男女比例均衡,准确性高。 获取数据样例

语音合成热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!

5小时上海方言女声合成库 由上海本土人参与录制。录音内容包含发音人无文本自由发挥,指定文本的多种话题、语气词、中英混及英文单词。由专业语音学家参与标注,精准匹配语音合成的研发需求。 获取数据样例

人脸识别热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!

88,880人多人种一人多照数据 一个人至少包含5张图片,包含人脸多姿态和多表情,人种分布包括黄种人,黑人,白人和棕色人种,年龄分布从婴幼儿到老人,以中青年为主。采集环境包括室内和室外场景,数据均在境外采集。本数据可用于人脸识别等任务。 获取数据样例

数字人热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布!

2.5万人人物多风格视频数据 包含2.5万人在不同场景下的多风格视频,人物肤色覆盖白、黄、棕、黑,年龄覆盖青年、中年、老年,视频分辨率不低于1920x1080,时长不低于10秒。该数据集可用于人物一致性视频生成、数字人生成等任务。 获取数据样例

选择更高质量的训练数据,就是选择更高效的AI技术进化路径。未来,数据堂将持续深耕优质数据,不断推出更多适配智能化场景的数据产品,与全球伙伴共赴AI创新之路。

点赞
收藏
评论区
推荐文章
数据堂 数据堂
1年前
大模型数据集:探索新维度,引领AI变革
一、引言在人工智能(AI)的快速发展中,大型预训练模型如GPT、BERT等已经取得了令人瞩目的成果。这些大模型的背后,离不开规模庞大、质量优良的数据集的支撑。本文将从不同的角度来探讨大模型数据集的新维度,以及它们如何引领AI的变革。二、大模型数据集的新维度
数据堂 数据堂
1年前
大模型数据集:力量的源泉,进步的阶梯
一、引言在人工智能的繁荣发展中,大模型数据集的作用日益凸显。它们如庞大的知识库,为AI提供了丰富的信息和理解能力。本文将用一种独特的风格来探讨大模型数据集的魅力和潜力。二、大模型数据集:宏大的舞台大模型数据集如广袤的舞台,为AI技术的展现提供了广阔的空间。
数据堂 数据堂
1年前
大模型数据集:揭秘AI背后的魔法世界
一、引言在人工智能的奇幻世界中,大模型数据集如同神秘的魔法书,蕴藏着无尽的智慧与力量。它们为AI注入了生命,使其具备了理解和改变世界的能力。今天,就让我们一起揭开大模型数据集的神秘面纱,探索其背后的魔法世界吧!二、大模型数据集:智慧的宝库大模型数据集就如同
数据堂 数据堂
1年前
语音数据集:AI语音技术的基石
一、引言在人工智能领域,语音技术正逐渐成为研究的热点之一。语音数据集作为AI语音技术的基石,对于模型的训练和应用至关重要。本文将深入探讨语音数据集的重要性、构建方法、挑战以及未来的发展趋势。二、语音数据集的重要性语音识别:语音数据集是实现语音识别的关键。通
数据堂 数据堂
1年前
语音数据集:AI语音技术的灵魂
一、引言在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音技术的灵魂。本文将深入探讨语音数据集的重要性、构建方法、面临的挑战以及未来的发展趋势。二、语音数据集的重要性提升语音识别和生成能力:语音数据集为AI模型提供了丰富的语音样
数据堂 数据堂
1年前
语音数据集:推动人工智能语音技术的关键要素
随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要一环。语音数据集作为支撑语音技术研发与应用的基础资源,对于推动人工智能语音技术的发展具有至关重要的作用。本文将对语音数据集的重要性、应用、挑战及发展前景进行简要概述。一、语音数据集的重要性语音数据
数据堂 数据堂
8个月前
【技术人必看】INTERSPEECH2025-MLC-SLM挑战赛:1500小时多语种语音数据集+双任务赛制,全面解锁语音AI新边界!
数据堂联合中国移动、Samsung、Meta等全球多家知名企业,在即将举行的INTERSPEECH2025国际会议上推出多语种对话语音语言模型研讨会,即MLCSLMWorkshop2025。旨在通过举办多语种对话语音语言模型(MLCSLM)挑战赛,以及发布真实的多语种对话语音数据集来促进该方向的研究。
数据堂 数据堂
5个月前
数据上新 | 全新高质量训练数据集重磅发布
数据堂全新发布多语种大模型预训练数据集、多模态大模型数据集、语音识别与计算机视觉训练数据集,全面助力企业打造更高精度、更强泛化能力的AI模型,轻松应对全球用户多样化的语言与应用场景需求,为智能升级提供坚实数据支撑。
数据堂 数据堂
1个月前
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域
近日,数据堂发布全新数据产品,覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制,提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯,可为企业及研发团队提供大规模、多样化、合规可靠的数据资源,有效助力大模型与AI技术迭代升级,赋能全球应用场景创新。
近屿智能 近屿智能
3星期前
近屿智能斩获 “2025 年度 AI 技术创新突破奖”
近屿智能斩获“2025年度AI技术创新突破奖”近日,《2025创变纪元|AI全球未来峰会》在上海顺利举办,近屿智能凭借自研大模型“近屿超脑”,成功斩获“2025年度AI技术创新突破奖”。该奖项由全球多家机构联合评选,旨在表彰AI领域的技术创新成果,评选委员
数据堂
数据堂
Lv1
数据堂(北京)科技股份有限公司,成立于2011年(股票代码:831428),专业的人工智能数据服务提供商,致力于为全球人工智能企业提供数据获取、处理及数据产品服务。 数据堂自主研发的基于“Human-in-the-loop人在回路”人机交互参与的人工智能数据加工平台,在实际的数据处理过程中,极大提高了数据生产效率,已实现人工智能数据的规模化生产,摒弃以往的纯手工作业模式。
文章
189
粉丝
1
获赞
2