大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布！

高质量、多场景、合规可用的数据集已成为大模型与AI产品迭代的关键支撑。数据堂深耕AI数据服务领域十余年，现推出2025年度大厂热销版权数据集，为AI技术研发与商业化落地提供坚实底座。数据堂严格遵循数据相关法律法规，确保数据采集、标注、存储和使用的全流程安全合规。

数据堂2025年度版权数据集热销榜

大模型热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布！

TOP 1 1,044万道英文试题文本数据结构化解析处理数据

每道试题包含问题、答案、解析、学科、年级、题型字段，覆盖小初高到大学等各学科，如数学、生物、会计等，解析了学科、问题、解析及答案等，做了公式latex转换和表格格式转换，内容也做了清洗，该数据为英美体系下试题文本。获取数据样例

TOP 2 3,200万道理工科试题文本结构化解析处理数据

包含小学、初中、高中、大学的数学、物理、化学、生物等理工科学科。每道试题包含问题、答案、解析、题型、学科、学段等字段。该数据可用于大模型学科知识增强任务。获取数据样例

TOP 3 202,735组PPT图像描述&问答数据 每组含PPT图像（RGB，内容清晰）、图像描述&问答标注文档，PPT图像覆盖架构图、数字图表、流程图和插图共4种类型，对PPT图像内容进行描述和问答两种形式的标注，主要语言为中文或英文。该数据可用于文档智能等任务。获取数据样例

TOP 4 200,000组多模态GUI Agent数据（连续帧） 包含手机、平板电脑、PC三种设备的GUI交互轨迹数据，涵盖桌面应用操作、网页浏览行为等多种场景，并对用户操作步骤、界面元素状态、任务目标及执行结果进行了精细化标注。该数据集包含完整的操作逻辑链与思维链，可显著提升智能体的界面理解与任务自动化能力。

TOP 5 5万组图像编辑数据 编辑类型包括人像属性编辑、图像语义编辑、图像结构编辑，编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面，根据编辑指令对图像中需要编辑的目标进行编辑。数据可用于图像合成、数据增强、虚拟场景生成等任务。获取数据样例

OCR热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布！

TOP 1 105,941张12种语言自然场景OCR数据 涵盖12种语言，包括6种亚洲语、6种欧洲语，采集覆盖多种自然场景、多种拍摄角度。在标注方面，标注行级文本的四边形框，行级文本转写，检测框及文本转写精度均达98%以上。本套数据可用于多国语言OCR任务。获取数据样例

TOP 2 千万级文档OCR及结构化解析数据

包含说明书、办公文档、表格等多种文档类型，原始文档文件格式为pdf，文档图像文件格式为png，OCR标注文件格式为json，结构化解析文件格式为markdown（表格及公式采用的为Latex格式或截图链接），并严格对照文本位置进行转写，个人信息进行脱敏处理，其检测框标注、文本转写精度达97%以上。

TOP 3 2,504张中文手写体OCR数据

书写环境包括A4纸、方格纸、横格纸、白板、彩色便签和答题卡等。书写内容包括诗歌、散文、店铺活动通知、祝福语、摘抄文本等。数据多样性包括多种书写纸张、多种字体、多种书写内容、多种采集角度。采集、标注及文本转写精度均达98%以上，可用于手写体OCR任务。获取数据样例

TOP 4 500,000张21国自然场景&文档场景&截屏场景OCR标注数据

包含21个语种，每个语种数量分布为20,000-25,000张。数据类型包括自然场景、文档拍照场景和电子场景。数据多样性包括多种数据类型、多种拍摄角度、多语种。在标注方面，采用行（列）级四边形或多边形标注、行（列）级内容转写。数据可用于多语种OCR识别任务。获取数据样例

语音识别热销数据

大厂严选 | 数据堂2025年度版权数据集热销榜单重磅发布！

TOP 1 800小时上海话自然对话（双语标注）手机采集语音数据

由1200名来自上海地区使用江淮官话的县市的录音人录制，男女比例均衡，覆盖多个年龄段，在相对安静的室内进行录制。标注内容包括文本内容、普通话释义、有效句子的起止时间点、说话人标识，字准确率达98%以上。

TOP 2 799小时四川方言自然对话手机采集语音数据

由1,700余名来自四川地区的川渝方言使用者自由交谈并进行录制，标注了文本内容、句时间戳、说话人身份、性别等多种属性，句准确率达97%以上，为语音识别相关研究及应用提供了丰富的资源。获取数据样例

TOP 3 3,000小时全双工普通话自然对话语音数据 约3600名录音人，男女比例均衡，覆盖多个年龄段。无预制文本，录音人围绕话题以自然方式进行对话，同时录制对话的内容。此数据集标注了文本内容、句时间戳、性别等多种属性，准确性高，参与项目的录音人员均已签订数据使用授权协议。获取数据样例

TOP 4 500小时青岛话自然对话（双语标注）手机采集语音数据 由来自青岛地区的县市母语方言使用者自由交谈并进行录制。此数据集标注了文本内容、普通话释义、句时间戳、说话人身份、性别等多种属性，字准确性达98%以上。获取数据样例

TOP 5 633小时日语自然对话手机采集语音数据 基于30余个常见主题来模拟录制。此数据集标注了文本内容、句时间戳、说话人身份、性别等多种属性，由1000余名来自不同地域和文化背景的日本本土人录制，男女比例均衡，准确性高。获取数据样例