千万级成品数据集：OCR全能选手的“硬核底座”

近期，谷歌发布的新一代推理模型Gemini 2.5 Pro，堪称AI领域的最强选手，尤其在OCR（光学字符识别）领域上更是展现出超强能力，无论是复杂的手写字体、古籍文献，还是多语言混杂的票据，其近乎“零误差”的识别能力引发行业广泛关注，这一突破性表现又是如何实现的呢？

大模型通常需要海量的高质量 OCR 训练数据进行预训练，方能实现精准的识别能力。数据堂深耕 OCR 领域多年，构建了上千万张 OCR 成品数据集，覆盖 50+语种、多版式、多场景，全部经过人工标注，为 AI 模型训练提供了关键的数据支撑。

自然场景 OCR 数据

百万余张自然场景 OCR 数据集，包含亚洲语系，如日语、韩语、印尼语、马来语等；欧洲语系，如法语、德语、意大利语、葡萄牙语等；东南亚语系，如高棉语（柬埔寨）、老挝语、缅甸语等共几十种语言，涵盖标语、海报、说明书、菜单等多种自然场景，通过手机、相机、扫描仪设备采集，采用仰视、俯视、平视多角度拍摄，采集、标注及文本转写精度均达97%以上，可用于多国语言自然场景 OCR 任务。

手写体 OCR 数据

千万级成品数据集：OCR全能选手的“硬核底座”

十万余张多语言、多场景手写体 OCR 数据集，涵盖中文繁体、英语、日语、韩语、西班牙语、葡萄牙语、法语等，包括黑板、白板、绿板、A4 纸、横线纸等多种文字载体，不同笔记不同颜色的书写方式及多种书写内容，拍摄角度为平视、俯视、仰视。采集、标注及文本转写精度均达97%以上，可用于手写体 OCR 任务。

异形文字 OCR 数据

千万级成品数据集：OCR全能选手的“硬核底座”

五万余张中文异形 OCR 数据集，覆盖多种自然场景（街景、牌匾、广告牌、海报、装饰、艺术字、杂志封面）、多种排列方式（波浪、环形等）及多种字体。采集根据文本语义进行多边形框、四边形框标注和转写，其标注精度和文本转写精度达97%以上，可用于异形文本 OCR 任务。

文档 OCR 数据

千万级成品数据集：OCR全能选手的“硬核底座”

千万级文档 OCR 数据集，包含说明书、办公文档、历史名著、表格等多种文档数据，涵盖以中文为主，英语、印地语等多种语言，文档格式包括 PDF 文档及图片文档，覆盖复杂版面 OCR 的需求，并严格对照文本位置进行文本转写，其检测框标注、文本转写精度达95%以上，可用于表格检测与识别、文章板式分割及分析等文档 OCR 任务。

票据 OCR 数据

千万级成品数据集：OCR全能选手的“硬核底座”

数十万张多国票据 OCR 数据集，采集国家包括阿拉伯、墨西哥、巴西、印度等，语种分布主要为阿拉伯语、葡萄牙语、西班牙语、英语等。包含多种票据类型，对图像中的文本按照原排版进行转写，优先进行行对齐，个人信息进行脱敏处理，可用于票据识别、文字识别等任务。

问答 OCR 数据

千万级成品数据集：OCR全能选手的“硬核底座”

两万余组中文 OCR 问答数据，包含广告牌、海报、手抄报、街景等多种场景、多种排列方式及多种字体，每张图像含有一个问答对，并对所回答内容在图中进行多边形框标注，其标注精度、文本转写精度和回答准确率均达97%以上。此数据可为多模态大模型提供丰富的资源，经过多家 AI 公司的验证，有助于模型在真实世界的应用中表现出色。

试题 OCR 数据

千万级成品数据集：OCR全能选手的“硬核底座”

近六万张试题 OCR 数据集，汇集了小初高及大学、职业教育等学科，包含选择、填空、简答、解答等多种题型或答案中包含的插图，通过手机、扫描仪设备采集，对题干、选项、答案、配图等进行四边形框标注及转写，公式和表格使用 latex 格式转写，题型种类采集和分类准确率均不低于97%，可用于智能判卷、作业辅导等任务。

OCR 技术的不断突破，始终离不开高质量数据的持续供给。数据堂精心构建的千万级 OCR 数据集，为行业提供了稳定可靠的数据基础，更助力 AI 模型从识别向理解的智能化转变。未来，数据堂将继续凭借高质量的数据服务，推动 OCR 技术在各领域的深度应用。