千万级成品数据集:OCR全能选手的“硬核底座”

数据堂
• 阅读 3

近期,谷歌发布的新一代推理模型Gemini 2.5 Pro,堪称AI领域的最强选手,尤其在OCR(光学字符识别)领域上更是展现出超强能力,无论是复杂的手写字体、古籍文献,还是多语言混杂的票据,其近乎“零误差”的识别能力引发行业广泛关注,这一突破性表现又是如何实现的呢?

大模型通常需要海量的高质量 OCR 训练数据进行预训练,方能实现精准的识别能力。数据堂深耕 OCR 领域多年,构建了上千万张 OCR 成品数据集,覆盖 50+语种、多版式、多场景,全部经过人工标注,为 AI 模型训练提供了关键的数据支撑

自然场景 OCR 数据

千万级成品数据集:OCR全能选手的“硬核底座”

百万余张自然场景 OCR 数据集,包含亚洲语系,如日语、韩语、印尼语、马来语等;欧洲语系,如法语、德语、意大利语、葡萄牙语等;东南亚语系,如高棉语(柬埔寨)、老挝语、缅甸语等共几十种语言,涵盖标语、海报、说明书、菜单等多种自然场景,通过手机、相机、扫描仪设备采集,采用仰视、俯视、平视多角度拍摄,采集、标注及文本转写精度均达97%以上,可用于多国语言自然场景 OCR 任务

手写体 OCR 数据

千万级成品数据集:OCR全能选手的“硬核底座”

十万余张多语言、多场景手写体 OCR 数据集,涵盖中文繁体、英语、日语、韩语、西班牙语、葡萄牙语、法语等,包括黑板、白板、绿板、A4 纸、横线纸等多种文字载体,不同笔记不同颜色的书写方式及多种书写内容,拍摄角度为平视、俯视、仰视。采集、标注及文本转写精度均达97%以上,可用于手写体 OCR 任务

异形文字 OCR 数据

千万级成品数据集:OCR全能选手的“硬核底座”

五万余张中文异形 OCR 数据集,覆盖多种自然场景(街景、牌匾、广告牌、海报、装饰、艺术字、杂志封面)、多种排列方式(波浪、环形等)及多种字体。采集根据文本语义进行多边形框、四边形框标注和转写,其标注精度和文本转写精度达97%以上,可用于异形文本 OCR 任务

文档 OCR 数据

千万级成品数据集:OCR全能选手的“硬核底座”

千万级文档 OCR 数据集,包含说明书、办公文档、历史名著、表格等多种文档数据,涵盖以中文为主,英语、印地语等多种语言,文档格式包括 PDF 文档及图片文档,覆盖复杂版面 OCR 的需求,并严格对照文本位置进行文本转写,其检测框标注、文本转写精度达95%以上,可用于表格检测与识别、文章板式分割及分析等文档 OCR 任务

票据 OCR 数据

千万级成品数据集:OCR全能选手的“硬核底座”

数十万张多国票据 OCR 数据集,采集国家包括阿拉伯、墨西哥、巴西、印度等,语种分布主要为阿拉伯语、葡萄牙语、西班牙语、英语等。包含多种票据类型,对图像中的文本按照原排版进行转写,优先进行行对齐,个人信息进行脱敏处理,可用于票据识别、文字识别等任务

问答 OCR 数据

千万级成品数据集:OCR全能选手的“硬核底座”

两万余组中文 OCR 问答数据,包含广告牌、海报、手抄报、街景等多种场景、多种排列方式及多种字体,每张图像含有一个问答对,并对所回答内容在图中进行多边形框标注,其标注精度、文本转写精度和回答准确率均达97%以上。此数据可为多模态大模型提供丰富的资源,经过多家 AI 公司的验证,有助于模型在真实世界的应用中表现出色。

试题 OCR 数据

千万级成品数据集:OCR全能选手的“硬核底座”

近六万张试题 OCR 数据集,汇集了小初高及大学、职业教育等学科,包含选择、填空、简答、解答等多种题型或答案中包含的插图,通过手机、扫描仪设备采集,对题干、选项、答案、配图等进行四边形框标注及转写,公式和表格使用 latex 格式转写,题型种类采集和分类准确率均不低于97%,可用于智能判卷、作业辅导等任务

OCR 技术的不断突破,始终离不开高质量数据的持续供给。数据堂精心构建的千万级 OCR 数据集,为行业提供了稳定可靠的数据基础,更助力 AI 模型从识别向理解的智能化转变。未来,数据堂将继续凭借高质量的数据服务,推动 OCR 技术在各领域的深度应用。

点赞
收藏
评论区
推荐文章
Karen110 Karen110
3年前
轻松识别文字,这款Python OCR库支持超过80种语言
OCR是什么?有一款软件叫扫描全能王,想必一些小伙伴听过,这是一个OCR集成软件,可以将图像内容扫描成文字。所以说,OCR作用是对文本资料的图像文件进行分析识别处理,获取文字及版面信息。OCR的全称叫作“OpticalCharacterRecognition”,即光学字符识别。这算是生活里最常见、最有用的AI应用技术之一。细心观察便可发现,身边到处都是O
不是海碗 不是海碗
2年前
银行卡识别OCR:解放金融业务处理效率的黑科技!
银行卡识别OCR是通过光学字符识别(OCR)技术实现的。它基于深度学习算法,通过卷积神经网络(CNN)对银行卡图片进行特征提取和分析,从而识别出银行卡上的各个字段。
不是海碗 不是海碗
2年前
从图片提取文字的终极解决方法 ——【通用文字识别 API】
通用文字识别技术,也称为OCR(OpticalCharacterRecognition,光学字符识别),就是一种将图像或扫描件中的文字识别出来并转化为可编辑、可搜索的数字化文本的技术。
Stella981 Stella981
3年前
OCR识别的Android端实现
1.OCR简介OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;2.Tesseract简介Tesseract是RaySmith于1985到1995年
Stella981 Stella981
3年前
GitHub Trending第一之后,PaddleOCR再发大招:百度自研顶会SOTA算法正式开源!
要说生活里最常见、最便民的AI应用技术,OCR(OpticalCharacterRecognition,光学字符识别)当属其中之一。寻常到日常办理各种业务时的身份证识别,前沿到自动驾驶车辆的路牌识别,都少不了它的加持。作为一名开发者,各种OCR相关的需求自然也少不了:卡证识别、票据识别、汽车场景、教育场景文字识别……!(https://imgco
近屿智能 近屿智能
3星期前
OpenAI 最强推理模型o3 和 o4-mini 正式发布,近屿智能带你入局AI
近日,OpenAI正式发布了o3和o4mini模型,代表着ChatGPT能力的重大飞跃。o3堪称最强大的推理模型,o4mini则针对快速且具成本效益的推理进行了优化。这两款模型均展现出卓越的推理能力,能智能调用ChatGPT中的各类工具,像搜索网络、运用P
曼成 曼成
1年前
二维码识别OCR接口:智能化信息获取的新篇章
在信息爆炸的时代,快速、准确地获取数据变得尤为重要。二维码(QRCode)作为一种高效的信息传输工具,已经广泛应用于各个领域。二维码识别OCR(光学字符识别)接口的诞生,不仅极大地简化了数据输入的过程,还为智能化管理和信息交互开辟了新的道路。本文将探讨二维码识别OCR接口的工作原理、应用场景以及它在现代社会中的重要性。
幂简集成 幂简集成
3个月前
6个最佳实体检测API,可准确返回实体的名称
图文识别技术在过去几年取得了长足的发展,随着人工智能和机器学习等领域的快速进步,图文识别API服务也日益多样化和智能化。从古籍OCR识别到AI扬尘识别算法服务,再到精品题库和数学试题识别等功能,各种类型的图文识别API不断涌现,为用户提供了更加便捷和高效的
幂简集成 幂简集成
3个月前
2024年最易用的AI写作API推荐
图文识别技术在过去几年取得了长足的发展,随着人工智能和机器学习等领域的快速进步,图文识别API服务也日益多样化和智能化。从古籍OCR识别到AI扬尘识别算法服务,再到精品题库和数学试题识别等功能,各种类型的图文识别API不断涌现,为用户提供了更加便捷和高效的
京东云开发者 京东云开发者
2个月前
云电脑:快速部署无限制、可联网、带专属知识库的私人 DeepSeek 大数据模型
作者:京东云李凯在当下的科技领域,DeepSeek无疑是一颗耀眼的明星,近期关于它的话题热度持续飙升,引发了无数技术爱好者和行业从业者的热烈讨论。大家纷纷被其强大的大数据处理能力和广泛的应用前景所吸引,急切地想要深入探索和使用这一先进的模型。然而,当人们满
数据堂
数据堂
Lv1
数据堂(北京)科技股份有限公司,成立于2011年(股票代码:831428),专业的人工智能数据服务提供商,致力于为全球人工智能企业提供数据获取、处理及数据产品服务。 数据堂自主研发的基于“Human-in-the-loop人在回路”人机交互参与的人工智能数据加工平台,在实际的数据处理过程中,极大提高了数据生产效率,已实现人工智能数据的规模化生产,摒弃以往的纯手工作业模式。
文章
166
粉丝
1
获赞
2