TextDetection文本检测数据集汇总

Easter79
• 阅读 644

字符识别和文本检测在实际生活中十分重要,从最简单的车牌检测到复杂的环境文本识别都需要这一技术的支持。目前这一领域最著名的会议是International Conference on Document Analysis and Recognition(ICDAR)

1.文字检测与识别主要数据集

TextDetection文本检测数据集汇总


Total-Text
TextDetection文本检测数据集汇总
paper


COCO-Text, COCO-Text V2
TextDetection文本检测数据集汇总
paper


MSRA-TD500
TextDetection文本检测数据集汇总
ref paper


ICDAR2017, 竞赛中包含了多个领域的数据集。

Category: Handwritten Historical Document Layout Recognition

cBAD: ICDAR2017 Competition on Baseline Detection ICDAR2017 Competition on Layout Analysis for Challenging Medieval Manuscripts ICDAR2017 Competition on Historical Book Analysis

Category: Historical Handwritten Script Analysis

ICDAR 2017 Competition on the Classification of Medieval Handwritings in Latin Script ICDAR2017 Competition on Historical Document Writer Identification (Historical-WI) Competition on Multi-script Writer Identification Using LAMIS-MSHD and CERUG Databases

Category: Character/Word Spotting

Competition on Query-by-Example Glyph Spotting of Southeast Asian Palm Leaf Manuscript Images Handwritten Keyword Spotting Competition

Category: Handwriting Recognition

ICDAR2017 Competition on Handwritten Text Recognition on the READ Dataset ICDAR2017 Competition on Information Extraction in Historical Handwritten Records

Category: Document Image Binarization

ICDAR2017 Competition on Document Image Binarization (DIBCO 2017)

Category: Document Recognition (Layout analysis & Text Recognition)

ICDAR2017 Competition on Recognition of Documents with Complex Layouts – RDCL2017 ICDAR2017 Competition on Recognition of Early Indian Printed Documents – REID2017 ICDAR2017 Competition on Page Object Detection

Category: Document Reconstruction

Smartphone-captured Document Image Reconstruction from Multiple Views

Category: Post OCR Correction

ICDAR2017 Competition on Post-OCR Text Correction

Category: Robust Reading Competitions

ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17) paper:https://arxiv.org/pdf/1708.09585.pdf ICDAR2017 Robust Reading Challenge on COCO-Text

Category: Text in Video

ICDAR2017 Competition on Arabic Text Detection and Recognition in Multi-resolution Video Frames Competition on Video Script Identification

Category: Forensics

Competition on File Type Identification

Category: Miscellaneous Competitions

ICDAR2017 Competition on Multi-font and Multi-Size Digitally Represented Arabic Text ref:http://mac.xmu.edu.cn/valse2017/ppt/Invited/VALSE2017\_bx.pdf


ICDAR2015
场景文字识别
生成数字图像文字识别
还包含了一个文本超分辨数据集
opencv中的一个接口


ICDAR2013
Robust Reading:http://refbase.cvc.uab.es/files/KSU2013.pdf
中文手写数据集, 下载
ref:https://www.computer.org/csdl/proceedings/icdar/2013/4999/00/06628568.pdf
数字文件researcher:https://roundtrippdf.com/en/

2.一些最近发表的工作(from total-text)

Detection

MSRFTSN, TextSnake, TextField , Mask TextSpotter , TextNet, Textboxes, EAST, Baseline, SegLink

End-to-end Recognition

TextNet, Mask TextSpotter, Textboxes


此外还有下面一些和数字字符识别相关的数据集:
手写字符识别:MNIST


街道门牌号数据集:SVHN
TextDetection文本检测数据集汇总


一些相关网站,可以找到更多数据集:
国际模式识别协会会第十一技术组(OCR):IAPR-TC11TC11 datasets
图像识别TC10工作组, TC10 datasets
ICDAR 2017汇总:https://github.com/cs-chan/Total-Text-Dataset
近年来Robust Reading竞赛汇总网站:http://rrc.cvc.uab.es/
研究导航:http://www.guide2research.com/conference/icdar-2019

TextDetection文本检测数据集汇总
pic from pexels.com

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Android So动态加载 优雅实现与原理分析
背景:漫品Android客户端集成适配转换功能(基于目标识别(So库35M)和人脸识别库(5M)),导致apk体积50M左右,为优化客户端体验,决定实现So文件动态加载.!(https://oscimg.oschina.net/oscnet/00d1ff90e4b34869664fef59e3ec3fdd20b.png)点击上方“蓝字”关注我
Wesley13 Wesley13
3年前
35岁,真的是程序员的一道坎吗?
“程序员35岁是道坎”,“程序员35岁被裁”……这些话咱们可能都听腻了,但每当触及还是会感到丝丝焦虑,毕竟每个人都会到35岁。而国内互联网环境确实对35岁以上的程序员不太友好:薪资要得高,却不如年轻人加班猛;虽说经验丰富,但大部分公司并不需要太资深的程序员。但35岁危机并不是不可避免的,比如你可以不断精进技术,将来做技术管理或者
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
35岁是技术人的天花板吗?
35岁是技术人的天花板吗?我非常不认同“35岁现象”,人类没有那么脆弱,人类的智力不会说是35岁之后就停止发展,更不是说35岁之后就没有机会了。马云35岁还在教书,任正非35岁还在工厂上班。为什么技术人员到35岁就应该退役了呢?所以35岁根本就不是一个问题,我今年已经37岁了,我发现我才刚刚找到自己的节奏,刚刚上路。
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
Easter79
Easter79
Lv1
今生可爱与温柔,每一样都不能少。
文章
2.8k
粉丝
5
获赞
1.2k