Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Stella981
• 阅读 1506

近日,百度飞桨正式开源了业界最小的超轻量8.6M中英文识别OCR模型套件PaddleOCR,在模型大小、精度和预测速度上,甚至超过了之前一度登上GitHub热榜的chineseocr_lite(5.1k stars),简单场景下OCR效果更是能媲美收费软件。

除了性能优越之外,百度PaddleOCR还是第一个完整支持从训练到部署完整流程的OCR模型套件,而且部署方式多样,覆盖手机端(含IOS、Android Demo)、嵌入式端,大规模数据离线预测,在线服务化预测等。通过多种预测工具组件的支持,百度PaddleOCR能够满足多样化的工业级应用场景。同时其支持自定义训练,用户可以使用自己的数据集Fine-tune以达到更好的效果,大大提高了程序员们训练部署OCR模型和项目落地的效率,最大程度上满足了企业的不同需求。

随着百度PaddleOCR的开源,其在促进OCR行业发展的同时,也正在赋能企业,推动产业智能化发展。

近年来,随着技术的发展,文字识别(OCR)已经被广泛的运用至各个场景之中,包括自然场景中文字识别、车牌识别、票据识别等等,是机器服务人类的重要场景之一。

然而目前OCR发展面临着诸多难题,一方面,由于自然环境复杂多样,机器识别面临着尺度、光照不足、拍摄模糊等问题,加大了识别的难度。另外一方面,OCR应用常对接海量数据,要求数据能够得到实时处理。除此之外,由于OCR应用常常部署在移动端或嵌入式硬件,但端侧的存储空间和计算能力有限,因此对OCR模型的大小和预测速度有很高的要求。

而此次百度开源的8.6M超轻量中文OCR模型,包含1个检测模型(4.1M)与1个识别模型(4.5M),是目前业界开源的最小OCR模型。相比于市面上其它的OCR模型,PaddleOCR取得了显著的进展,这使得其能够更为便捷的部署在移动端、嵌入式端等多个场景,更加方便用户使用。

除此之外,百度PaddleOCR也能够快速准确地识别各个场景中的文字,无惧尺度、光照等难题。同时,其还支持中英文识别以及倾斜、竖排等多种方向文字识别,为用户呈现出最佳结果。

来看看下面这些:

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

由上图可见,这款 OCR 模型的图像文本识别精准度效果破佳,基本可做到从嘈杂环境中快速提取核心信息。

看到这里,你可能会其技术层面的实现感到好奇。别担心,我们准备了一些问答小卡片,为你揭晓其中的技术原理:

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

除以上精选问题,百度还汇聚了 OCR 开发者常问问题 100 问,都是真实实践的 OCR 精品 “药方”,现在访问 PaddleOCR 项目地址就可以统统收入囊中了!(点击 “阅读原文” 即可访问)

https://github.com/[PaddlePaddle](https://www.oschina.net/action/visit/ad?id=1185)/[Paddle](https://www.oschina.net/action/visit/ad?id=1185)OCR/blob/develop/doc/doc\_ch/FAQ.md

如果你 OCR 技术感兴趣,可以扫码下方二维码,加入百度的 OCR 技术群,他们将于 9 月 26 日开设最新技术课程,邀请开发者一起深入探索这项技术未来的应用方向及市场前景:

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

在遇到 PaddleOCR GitHub 项目的应用问题时,也可以移步到 ISSUE 提问,有丰富经验的飞桨资深工程师帮你解决。

PaddleOCR 项目地址

https://github.com/[PaddlePaddle](https://www.oschina.net/action/visit/ad?id=1185)/[Paddle](https://www.oschina.net/action/visit/ad?id=1185)OCR

飞桨官网地址

https://www.[paddlepaddle](https://www.oschina.net/action/visit/ad?id=1185).org.cn/

飞桨开源框架项目地址

GitHub:

https://github.com/[PaddlePaddle](https://www.oschina.net/action/visit/ad?id=1185)/[Paddle](https://www.oschina.net/action/visit/ad?id=1185)

最后

看完点个赞,分享一下吧,让更多的朋友能够看到。如果你喜欢前端开发博客的分享,就给公号标个星吧,这样就不会错过我的文章了。Github热榜:中英文识别OCR模型,百度开源媲美收费软件! Github热榜:中英文识别OCR模型,百度开源媲美收费软件! Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

好文和朋友一起看~

本文分享自微信公众号 - 前端开发博客(caibaojian_com)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Wesley13 Wesley13
3年前
PPDB:今晚老齐直播
【今晚老齐直播】今晚(本周三晚)20:0021:00小白开始“用”飞桨(https://www.oschina.net/action/visit/ad?id1185)由PPDE(飞桨(https://www.oschina.net/action/visit/ad?id1185)开发者专家计划)成员老齐,为深度学习小白指点迷津。
Wesley13 Wesley13
3年前
PPDB——飞桨开发者技术小白
PPDE——飞桨(https://www.oschina.net/action/visit/ad?id1185)开发者技术专家,是飞桨(https://www.oschina.net/action/visit/ad?id1185)开发者技术专家的荣誉认证体系,由飞桨(https://www.oschina.net/action/visit/a
Stella981 Stella981
3年前
PaddleOCR初体验,基于PaddleHub Serving的服务部署
Paddle(https://www.oschina.net/action/visit/ad?id1185)OCR提供2种服务部署方式:基于PaddleHub(https://www.oschina.net/action/visit/ad?id1188)Serving的部署:代码路径为"./deploy/hubserving",
Wesley13 Wesley13
3年前
BERT源码分析(PART I)
写在前面update@2020.02.10最近在看paddle(https://www.oschina.net/action/visit/ad?id1185)相关,于是就打算仔细过一遍百度ERNIE(https://www.oschina.net/action/visit/ad?id1191)的源码。之前粗看
Stella981 Stella981
3年前
AI Studio过于靠谱,真香啊,快来学习飞桨吧
还在犹豫要不要学习飞桨(https://www.oschina.net/action/visit/ad?id1185)吗?关注公众号:飞桨(https://www.oschina.net/action/visit/ad?id1185)PPDB,和我们一起学习飞桨(https://www.oschina.net/action/visit
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这