从图片提取文字的终极解决方法 ——【通用文字识别 API】

不是海碗
• 阅读 408

写在前面

相信你用过类似对进行图片中的文字提取的功能,但是你了解过背后的原理吗?

本文将从图片中文字提取的原理以及应用案例等多方面进行讲述,希望一文能为你讲透通用文字识别。

通用文字识别是什么技术

随着信息化和数字化的发展,大量的文字信息产生和传播,这些信息需要被整理和分析。通用文字识别技术,也称为OCR(Optical Character Recognition,光学字符识别),就是一种将图像或扫描件中的文字识别出来并转化为可编辑、可搜索的数字化文本的技术。

通用文字识别的技术原理

OCR技术 的主要原理是将图片或扫描件转化为二值图像,然后利用图像处理算法对图像进行预处理,如去噪、二值化、分割、特征提取等操作。接下来,利用模式匹配和机器学习等方法对文字进行识别,并输出识别结果。OCR技术的精度和速度取决于预处理、识别算法的复杂度和识别引擎的性能等因素。

从图片提取文字的终极解决方法 ——【通用文字识别 API】

挖掘通用文字识别的应用场景

通用文字识别可以应用在多种场景,用得好能帮助用户解决很多痛点问题,如在以下领域上,通用文字识别技术能提供非常大的帮助,包括:

  • 文字识别和翻译:识别图片中的文字,并将其翻译成其他语言。
  • 金融服务:识别和处理客户的身份证、银行卡、票据等文档。
  • 教育教学:数字化教材、试卷和笔记。
  • 医疗健康:识别和转换医学报告、病历和处方等文档。
  • 商业营销:识别广告宣传物料上的文字。
  • 社交娱乐:识别和处理用户上传的图片和视频。
  • 人工智能辅助:收集大量的文本数据,进行训练和算法优化。

通用文字识别 API 使用方法

讲透通用文字识别技术之后,如何找到并将这项技术应用在自己的应用里面呢。在这里推荐 APISpace 的 【通用文字识别】 API ,它支持多场景、多语种、高精度的整图文字检测和识别服务,多项指标行业领先,可识别中、英、日、韩、法、德多种语言。

具体使用方式如下:

1.注册并获取通用文字识别 API 密钥

进入 【通用文字识别 API】详情页,点击【免费试用】,即可唤起注册按钮。

从图片提取文字的终极解决方法 ——【通用文字识别 API】

注册成功后,我们在页面导航菜单点击 【我的 API】进入 【访问控制】页面,即可看到平台提供的密钥。

从图片提取文字的终极解决方法 ——【通用文字识别 API】

2.在线测试调用 API 进行文字识别

回到 【通用文字识别 API】详情页,再次点击【免费试用】,我们可以在获得一定次数的免费调用权限,并且进入测试界面。

在测试界面中,根据 API 接口文档中的要求,输入图片地址

从图片提取文字的终极解决方法 ——【通用文字识别 API】

如我们输入

从图片提取文字的终极解决方法 ——【通用文字识别 API】

API 返回的识别结果如下:

    "words_result": [{
        "word": "桃花历乱李花香",
        "location": [
            [978, 218],
            [1046, 218],
            [1046, 810],
            [978, 810]
        ]
    }, {
        "word": "草色青青柳色黄",
        "location": [
            [1088, 211],
            [1156, 210],
            [1160, 810],
            [1092, 810]
        ]
    }, {
        "word": "春日偏能惹恨长",
        "location": [
            [748, 219],
            [816, 218],
            [822, 810],
            [754, 810]
        ]
    }, {
        "word": "东风不为吹愁去",
        "location": [
            [862, 219],
            [930, 218],
            [932, 806],
            [864, 806]
        ]
    }, {
        "word": "春思",
        "location": [
            [1238, 218],
            [1332, 218],
            [1332, 447],
            [1238, 447]
        ]
    }, {
        "word": "贾至",
        "location": [
            [624, 697],
            [666, 697],
            [666, 806],
            [624, 806]
        ]
    }],
    "words_count": 6,
    "log_id": "1e165580-cde1-11ed-989b-000000003532"
}

哇,识别结果着实非常精确,感兴趣的小伙伴赶快去体验一下。

在程序中接入通用文字识别 API

在Java 程序中,我们可直接复制以下代码接入通用文字识别 API

OkHttpClient client = new OkHttpClient().newBuilder().build();
MediaType mediaType = MediaType.parse("application/json");
RequestBody body = RequestBody.create(mediaType, "{"image":"","url":"https://data-apibee.apispace.com/license/1678270527930990ebabe-a570-44ca-9966-b892d2bb6df8","language":"CHN_ENG"}");
Request request = new Request.Builder()
  .url("https://eolink.o.apispace.com/ocrbase/ocr/v1/base")
  .method("POST",body)
  .addHeader("X-APISpace-Token","替换自己的 API 密钥")
  .addHeader("Authorization-Type","apikey")
  .addHeader("Content-Type","application/json")
  .build();

Response response = client.newCall(request).execute();
System.out.println(response.body().string());

写在最后

OCR 技术是一项十分重要的技术,可以提高数据处理的效率和准确性,将纸质文本转化为数字化文本,从而为数字化转型提供有力支持,APISpace 也提供了身份证识别OCR银行卡识别OCR二维码识别OCR增值税发票识别OCR 等多项OCR 识别接口,感兴趣的小伙伴可以去了解下。

如果你有想要了解的 API 接口或者应用场景,欢迎下面评论留言~

点赞
收藏
评论区
推荐文章
Karen110 Karen110
3年前
轻松识别文字,这款Python OCR库支持超过80种语言
OCR是什么?有一款软件叫扫描全能王,想必一些小伙伴听过,这是一个OCR集成软件,可以将图像内容扫描成文字。所以说,OCR作用是对文本资料的图像文件进行分析识别处理,获取文字及版面信息。OCR的全称叫作“OpticalCharacterRecognition”,即光学字符识别。这算是生活里最常见、最有用的AI应用技术之一。细心观察便可发现,身边到处都是O
不是海碗 不是海碗
1年前
一文带你看透通用文字识别 OCR
随着人工智能技术的不断发展,通用文字识别OCR也变得越来越重要。通用文字识别OCR是指对文本图像进行分析,以转换图像中的文本为可用的文本形式的过程,其主要用途是提供文本可搜索和复制的功能。
Karen110 Karen110
3年前
一篇文章教会你使用Python图片格式转换器并识别图片中的文字
在日常生活中,我们经常需要用到图片,我们都知道,图片的种类挺多的,在这里不一一列举。我们今天要完成就是一个图片转换器外加图片识别程序,废话不多说,直接就是淦!1.文字识别技术2.图片转换器一、文字识别技术首先介绍文字识别技术,就是读取图片之后然后把图片中的文字提取出来。1.打开百度开放平台进去之后咱们选择文字识别,可以看出,语音合成和图片识别的参数不一
不是海碗 不是海碗
1年前
基于发票增值税OCR API设计自动识别应用系统,从此解放财务双手
增值税发票识别OCRAPI是一种基于光学字符识别(OCR)技术的API,旨在帮助用户自动识别和提取增值税发票中的文字信息。通过使用这个API,用户可以将增值税发票扫描或拍照后上传至云端,API将自动识别和提取发票中的关键信息,例如发票号码、日期、销售方名称、购买方名称等等。
Stella981 Stella981
3年前
OCR识别的Android端实现
1.OCR简介OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;2.Tesseract简介Tesseract是RaySmith于1985到1995年
Stella981 Stella981
3年前
Python+Selenium自动化篇
本篇文字主要学习selenium定位页面元素的集中方法,以百度首页为例子。0.元素定位方法主要有:id定位:find\_element\_by\_id('')name定位:find\_element\_by\_name('')class定位:find\_element\_by\_class\_name(''
Stella981 Stella981
3年前
GitHub Trending第一之后,PaddleOCR再发大招:百度自研顶会SOTA算法正式开源!
要说生活里最常见、最便民的AI应用技术,OCR(OpticalCharacterRecognition,光学字符识别)当属其中之一。寻常到日常办理各种业务时的身份证识别,前沿到自动驾驶车辆的路牌识别,都少不了它的加持。作为一名开发者,各种OCR相关的需求自然也少不了:卡证识别、票据识别、汽车场景、教育场景文字识别……!(https://imgco
Stella981 Stella981
3年前
Serverless Framework + OCR 快速搭建通用文字识别应用
在日常的工作生活中,文字识别与我们息息相关,比如身份证识别、随手拍扫描、纸质文档电子化等,无不显示着文字识别技术的重要性。为此,腾讯云通用文字识别产品GeneralOCR应运而生,基于行业前沿的深度学习技术,支持将图片上的文字内容智能识别为可编辑的文本,大幅提升信息处理效率。而ServerlessFramework与OCR的结合,则为用户提供
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
不是海碗 不是海碗
1年前
通用文字识别OCR 之实现数字化教材
引言通用文字OCR识别API是一种功能强大的服务,可用于多场景、多语种的整图文字检测和识别,通过将OCR技术应用于学校环境,可以实现教育资源的数字化和学习过程的自动化。本文将探讨通用文字识别OCR在学校的实际应用,希望对大家有所帮助。OCR技术的基本原理和