-
这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。 字词后处理:由于OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。 字词数据库:为字词后处理所建立的词库
-
欲经过OCR处理的标的物须透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。 影像预处理:影像预处理是OCR系统中,须解决问题最多的一个模块。影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的提纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。 对待识别图像进行如下预处理,可以降低特征提取算法的难度,并能提高识别的精度。 二值化:由于彩**像所含信息量过于巨大,在对图像中印刷体字符进行识别处理前,需要对图像进行二值化处理,使图像只包含黑色的前景信息和白色的背景信息,提升识别处理的效率和精确度。 图像降噪:由于待识别图像的品质受限于输入设备、环境、以及文档的印刷质量,在对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行去噪处理,提升识别处理的精确度。 倾斜校正:由于扫描和拍摄过程涉及人工操作,输入计算机的待识别图像或多或少都会存在一些倾斜,在对图像中印刷体字符进行识别处理前,就需要进行图像方向检测,并校正图像方向。 文字特征抽取:单以识别率而言,特征抽取可说是 OCR的核心,用什么特征、怎么抽取,直接影响识别的好坏,也所以在OCR研究初期,特征抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。 对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。
-
OCR的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。 早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。 20世纪70年代初,日本的学者开始研究汉字识别,并做了大量的工作。中国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到1986年,我国提出“863”高新科技研究计划,汉字识别的研究进入一个实质性的阶段,清华大学的丁晓青教授和中科院分别开发研究,相继推出了中文OCR产品,现为中国最领先汉字OCR技术。早期的OCR软件,由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,运行速度慢,也没有达到实用的程度。只有个别部门,如信息部门、新闻出版单位等使用OCR软件。进入20世纪90年代以后,随着平台式扫描仪的广泛应用,以及我国信息自动化和办公自动化的普及,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度满足了广大用户的要求。
-
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程; 即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。 如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
-
### 公司业务信息 车车保险销售服务有限公司于2004年12月27日在广州市工商行政管理局登记成立。公司拥有中国银行保险监督管理委员会颁发的“经营保险代理业务许可证”,具备保险专业代理资质。在全国区域内(港,澳,台除外)代理销售保险产品;代理收取保险费;代理相关保险业务的损失勘查和理赔;中国银保监会批准的其他业务。 目前公司在中国人保,中国平安,太平洋保险,国寿财险,众安保险,安心保险等几十家保险公司建立了总部级战略合作,覆盖95%以上的用户市场。公司经营的服务网络,分支机构与网点,遍布全国23多个省级区域。拥有500余人的基础设施服务团队,为用户提供高效的出单与快捷的服务。 ### 解决问题与挑战 **业务场景**:投保车险需要频繁录入大量车辆行驶证及身份证信息,亟需一种技术来帮助业务人员简化此流程。 **解决问题**:从移动设备拍照或读取图库图片,实现自动读取证件信息。 **挑战**:要实现证件识别要准确快速,需要海量图片训练数据,而这是短期内很难逾越的鸿沟,但业务无法等待,必须要尽速解决。 **使用服务**:行驶证识别/身份证识别 **如何解决**: 依托华为云强大便利的OBS和OCR服务,车保易产品在终端获客及成单效率方面得以大幅提升:大幅降低基层业务人员的工作强度,并显著提升了客户满意度,减少了研发工作量及出错概率。 车保易产品会先将图片上传至OBS,随后传送给华为OCR行驶证及身份证识别服务接口: 这两个OCR识别服务依托海量数据及先进的AI算法,得以迅速、准确地识别上述两类证件图片,尤其是针对不太理想的照片质量提供了最大限度的容错,这一点对于我司的基层业务人员的获客及成单率有着重大影响。其容错性主要体现在如下几方面: 1、倾斜的拍摄角度 2、光源不足 3、证件表面污渍或物理瑕疵 4、弱反光 上述场景恰恰是我司业务员每天都要面对的常态,所以增益效果才显得特别突出。 待二者将识别结果回显给前端后,由业务人员确认其正确性后再将二者字段信息交给后续业务流程处理。 在研发领域,原本要投入数个甚至十数个人月的成本,这对于像我司这般的初创企业不太适合,但是在深入调研了华为云OCR服务后,我司决定背靠华为云强大的技术支持,迅速落地相关业务功能,抢占先机。 ### 使用场景 掌中宝、掌中宝车辆及人员信息录入:是两款面向代理人的车险销售App,需要录入人、车的关键信息。 ### 业务架构图 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202007/28/163740kqatrgymverkzgcb.png) ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202007/28/163747mlbgxsvpx5peypla.png) ### 使用规模 10000~20000调用量/月;30000~60000张/月 ### 使用受益 - 提升效率:大大降低一线业务人员的工作强度,提升工作效率,降低出错概率 - 获客增加:业务员对客户响应时间缩短,成单率有提高 - 降低成本:如果选择自研,将是一个持续但收效缓慢的过程 ### 意见/建议 1、对证件图片质量宽容程度能否在提高一些,因为客户提供的一手图片质量确实参差不齐, 尽管我们的业务人员会想客户提示一些注意事项,但是很多情况依然无法得到满意的图片质量。 2、识别时间再缩短50%以上就更好了。 ### 作者 张华彬/郑为
-
1.1 基础概念和操作基础概念:预测概率矩阵、标签序列和对齐序列基础操作:序列到序列操作(β)、对齐序列概率的计算详情请点击博文链接:https://bbs.huaweicloud.com/blogs/163524
-
公司业务信息:福州四九八网络科技有限公司成立于2011年,拥有专业的互联网产品运营团队、雄厚的技术力量。提出以“持续不断为商家提供小而美的改变”为核心价值,一切以用户需求为中心,打造全国领先的互联网+行业应用平台,结合线下一站式集成扫码移动支付系统,为商企提供一站式O2O落地服务。四九八科技自主开发一站式集成扫码移动支付系统和移动平台管理,是开放的平台。公司为商户提供收银台软件可无缝轻松对接所有基于windows的各类传统收银系统,IOS与Android手机版收单软件、灌装现有POS机等。公司始终致力于研究二维码支付、指纹支付、NFC、声波支付、轻扫支付等移动支付方式的应用,扫码支付方便快捷,B端和C端均有最佳体验。已支持支付宝钱包、微信支付、百度钱包、苏宁易付宝、京东钱包、QQ钱包、云闪付、翼支付等智能识别扫码支付。 业务场景:根据央行及相关部门、机构规定要求金融、支付机构业务人员线下地推,推广支付服务时(进件、入驻收款APP、开通收款服务等)需完成商户营业执照、法人身份证等相关信息录入。期间业务人员需为商户录入商户资料,为防止商户信息录入错误,做好事前风险控制,需强制对商户资料进行图文识别、内容审核。 解决问题:1、提升业务员人工作效率,快速帮助商户完成有效信息登记,2、实现业务人员录入资料的真实性和有效性,通过商户提供的图片由系统自动识别图片中的文字信息,保证资料准确且安全。 挑战:随着公司业务发展战略的深入实施,商户入驻量陡增,传统手工实现商户资料录入错误、缺漏的问题日益凸显,而其中事前的风险控制是金融支付最为重要的一个环节,也是最需要重点防控的风险急需通过技术手段解决。 使用服务:华为云OCR识别 如何解决:映入华为云的通用文字识别技术,可从商户所提供的资料图片(营业执照、法人身份证等)中提取出全部所需文字信息,避免人为错误,进而实现对信息录入的准确无误。 使用场景:业务员地推展业时对商户资料进行图文识别、内容审核,最终录入系统。 业务框架: 方案流程: 方案截图: 使用规模:日均10000次左右 使用效果:1、使用OCR识别可精准快速地录入商户资料,且录入资料的准确度高,减少业务人员和商户在资料上传中使用的时间,提高了业务人员的工作效率。2、通过系统识别避免人为录入错误,减少业务开展过程中的重复采集数据减少商户开放成本,同时信息的准确信也可以在事前有效减少相关金融风险。
-
业务场景: 使用电脑查看资料和看题时,若出现困惑只需使用鼠标右键圈出问题,软件将自动在屏幕上出现答案。解决的问题: 在学霸刷题的过程中,若是某些题目出现疑惑,往往会使用到很多的搜题库来搜索题目答案,但因为有的题目无法复制文字,因为这可能是一张图片,所以手动输入题目成为了一个繁琐且枯燥的过程,这不仅浪费时间,还降低了学习效率,因此,我们实现了圈题搜题功能,摆脱了手动输入题目这一流程。挑战: 因为首次使用华为云API接口,所以在调用API服务前的获取账号Cookie流程中遇到了许多困难,所幸后面查看帮助文档也解决了。使用服务: OCR通用文字识别服务如何解决: 软件运行于后台,创建钩子实时监听鼠标右键动作,若判断到出现圈题动作,程序将自动在后台定位到鼠标圈住的坐标区域,并且转换为base64图片编码,接着调用华为云OCR通用文字识别服务,实现图片转文字功能,接下来只需再次调用第三方搜题库API,将文字传入,便实现了圈题出答案的功能。使用场景: 搜题软件运行于Windows全系统,支持搜索所有出现在屏幕上的文字方案截图:( 如图,圈住左边的题目后,答案自动出现在屏幕右下角)使用规模: 日调用量50/次左右使用收益: 1.提高学习效率,无需再手动输入题目和频繁的切换电脑软件窗口 2.使用ORC文字识别功能降低了繁重重复的打字工作量 3.可识别图文题目,解决了传统搜题方法中无法复制题目来搜题的问题作者: 一位十分懒惰的小胡同学
-
第五章OCR的作业中,我换了个图,用微信工具截了 一张图进行OCR识别,其结果落差很大:比如说,李一桐被识别成 李一捌,魅者无疆被识别成 蜿者无骚,新射雕英雄传被识别成新射鲶英雄传。。。等等。是什么原因造成这样的问题呢?又该如何提升OCR的识别率呢?原图和ipynb文件均已上传。
-
公司业务信息: 深圳市地铁商业管理有限公司成立于2016年,负责对深圳地铁集团旗下各项商业资源进行集约化、专业化管理,经过业务开拓与内部整合,目前已形成商业、酒店、写字楼、媒体、通信、文创&互联网等多个业务板块。深铁商业秉承“美丽地铁,温暖商业”的经营理念,以满足市民多样化生活需求为核心,倾力提供优质便捷的“站城一体化”商业配套服务,为深圳地铁打造全业态的地铁生活空间和文化阵地,每公里平均经营收入在国内成网运营地铁中名列前茅。 业务场景:纸质合同校对与OA上的合同内容是否一致。(合同 签字盖章完之后 然后对比一下纸质的合同是否 跟OA审批的电子版本合同是否 一致 ) 解决问题:合同审查 痛点(挑战):人工审查耗费人力且易出现偏差 使用服务:OCR 文字识别 如何解决:用扫描设备识别纸质合同为PDF文档,然后OCR把PDF文档弄成信息化文字,然后文字交对OA审批的电子版本合同。(纸质的如何成为电子信息,再与电子版合同核对) 使用规模:10000次/月使用效果:比较明显提高工作效率。
-
问:OCR服务识别结果可以转化为Word或者TXT吗?答:OCR提取之后返回的结果是JSON格式,需要用户通过编程,将结果保存为Word或者TXT格式。
-
OCR处理流程融合了多种图像处理技术。主要是包括图像预处理表格提取有没有表格进一步处理文字定位其中可能会有文字矫正文字识别文字后处理等最后返回给客户的是结构化的json数据。所有涉及模型的模块均可能遭遇模型可信威胁,比如表格提取模块、文字定位模块、文字识别模块等。详情请点击博文链接:https://bbs.huaweicloud.com/blogs/151923
上滑加载中
推荐直播
-
全面解析华为云EI-API服务:理论基础与实践应用指南
2024/11/29 周五 18:20-20:20
Alex 华为云学堂技术讲师
本期直播给大家带来的是理论与实践结合的华为云EI-API的服务介绍。从“主要功能,应用场景,实践案例,调用流程”四个维度来深入解析“语音交互API,文字识别API,自然语言处理API,图像识别API及图像搜索API”五大场景下API服务,同时结合实验,来加深开发者对API服务理解。
回顾中 -
企业员工、应届毕业生、在读研究生共探项目实践
2024/12/02 周一 19:00-21:00
姚圣伟 在职软件工程师 昇腾社区优秀开发者 华为云云享专家 HCDG天津地区发起人
大神带你一键了解和掌握LeakyReLU自定义算子在ONNX网络中应用和优化技巧,在线分享如何入门,以及在工作中如何结合实际项目进行学习
即将直播 -
昇腾云服务ModelArts深度解析:理论基础与实践应用指南
2024/12/03 周二 14:30-16:30
Alex 华为云学堂技术讲师
如何快速创建和部署模型,管理全周期AI工作流呢?本期直播聚焦华为昇腾云服务ModelArts一站式AI开发平台功能介绍,同时结合基于ModelArts 的实践性实验,帮助开发者从理论到实验更好地理解和使用ModelArts。
去报名
热门标签