• [其他] 图像识别发展阶段
    图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。文字识别的研究是从 1950年开始的,一般是识别字母、数字和符号,从印刷文字识别到手写文字识别, 应用非常广泛。
  • [技术干货] 什么是NLP?NLP的两个核心任务是什么?
    01什么是NLPNLP(自然语言处理-Natural language processing)就是在机器语言与人类语言之间沟通的桥梁,以实现人机交流的目的。02NLP的两个核心任务NLU:自然语言理解。希望机器像人一样,具备正常人的语言理解能力。NLG:自然语言生成。为了跨越人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。学习链接:https://easyai.tech/ai-definition/nlp/文字也是人类语言之一,文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别。03自然场景文本检测自然场景下的文本检测有如下几个难点:文本存在多种分布,文本排布形式多样;文本存在多个方向;多种语言混合。1、Faster RCNNFaster RCNN做文本检测感觉问题不大,但是从效果来看,仅套用Faster RCNN来做文本检测效果并不好,原因在于,文本有自己独有的特点,这种通用的文本检测框架并不能很好地解决文本的这些特点。2、CTPNCTPN(基于Faster RCNN):目前比较成熟的文本检测框架,精确度较好。但是检测时间较长,有很大的优化空间。【文献】Detecting Text in Natural Image with Connectionist Text Proposal Network文本行一般以水平长矩形的形式存在,而且文本行中每个字都有间隔,所以仅套用Faster RCNN来做文本检测效果并不好。而CTPN剔除一个新奇的想法,我们可以把文本检测的任务拆分,第一步我们检测文本框中的一部分,判断它是不是一个文本的一部分,当对一幅图里所有小文本框都检测之后,我们就将属于同一个文本框的小文本框合并,合并之后就可以得到一个完整的、大的文本框了,也就完成了文本的检测任务。这个想法有点像“分治法”,先检测大物体的一小部分,等所有小部分都检测出来,大物体也就可以检测出来了。如上图所示,左边的图是直接使用Faster RCNN中的RPN来进行候选框提取,可以看出,这种候选框太粗糙了,效果并不好。而右图是使用CTPN+RNN进行候选框提取,利用许多小候选框来合并成一个大文本预测框,可以看出这个算法的效果非常不错。当然,CTPN也有一个很明显的缺点:对于非水平的文本的检测效果并不好。3、SegLinkSegLink(CTPN+SSD):通常用于自然场景下,检测多角度文本。【文献】Detecting Oriented Text in Natural Images by Linking Segments上图的绿色框的检测效果才是我们的终极目标。那么怎么基于原来经典的目标检测算法做相应的优化以适应这种检测效果的要求呢?SegLink采取了一个思路那就是:让模型再学习一个参数θ,这个θ表示文本框的旋转角度,也就是我们最终要回归的参数从原来的(x,y,w,h)变成(x,y,w,h,θ)。除此之外,SegLink还提出了Segment和Linking两个重要概念。Segment可理解为文本行的任意一部分,一个完整的文本行中包含多个segment(上图黄色框)。每个segment用link(上图绿色线)连接组合起来。4、EASTEAST:采取FCN思路,做特征提取和特征融合,局部感知NMS阶段完成检测。网络的简洁使得检测准确率和速度都有进一步提升。(针对自然场景下使用较多)。【文献】EAST: An Efficient and Accurate Scene Text Detector通过上图我们知道,一个文本检测有多个阶段,EAST的作者认为,一个文本检测算法被拆分成多个阶段其实并没有太多好处,实现真正端到端的文本检测网络才是正确之举。所以EAST的pipeline相当优雅,只分为FCN生成文本行参数阶段和局部感知NMS阶段,网络的简洁是的检测的准确性和速度都有了进一步的提高。EAST网络分为特征提取层+特征融合层+输出层三大部分。EAST就是借助FCN架构直接回归出文本行的(x,y,w,h,θ)+置信度+四边形的四个坐标!非常简洁!当然还有其他检测算法,这里就不一一介绍啦。学习链接:https://www.cnblogs.com/skyfsm/p/9776611.html04自然场景文本识别1、CNN+RNN+CTC(如CRNN):使用目前最为广泛的一种文本识别框架。需要自己构建字词库(包含常用字、各类字符等)。【文献】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition【讲解及优化】https://blog.csdn.net/qq_14845119/article/details/78934334【开源代码】https://github.com/solivr/tf-crnn学习链接:https://www.jianshu.com/p/5b47911895832、CNN(如Densenet)+CTC:资料不多,效果一般,泛化能力较差。没有加入了RNN的效果好。【文献】暂未找到,可参考GitHub3、Tesserocr(Tesseract):使用比较广泛的一种开源识别框架,支持多语言多平台。Tesseract在识别清晰的标准中文字体效果还行,稍微复杂的情况就很糟糕(多字体等),而且花费的时间也很多。【文献】暂未找到,可参考GitHub4、FOTS(EAST+CRNN):端到端OCR模型,检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域(RoIRotate), 可以从卷积特征图中产生出定向的文本区域,从而支持倾斜文本的识别。【文献】FOTS: Fast Oriented Text Spotting with a Unified Network【讲解】https://blog.csdn.net/qq_14845119/article/details/846358475、ASTER:模型主要分为两个部分,一个是矫正模型,一个是识别模型。文本矫正模型,不需要任何矫正标注信息,对弯曲文本、透视文本有着很好的矫正效果。识别模型中的CNN使用了ResNet的结构,最后的解码部分使用的是Sequence2Sequence机制来进行解码,不同于CRNN的CTCLoss。【文献】ASTER: An Attentional Scene Text Recognizer with Flexible Rectification在NLP的产品体系中,OCR是关于文档、文件处理的基础步骤,是无法回避和绕开的。关于OCR的基础知识,也就成了NLP产品经理必不可少的知识储备了——只有详细地了解了关于OCR的处理原理和步骤,才能充分发挥现有技术的优势,规避其弱点,创造出更大的价值。
  • [行业资讯] 人工智能中RPA、NLP、OCR介绍
    1、NLP自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机、于一体的。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。主要是在文本数据基础之上做各种应用,比如文本挖掘、搜索推荐等,主要产品是文本智能化处理软件系统,能够帮助客户完成文档智能审阅、推荐、搜索、客户意见洞察等工作。2、RPARPA(机器人流程自动化)是近两年较为火热的话题,它通过模仿最终用户在电脑的手动操作方式,提供了另一种方式来使最终用户手动操作流程自动化。简单来说,这是一项横向的、贴近业务流的技术,用于自动化处理重复、规则明确、并且需要人类切换不同系统来完成的工作。具体到产品形态,则是自动化软件,模拟人类的交互完成重复性事务。举个例子,如果一个分析师每天需要关注一家上市公司的数据,每天要在同一个网站扒数据,并填到表内,那么 RPA 机器人就可以自动完成获取数据、填表、导出等工作。传统 RPA 产品由开发平台、控制中心、终端机器人组成。RPA 已推出银行、财税、政务、保险、证券基金等数十种不同岗位的机器人员工。在售后工单处理、商业案例报告生成、供应商准入核实、智慧政务行政审批、金融文档的抽取验查和填写等场景中已开展工作。3、OCROCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机数据的过程。针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、产品的稳定性、易用性等。在多数组织的智能自动化流程业务中,OCR是应用最多的人工智能技术之一。OCR与RPA的结合可以将组织中超过70%的无纸化业务实现自动化,其效率将是人工的5倍以上。4、RPA、NLP、OCR应用情况:RPA目前被企业应用最多的还是实现业务流程自动化,在降低风险方面RPA同样发挥了重要作用。许多世界顶级银行已把RPA部署在运营部门,以帮助他们打击那些涉及欺诈、洗钱等行为的用户。金融机构利用RPA帮助识别这些进行非法活动的客户,很好的为企业避免了重大损失。RPA平台通过收集并定期分析客户数据,包括:媒体新闻、搜索引擎、征信系统等执行定期数据调查,以查出该用户是否有触犯法规的行为。例如在一家加拿大银行的案例中,该公司在部署RPA后的六个月内不仅节省了750,000美元的成本,还查处了120个非法客户成功避免了那些潜在的危险行为。NLP主要帮助企业分析客户需求,研究表明,大多数致电企业售前客服咨询业务时,都无法及时获得所需要的帮助。当这种情况发生较多时,很多人都会产生厌倦感。NLP技术通过检测语音通话,可以实时测量客户的语调以及他们在对话中使用的单词频率等,有效的防止人们挫败感的产生。一些呼叫中心使用NLP来提供实时的反馈信息。例如:如果一个人打电话给旅游公司并多次提到“度假”,那么NLP就会识别这一词汇进行统计。当会话结束后,NLP会把会话中出现频率最多的几个词统计出来,方便客服人员进行服务分析。相对于NLP和RPA来说,目前OCR应该是应用层面最广的技术。在具体的落地应用层面,目前卡证识别、票据识别等标准场景文字识别已经相对成熟,手写文字识别在教育、物流等行业的应用也在不断扩大。复杂动态场景下的OCR技术和应用成为近两年的热门研究方向,比如在无人驾驶、机器人等场景利用OCR对视场中出现的文字进行识别等。目前OCR识别技术,主要划分为8项:1)证件识别:主要识别证件信息,用于金融、银行、保险、汽车等领域(互联网),支持大陆二代身份证、台湾身份证、香港身份证、澳门身份证、护照、行驶证、驾驶证、港澳台通行证等20余种证件识别,支持Android/iOS、Windows/Linux 32/64位主流操作系统,目前有证件采集仪、护照阅读器、门禁考勤机、人行通道闸机、人证一体扫描仪、移动端证件识别SDK等产品中应用该项技术;2)银行卡识别:主要识别银行卡卡号,用于移动支付绑卡,提升APP用户体验(互联网)。支持国内各个银行的信用卡、储蓄卡,包括平面字体和凹凸字体银行卡、横版和竖版银行卡、标准和异形银行卡等识别,支持Android/iOS、Windows/Linux 32/64位主流操作系统,目前有移动端银行卡识别SDK、云端银行卡识别API;3)车牌识别:主要识别车牌号码、车牌颜色、车牌类型、车标、车身颜色等车辆特征信息,用于移动警务,占道停车,停车场管理,车险等领域(互联网)中,支持识别普通蓝牌、黄牌(双层)、军牌(双)、武警牌(双)、警牌、农用车牌、大使馆车牌等各种常见规格的汽车号牌,支持Android/iOS、Windows/Linux 32/64位主流操作系统,目前有PC端车牌识别SDK、移动端车牌识别SDK、车牌识别抓拍相机、DSP嵌入式车牌识别、车型识别、车位检测等产品应用了该项技术;4)名片识别:主要识别名片内容,用于移动展业、CRM客户管理系统等领域(互联网),支持横版、竖版名片识别,及其他板式的各种名片,还支持多语种名片识别,支持Android/iOS、Windows/Linux 32/64位主流操作系统,目前有移动端名片识别、云端名片识别API;5)营业执照识别:主要识别营业执照信息(统一社会信用代码、公司名称、二维码等),用于需要代替人工提取营业执照信息的领域(互联网),支持Android/iOS、Windows/Linux 32/64位主流操作系统,目前有移动端营业执照识别SDK、文字识别SDK、扫描识别硬;6)汽车VIN码识别:主要识别车架号(汽车VIN码),用于汽车管理、汽车服务、二手车交易、租车等领域(互联网),支持Android/iOS、Windows/Linux 32/64位主流操作系统,目前有移动端汽车VIN码识别SDK;7)票据类OCR识别:主要识别增值税发票等不同格式的票据内容,用于财务管理、汽车、银行、金融等领域(互联网),基于模板机制,针对不同的票据,定制不同的识别要素,支持Android/iOS、Windows/Linux 32/64位主流操作系统,目前有表票识别扫描仪、表票识别SDK;8)文档文字OCR识别:主要识别文档文字,用于图书馆,报社等针对图书、报纸、杂志等文本类,需要把这些纸质文档进行电子化的领域(互联网),需借助在扫描仪,目前有移动端的文档OCR识别、文档识别扫描仪,随着扫描仪分辨率的提升,OCR软件也在不断升级,扫描仪厂商现在已经把专业的OCR软件搭配自己生产的扫描仪出售。5、RPA、NLP、OCR三者关系目前,大部分的RPA工具都是基于微软.NET Framework的WorkflowFoundation开发,整合OCR、NLP等AI技术,能够以弱耦合,即不改变现有软件系统部署的形式跨系统执行,且实现零出错率。在技术上,RPA早已不是单个企业的定制化功能,事实上已经生长成融合AI技术、系统级的跨软硬件、多账户的服务。在NLP的产品体系中,OCR是关于文档、文件处理的基础步骤,是无法回避和绕开的。对任何一个业务流程自动化而言,都需要串接许多技术模块。RPA+OCR+NLP的融合,减少了业务流程中人机交互、人工复核的环节,可以更全面的满足企业自动化的需求。下面这个实例主要帮助大家更好的理解RPA与OCR的工作原理:1、用户收到一封带有图片的电子邮件。2、RPA自动阅读电子邮件。3、对图片进行分类并选择模板。4、通过OCR对分类的图片进行数据识别和提取。5、RPA接收OCR转化后的结构化数据。6、进行数据校审确认。7、自动将结构化数据放置或录入到指定位置。8、存储所有结构化数据,并向用户发送一封通知邮件,确认所有工作完毕。目前全球的RPA厂商正在通过与不同的人工智能技术相结合,来提升竞争力赢得市场。而OCR在频率、业务范围、以及对业务影响上都领先于其他技术。通过OCR来处理那些非结构化业务,也使得RPA的自动化范围可以扩展到更多的领域中。本文来源于搜狐号南陌原文链接:https://www.sohu.com/a/467250952_121057266
  • [近期热门] 高效办公神器来了!华为云ModelArts Pro文字识别套件重磅公测
    原文地址:https://mp.weixin.qq.com/s/IlIL57GxJIh8JsQxK_QWIg、作为业务员你是否应对堆积如山的表单票据一筹莫展?作为程序员你是否对同事的各种业务需求力不从心?作为老板你是否对员工工作效率提升无从下手?首款企业级AI应用开发专业套件ModelArts Pro重磅推出文字识别套件 办公高效神器来了!ModelArts Pro预置多个行业模型自定制训练迭代任务现在正式开启公测最最关键的是公测期间免费调用还有好礼送行业AI开发者借助ModelArts Pro中预置的工作流可以轻松完成AI应用项目的开发以及持续迭代。原来需要几周才能交付的AI工程,现在最快只需要1天,整个过程就像操作日常办公软件一样简单。注意本次公测的工作流仅面向行业开发者因资源有限,企业研发部门的申请会优先处理公测前请完成华为云账号实名认证常见问题Q1:ModelArts Pro是什么,上手难吗?主要面向什么用户群体?A1:ModelArts Pro是为企业级AI应用打造的专业开发套件。基于华为云的先进算法和快速训练能力,提供预置工作流和模型,提升企业AI应用的开发效率,降低开发难度。工作流开发面向开发者,几分钟即可上手,无需掌握AI算法知识就能完成。ModelArts Pro用户群体主要是各政府&企业,一般具有如下特点:了解行业解决方案,懂得行业知识;缺乏或略懂AI知识,熟悉问题场景;希望解决特定场景问题,但不希望复杂开发。Q2:ModelArts Pro如何收费?为什么进入不了申请公测页面?A2:目前ModelArts Pro文字识别套件处于公测阶段,且不依赖OBS服务,可完全免费使用ModelArts Pro;公测前需要注册华为云账号并完成实名认证后,可进入申请公测页面。
  • [其他] OCR的适用场景和不足
    简单试用了一下OCR里面有一些简单的定制能力比如定制标签(参照区)和内容(识别区)这个比较适用于格式化的票据和凭证,比如发票啊、支票啊总之就是行业化、专业化、格式化的场景应用起来应该很有效率~而且图像要扫描,最好不要拍照,因为拍照可能有畸变;一定要拍照也要保证效果,比如固定点拍照而对于一些通用化、生活化的场景,还是比较受限制的,比如我拍了一张水费起止码表首先,这个表头是重复的,必须重复标注,这是重复劳动其次,这种拍照的输入,完全不行,换张图片评估一下,全是错的
  • [其他问题] 【ModelArtsPro产品】【文字识别套件】API not subscribed
    【功能模块】【操作步骤&问题现象】新建一个应用时,就弹这个错误了是要到哪里注册开通?开通哪一个呢?【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [技术综述] 文字识别之关键信息提取
    更佳阅读体验,请移步【原创】技术综述十:文字识别之关键信息提取 【摘要】从文档中提取结构化的关键信息,为文档自动化处理提供了基础,成为日益增加的业务需求。近年来,利用文档图片中的视觉、上下文等信息来进行文档的关键信息提取受到学术界和工业界的广泛关注。深度学习模型已经在OCR领域,包括文本检测和文本识别任务,获得了巨大的成功。而从文档中提取关键信息(如图1所示),其作为OCR的下游任务,存在非常多的实际应用场景。使用人力来从这些文档中提取信息是重复且费时费力的。如何通过深度学习模型来从文档图片中自动化地提取出关键信息成为一项亟待解决的挑战,受到学术界和工业界的广泛关注。下面将对近期几篇相关文章进行简要介绍,并将其分为三个类别:基于栅格(grid-based)、基于图结构(graph-based)和端到端(end-to-end)。(a)火车票                                                                              (b)购物收据图1 从文档图片中提取关键信息1.       基于栅格的文档图片关键信息提取技术该类方法基于图片像素点将图片转换为栅格表示向量,输入到深度学习网络中以学习提取关键信息。1.1  Chargrid[1]这篇文章指出文档中的文本间关系不仅受文本的序列顺序影响,还与文档中各文本的版式分布有关。为解决上述问题,作者提出chargrid方法,其将文档图片映射为一个字符级别的2D栅格表示,如图2所示。对于每一个字符栅格采用one-hot编码表示g ̃∈R^(H×W×N_C ),整个图片的向量表示为,其中和W是图片的长和宽,是字符类别数。图2 chargrid的文档表示随后该向量表示作为chargrid-net的输入,基于encoder-decoder的CNN网络结构(如图3所示)进行关键信息的文本框检测和语义分割。整个网络由分割损失、边框分类和边框坐标回归三个部分组成的损失函数优化学习:Lt​otal=Ls​eg+Lb​oxmask+Lb​oxcoord。关键信息内容通过将分割类别属于同一类别的字符整合得到。图3 chargrid模型架构1.2  CUTIE[2]       这篇文章同样指出仅利用NLP技术是无法处理文档中各文本间的布局信息。因此作者设计了CUTIE方法,如图4所示,将文档图片映射为保留各文本空间位置关系的栅格向量表示,然后设计了两类CNN模型来进行关键信息题:CUTIE-A,采用高分辨率网络HRNet作为骨干网络;CUTIE-B,采用空洞卷积的CNN网络。整个模型由每个box的预测类别和真实类别间的交叉熵损失优化学习。图4 CUTIE模型架构2.       基于图结构的文档图片关键信息提取技术  基于图结构的方法是将文档图片看作是由文本切片(text segment)组成的图结构,并利用神经网络模型来学习出各文本切片间的关系来提取出文档的关键信息内容。2.1  GC-BiLSTM-CRF[3]       这篇文章指出传统NER方法BiLSTM-CRF无法利用文档图片中各文本切片间的布局信息。为解决上述问题,作者提出利用图卷积神经网络来学习文本切片的语义信息和布局信息。图5 图卷积神经网络学习文本切片的图向量表示  具体地,将文本切片看做点,将文本间关系看做边,来构造一个全连接图结构。利用图卷积神经网络来学习得到每个文本切片的图向量表示,如图5所示。图6 引入图向量表示的BiLSTM-CRF在得到文本切片的图向量表示后,将其与文本切片中每个文本token的Word2Vec向量拼接,输入到BiLSTM-CRF网络中进行文档图片的关键信息提取。整个模型由文本切片分类任务和IOB序列分类任务联合优化学习。2.2  LayoutLM[4]       这篇文章指出预训练模型已经在NLP领域获得了巨大的成功,但是其缺乏对布局和版式信息的利用,从而不适用于文档图片关键信息提取任务。为解决上述问题,作者提出LayoutLM模型。图7 LayoutLM模型架构该模型以BERT(NLP领域非常强大的预训练模型)为骨干网络,为了利用布局和版式信息,引入了2D位置向量表示,即各文本切片的两点标注(左上角的横纵坐标和右下角的横纵坐标)分别通过横纵两个方向上的索引表得到的向量。同时可以选择性地加入切片的视觉向量表示以补充更多的信息。由于BERT本质上可被看做是一个全连接的图网络,因此我们将LayoutLM也归类于基于图结构的技术。后续出现了类似于LayoutLM的预训练模型如Lambert[5]等,在文档图片关键信息提取任务上都取得了SOTA结果,证明了深度学习模型基于大语料和大模型的强大能力。 3.       端到端的文档图片关键信息提取技术端到端的方法,顾名思义,就是直接以原始图片作为输入得到文档的关键信息内容。3.1  EATEN[6]        这篇文章指出,基于检测识别流程的信息提取技术会受到如轻微的位置偏移等带来的影响。为解决上述问题,作者提出EATEN方法,其直接从原始图片输入中提取出文档关键信息内容。图8 EATEN模型架构具体地,如图8的网络结构所示,EATAN采用CNN骨干网络来提取得到文档图片的高层视觉信息,然后利用实体类别感知的注意力网络来学习实体布局信息,最后利用基于LSTM的解码器解码得到预设的实体内容。该模型由于直接从图片中得到文档关键信息,易于加速优化,便于边缘部署。 3.2  TRIE[7]       这篇文章指出,现有方法对关键信息提取都是将其作为多个独立的任务进行,即文字检测、文字识别和信息提取,彼此之间无法进行相互监督学习,因此作者提出一个端到端的网络模型TRIE,同时对上述三个任务进行模型学习。图9 TRIE模型架构具体地,利用ResNet+FPN作为骨干网络,进行文字检测,然后利用检测网络+ROIAlign的结果进行attention+encoder-decoder的文字识别,最后将文本位置信息、视觉信息、语义信息进行融合,通过BiLSTM来进行IOB标签分类得到文档关键信息。整个TRIE模型对三个任务(即文本检测、文本识别和信息提取)进行共同优化学习:L=Ld​et+λr​ecogLr​ecog+λi​nfoLi​nfo。 小结:本文对OCR领域中文档图片的关键信息提取技术进行了简要介绍,将近期技术按模型分为基于栅格、基于图和端到端三种类别,对每个类别筛选了两篇论文进行了阐述。总的来说,基于大语料的预训练图模型展现出了巨大的实力,而端到端模型也存在不小的潜力。 参考文献:[1] Katti, Anoop R., et al. "Chargrid: Towards Understanding 2D Documents." EMNLP, 2018.[2] Zhao, Xiaohui, et al. "Cutie: Learning to understand documents with convolutional universal text information extractor." arXiv, 2019[3] Liu, Xiaojing, et al. "Graph Convolution for Multimodal Information Extraction from Visually Rich Documents." NAACL, 2019.[4] Xu, Yiheng, et al. "Layoutlm: Pre-training of text and layout for document image understanding." KDD, 2020.[5] Garncarek, Łukasz, et al. "LAMBERT: Layout-Aware language Modeling using BERT for information extraction." arXiv, 2020[6] Guo, He, et al. "Eaten: Entity-aware attention for single shot visual text extraction." ICDAR, 2019.[7] Zhang, Peng, et al. "TRIE: End-to-End Text Reading and Information Extraction for Document Understanding." ACM MM, 2020.
  • [专家讲坛] 【GDE专家讲坛】第3期:从0到1了解文字识别——华为AI**OCR实践案例
    OCR,通俗来说,就是让计算机看图识字的技术。典型应用如证件识别、车牌识别。又如,遇到不会的题,APP扫一扫,就能找到答案。可以说,AI技术已经深入我们生活的方方面面。全球技术服务部(GTS)正在积极部署人工智能生态,AI**是GTS一站式AI平台,使能GTS智能化转型。本期,王锦坤博士将分享AI**的OCR实践案例,让大家了解AI**的能力及应用实践。希望大家能从中得到一些启发,学会运用AI提高效率、改善质量、降低风险。讲解材料详见附件。
  • [体验官] 使用华为云鲲鹏弹性云服务器部署文字识别Tesseract体验
    云实验室近期将实验手册开放,并且提供了许多手册型实验,即没有提供沙箱环境,需要实验者自己找环境体验的实验,这种方式对新手相当友好,不仅可以按照实验步骤顺利完成实验,还可以继续保留实验环境,进一步深入学习。自己参考网上的帖子,容易发生软件已经升级了,自己还在使用过时的软件排查古老的bug的情况,而且网上的帖子有可能作者的实践环境以前已经做过配置而遗留一些依赖的操作步骤:昨天用了一整天的时间,好不容易把 OAI-cn的mme,hss,spgw调起来了,结果刚刚运行mme的时候报错:Initializing MSC logsInitializing MSC logs DoneFunction s6a_init (&mme_config) has failedreturning 22提示是linux内核版本不对,需要换版本,这就意味着整个部署过程需要推倒重来。软件部署本来就不是一件一蹴而就的事情,反复尝试之后许多原来的难题也都会随之而解。华为云沙箱实验室的实验就不存在上述问题:整个实验的环境依赖步骤完整,可以提供顺利跑通的实验手册,增加实验者的信心。使用ECS,体验了一下使用使用华为云鲲鹏弹性云服务器部署文字识别Tesseract实验:首先搭建实验环境,这里如果不清除实验用的操作系统是哪个,可以先用在线实验环境查一下,有了实验的经验也可以根据手册中的yum 推断使用的是centos。将ecs的操作系统更换为centos,版本选择了最新版本。系统安装好后,绑定EIP。使用secureCRT远程登录ECS。[root@ecs-b769 tesseract-4.0.0]# history    1  2021-04-29 09:58:48 root ls    2  2021-04-29 09:58:57 root yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel -y    3  2021-04-29 09:59:49 root wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/kunpeng-tesseract/leptonica-1.78.0.tar.gz    4  2021-04-29 10:00:03 root tar -xvf leptonica-1.78.0.tar.gz    5  2021-04-29 10:00:13 root cd leptonica-1.78.0    6  2021-04-29 10:00:25 root ./configure --prefix=/usr/ && make -j4 && make install    7  2021-04-29 10:02:07 root vim /etc/profile    8  2021-04-29 10:02:56 root source /etc/profile && ldconfig    9  2021-04-29 10:03:06 root cd /usr/local/src   10  2021-04-29 10:03:16 root wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/kunpeng-tesseract/tesseract-4.0.0.tar.gz   11  2021-04-29 10:03:25 root tar -xvf tesseract-4.0.0.tar.gz   12  2021-04-29 10:03:36 root cd tesseract-4.0.0   13  2021-04-29 10:03:43 root ./autogen.sh && ./configure && make -j4 && make install   14  2021-04-29 10:08:55 root wget https://sandbox-experiment-resource.obs-website.cn-north-1.myhwclouds.com/kunpeng-tesseract/eng.traineddata   15  2021-04-29 10:09:05 root wget https://sandbox-experiment-resource.obs-website.cn-north-1.myhwclouds.com/kunpeng-tesseract/chi_sim.traineddata   16  2021-04-29 10:09:21 root cp eng.traineddata /usr/local/share/tessdata -r && cp chi_sim.traineddata /usr/local/share/tessdata -r   17  2021-04-29 10:09:31 root wget https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng_chi.bmp   18  2021-04-29 10:09:44 root tesseract -l chi_sim kunpeng_chi.bmp res_chi && cat res_chi.txt[root@ecs-b769 tesseract-4.0.0]# tesseract -l chi_sim kunpeng_chi.bmp res_chi && cat res_chi.txtTesseract Open Source OCR Engine v4.0.0 with Leptonica华 为 云 鲲 鹏 云 服 务 器就到这了?当然不是,自己修改一下图片来识别一下![root@ecs-b769 tesseract-4.0.0]# tesseract -l chi_sim kunpeng_chi.bmp res_chi && cat res_chi.txt    Tesseract Open Source OCR Engine v4.0.0 with Leptonica测 试[root@ecs-b769 tesseract-4.0.0]# 测试两个字图像识别出来了,但是隔了空白之后的服务器三个字却没有识别出来。从网上下载一幅图片[root@ecs-b769 tesseract-4.0.0]# tesseract -l chi_sim 111.jpeg res_chi && cat res_chi.txt               Tesseract Open Source OCR Engine v4.0.0 with Leptonica播 broadcast[root@ecs-b769 tesseract-4.0.0]# 
  • [线上活动] 问答送豪礼!ModelArts Pro文字识别套件公测,福利大奖等你拿
    最爱发福利的华为云EI企业智能君又带着礼物来啦 作为业务员,你是否应对堆积如山的表单票据一筹莫展?作为程序员,你是否面向同事的各种业务后台需求心不从心?作为老板,你是否对员工工作效率提升无从下手? ModelArts Pro文字识别OCR套件重磅公测,邀你体验 3分钟创建OCR应用,零代码应用开发,多行业预置模型,自定制训练迭代最关键的是,公测期间免费调用,还有好礼送!除了参加公测活动送礼,华为云EI企业智能君还给论坛的朋友们专门备了一份礼物在本帖下方认真回答以下问题,精华答案均有机会获得ModelArts Pro定制保温杯1个或ModelArts Pro定制超大鼠标垫1个1.你的生活工作中一般在什么场景下使用文字识别(OCR)?2.你认为当前文字识别还需要哪些改进的地方?3.文字识别套件和文字识别API接口的区别是什么? 作为首款企业级AI应用开发专业套件,ModelArts Pro对于想解决特场景问题但不希望复杂开发的企业开发者朋友们非常友好  来申请公测体验一下吧: 体验拿豪礼 (公测前务必注册华为云账号并实名认证,否则无法进入申请公测页面显示空白页)戳官网有奖公测详情:https://activity.huaweicloud.com/MAPOCR.html?ch=9注意:工作流开发面向开发者,非开发者请谨慎公测具体领奖事宜请联系小助手(微信:huaweiyunai) 扫码添加小助手微信,回复“ocr”即可入群交流学习,领取奖品企业智能君会在6月30日前在精华答案留言下抽取5位幸运同学送出奖品,并在本帖更新获奖信息,请收到回复的同学私信收件信息,奖品7月8日统一寄出,逾期不候。收到赞越多,回答越认真的答案,获奖概率越大哦~快分享给你的伙伴们一起拿奖吧让我们一起进步,做一个每天都Pro的人~ 
  • [近期热门] 【转载】Google Lens是一款基于图像识别和 OCR技术的人工智能应用
    近日,Wescover宣布与谷歌合作为Google Lens提供有关艺术和设计装置的信息。Google Lens将Wescover数据库中的设计和艺术作品与酒店,餐馆和城市街道等地区的信息相匹配,这就像启动镜头并将手机的相机对准相关艺术品一样简单。Wescover策划了Google Lens在整个旧金山的艺术作品的初始地图,该公司表示在不久的将来继续向Lens全球发布内容。Google声称已经收录了迄今为止6000多个本地品牌和独立艺术家超过50,000张艺术和设计图片。Google Lens 最初是Pixel智能手机独有的功能,但近年来发展迅速并应用到谷歌照片,Lens现在在索尼和LG等公司的旗舰智能手机中出货。Lens可以识别越来越多的事物,包括家具,服装,书籍,电影,音乐专辑和视频游戏等超过10亿件来自Google Shopping的产品。(除此之外还有地标,景点,著名建筑,Wi-Fi,鲜花,宠物,饮料等等)Lens镜头还可以识别出风格相似的服装或家居装饰,还可以从名片中提取电话号码,日期和地址,并将它们添加到您的联系人列表中。在5月份的I / O主题演讲中,谷歌为Lens提供了一个实时分析模式,它将识别点叠加在实时摄像机输入中的可操作元素上,这一功能首先在Pixel 3和3 XL上发布。Google Lens是一款基于图像识别和 OCR技术的人工智能应用,能够让机器学会「看图说话」。Google Lens能实时识别智能手机所拍摄的物品并提供与之相关的内容,都是利用强大的计算机视觉算法实现的。文章来源于:电科技原文地址:http://www.diankeji.com/vr/50228.html
  • [技术干货] 【云小课】EI第15课 ModelArts Pro 文字识别套件,三分钟快速定制OCR服务
    ModelArts Pro 是为企业级AI应用打造的专业开发套件。基于华为云的先进算法和快速训练能力,提供预置工作流和模型,提升企业AI应用的开发效率,降低开发难度。ModelArts Pro提供了文字识别套件,基于丰富的文字识别算法和行业知识积累,帮助客户快速构建满足不同业务场景需求的文字识别服务。三分钟即可快速定制OCR服务,实现多种版式图像的文字信息结构化提取。接下来就是见证奇迹的时刻~预置工作流文字识别套件当前提供了单模板工作流和多模板工作流,自主构建文字识别模板,识别模板图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。通用单模板工作流         通过构建文字识别模板,识别单个板式图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。多模板分类工作流         支持用户自定义多个文字识别模板,通过模型训练,自动识别图片所需使用的模板,从而支持从大量不同板式图像中提取结构化信息。通常适用于物流行业。更多详情请见产品介绍>文字识别套件。特色优势领先的AI开发平台         底层依托ModelArts提供的领先的算法技术,保证AI应用开发的高效和推理结果的准确,同时减少人力投入。简单的流程式开发         无需人工智能专业知识,用户可借助预置的行业工作流,全流程可视化完成完成AI应用开发以及持续迭代。高效的行业算法        领先人工智能技术结合行业专家经验,构建出优质高效的行业预置算法,行业AI应用开发者仅需少量标注数据,就能获得高精度的AI应用。支持复杂场景         旋转、褶皱等不利的图片质量下,能做到高精度的有效识别。5步上手文字识别套件第一步:开通套件目前ModelArts Pro 文字识别套件处于公测阶段,首次使用文字识别套件需要开通公测权限。登录ModelArts Pro控制台,选择行业套件卡片并单击“申请公测”,在申请公测页面根据界面提示填写所需信息。申请公测操作完成后,单击“前往我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,表示您已经获得了该行业套件的公测权限。第二步:委托授权在您使用ModelArts Pro过程中,ModelArts Pro需要进行委托授权,用于访问ModelArts服务的云资源。如果没有授权,相关功能将不能正常使用。如果未获得ModelArts委托授权和访问秘钥(AK/SK)授权,当进入ModelArts Pro控制台的行业套件时,会弹出“访问授权”对话框。在弹出的“访问授权”对话框填写授权信息,然后单击“同意授权”,完成访问授权的配置。“用户名”为当前需要授权的用户名,保持默认值。“委托”选择“modelarts_agency”。勾选“我已经详细阅读并同意《ModelArts服务声明》”。详情请见配置访问权限。第三步:创建应用根据您的行业和应用场景,选择匹配的工作流,创建您的应用。1、在ModelArts Pro控制台界面,单击“文字识别”套件卡片的“进入套件”。      进入文字识别套件控制台。2、在左侧导航栏选择“应用开发>工作台”。      默认进入“我的应用”页签。3、在“我的应用”页签下,单击“新建应用”。      进入“新建应用”页面。     您也可以单击“我的工作流”,切换至“我的工作流”页签,选择工作流并单击卡片中的“新建应用”。4、根据业务需求填写“应用名称”、“应用负责人”和“应用描述”,选择“所属行业”及工作流。5、确认信息后,单击“确定”。      成功新建应用。详情请见新建应用。第四步:开发并上线应用根据流程指引完成工作流,并将应用发布上线。通用单模板工作流:详情请见通用单模板工作流。多模板分类工作流:详情请见多模板分类工作流。第五步:迭代优化维护应用,不断优化迭代。物流+ModelArts Pro 文字识别套件物流企业源自全球各地的单据板式数以万计,物流参与各方需要耗费人力执行大量的纸质单证信息的手工录入等操作。传统方式开发文字识别需要7天,使用ModelArts Pro 文字识别套件的预置工作流完成新版式票证结构提取接口开发仅需3分钟。还等什么,赶快来大展身手吧!点击这里,端到端告诉你如何玩转文字识别套件!
  • [技术干货] 颠覆传统打字方式 探秘讯飞输入法智能拍照输入背后的黑科技
    输入法已成为A.I.(人工智能)最成熟也是最有成效的应用之一。在这一领域,讯飞输入法是最早的先行者之一。作为科大讯飞A.I.落地的“桥头堡”,讯飞输入法的智能语音输入非常强大,其产品不仅得到A.I.广泛赋能,还在丰富输入方式上持续探索。相信很多人都碰到过这样的烦恼:如何在手机上快速录入大篇幅信息,高效誊抄手写记录,便捷输入数理公式……。为了解决以上难题,讯飞输入法最新发布了“智能拍照输入”,开创拼音、语音、手写之外全新的输入交互方式,通过“拍一下”的简单操作搞定各类复杂信息的录入,开启效率输入的新篇。据悉,讯飞输入法新推的“智能拍照输入”融合行业领先的文字识别、手写识别、公式识别、图像理解、机器翻译、知识图谱等A.I.技术,拥有多场景、更智能、更准确的特点。使用讯飞输入法Android或者iOS新版,开启“拍照输入”,不用键盘打字,能够支持中、英、日、韩、德5国印刷文字和手写体识别,英语和日语拍照翻译。除了文字信息的录入,“智能拍照输入”还加入数理公式一键上屏等功能,此外还支持小学速算的智能批改以及一键生成word、excel电子版,极大拓展了输入法的应用边界。那么“智能拍照输入”是如何实现的呢?这背后离不开科大讯飞前沿技术的支撑。科大讯飞输入法业务部总经理程坤表示,“这次新功能采用基于语义分割的文字检测技术、超大底层感受野网络以及适用于自然场景的数据增强技术,这些技术的复合大幅提升文字识别能力,从而无惧图片模糊、超远距离、角度扭曲等问题;面向数学公式识别难题,科大讯飞提出基于树形结构信息建模全新的端到端识别算法,提升了对特殊符号的识别效果。”得益于A.I.视觉技术的精进,科大讯飞屡次在行业大赛中摘得骄人成绩,譬如在ICDAR ReCTS评测任务中刷新全部四项识别榜单的世界纪录;在ICFHR2020 OffRaSHME数学公式识别挑战赛中获得冠军;在计算机视觉顶级会议CVPR2019和文档分析与识别顶级会议ICDAR2019上的多项评测任务中获得冠军;在ICPR2018 MTWI图文识别挑战赛中包揽全部三项任务的冠军。这些技术优势落地到输入法产品中变得大有可为。从实际体验看,通过智能拍照输入“拍一下”,使原本数小时的信息处理工作几分钟就搞定。由此可见,A.I.赋能的输入法将大大提升信息录入的效率和使用体验。易观分析师认为,输入法作为集合强A.I.能力的交互入口,其多元应用场景也被进一步打开。移动输入的智能化程度、个性化程度受到供需两端的极大重视。从艾媒咨询《2020年秋季中国第三方手机输入法市场监测报告》得知,在线办公和在线教育场景中,纸质办公文件和教材内容多,输入所需时间长,文字识别可以实现图片转文字,有效提升输入效率,成为受访用户最感兴趣的功能,占比分别为38.2%、34.8%。如今,全民数字化生活进程在加速,智能升级、数字转型、创新融合与消费者的关系愈加密切。从无人驾驶技术到智能机器人,从智能家居到日常用品,不可否认A.I.已深入我们生活的方方面面。作为“中国人工智能国家队”一员,科大讯飞始终坚持源头核心技术创新,持续拓展行业赛道,面向消费者推出多款智能产品及服务,讯飞输入法便是其一。这次发布的“智能拍照输入”是把面向行业、垂直领域的高精尖技术引入到输入法中,帮助广大消费者解决多样化需求或者复杂场景的难题,让大众都能享受科技进步带来的便利。
  • [技术干货] 身份证OCR、人脸识别检测助人信息高效录入
    南京尚视信息科技有限公司是一家专注于人工智能、计算机视觉领域研发和应用的公司。公司基于AI赋能,面向社区、治安、交通等多个领域提供整体解决方案。业务场景:智能安防小区建设,需要网络员或社区民警使用移动端应用高效录入居住人员信息,并将人脸图片实时下发到人脸门禁设备,实现人员人脸识别通行。解决问题:需要提供快速活体人脸信息采集与录入。挑战:录入人员工作量大,需要尽最大可能减少信息录入工作量,同时要确认拍摄照片鲜活,清晰。使用服务:文字识别/人脸识别如何解决:1.引入华为云的身份证OCR识别功能,可以快速录入人员人份信息。2.引入华为云的静默人脸活体检测功能,可以有效解决拍摄照片质量问题,避免因照片质量不过关而进行重新采集的返工。产品应用架构图:     
  • [技术干货] 华为云助力顺丰快运实现临时员工入场身份智能核实
    公司介绍 顺丰快运是顺丰旗下专注20kg+大件托运的物流业务品牌,秉承顺丰优质基因,持续优化业务结构与服务体系,打造行业服务高标准,业务涵盖重货包裹、零担整车、大件仓配、个人/企业搬家店配等多场景服务,从原材料采购到产品销售的全链条业务环节,为客户提供全运输环节一站式综合服务。顺丰快运业务规模及增速在零担快运主流玩家中均排名第一,先后获评“5A级综合服务型物流企业”、“全国先进物流企业”、“物流用户满意五星企业”等荣誉。顺丰快运充分拥抱市场发展变化,在保持顺丰快运、顺心捷达双品牌运营的同时,加快顺丰快运直营网络与顺心捷达加盟网络的业务融合。一方面直营体系不断夯实面向中高端的交付场景与服务能力,全面升级产品服务,解决B端大件供应链门到门及入仓服务等行业难点,为C端个性化场景提供入户安装等一步到位的延伸服务;另一方面通过加盟体系构建强化中端业务服务网络,为客户提供品质稳定、时效稳定、性价比高的产品服务,实现业务全方位覆盖;此外还加快同社会优质物流资源的合作,加速综合供应链交付能力构建,深化大票调拨、整车运输、城市货运等供应链全场景的综合服务体系,以更加优质的服务体验满足日益多元化的市场需求。解决问题与挑战业务场景: 顺丰快运历年延续“春节不打烊”服务承诺,春节期间积极协调全网资源,保障物流正常运行,全方位保障广大客户与消费者在春节的寄递需求。快运场地在业务高峰期需大量外包人员入场作业,高效保障客户的寄递服务,但在外包人员的管理上公司面临很多挑战:1、外包临时人员以日结短期工为主,入场工作时需对人员信息进行人工记录、核实,进场流程繁琐且费时费力,带来人员管理成本的增加和场地操作效率的降低。2、人工核实信息存在人员冒名顶替入场作业的隐患,对公司内部信息和客户快件信息带来信息安全方面的风险。3、短期外包人员存在提供虚假经历信息的隐患,大大增加了用工要求符合性和人员不良历史的判断难度,导致用工纠纷和公司损失风险的加大。使用服务:人证核身+身份证OCR识别解决方案:顺丰快运致力于为客户提供时效稳定、品质稳定的高效、安全的大件寄递服务,为此,引入华为OCR技术和人证核身技术,解决外包人员管理面临的问题:1、人员身份证OCR识别:外包员工应聘时上传身份证照片,通过华为OCR证件识别获取用户身份证信息并由人员管理系统记录,替代场地工作人员手动记录确认身份信息。2、人证核身比对匹配:外包人员入场作业时需打卡入场,在入场前利用小程序自拍并上传本人照片,系统调用华为人证核身接口核实比对人员信息,现场核实确认为本人后,可打卡入场作业。使用规模:身份证OCR识别:2000次/天   人证核身比对:1000次/天客户价值:华为云OCR技术和人证核身技术,帮助顺丰快运将人眼的能力延伸到机器上,也让顺丰快运场地在外包人员管理上拥有了一双"慧眼",期待在未来,华为云助力顺丰快运在降本增效、风险管控上有更显著的成效。1、降本增效:外包人员入场由OCR智能设备自动记录人员身份证信息,大大简化人员入场流程,节省人工记录信息,助力顺丰快运降低人力成本、提升工作效率。2、风险管控:外包人员入场由智能设备核对人员身份信息的真假、核实人员经历等关键信息的真伪,确保招聘人员身份信息与当前入场的人员相符,防止因假冒、伪造等导致的用工风险。作者介绍及头像     胡晨晓,顺丰快运科技高级开发工程师,西南大学计算机科学与技术硕士,场地数字化管理领域研发负责人,主要研究方向为物流场景下的架构设计与高并发应用等领域。意见/建议1、身份证OCR识别如有某个字不能完全确认,希望返回所有可能的字,并按相似度排序,供用户自己核对,比如身份证中的“遣”和“遗”字等。2、人证核身如果不通过,希望返回身份证号对应正确的姓名,便于工作人员直接与用户核实。
总条数:278 到第
上滑加载中