- 在各行各业中,Excel和WPS是办公标配工具,办公的时候,我们经常遇到这样一个需求:将纸质表格/表格图片导入Excel。面对这种需求,多数人会选择在Excel中新建表单,对照着图片将内容一点一点敲进表格,操作时间长易出错,与越来越追求高效的现代办公节奏格格不入。近年来,随着OCR技术的成熟与普及,可用性不断提升,借助OCR工具从图片中提取文本信息渐成趋势。厦门云脉推出表单识别解决方案,帮助... 在各行各业中,Excel和WPS是办公标配工具,办公的时候,我们经常遇到这样一个需求:将纸质表格/表格图片导入Excel。面对这种需求,多数人会选择在Excel中新建表单,对照着图片将内容一点一点敲进表格,操作时间长易出错,与越来越追求高效的现代办公节奏格格不入。近年来,随着OCR技术的成熟与普及,可用性不断提升,借助OCR工具从图片中提取文本信息渐成趋势。厦门云脉推出表单识别解决方案,帮助...
- 受Transformer模型的启发,目前一些学者将该结构应用到文本行识别中,以替代RNN,取得了良好的效果,如SRN。SRN使用了Transformer unit进行特征提取,并采用该文作者提出的并行解码器,整个模型拥有更好的可并行性。 受Transformer模型的启发,目前一些学者将该结构应用到文本行识别中,以替代RNN,取得了良好的效果,如SRN。SRN使用了Transformer unit进行特征提取,并采用该文作者提出的并行解码器,整个模型拥有更好的可并行性。
- 受Transformer模型的启发,目前一些学者将该结构应用到文本行识别中,以替代RNN,取得了良好的效果,如HGA-STR。总体上,HGA-STR更接近原有的Transformer的结构,使用了和Transformer类似的解码结构。 受Transformer模型的启发,目前一些学者将该结构应用到文本行识别中,以替代RNN,取得了良好的效果,如HGA-STR。总体上,HGA-STR更接近原有的Transformer的结构,使用了和Transformer类似的解码结构。
- 在自然场景图像的目标检测中,通常使用水平四边形框作为检测框对目标的位置进行框定。但是,在遥感目标检测以及文字检测等相关场景,目标通常情况都是倾斜的。因此,使用检测算法对旋转目标进行检测有利于对遥感目标检测以及文字检测中的目标进行精确定位,为后续识别、分析等高阶任务提供更加准确的初始结果。本文将介绍三种优秀的旋转目标检测算法。 在自然场景图像的目标检测中,通常使用水平四边形框作为检测框对目标的位置进行框定。但是,在遥感目标检测以及文字检测等相关场景,目标通常情况都是倾斜的。因此,使用检测算法对旋转目标进行检测有利于对遥感目标检测以及文字检测中的目标进行精确定位,为后续识别、分析等高阶任务提供更加准确的初始结果。本文将介绍三种优秀的旋转目标检测算法。
- 本文对anchor-free的目标检测RepPoints系列算法进行梳理,具体包含RepPoints, RepPoints V2, Dense RepPoints. 本文对anchor-free的目标检测RepPoints系列算法进行梳理,具体包含RepPoints, RepPoints V2, Dense RepPoints.
- 我们在Tensorflow、Caffe、Pytorch等训练框架上训练神经网络之后,需要对模型迁移到部署框架上进行部署。TensorRT是Nvidia开发的一个神经网络前向推理加速的C++库,用户无需像剪枝那样在训练时对模型进行定制化处理,只需把模型提供给TensorRT即可实现加速。 我们在Tensorflow、Caffe、Pytorch等训练框架上训练神经网络之后,需要对模型迁移到部署框架上进行部署。TensorRT是Nvidia开发的一个神经网络前向推理加速的C++库,用户无需像剪枝那样在训练时对模型进行定制化处理,只需把模型提供给TensorRT即可实现加速。
- 信息抽取(Information Extraction, IE)领域有两个经典的解决方案,一个是基于规则的正则表达式匹配,另一个是基于学习的BiLSTM+CRF方法。在版式较为固定的情况下,这两种方法都可以取得良好的结果。但是对于版面复杂、视觉信息丰富的文档,这两种方法都忽略了视觉等关键信息,从而使得IE准确率下降。近两年,利用文档中的视觉、上下文等信息增强IE性能逐渐受到学者的重视。 信息抽取(Information Extraction, IE)领域有两个经典的解决方案,一个是基于规则的正则表达式匹配,另一个是基于学习的BiLSTM+CRF方法。在版式较为固定的情况下,这两种方法都可以取得良好的结果。但是对于版面复杂、视觉信息丰富的文档,这两种方法都忽略了视觉等关键信息,从而使得IE准确率下降。近两年,利用文档中的视觉、上下文等信息增强IE性能逐渐受到学者的重视。
- 看视频,还可参与回帖互动领好礼活动!快来参与吧:https://bbs.huaweicloud.com/forum/thread-63290-1-1.html文字识别在生活中应用的场景很多,比如常见的汽车牌照识别,实名认证中对于身份证ID的自动识别,输入法的手写识别等等。实现文字识别的途径主要有三种,一个是我们自己手写代码,二是使用开源代码,三是调用云厂商的云服务。第一种,我们自己手写代码难... 看视频,还可参与回帖互动领好礼活动!快来参与吧:https://bbs.huaweicloud.com/forum/thread-63290-1-1.html文字识别在生活中应用的场景很多,比如常见的汽车牌照识别,实名认证中对于身份证ID的自动识别,输入法的手写识别等等。实现文字识别的途径主要有三种,一个是我们自己手写代码,二是使用开源代码,三是调用云厂商的云服务。第一种,我们自己手写代码难...
- 得益于深度学习的发展,许多计算机视觉任务在近几年取得了不错的效果。但是,现有的深度学习算法多是有监督学习算法,依赖大量人工标记的训练数据,而标注数据十分耗费人力成本。因此,解决深度学习对数据的依赖问题和减少数据标注成本成为了业界的研究热点。本文选取了相关领域的部分论文,将介绍以下几个方向:半监督/弱监督学习;数据合成;主动学习;自监督。 得益于深度学习的发展,许多计算机视觉任务在近几年取得了不错的效果。但是,现有的深度学习算法多是有监督学习算法,依赖大量人工标记的训练数据,而标注数据十分耗费人力成本。因此,解决深度学习对数据的依赖问题和减少数据标注成本成为了业界的研究热点。本文选取了相关领域的部分论文,将介绍以下几个方向:半监督/弱监督学习;数据合成;主动学习;自监督。
- 对于目标的检测和实例分割任务,边界区域往往具有重要意义,决定了目标的包围框或分割图精准程度。一些领域的学者开始对这一特性进行挖掘,如OCR领域和通用目标实例分割领域,并都取得了良好的效果。本文选取了几篇近期的工作加以介绍。 对于目标的检测和实例分割任务,边界区域往往具有重要意义,决定了目标的包围框或分割图精准程度。一些领域的学者开始对这一特性进行挖掘,如OCR领域和通用目标实例分割领域,并都取得了良好的效果。本文选取了几篇近期的工作加以介绍。
- 场景图片的敏感文本擦除对用户的隐私保护有很大的作用。文字擦除方法中通常需要检测出文字笔画的像素位置,然后将这些像素替换成合理的背景元素。本次解读的文章提出了一种基于cGAN的场景文字擦除方法EnsNet。 场景图片的敏感文本擦除对用户的隐私保护有很大的作用。文字擦除方法中通常需要检测出文字笔画的像素位置,然后将这些像素替换成合理的背景元素。本次解读的文章提出了一种基于cGAN的场景文字擦除方法EnsNet。
- 当前主流的文本识别方法主要可分为两种,一种基于CTC的序列识别方法、另一种是基于注意力机制的序列识别方法,而当前针对文本识别的一些研究也是基于以上方法做改进,如尝试通过引入矫正网络来实现对于曲形文本序列的识别,但是这种基于矫正的改进方法无法处理模糊、部分遮挡等问题,本文尝试通过结合NLP的方法将语义信息引入基于注意力机制的序列识别方法来解决以上问题。 当前主流的文本识别方法主要可分为两种,一种基于CTC的序列识别方法、另一种是基于注意力机制的序列识别方法,而当前针对文本识别的一些研究也是基于以上方法做改进,如尝试通过引入矫正网络来实现对于曲形文本序列的识别,但是这种基于矫正的改进方法无法处理模糊、部分遮挡等问题,本文尝试通过结合NLP的方法将语义信息引入基于注意力机制的序列识别方法来解决以上问题。
- 爬虫过程中难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。 OCR OCR,即 Optical Character Recognition,光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子... 爬虫过程中难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。 OCR OCR,即 Optical Character Recognition,光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子...
- 在目前基于深度学习的语言模型结构主要包括三个类别:基于RNN的语言模型,基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍,并且逐一分析他们的优缺点。1.通过RNN的语言模型结构图1 基于RNN的语言模型结构随着深度学习的发展,在受到NLP(Natural Language Processing)等任务的启发,Lee等人在视觉特征建模之后,通过引入RN... 在目前基于深度学习的语言模型结构主要包括三个类别:基于RNN的语言模型,基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍,并且逐一分析他们的优缺点。1.通过RNN的语言模型结构图1 基于RNN的语言模型结构随着深度学习的发展,在受到NLP(Natural Language Processing)等任务的启发,Lee等人在视觉特征建模之后,通过引入RN...
- 华为云的OCR(光学字符识别)功能可以应用于CNC工厂的场景,提供高效的数据处理和自动化识别解决方案。以下是关于华为云OCR功能的一些详细信息,以及如何在CNC工厂中使用它:OCR技术的原理与应用:原理:OCR技术通过光学方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式。这个过程包括预处理、特征提取、字符识别等步骤。应用场景:在CNC工厂中,OCR... 华为云的OCR(光学字符识别)功能可以应用于CNC工厂的场景,提供高效的数据处理和自动化识别解决方案。以下是关于华为云OCR功能的一些详细信息,以及如何在CNC工厂中使用它:OCR技术的原理与应用:原理:OCR技术通过光学方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式。这个过程包括预处理、特征提取、字符识别等步骤。应用场景:在CNC工厂中,OCR...
上滑加载中
推荐直播
-
大模型Prompt工程深度实践
2025/02/24 周一 16:00-17:30
盖伦 华为云学堂技术讲师
如何让大模型精准理解开发需求并生成可靠输出?本期直播聚焦大模型Prompt工程核心技术:理解大模型推理基础原理,关键采样参数定义,提示词撰写关键策略及Prompt工程技巧分享。
去报名
热门标签