- 受Transformer模型的启发,目前一些学者将该结构应用到文本行识别中,以替代RNN,取得了良好的效果,如HGA-STR。总体上,HGA-STR更接近原有的Transformer的结构,使用了和Transformer类似的解码结构。 受Transformer模型的启发,目前一些学者将该结构应用到文本行识别中,以替代RNN,取得了良好的效果,如HGA-STR。总体上,HGA-STR更接近原有的Transformer的结构,使用了和Transformer类似的解码结构。
- 在自然场景图像的目标检测中,通常使用水平四边形框作为检测框对目标的位置进行框定。但是,在遥感目标检测以及文字检测等相关场景,目标通常情况都是倾斜的。因此,使用检测算法对旋转目标进行检测有利于对遥感目标检测以及文字检测中的目标进行精确定位,为后续识别、分析等高阶任务提供更加准确的初始结果。本文将介绍三种优秀的旋转目标检测算法。 在自然场景图像的目标检测中,通常使用水平四边形框作为检测框对目标的位置进行框定。但是,在遥感目标检测以及文字检测等相关场景,目标通常情况都是倾斜的。因此,使用检测算法对旋转目标进行检测有利于对遥感目标检测以及文字检测中的目标进行精确定位,为后续识别、分析等高阶任务提供更加准确的初始结果。本文将介绍三种优秀的旋转目标检测算法。
- 本文对anchor-free的目标检测RepPoints系列算法进行梳理,具体包含RepPoints, RepPoints V2, Dense RepPoints. 本文对anchor-free的目标检测RepPoints系列算法进行梳理,具体包含RepPoints, RepPoints V2, Dense RepPoints.
- 我们在Tensorflow、Caffe、Pytorch等训练框架上训练神经网络之后,需要对模型迁移到部署框架上进行部署。TensorRT是Nvidia开发的一个神经网络前向推理加速的C++库,用户无需像剪枝那样在训练时对模型进行定制化处理,只需把模型提供给TensorRT即可实现加速。 我们在Tensorflow、Caffe、Pytorch等训练框架上训练神经网络之后,需要对模型迁移到部署框架上进行部署。TensorRT是Nvidia开发的一个神经网络前向推理加速的C++库,用户无需像剪枝那样在训练时对模型进行定制化处理,只需把模型提供给TensorRT即可实现加速。
- 信息抽取(Information Extraction, IE)领域有两个经典的解决方案,一个是基于规则的正则表达式匹配,另一个是基于学习的BiLSTM+CRF方法。在版式较为固定的情况下,这两种方法都可以取得良好的结果。但是对于版面复杂、视觉信息丰富的文档,这两种方法都忽略了视觉等关键信息,从而使得IE准确率下降。近两年,利用文档中的视觉、上下文等信息增强IE性能逐渐受到学者的重视。 信息抽取(Information Extraction, IE)领域有两个经典的解决方案,一个是基于规则的正则表达式匹配,另一个是基于学习的BiLSTM+CRF方法。在版式较为固定的情况下,这两种方法都可以取得良好的结果。但是对于版面复杂、视觉信息丰富的文档,这两种方法都忽略了视觉等关键信息,从而使得IE准确率下降。近两年,利用文档中的视觉、上下文等信息增强IE性能逐渐受到学者的重视。
- 看视频,还可参与回帖互动领好礼活动!快来参与吧:https://bbs.huaweicloud.com/forum/thread-63290-1-1.html文字识别在生活中应用的场景很多,比如常见的汽车牌照识别,实名认证中对于身份证ID的自动识别,输入法的手写识别等等。实现文字识别的途径主要有三种,一个是我们自己手写代码,二是使用开源代码,三是调用云厂商的云服务。第一种,我们自己手写代码难... 看视频,还可参与回帖互动领好礼活动!快来参与吧:https://bbs.huaweicloud.com/forum/thread-63290-1-1.html文字识别在生活中应用的场景很多,比如常见的汽车牌照识别,实名认证中对于身份证ID的自动识别,输入法的手写识别等等。实现文字识别的途径主要有三种,一个是我们自己手写代码,二是使用开源代码,三是调用云厂商的云服务。第一种,我们自己手写代码难...
- 得益于深度学习的发展,许多计算机视觉任务在近几年取得了不错的效果。但是,现有的深度学习算法多是有监督学习算法,依赖大量人工标记的训练数据,而标注数据十分耗费人力成本。因此,解决深度学习对数据的依赖问题和减少数据标注成本成为了业界的研究热点。本文选取了相关领域的部分论文,将介绍以下几个方向:半监督/弱监督学习;数据合成;主动学习;自监督。 得益于深度学习的发展,许多计算机视觉任务在近几年取得了不错的效果。但是,现有的深度学习算法多是有监督学习算法,依赖大量人工标记的训练数据,而标注数据十分耗费人力成本。因此,解决深度学习对数据的依赖问题和减少数据标注成本成为了业界的研究热点。本文选取了相关领域的部分论文,将介绍以下几个方向:半监督/弱监督学习;数据合成;主动学习;自监督。
- 对于目标的检测和实例分割任务,边界区域往往具有重要意义,决定了目标的包围框或分割图精准程度。一些领域的学者开始对这一特性进行挖掘,如OCR领域和通用目标实例分割领域,并都取得了良好的效果。本文选取了几篇近期的工作加以介绍。 对于目标的检测和实例分割任务,边界区域往往具有重要意义,决定了目标的包围框或分割图精准程度。一些领域的学者开始对这一特性进行挖掘,如OCR领域和通用目标实例分割领域,并都取得了良好的效果。本文选取了几篇近期的工作加以介绍。
- 场景图片的敏感文本擦除对用户的隐私保护有很大的作用。文字擦除方法中通常需要检测出文字笔画的像素位置,然后将这些像素替换成合理的背景元素。本次解读的文章提出了一种基于cGAN的场景文字擦除方法EnsNet。 场景图片的敏感文本擦除对用户的隐私保护有很大的作用。文字擦除方法中通常需要检测出文字笔画的像素位置,然后将这些像素替换成合理的背景元素。本次解读的文章提出了一种基于cGAN的场景文字擦除方法EnsNet。
- 当前主流的文本识别方法主要可分为两种,一种基于CTC的序列识别方法、另一种是基于注意力机制的序列识别方法,而当前针对文本识别的一些研究也是基于以上方法做改进,如尝试通过引入矫正网络来实现对于曲形文本序列的识别,但是这种基于矫正的改进方法无法处理模糊、部分遮挡等问题,本文尝试通过结合NLP的方法将语义信息引入基于注意力机制的序列识别方法来解决以上问题。 当前主流的文本识别方法主要可分为两种,一种基于CTC的序列识别方法、另一种是基于注意力机制的序列识别方法,而当前针对文本识别的一些研究也是基于以上方法做改进,如尝试通过引入矫正网络来实现对于曲形文本序列的识别,但是这种基于矫正的改进方法无法处理模糊、部分遮挡等问题,本文尝试通过结合NLP的方法将语义信息引入基于注意力机制的序列识别方法来解决以上问题。
- 爬虫过程中难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。 OCR OCR,即 Optical Character Recognition,光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子... 爬虫过程中难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。 OCR OCR,即 Optical Character Recognition,光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子...
- 在目前基于深度学习的语言模型结构主要包括三个类别:基于RNN的语言模型,基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍,并且逐一分析他们的优缺点。1.通过RNN的语言模型结构图1 基于RNN的语言模型结构随着深度学习的发展,在受到NLP(Natural Language Processing)等任务的启发,Lee等人在视觉特征建模之后,通过引入RN... 在目前基于深度学习的语言模型结构主要包括三个类别:基于RNN的语言模型,基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍,并且逐一分析他们的优缺点。1.通过RNN的语言模型结构图1 基于RNN的语言模型结构随着深度学习的发展,在受到NLP(Natural Language Processing)等任务的启发,Lee等人在视觉特征建模之后,通过引入RN...
- 引言随着数字化时代的到来,大量的纸质文档需要进行电子化处理,以便于存储、检索和共享。传统的文档数字化方式通常依赖于人工输入或扫描,效率低下且容易出错。而光学字符识别(OCR)技术的出现,为文档数字化提供了一种自动化、高效的解决方案。本文将探讨OCR技术在文档数字化中的应用,包括部署过程、项目实例以及发展趋势。 OCR 技术简介OCR(Optical Character Recognitio... 引言随着数字化时代的到来,大量的纸质文档需要进行电子化处理,以便于存储、检索和共享。传统的文档数字化方式通常依赖于人工输入或扫描,效率低下且容易出错。而光学字符识别(OCR)技术的出现,为文档数字化提供了一种自动化、高效的解决方案。本文将探讨OCR技术在文档数字化中的应用,包括部署过程、项目实例以及发展趋势。 OCR 技术简介OCR(Optical Character Recognitio...
- 本文介绍的论文是一篇CVPR 2023已录用的关于联机手写中文生成的文章,来自华南理工大学黄双萍教授团队。作者通过设置书写者风格和字符风格两个风格提取器,并通过对比学习的方法约束两个风格提取器提取特征的类型。作者发现通过这样的方法能够有效地提取风格图片的整体低频特征和局部高频特征,从而更有效地辅助文字生成任务。 1. 研究动机联机手写轨迹生成可广泛使用于字体设计、联机手写识别辅助训练和书法教... 本文介绍的论文是一篇CVPR 2023已录用的关于联机手写中文生成的文章,来自华南理工大学黄双萍教授团队。作者通过设置书写者风格和字符风格两个风格提取器,并通过对比学习的方法约束两个风格提取器提取特征的类型。作者发现通过这样的方法能够有效地提取风格图片的整体低频特征和局部高频特征,从而更有效地辅助文字生成任务。 1. 研究动机联机手写轨迹生成可广泛使用于字体设计、联机手写识别辅助训练和书法教...
- 本文简要介绍ACM MM录用的论文“JokerGAN: Memory-Efficient Model for Handwritten Text Generation with Text Line Awareness”的主要工作。本文的主要贡献有三点:①提出了Multi-Class Conditional Batch Normalization(MCCBN),使得模型能够输入任意长度的文本序列... 本文简要介绍ACM MM录用的论文“JokerGAN: Memory-Efficient Model for Handwritten Text Generation with Text Line Awareness”的主要工作。本文的主要贡献有三点:①提出了Multi-Class Conditional Batch Normalization(MCCBN),使得模型能够输入任意长度的文本序列...
上滑加载中
推荐直播
-
2024创原会年度技术峰会
2024/12/20 周五 09:00-12:00
华为云讲师团
2024创原会年度技术峰会将于12月20日在海南万宁石梅湾威斯汀酒店举办,本次大会将以“智能・进化”为主题探讨从Cloud Native到AI Native的新阶段企业如何通过AI技术重塑企业应用,围绕AI如何在千行万业落地进行深入交流,探索可以先行先试先成功的创新场景和实现路径。
回顾中 -
华为云开发者日·2024年度创享峰会
2024/12/23 周一 14:00-16:00
华为云讲师团
华为云开发者日HDC.Cloud Day是面向全球开发者的旗舰活动,汇聚来自千行百业、高校及科研院所的开发人员。致力于打造开发者专属的技术盛宴,全方位服务与赋能开发者围绕华为云生态“知、学、用、创、商”的成长路径。通过前沿的技术分享、场景化的动手体验、优秀的应用创新推介,为开发者提供沉浸式学习与交流平台。开放创新,与开发者共创、共享、共赢未来。
去报名 -
GaussDB管理平台TPOPS,DBA高效运维的一站式解决方案
2024/12/24 周二 16:30-18:00
Leo 华为云数据库DTSE技术布道师
数据库的复杂运维,是否让你感到头疼不已?今天,华为云GaussDB管理平台将彻底来改观!本期直播,我们将深入探索GaussDB管理平台的TPOPS功能,带你感受一键式部署安装的便捷,和智能化运维管理的高效,让复杂的运维、管理变得简单,让简单变得可靠。
去报名
热门标签