- 在视觉与语言(V&L)模型中,阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解(STU)的V&L模型呢?本文提出了PreSTU,一个专门为场景文本理解而设计的简单预训练模型。PreSTU将一个简单的OCR感知预训练目标与一个具有现成OCR信号的大规模图像-文本数据集相结合。 在视觉与语言(V&L)模型中,阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解(STU)的V&L模型呢?本文提出了PreSTU,一个专门为场景文本理解而设计的简单预训练模型。PreSTU将一个简单的OCR感知预训练目标与一个具有现成OCR信号的大规模图像-文本数据集相结合。
- 本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计。具体来说,本文首先采用了teacher-student的网络结构,然后采用字符级别的一致性约束对teacher和student网络的预测进行对齐。此外,考虑到文字识别是step-by-step,每一个字符的预测都和之前时刻的预测结果相关。 本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计。具体来说,本文首先采用了teacher-student的网络结构,然后采用字符级别的一致性约束对teacher和student网络的预测进行对齐。此外,考虑到文字识别是step-by-step,每一个字符的预测都和之前时刻的预测结果相关。
- 本文提出了一种针对文字识别的多模态半监督方法,具体来说,作者首先使用teacher-student网络进行半监督学习,然后在视觉、语义以及视觉和语义的融合特征上,都进行了一致性约束。 本文提出了一种针对文字识别的多模态半监督方法,具体来说,作者首先使用teacher-student网络进行半监督学习,然后在视觉、语义以及视觉和语义的融合特征上,都进行了一致性约束。
- 基于文字识别服务OCR和弹性云服务器ECS开发并部署增值税发票验真web应用测试下 基于文字识别服务OCR和弹性云服务器ECS开发并部署增值税发票验真web应用测试下
- 这是水表读数识别项目,实现了如何端到端完成水表读数识别项目。涉及领域包括图像分类、语义分割、OCR文本检测、OCR文本识别。 这是水表读数识别项目,实现了如何端到端完成水表读数识别项目。涉及领域包括图像分类、语义分割、OCR文本检测、OCR文本识别。
- ⛳️ 自如 实战场景我们又碰到了一个字体反爬的站点,自如。该站点的字体反爬不是用字体文件实现的,而是基于图片+CSS,具体如下图所示。这里运用 CSS 背景偏移技术实现数字的展示。字体图片如下所示。图片宽度和高度的比例是 300*28,其中 300 像素被等比例放置了 10 个数字,即每 30 个像素一个数字,实测间隔是 21.4 个像素。后续可以参考该值做区分。下面还需要确定一下每次刷新... ⛳️ 自如 实战场景我们又碰到了一个字体反爬的站点,自如。该站点的字体反爬不是用字体文件实现的,而是基于图片+CSS,具体如下图所示。这里运用 CSS 背景偏移技术实现数字的展示。字体图片如下所示。图片宽度和高度的比例是 300*28,其中 300 像素被等比例放置了 10 个数字,即每 30 个像素一个数字,实测间隔是 21.4 个像素。后续可以参考该值做区分。下面还需要确定一下每次刷新...
- 本文主要介绍了华为云文字识别服务的相关概念和使用实操,想使用华为云OCR服务的小伙伴可以执行实操流程步骤来实现自己业务场景。 本文主要介绍了华为云文字识别服务的相关概念和使用实操,想使用华为云OCR服务的小伙伴可以执行实操流程步骤来实现自己业务场景。
- Python 验证码是什么如果你是一个数据挖掘爱好者,那么验证码是你避免不过去的一个天坑,和各种验证码斗争,必然是你成长的一条道路,本篇文章为你带来验证码的入门案例,来吧,一起 Coding 吧。 怎么用 数字+字母的验证码我随便在百度图片搜索了一个验证码,如下今天要做的是验证码识别中最简单的一种办法,采用pytesseract解决,它属于 Python 当中比较简单的OCR识别库 库的安... Python 验证码是什么如果你是一个数据挖掘爱好者,那么验证码是你避免不过去的一个天坑,和各种验证码斗争,必然是你成长的一条道路,本篇文章为你带来验证码的入门案例,来吧,一起 Coding 吧。 怎么用 数字+字母的验证码我随便在百度图片搜索了一个验证码,如下今天要做的是验证码识别中最简单的一种办法,采用pytesseract解决,它属于 Python 当中比较简单的OCR识别库 库的安...
- DevStar是基于模板快速开发云应用的开发平台,提供丰富的应用模板和一站式创建代码仓、生成框架代码、集成中间件以及建立DevOps流水线等能力,让开发无须从零开始,效率得以大幅提高。 DevStar是基于模板快速开发云应用的开发平台,提供丰富的应用模板和一站式创建代码仓、生成框架代码、集成中间件以及建立DevOps流水线等能力,让开发无须从零开始,效率得以大幅提高。
- 2021AIWIN 手写体 OCR 识别竞赛总结(任务一)参加了“世界人工智能创新大赛”——手写体 OCR 识别竞赛(任务一),取得了Top1的成绩。下面通过这篇文章来介绍我们队伍的方案。队伍随机组的,有人找我我就加了进来,这是我第一次做OCR相关的项目,所以随意起了个名字。 赛题一、赛题考官交通银行二、赛题背景银行日常业务中涉及到各类凭证的识别录入,例如身份证录入、支票录入、对账单录入等... 2021AIWIN 手写体 OCR 识别竞赛总结(任务一)参加了“世界人工智能创新大赛”——手写体 OCR 识别竞赛(任务一),取得了Top1的成绩。下面通过这篇文章来介绍我们队伍的方案。队伍随机组的,有人找我我就加了进来,这是我第一次做OCR相关的项目,所以随意起了个名字。 赛题一、赛题考官交通银行二、赛题背景银行日常业务中涉及到各类凭证的识别录入,例如身份证录入、支票录入、对账单录入等...
- 我们将学习深度学习中的OCR(Optical Character Recognition)光学字符识别技术。OCR作为计算机视觉中较早使用深度学习技术的领域,有很多优秀的模型出现,所以通过此案例我们来学习深度学习下的OCR技术。普遍的深度学习下的OCR技术将文字识别过程分为:文本区域检测以及字符识别。本案例中介绍的模型CRNN就是一种字符识别模型,它将文字图片中的文字识别出来。 我们将学习深度学习中的OCR(Optical Character Recognition)光学字符识别技术。OCR作为计算机视觉中较早使用深度学习技术的领域,有很多优秀的模型出现,所以通过此案例我们来学习深度学习下的OCR技术。普遍的深度学习下的OCR技术将文字识别过程分为:文本区域检测以及字符识别。本案例中介绍的模型CRNN就是一种字符识别模型,它将文字图片中的文字识别出来。
- 本文的内容是平安在 ICDAR 2021表格识别比赛中的解决方案。在此解决方案中把表格识别分成了四个部分:表格结构序列识别、文字检测、文字识别、单元格和文字框对齐。其中表格结构序列识别用到的模型是基于Master修改的,文字检测模型用到的是PSENet,文字识别用到的是Master模型。最终结果取得了此赛道的亚军。 本文的内容是平安在 ICDAR 2021表格识别比赛中的解决方案。在此解决方案中把表格识别分成了四个部分:表格结构序列识别、文字检测、文字识别、单元格和文字框对齐。其中表格结构序列识别用到的模型是基于Master修改的,文字检测模型用到的是PSENet,文字识别用到的是Master模型。最终结果取得了此赛道的亚军。
- Google 2021 本文研究了文本行识别问题。与大多数针对特定领域(如场景文本或手写文档)的方法不同,本文针对通用问题研究了一个通用体系结构,该体系结构可以从任何图像中提取文本,而不管图像源或输入模式如何。本文对两种解码器(CTC和Transformer)和三个编码器模块(双向LSTM、自我注意和GRCL)进行研究并进行广泛的实验,以比较它们在广泛使用的场景和手写数据集上的准确性和性能。 Google 2021 本文研究了文本行识别问题。与大多数针对特定领域(如场景文本或手写文档)的方法不同,本文针对通用问题研究了一个通用体系结构,该体系结构可以从任何图像中提取文本,而不管图像源或输入模式如何。本文对两种解码器(CTC和Transformer)和三个编码器模块(双向LSTM、自我注意和GRCL)进行研究并进行广泛的实验,以比较它们在广泛使用的场景和手写数据集上的准确性和性能。
- ECCV2020 通过视觉匹配的方法来做文本识别,解决文档识别中的文本文本识别多样性和泛化性问题。 ECCV2020 通过视觉匹配的方法来做文本识别,解决文档识别中的文本文本识别多样性和泛化性问题。
- 本文解读了《TransFG: A Transformer Architecture for Fine-grained Recognition》,该论文针对细粒度分类任务,提出了对应的TransFG 本文解读了《TransFG: A Transformer Architecture for Fine-grained Recognition》,该论文针对细粒度分类任务,提出了对应的TransFG
上滑加载中
推荐直播
-
探秘仓颉编程语言:华为开发者空间的创新利器
2025/02/22 周六 15:00-16:30
华为云讲师团
本期直播将与您一起探秘颉编程语言上线华为开发者空间后,显著提升开发效率,在智能化开发支持、全场景跨平台适配能力、工具链与生态完备性、语言简洁与高性能特性等方面展现出的独特优势。直播看点: 1.java转仓颉的小工具 2.仓颉动画三方库lottie 3.开发者空间介绍及如何在空间用仓颉编程语言开发
即将直播 -
大模型Prompt工程深度实践
2025/02/24 周一 16:00-17:30
盖伦 华为云学堂技术讲师
如何让大模型精准理解开发需求并生成可靠输出?本期直播聚焦大模型Prompt工程核心技术:理解大模型推理基础原理,关键采样参数定义,提示词撰写关键策略及Prompt工程技巧分享。
去报名 -
华为云 x DeepSeek:AI驱动云上应用创新
2025/02/26 周三 16:00-18:00
华为云 AI专家大咖团
在 AI 技术飞速发展之际,DeepSeek 备受关注。它凭借哪些技术与理念脱颖而出?华为云与 DeepSeek 合作,将如何重塑产品与应用模式,助力企业数字化转型?在华为开发者空间,怎样高效部署 DeepSeek,搭建专属服务器?基于华为云平台,又该如何挖掘 DeepSeek 潜力,实现智能化升级?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用AI 驱动云上应用创新。
去报名
热门标签