- 本文介绍几篇基于像素分割的弯曲文本检测算法 本文介绍几篇基于像素分割的弯曲文本检测算法
- 文档版式分析任务中,文档的视觉信息、文本信息、各版式部件间的关系信息都对分析过程具有很重要的作用。本文提出一种融合视觉、文本、关系多模态信息的版式分析架构VSR。 文档版式分析任务中,文档的视觉信息、文本信息、各版式部件间的关系信息都对分析过程具有很重要的作用。本文提出一种融合视觉、文本、关系多模态信息的版式分析架构VSR。
- 本文提出了一种基于Transformer的端到端的线断检测模型。采用多尺度的Encoder/Decoder算法,可以得到比较准确的线端点坐标。作者直接用预测的线段端点和Ground truth的端点的距离作为目标函数,可以更好的对线段端点坐标进行回归。 本文提出了一种基于Transformer的端到端的线断检测模型。采用多尺度的Encoder/Decoder算法,可以得到比较准确的线端点坐标。作者直接用预测的线段端点和Ground truth的端点的距离作为目标函数,可以更好的对线段端点坐标进行回归。
- 在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。 在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。
- 多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化、定位并构建时空上的跟踪轨迹。本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方法TrackFormer。本文模型通过注意力机制实现了帧与帧之间的数据关联,完成了视频序列间的跟踪轨迹的预测。 多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化、定位并构建时空上的跟踪轨迹。本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方法TrackFormer。本文模型通过注意力机制实现了帧与帧之间的数据关联,完成了视频序列间的跟踪轨迹的预测。
- 在文档图像中提取关键信息在自动化办公应用中至关重要。传统基于模板匹配或者规则的方法,在通用性方面、未见过版式模板数据方面,效果都不好;为此,本文提出了一种端到端的空间多模态图推理模型(SDMG-R),能有效的从未见过的模板数据中提取关键信息,并且通用性更好。 在文档图像中提取关键信息在自动化办公应用中至关重要。传统基于模板匹配或者规则的方法,在通用性方面、未见过版式模板数据方面,效果都不好;为此,本文提出了一种端到端的空间多模态图推理模型(SDMG-R),能有效的从未见过的模板数据中提取关键信息,并且通用性更好。
- 随着用于传递和记录业务信息的管理文档的广泛使用,能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求。本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别(NER)和关系提取问题。 随着用于传递和记录业务信息的管理文档的广泛使用,能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求。本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别(NER)和关系提取问题。
- 从与卷积网络的比较中,理解图卷积网络 从与卷积网络的比较中,理解图卷积网络
- 1. 深扒CNN:也谈机器学习的本质 现在,从OCR性能优化系列(一)中的图1左下角的输入开始,串一遍图一的流程。首先是输入27张待识别的文字片段图片,每张图片的大小为32*132。这些图片会经过一个CNN网络进行编码,输出32个27*384的初步编码矩阵。如下图所示: 值得注意的是,在这步操作中出现了维度次序的调整,即输入由27*(32*132)变成了 2... 1. 深扒CNN:也谈机器学习的本质 现在,从OCR性能优化系列(一)中的图1左下角的输入开始,串一遍图一的流程。首先是输入27张待识别的文字片段图片,每张图片的大小为32*132。这些图片会经过一个CNN网络进行编码,输出32个27*384的初步编码矩阵。如下图所示: 值得注意的是,在这步操作中出现了维度次序的调整,即输入由27*(32*132)变成了 2...
- 但是他们的特征长度都是128!!!一个字是128,一个句子也是128?对于不同的文字图片中,句子的长度还可能不一样,怎么可能都用一个字的特征长度就表示了呢? 但是他们的特征长度都是128!!!一个字是128,一个句子也是128?对于不同的文字图片中,句子的长度还可能不一样,怎么可能都用一个字的特征长度就表示了呢?
- 随着时代的变迁,数码时代到来,传统摘录摘抄方式已经无法满足快节奏的生活,无纸化办公与传统办公模式的碰撞,诞生了一些新的办公周边产品,比如扫描笔。扫描笔,是通过扫描技术(一般采用红外线扫描),将印刷字体扫描到笔里通过里面的OCR技术进行识别,轻轻一刷即可将书籍、文件、报刊上的文字直接刷进电脑的Word/Excel,随意编辑引用。主要可用于扫描办公文件、书籍、身份证、名片等信息,很好的满足了现代... 随着时代的变迁,数码时代到来,传统摘录摘抄方式已经无法满足快节奏的生活,无纸化办公与传统办公模式的碰撞,诞生了一些新的办公周边产品,比如扫描笔。扫描笔,是通过扫描技术(一般采用红外线扫描),将印刷字体扫描到笔里通过里面的OCR技术进行识别,轻轻一刷即可将书籍、文件、报刊上的文字直接刷进电脑的Word/Excel,随意编辑引用。主要可用于扫描办公文件、书籍、身份证、名片等信息,很好的满足了现代...
- 1、NLP介绍自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。2、jieba中文分词组件特点:1)支持三种分词模式 *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都... 1、NLP介绍自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。2、jieba中文分词组件特点:1)支持三种分词模式 *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都...
- 1、OCR简介光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。2、OCR应用场景1)针对图片类识别2)文档类识别场景3)拍照表单类场景4)自然场景(比如车牌识别、摄像监控、自动驾驶等)3、OCR流程图像预处理:去噪、灰度化、图像增强等文本检测... 1、OCR简介光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。2、OCR应用场景1)针对图片类识别2)文档类识别场景3)拍照表单类场景4)自然场景(比如车牌识别、摄像监控、自动驾驶等)3、OCR流程图像预处理:去噪、灰度化、图像增强等文本检测...
- 身份证是每个人非常重要的证件,不论是出门乘车购票、办理银行业务,还是开通电信账号、考场出入......这些大大小小的生活场景以及办公业务,几乎都离不开身份证的使用。在OCR身份证识别技术还未投入使用之前,绝大多数业务办理都需要手动填写表单,且表单上不能出现涂抹、污渍、修改的痕迹。这就导致了我们不得不多准备一些表单以防填错更换。这种身份信息登记手法不仅耗时耗力,更是严重浪费纸张资源。如今,在O... 身份证是每个人非常重要的证件,不论是出门乘车购票、办理银行业务,还是开通电信账号、考场出入......这些大大小小的生活场景以及办公业务,几乎都离不开身份证的使用。在OCR身份证识别技术还未投入使用之前,绝大多数业务办理都需要手动填写表单,且表单上不能出现涂抹、污渍、修改的痕迹。这就导致了我们不得不多准备一些表单以防填错更换。这种身份信息登记手法不仅耗时耗力,更是严重浪费纸张资源。如今,在O...
- 在目前基于深度学习的语言模型结构主要包括三个类别:基于RNN的语言模型,基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍,并且逐一分析他们的优缺点。 在目前基于深度学习的语言模型结构主要包括三个类别:基于RNN的语言模型,基于CNN的语言模型和基于Transformer的语言模型。接下来我会对它们进行依次介绍,并且逐一分析他们的优缺点。
上滑加载中
推荐直播
-
揭秘高可靠高性能的亿级物联网平台发展历程
2024/03/27 周三 16:30-18:00
阿钟 华为云IoT DTSE技术布道师
对话华为20年资深测试老兵,从手工测试到自动化测试,到实现测试服务化的成长过程,揭秘亿级物联网平台高可靠性、高性能的发展历程。
回顾中
热门标签