OCR_标签_开发者

博客(192)
视频(1)
论坛(278)
云声(0)
代码示例(0)

[公告] 【倒计时1天！】#2020华为云文字识别狂欢季#当红来袭！

2020文字识别狂欢季倒计时1天19款产品全线降价50%，再享2折钜惠！卡证类识别、财务报销审核、合同录入与审核，首选华为云OCR文字识别服务！华为自研、屡获大奖、极简至快！更有企业&开发者专属成长路径，快来参与，成为OCR大神！

Joey啊 发表于2020-03-23 11:49:57 2020-03-23 11:49:57 最后回复极客潇 2020-05-19 14:49:13
2447 2

OCR
[问题求助] 文字识别能离线吗

文字识别能离线吗

幕落雾霾 发表于2020-03-06 18:03:41 2020-03-06 18:03:41 最后回复幕落雾霾 2020-03-10 09:19:59
3774 2

OCR
[教程] OCR服务快速入门汇总

一系列的视频和图文版入门指导，帮助您快速使用华为OCR服务。1. [快速入门 01] 申请华为文字识别服务https://bbs.huaweicloud.com/forum/thread-44898-1-1.html2. [快速入门 02] 获取Token和AK/SKhttps://bbs.huaweicloud.com/forum/thread-44925-1-1.html3. [快速入门 03] 文字识别服务开发指导https://bbs.huaweicloud.com/forum/thread-44933-1-1.html云视频链接：https://bbs.huaweicloud.com/videos/28ac9d6371974068a6d33ed1b5f77fd2文字识别帮助文档快速入门：https://support.huaweicloud.com/qs-ocr/ocr_05_0001.html

llu 发表于2020-03-04 12:02:48 2020-03-04 12:02:48 最后回复极客潇 2020-05-19 14:49:47
13390 2

OCR
[教程] [快速入门 03] 文字识别服务开发指导

用户完成文字识别服务的申请，并获取了AK/SK（或Token）之后，可下载文字识别SDK包进行操作。假设用户已申请开通了身份证识别服务，以AK/SK的方式调用API，主要操作步骤如下：一、下载SDK包请从如下地址获取文字识别SDK包：http://developer.huaweicloud.com/sdk?OCR。二、准备开发环境步骤一下载JDK文件（下载地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html），建议版本为1.8，并配置Java的环境变量。步骤二下载eclipse文件（下载地址http://www.eclipse.org/downloads/packages/），配置好JRE的路径。步骤三将下载的SDK包导入到工程中，工程目录如图1-1所示。图1-1 工程目录步骤四打开目录下OCRDemo.java文件，将代码中的“AK”和“SK”替换成用户所获取的AK/SK，如图1-2所示。图1-2 修改AK/SK三、身份证识别Demo演练步骤一打开目录下OCRDemo.java文件，修改图片路径“imgPath”参数为用户本地的待处理的身份证图片，如图1-2所示。步骤二执行OCRDemo.java文件，控制台输出200即表示程序执行成功。文字识别服务快速入门链接汇总（申请开通、获取Token和AK/SK、文字识别开发指导）：https://bbs.huaweicloud.com/forum/thread-5030-1-1.html。文字识别服务资料：https://support.huaweicloud.com/ocr/index.html。

llu 发表于2020-03-04 11:31:03 2020-03-04 11:31:03 最后回复用户 2020-03-08 10:45:33
14807 1

OCR API/SDK
[教程] [快速入门 02] 获取Token和AK/SK

完成文字识别服务的申请后，可以进行服务API的调用。调用接口有如下两种认证方式，您可以任选其中一种进行认证鉴权。Token认证：通过Token认证调用请求。AK/SK认证：通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。下面分别介绍如何获取Token值和AK/SK：一、获取Token值发送请求：POST https://iam.cn-north-4.myhwclouds.com/v3/auth/tokens 请求体样例如下：POST https://iam.cn-north-4.myhuaweicloud.com/v3/auth/tokens Content-Type: application/json { "auth": { "identity": { "methods": [ "password" ], "password": { "user": { "name": "username", //替换为实际用户名 "password": "********", //替换为实际的用户密码 "domain": { "name": "domainname" //替换为实际账号名 } } } }, "scope": { "project": { "name": "xxxxxxxx" //替换为实际的project name，如cn-north-4 } } } }请求响应成功后在响应消息头中包含的“X-Subject-Token”的值即为Token值。二、获取AK/SK步骤1 登录华为云管理控制台。步骤2 单击右上角“用户名”，进入账号中心，在“安全凭证”中单击“管理我的凭证”。图1-1 “账号中心”页面步骤3 在“我的凭证”页面，单击“访问密钥”页签。在“访问密钥”页面，单击“新增访问密钥”。图1-2 “我的凭证”页面步骤4 在弹出“新增访问密钥”对话框中，输入短信验证码，单击“确定”。此时，访问密钥以excel文件的形式自动下载到本地电脑中。图1-3 “新增访问密钥”对话框步骤6 打开excel表格，即可获取用户所需的AK/SK（请妥善保管密钥文件）。文字识别服务快速入门链接汇总（申请开通、获取Token和AK/SK、文字识别开发指导）：https://bbs.huaweicloud.com/forum/thread-5030-1-1.html。文字识别服务资料：https://support.huaweicloud.com/ocr/index.html。

llu 发表于2020-03-04 10:59:03 2020-03-04 10:59:03 最后回复极客潇 2020-05-19 14:49:35
16528 2

OCR
[教程] [快速入门 01] 申请华为文字识别服务

华为文字识别服务申请开通服务，具体操作步骤如下：步骤1 申请华为云账号，并完成实名认证。步骤2 登录华为云官网，单击“EI 企业智能”，选择“AI服务>文字识别 OCR”。图1-1 服务列表步骤3 在“文字识别”官网页面点击“立即使用”进入“文字识别”控制台。图1-2 “文字识别”官网步骤4 在“文字识别”控制台可以查看已申请服务的调用次数与监控数据。图1-2 “文字识别”控制台步骤5 在左侧的“服务列表”导航栏选择待开通的服务（以“增值税发票识别”为例），单击右侧的“开通服务”按钮。图1-3 申请服务步骤6 申请成功后，用户可通过调用API的方式使用“增值税发票识别”服务。文字识别服务快速入门链接汇总（申请开通、获取Token和AK/SK、文字识别开发指导）：https://bbs.huaweicloud.com/forum/thread-5030-1-1.html。文字识别服务资料：https://support.huaweicloud.com/ocr/index.html。

llu 发表于2020-03-04 08:48:01 2020-03-04 08:48:01 最后回复 swl乌鸦 2022-08-24 16:22:11
16241 3

控制台 OCR
[技术干货] 10分钟带你实践华为云文字识别API调用

文字识别服务开发指导用户完成文字识别服务的申请，并获取了AK/SK（或Token）之后，可下载文字识别SDK包进行操作。假设用户已申请开通了身份证识别服务，以AK/SK的方式调用API，主要操作步骤如下：一、下载SDK包请从如下地址获取文字识别SDK包：http://developer.huaweicloud.com/sdk?OCR。二、准备开发环境步骤一下载JDK文件（下载地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html），建议版本为1.8，并配置Java的环境变量。步骤二下载eclipse文件（下载地址http://www.eclipse.org/downloads/packages/），配置好JRE的路径。步骤三将下载的SDK包导入到工程中，工程目录如图2-1所示。图2-1 工程目录（点击放大）步骤四打开目录下OCRDemo.java文件，将代码中的“AK”和“SK”替换成用户所获取的AK/SK，如图2-2所示。图2-2 修改AK/SK（点击放大）三、身份证识别Demo演练步骤一打开目录下OCRDemo.java文件，修改图片路径（如：“data/id-card-demo.png”）为用户本地的待处理的身份证图片，如图3-1所示。图3-1 修改图片路径（点击放大）步骤二执行OCRDemo.java文件，控制台输出200即表示程序执行成功。文字识别服务快速入门链接汇总（申请开通、获取Token和AK/SK、文字识别开发指导）：https://bbs.huaweicloud.com/forum/thread-5030-1-1.html。文字识别服务资料：https://support.huaweicloud.com/ocr/index.html。有关活动调用量首次突破100以及调用量前5的同学，可以参与我们的活动领取礼品，详情请戳：活动攻略。如果您在调用过程中有遇到相关问题，可以微信添加我们小助手，加入华为云AI用户交流群。

zb123 发表于2020-03-03 17:52:54 2020-03-03 17:52:54 最后回复 kududu 2020-07-04 15:21:47
9680 28

API OCR
[上云精品] 泛微移动OA系统全面预算费控管理方案，助力组织财务转型升级

需求——企业在实际管理过程中，涉及的费用类型多、对应的标准各不相同、费用管控的方案复杂、处理量大：员工：报销过程复杂，单据信息混乱，如何快速便捷报销？领导：业务、项目条线的费用支出情况如何快速知晓掌控？财务：单据审核、分类工作量大，如何快速处理规避风险？企业以业务财务融合为核心，以智能化、平台化、全程电子化的OA系统为基础，构建全集团、全过程、全融合、全智能的预算费用执行平台。实现从手工报销到电子流程；从线下审批到移动审批；流程审批标准化，管理制度可落地，数据共享可查询。覆盖了企业业务发生、费用报销、财务凭证到统计分析的全过程。（预算费控平台架构）全面预算费控管理解决方案亮点一、全集团统一使用的预算费控体系建立覆盖全集团预算管控模式：多账套与多主体预算架构模式，支持集团型预算，支持多业态预算。通过覆盖全集团的统一流程、统一门户、统一派工池、统一预算编制、费用报销平台等，使全集团预算费控有序按规范进行。二、全过程的预算管理，多方案融合OA系统通过建立不同的费用类型，建立对应的预算体系，将费控体系与预算管理体系关联、融合，实现预算与费用执行一体化。1、多样化的预算编制模式可在系统内根据期间、费用类型、产品、区域、部门等维度建立预算体系，将多费用类型，结合项目、合同、会议形成多维度的费用合并执行体系，并且可直接与全面预算执行关联。（预算编制）结合费用类型、组织体系建立一定额度的预算，从上往下进行预算的编制与发布。下属企业、部门根据预算的总体额度，根据实际的管理需要进行预算编制，编制之后进行集中的汇总、统计与合并预算。滚动预算编制、多维预算编制、预算数据填报中心、函数计算编制、可视化预算模板编制、预算摘要填报。2、多模式的预算执行方案OA系统根据不同的费用类型以及组织结构，建立不同的费用管控方案。可以根据不同的费用类型建立预算执行，进行全局控制或者分层、分类型的方案管控。业务相关人员进行审批的方式：OA系统通过电子化的流程审批来控制费用，根据所在的岗位、级别、费用的类型，报销的金额，自动判断，寻找对应的人员进行审批。（预算流程审批）根据费用类型，建立定额控制方案：企业有很多的费用都是定额标准，例如差旅补贴、差旅标准、福利等都是属于定额方式。企业根据组织内的岗位不同、费用的类型不同，建立不同的费用定额额度，导入OA系统。在实际费用的发生过程中，如果符合定额的标准，可以直接进行处理，不需要再进行审批和控制。通过申报，在实际费用发生前控制：在费用发生前，直接关联预算，而不是在费用发生后进行控制；在费用发生之后，对比之前的申请金额，通过申请金额进行审批控制。与预算体系融合，实现事前预算控制：例如差旅报销，通过智能填单，自动关联相关预算标准，一旦超过预算系统自动预警。（通过预算控制费用）3、灵活的预算调整模式在预算执行中，在预算管控范围内可关联项目、合同进行预算的管控和核减。如果在一定的范围内，可支持实时预算调整，不需要进行预算的变更申请。（预算变更申请）4、可视化的预算考评分析OA系统强大的报表功能，可以根据不同权限实时展现预算执行情况。（预算情况报表）在各种类型的报表，不同的预算类型、组织体系以及不同的期间展现当前的预算执行情况，例如预置标准的执行情况分析表、预算汇总等全维度分析报表。同时，根据预算的图表化展现，直接可以透视到预算执行的详细列表数据，做到以点带面的预算执行分析。三、预算费控体系全流程驱动通过流程建立所有费用类型的审批原则，实现自动化的规则流转。通过流程控制从预算费用事前控制、费用事后审批的全过程。泛微通过强大的流程引擎，将企业内的所有费用类型总结提炼成多个电子报销单据。费用申请：费用事前申请审批通过后，自动触发借款子流程，支持个人借款和对公预付等多种类型，无需单独提报借款流程。（费用申请）借支管理：业务如涉及大金额垫资等情况，在业务事前申请可以选择“借款”自动触发借款子流程，系统可根据员工信用管理模块自动获取员工最大借款金额并进行管控。（借支申请）借款流程自动关联流程、项目、客商等信息，全面数据协同；借支表单按差旅申请内容自动填录借款信息并提单，不易出错，提高效率。商旅订票：OA系统自动将审批通过的差旅行程信息推送至商旅平台，订票时核实流程中的行程信息并采集相关差旅标准信息进行核实和管控。可选择公司月结、公司预存、个人支付等多种支付方式；同时，商旅平台可统一开具增值税专用发票用于公司抵扣，降低企业成本。费用报销：为了高效提报，OA系统可通过多来源系统及流程数据进行快速关联报账；同时对费用金额直接关联预算执行管控。（费用报销场景架构）对私报账助手：无论在填报或审批时，智能助手都能帮你分别按个人、部门、客户、项目、合同、合规等多维度展现，并且提供费用明细以及合规检查项的状态提示预警。对公费用协同管控：对公关联的费用管理，OA系统自动提供合同、项目自定义统计维度的报账助手，提高审批效率。同时，通过合同台账和付款执行进度分析，全程掌握合同执行情况；对公预付类业务在报账流程审核通过后可关联预付流程，并可按明细冲销。对公业务发生后，支持相关人员通过流程的方式实现费用分摊的执行和凭证生成。还款冲销：费用申请人和审批人可查看还款金额调整日志，若是有未还款金额，申请人可选择“未完全冲销或还款”的多条借款流程、多借款明细进行还款。入账凭证：OA系统通过电子流程驱动凭证制单，到达制单人节点后，根据预置规则，自动生成预制凭证，并且手工也可干预，保证凭证的准确率。结算支付：OA系统与银企直联实现一键支付，系统中将付款动作导向化，减少数据重复输入，快速付款，有效控制财务风险。四、业务财务全融合，多系统集成内部ERP及核算系统融合、外部国税发票与银企直联融合。实现与多异构系统（ERP、CRM、报表、项目、人事、客服、财务、商旅平台、集采、银企直联、影像档案等）的对接集成，实现数据一点输入，多点利用。（全面集成）五、全智能报账体验，财务省心员工舒心通过智能化的报账方式，OA系统实现发票真伪查验、OCR票面数据采集与验真，可自动识别发票业务种类和税率，实现价税分离。（全票种OCR识别）通过整合OCR技术，实现自动化、批量化验真，自动关联订单、入库单，提高审核及三单匹配效率。移动端快速完成报账围绕企业日常报销业务的所有环节，用户可以随时随地通过手机或其他智能移动设备轻松完成报账业务。预算费控管理解决方案价值OA系统通过一体化的预算费控解决方案，遵循企业费用的“事前、事中、事后”三阶段控制原则，协助客户实现财务管理及管控升级：对企业财务流程和管控方案的重新梳理和改造实现企业财务管理的规范化、标准化和智能化为后续扩展全面预算或财务共享服务夯实基础

泛微数字化办公专家 发表于2020-01-02 17:47:54 2020-01-02 17:47:54 最后回复泛微数字化办公专家 2020-01-02 17:47:54
3967 0

OCR
[问题求助] 请问ocr的sdk包可以从哪个maven仓库下载

公司要求依赖包来源可信，所以ocr的sdk包是否已经发布到公司的公共仓库中了？

Tea 发表于2019-12-03 15:43:18 2019-12-03 15:43:18 最后回复 llu 2020-06-10 14:40:42
2855 1

OCR Maven API/SDK
[公告] 华为云文字识别OCR服务于2019年12月1日 00:00（北京时间）计费周期调整通知

尊敬的华为云客户：为提升客户计费体验，华为云文字识别OCR服务计划于2019/12/01 00:00（北京时间）对OCR服务的计费周期进行调整，将由原“按月”计费调整为“按小时”计费，实时扣费（账单出账时间通常在当前计费周期结束后一小时内，具体出账时间以系统为准）。计费周期调整后，2019年11月的计费数据仍然会遵循原来“按月”的周期在12月1日扣费，12月的计费会调整为按小时计费。此次计费周期调整对您的OCR服务消费费用不会产生任何影响，价格保持不变，仅是将计费周期进行了调整。如您有任何问题，可随时通过工单或者服务热线（4000-955-988或950808）与我们联系。感谢您对华为云的支持！

aprioy 发表于2019-11-29 15:58:26 2019-11-29 15:58:26 最后回复学AI在路上 2020-06-14 18:16:23
2953 1

OCR
[技术干货] OCR证件识别心得

光学字符识别（OCR）现在主要应用在文档识别及证件识别。文档识别可以将印刷文档数字化以快速准确提取有效信息，证件识别则是将证件扫描件或复印件数字化，从而提高工作效率及降低工作强度。作为人工智能领域的一个分支，深度学习可以提高OCR 的识别的适用范围，应用于OCR 的文字区域提取可以增强OCR对文字的提取准确率，提高OCR 的准确率。光学字符识别是将要识别的文档和证件等带有文字信息的物体使用相机等设备转换为图像数字信息，再对图像信息中的文字信息识别出来。最早的OCR 技术始于德国科学家Tausheck，他提出并建立起OCR 的理论框架，但是由于计算机当时还没有诞生，其仅仅停留在理论阶段。随着计算机的诞生及其计算能力的大幅度提升，OCR 才从理论阶段转到实际应用。早期字符识别的目标是印刷文档的识别，印刷文档其文档的格式固定，并且采集图像的噪声干扰较小，更易于识别。随着光学字符识别技术的发展，到现在OCR 在对印刷文档的识别已经趋于成熟，甚至在手写体图像的识别上也有了一定成果。卷积神经网络在图像字符识别，在图像物体检测及人脸识别等领域上都有所突破。卷积网络最早在图像识别领域进行应用，并取得很好的效果。卷积网络框架的提出即奠定了在字符识别的领先地位。卷积神经网络以其独有的特性，局部特征的检测，特征的检索不受空间扭曲的影响，对于图像的抗干扰能力强，故而在图像处理领域占有一席之地。卷积神经网络在图像处理中的应用具有更大的优势，其网络的结构框架基本如图所示，使用图像作为输入，通过卷积层，下采样层，卷积层，池化层等，再后面跟一个全连接层进行分类，最后输出的结构。通过卷积提取图像的特征能够很好的对图像进行分类。卷积网络在字符识别上的研究从卷积神经网络的问世即开始，卷积神经网络框架的奠定即在解决手写体字符的识别，卷积神经网络的采样层可以很好的避免图像很多我们不关心的噪声的干扰，卷积神经网络的局部野也针对图像的局部特征，基于局部特征再从多层综合到整体特征的过程也是视觉上识别的过程，对于字符的识别上有更大优势，现在OCR 问题上的识别模块普遍都采用卷积神经网络来解决。例如现在很成熟的车牌号识别等。卷积神经网络应用于OCR 的字符区域提取相对较晚，其效果不是很理想，同时，在效率上也一直是一个很大的问题。通常使用神经网络的而方法对于一个图形进行文本区域的定位需要很长的时间而基本上做不到实时的对图像进行处理。近年R-CNN 的提出，及Fast R-CNN 和Faster R-CNN 的持续研究，在自然场景下的文字区域提取也进入人们的挑战范围，并取得较好的成果。卷积网络凭借其特有的优势，在图像处理上有其更大的优势。图像的图像增强在对一些图片处理上，图像中的背景干扰会及噪声等因素比较明显，背景的干扰会使目标图像的轮廓检测也可能受到影响。本文中使用图像增强方法主要是高斯模糊和锐化处理。用来降低噪声及提高图像对比度。图像高斯模糊处理是模糊细节，降噪的常用方法，高斯模糊处理将和点的8 连通区域按照一定权重加权相加，将其中值作为点的像素值。具体加权的卷积因子如图中高斯卷积因子所示，使用高斯模糊平滑处理可以将图像中很多噪声平滑，将图像中目标图像的轮廓凸显出来。高斯模糊平滑处理只能适用于背景复杂，但是图像中目标轮廓很明显的图像，平滑处理可以平滑图像细节，对于噪声有平滑的同时，也会将一些不是很明显的轮廓细节也平滑掉。图像锐化处理原理和高斯模糊相同，高斯平滑处理降低图像中点与点之间的值差，而锐化处理则是扩大图像中点与点之间的值差，卷积因子如图锐化卷积因子所示，从而使图像中的细节更清晰，使边缘信息更清晰。图像处理水平校正图像的水平校正有图像旋转，图像的轮廓检测及透视变换等方法。图像的旋转即将倾斜的目标图像旋转为水平图像，透视变换则解决由拍摄角度，距离远近等不一致因素造成的图像扭曲问题。图像水平校正的难点在图像中目标图像的轮廓检测上。图像的轮廓检测需要使用图像的边缘检测算法，本文使用的边缘检测算法有sobel 算子、canny 算子。sobel 算子对噪声不敏感，sobel 卷积因子如图，计算图像中的边缘值时根据点的邻域3×3 与公式所示公式进行计算。通过计算点与点的上下相邻点间距及点的左右相邻点的间距作为边缘，从而检测到边缘。canny 算子的基本原理与sobel 算子相同，但是canny 算子对噪声干扰更敏感，输出为二值边缘图像。两种算法配合使用可以适用于各种场景下的边缘检测，能更好的提取图像中的轮廓。图像旋转需要先确定图像的倾斜角度及旋转点，需要使用轮廓检测进行查找，将轮廓检测到后，既可以使用轮廓的中心点作为旋转点，如图所示，将轮廓的倾斜角度作为其旋转角度，即可以完成对图像的旋转水平校正。识别的图像类型为证件类图像，证件形状大都为规整矩形，因此可以使用透视变换将图像纠正。图像的透视变换也需要经过轮廓检测，检测轮廓后使用Hough 变换检测角点，通过线条的交点找到目标图像的角点。Hough 变换的原理为，在二值图中，将相邻的点中在同一直线上的点连接组成直线。霍夫变换的优点是对噪声反应迟钝，计算精度高，通过边缘描线能很好的适用于本文识别的图像类型。透视变换的作用是将图像投影映射成另外形状，变换的方式如公式)所示，变换中需要确定图像中所投影图像中四个顶点的位置及投影后的图像四个顶点位置，通过顶点信息可计算出投影的变换矩阵，通过与变换矩阵的乘积可以计算出投影后的图像矩阵。图像透视变换效果将目标图像四个顶点检测到后，直接通过顶点将图拉伸成水平的矩形图，经过透视变换后，目标图像已经从扭曲图像转换为水平，矩形规整图像。图像文本区域定位算法Input：Horizontally corrected imageInitialize S = w*h*10, score [S][10] = 0, position[S][10] = {0,0,0,0}, box_height = 10(w, h is the width and height of image)Processing using the VGG16 model and extracting the conv5_3 signature dataConvolution calculation using 512 3×3 convolution kernelsfor i in range(0, S):box_height = 10for j in range(0,10)：box_height /= 0.7position[i][j] = {x, y, 10, box_height }//x,y: the position of point//Use Bilstm to combine text line features to predict text boxesfor i in range(0, S):score[i] = f(position(i), feature(i))//feature(i): the figured feature of position(i) in featuremapfor i in range(0, S):if score [i] < 0.7 delete score [i], position[i]Use text line construction algorithms to combine text boxes into text linesOutput：Text line position文本区域的行长度的变化区间很大，而对于图像中目标检测，目标的大致长宽是有一定范围的。因而采用如算法所示，检测固定长度的文本框，对每个小的文本框进行判断，然后再对文本段进行连接，从而能够精确定位图像中的文本位置。本文中使用固定宽度为16 像素，并使用10 像素到234 像素之间的高度作为图像中文本序列的检测，根据高度不同选取，共10 个anchor 进行检测，在连接时仅对水平文本区域进行连接。本文处理图像中对文本定位的算法流程如图3-6 所示，主要处理流程主要如下：(1) 对目标图像进行卷积特征提取，本文使用VGG16 作为基本网络提取特征，使用VGG16 的conv5_3 层特征数据作为特征图，其大小为W×H×C，W及H 分别为输入图像的宽和高，C 为卷积核数量，本文仅使用VGG16 产生的第五层数据进行处理。(2) 在上取得的特征图中使用512 个3×3 大小的滑动窗口作卷积。对每个窗口，都卷积得到一个3×3×512 大小的特征向量，使用这个特征向量来检测10 个anchor 的偏移距离。本文中针对每个窗口中心位置，都会产生10个高度从10 到234 之间的文本小框，并对每个文本框进行预测打分。(3) 将上一步的特征向量作为一个双向LSTM 的输入，并规定其输出为W×256 长度，在BiLSTM 后面连接512 的全连接层进行输出。(4) 输出层包含三部分：文本框位置、文本框的预测打分及用于调整文本行端点位置的side-refinement。一个文本框由中心位置和矩形框的高度两个值表示；对于所有的文本框，都有两个打分，其中一个为判断为文本的概率，一个为判断为非文本的分数。(5) 基于文本线构造算法对文本框进行整合，将顺序或相邻近的文本框进行整合，并对多余的box 进行非极大值抑制算法进行过滤。最后整合的文本行即为所提取的图像中的文本行。第一步将图像的大小统一调整为短边长为600 将输入图像归一化，之后使用VGG16 产生对原图像进行深度卷积后的第5 层卷积信息。后面LSTM 用于对基于VGG16 的第五层卷积特征图进行卷积后的数据，对应滑动窗口位置所对应的固定的宽16 像素，10 个不同高度文本序列框的特征判断。直接使用双向LSTM 对对应的文本序列框图像进行预测打分，使用双向的LSTM是在打分的时候充分考虑整个文本序列的特征上的考虑，充分的利用文本行的特征信息对应文本框进行判断，提高后续对文本区域的定位。RNN 的设计充分考虑其整个文本行的文本序列组合的特征，而同时也兼顾其小框的特征，整体和部分的完美结合对图像区域进行判断。能同时在文本区域的准确度和文本具体位置的精确度进行大幅度的提高。最后的全连接部分用于对输出部分的整理，对每个预选框的文本序列进行判断打分的结果进行组合并输出一个完整的文本行。

小小2018 发表于2019-10-27 18:27:49 2019-10-27 18:27:49 最后回复 AI爱好者 2020-04-27 18:36:58
3699 4

OCR 深度学习神经网络
[技术干货] 华为云OCR postman的SDK配置文件

附件为华为云OCR postman的SDK配置文件华为云文字识别 OCR官网：https://www.huaweicloud.com/product/ocr.html文字识别 OCR 帮助文档：https://support.huaweicloud.com/ocr/index.html

llu 发表于2019-09-29 19:48:13 2019-09-29 19:48:13 最后回复极客潇 2020-05-19 14:43:52
4280 3

OCR API/SDK
[问题求助] 各个ocr类型的并发在哪看？

各个ocr类型的并发在哪看？

我是大老虎 发表于2019-09-16 18:08:46 2019-09-16 18:08:46 最后回复 luu 2019-10-22 16:56:29
3677 1

OCR
[技术干货] 【活动FAQ】OCR 全景体验实践课

Hello！欢迎参加 OCR 全景体验实践课活动！这是一篇帮助帖，活动流程+每日课程常见问题都会在此展示。为减少群内打扰，节省各位同学和答疑专家的时间，请遇到问题后先查阅本帖内容，如没有对应解答，再在用户群中提问哦！！！【活动链接】https://developer.huaweicloud.com/activity/5days_ocr.html 【课程链接】https://education.huaweicloud.com:8443/courses/course-v1:HuaweiX+CBUCNXE048+Self-paced/about 华为云大神讲师亲带亲授 Dr.WangJing华为云人工智能高级算法工程师专家介绍：精通云计算、人工智能、密码、计算机网络安全，拥有多年的算法经验，多个文字识别相关专利。分别获得新加坡南洋理工大学和中国科学技术大学数学与应用数学博士和学士学位。隐蔽重定向漏洞发现者，曾提交过几十个CVE安全漏洞并被微软、苹果、阿里巴巴、ebay等十几家知名公司列名安全感谢榜，多个发现被人民网、凤凰网、网易、CNET等众多海内外媒体报道。

yygp1234 发表于2019-07-08 09:45:18 2019-07-08 09:45:18 最后回复 Joey啊 2019-08-30 09:46:02
19732 12

OCR 区块链
[教程] 5天玩转OCR课程资料

5天玩转OCR——华为云EI系列课程全面了解文字识别服务（OCR）华为云OCR服务融合深度学习及多种图像处理技术，提供丰富全面的文字识别服务，具有精度高，鲁棒性强，适应多种场景等特点。本次活动采用视频教学+技术干货+专家答疑扫除OCR服务实际应用的问题，实现人人快速上手操作。附件为day3~5课程demo

llu 发表于2019-07-01 14:27:19 2019-07-01 14:27:19 最后回复 Joey啊 2019-08-30 09:45:03
38251 6

OCR

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript