• [问题求助] OBS权限相关问题?
    对于OBS文件ACl类型为私有读写的图片文件,图片文件url需要授权才能获取。如何给文字识别OCR服务授权获取图片?
  • [行业资讯] 给RFID“装上”高精度定位,阿里与北大合作成果登上顶会NSDI2023
    9月14日,记者获悉,阿里达摩院与北京大学SOAR实验室联合研发的RFID定位系统成果,被国际顶级网络学术会议NSDI2023正式接收。该系统首次实现了可靠、快速和大范围的RFID定位,RFID标签窜读率骤降为此前最佳的千分之一,为物流网络、数据中心等场景的智能化管理提供商用新选择。在物流领域,RFID(射频识别)是一种管理货物的电子标签技术,主要用于货物出库、入库时的识别及管理。由于RFID标签本身没有电源,需捕捉读写器发出的电磁波进行通信,因此经常存在漏读,或者扫描到不属于圈定范围的窜读现象。一般而言,通过提高读写器的发射功率和接收敏感度,可以减少漏读,但同时又会增加窜读概率。目前,商用RFID系统实测最佳窜读率仍高达2%,难以大规模实际应用。达摩院XG实验室与北京大学SOAR实验室联合攻破了这一技术的“两难困境”。 研究团队在普通窄带读写器上创新引入宽带功能,通过宽带嗅探技术,捕捉更准确的定位信息。同时,基于并行多正弦载波,自研多径消除全息定位算法,打造出软硬一体的RF-CHORD系统,将RFID标签识别窜读率骤降至最低0.0025%,漏读率接近0%。“RF-CHORD系统解决了RFID高精度定位的可靠性问题。实验数据显示,新系统能覆盖6米范围,每秒可扫描约200个RFID标签,足以满足仓库通道门等物流及数据中心场景需求。未来只要货物一过门,可即时、准确更新出入库信息。”达摩院XG实验室高级技术专家张鹏宇说。国际顶会NSDI专家评议认为,与传统系统相比,RF-CHORD可提供更高的一次性识别数量、识别准确性和可靠性,并且与现有的RFID标签兼容,为解决物流领域的货物管理难题提供了可实用的新方案。据悉,NSDI是计算机网络领域权威国际顶会之一,主要聚焦在网络系统设计领域,强调跨学科及实用性,广受学术界及产业界关注。大会论文收录严格,NSDI2023收录率仅为18.4%。
  • [问题求助] ocr 来识别卡片错误
    ocr可以识别类似于蛋糕卡 提货卡吗?  
  • [问题求助] RPA调用python脚本时报错
    在用RPA调用python脚本中的函数来识别验证码时,提示importerror(DLL load failed thile importing onnxruntime_pybind11_state:找不到指定的模块
  • [问题求助] manas引擎发票OCR识别云服务器
    【功能模块】manas引擎发票OCR识别云服务器【操作步骤&问题现象】内网POC,需要开白名单允许访问华为云服务器
  • [技术干货] 【ManasAI-OCR】验证码、健康码颜色识别、表格图片识别
    前言:使用了Manas提供的AI能力进行拓展插件二次开发。需要申请权限,才能正常使用注意:1. 以下控件中,需要提供用户账号。用户账号为在WeAutomate_AI申请的账号。如果没有注册,或者该账号没有激活,会报以下错误[Detail] [NOK] [2022-07-19 16:19:35]完成执行[原子命令] [playbackScript.xml 第4行] 验证码、健康码识别 [验证码、健康码识别] [NOK] [RobotUncaughtError] [系统执行错误: 发生了未捕获异常,详情:RuntimeError('Your account is not a member of tenant WeAutomate_AI, or your account is inactive.')]账号申请相关操作,请参考:https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=1947342. 插件使用了python库:xlwt,需要自行安装如果运行出现“no module named 'xlwt'”,则进入黑窗口cmd,设计器是stduio/python/文件夹下(执行器是assistant/python/)执行 python.exe -m pip install xlwt;若黑窗口cmd中,出现Retry等字样信息,则需要将pip.rar(见附件)中的pip文件放入'C:\Users\用户名' 文件夹下,即自己的用户账号下(例如'C:\Users\工号','C:\Users\Administrator', 'C:\Users\Lenovo'等等)。功能说明提供了验证码识别、健康码颜色识别、表格图片识别功能导入1. 从studio中导入附件ext_ManasOCRVerify_2_0_0.zip2. 成功后,会在扩展中心中看到我们导入的包3. 控件中会出现以下新增控件验证码识别、健康码颜色识别1. 控件帮忙界面见下图2. 属性界面下二图。(识别模式有三种,健康码识别、验证码识别;验证码识别中,需要选择是纯数字,还是纯字母,还是数字与字母混合)表格图片识别功能说明:使用AI-OCR识别,将表格图片内容识别出来,也能够转为对应的Excel文件入参说明:如果不在本地生成Excel文件,可以忽略“很长Excel文件的路径”和“工作表sheet”执行结果:在指定的路径生成Excel文件,其中list类型的返回值table_ret,如图
  • [技术干货] WeAutomate Studio【控件】【UI自动化—基于OCR的自动化—本地OCR】【PaddleOCR】
    一、 WeAutomate Studio配置1.1  三方件WeAutomate Studio中运行 `UI自动化\基于OCR的自动化\基于本地OCR的自动化` 模块下的设置OCR操作窗口(SetOfflineOcrWindow)和 本地OCR获取文本(offlineGetOcrText)控件时,需要安装额外的三方件 paddleocr 和 paddlepaddle。安装方式如下:本页第四楼this is WeAutomate有本帖的一个简化的操作方式,可以直接参考一下,如果无效,则可以从这里开始。方案一:studio 内部界面安装如上图,点击高级的下拉框 -> 选择python依赖包管理,进入到Python依赖包管理界面,选择安装新模块。在名称栏输入paddlepaddle,点击安装,等待安装完成后,继续按照同样的方式安装paddleocr三方件即可。方案二:使用pip安装打开studio安装目录下的python文件夹的cmd窗口,运行python.exe -m pip install paddlepaddle 和 python.exe -m pip install paddleocr 进行安装。安装异常处理安装中出现报错信息 Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools",需要下载Visual Studio,下载链接:https://visualstudio.microsoft.com/zh-hans/;如下图勾选相关选项后,点击安装,等待安装完毕,重启电脑后重试上述安装过程。1.2 识别模型WeAutomate Studio 中集成了OCR控件中Paddle引擎所需的中文语言模型;若需识别其他语言,需自行下载,参考下载网址:cid:link_1需按照语言下载文本检测、文本识别、文本方向三类模型。下载后放置到WeAutomate Studio指定位置处:%studio安装目录%/public/paddleOcrModel 下。文件夹下包含三个文件夹,每个文件夹下包含inference.pdiparams,inference.pdiparams.info,inference.pdmodel 三个文件二、 本地python环境配置Paddle引擎2.1  三方件安装1)  安装方法命令行 pip install 三方件包名2)  依赖三方件所需依赖:paddlepaddle, python-Levenshtein, paddleocr其中paddlepaddle支持的环境,如下图:3) 安装时异常若中途安装报错出现 Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools",需要下载Visual Studio,下载链接:https://visualstudio.microsoft.com/zh-hans/;如下图2.2  模型配置1)  模型功能文本检测:检测文本,并标框,返回四点坐标;文本识别:识别文本,返回文本和置信度;文本方向分类:能识别出不同方向的文本2) 相关文档及下载地址文档地址:cid:link_0        (若不想看,可根据下列链接直接下载三个模型,支持简体中文、英文、阿拉伯数字)          (1)文本检测模型:https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tar           (2)文本识别模型:https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_rec_infer.tar           (3)文本方向分类模型:https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar3)  模型放置将其下载的三个模型文件解压,并放入到自定义的inference文件夹里,例如见下图           确保每一个模型文件夹中都有三个文件,见下图: 2.3  使用paddleOCR1)  方法一,python代码:直接利用python包(import paddleocr)。[若只识别一张图片,可参考图1-3,若想批量拾取,可看图4]                    注意:代码中的det_model_dir, rec_model_dir, cls_model_dir便是之前下载的三个文件夹路径图1图2图3图42) 方法二,命令行:通过命令行语句实现             (1)从github下载paddleOCR,下载地址:https://github.com/PaddlePaddle/PaddleOCR             (2)将之前的inference文件夹放入到此路径下(即PaddleOCR文件夹下)             (3)cmd黑窗命令行,进入paddleOCR路径下,执行下列语句,生成的结果在PaddleOCR\inference_results中               执行的语句:python tools/infer/predict_system.py --image_dir="./atest" --det_model_dir="./inference/ch_PP-OCRv3_det_infer/"  --  rec_model_dir="./inference/ch_PP-OCRv3_rec_infer/" --cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer/" --use_angle_cls=True --use_space_char=False --use_gpu=False               其中              img_dir:需要识别的图片路径,可以是一张图片路径,也可以是文件夹路径(即识别多张图片)              det_model_dir,rec_model_dir,cls_model_dir:之前下载的三个模型路径              use_angle_cls:是否使用cls_model模型(作用是识别非正方向的文本;即文本可能是上下或左右颠倒过来的,设置为True,可准确识别)              use_space_char:是否识别空格              use_gpu:是否使用GPU               2.4  识别效果图片标注效果见图5 图5图片识别信息见图6图6 
  • [技术干货] WeAutomate Studio【控件】【UI自动化—基于OCR的自动化—本地OCR】【Tesseract】
    一、【使用官方ocr模型】1. 自行下载Tesseract-OCR,安装包下载地址:https://digi.bib.uni-mannheim.de/tesseract/?C=M;O=D ,类似'tesseract-ocr-w64-setup-v5.1.0.20220510.exe';见图1;图12. 安装目录设置环境变量,比如Path中新增‘D:/Tesseract-OCR’;见图2;图23. 设置系统变量名TESSDATA_PREFIX,变量值为'D:/Tesseract-OCR/tessdata';见图3;图34. 默认只有英文语言包,所以下载需要的语言包放入到第3点中的目录下,语言包下载地址:https://github.com/tesseract-ocr/tessdata ,例如‘chi_sim.traineddata’就是中文语言包;见图4;图45. 若出现”no module named 'pytesseract'“,请到studio安装目录下的python文件夹下,进入cmd命令行黑窗口,输入python -m pip install pytesseract。见图5图5二、【自行训练模型】:1. 配置java环境,至少jdk-8及以上,下载地址:https://www.oracle.com/java/technologies/downloads/#jdk18-windows ;见图6;图62. 下载jTessBoxEditor软件:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ ;见图7;图73.  修改环境变量:例如,需要将【使用官方ocr模型】的第2、3点中的路径分别改为‘D:\jTessBoxEditor\tesseract-ocr’和‘D:\jTessBoxEditor\tesseract-ocr\tessdata’;见图8、9;图8图94.  在安装目录中找到train.bat双击打开jTessBoxEditor;见图10;图105.  在jTessBoxEditor界面上的Trainer标签页,见图11;图11   (1)Tesseract Executables设置为例如‘D:\jTessBoxEditor\tesseract-ocr\tesseract.exe’;   (2)Training Data设置为需要识别的图片,png或jpg或tif等;   (3)Language自定义,代表训练的模型包名,例如‘chi_sim_new’,即chi_sim_new.traineddata文件名;   (4)Bootstrap Language指用什么语言模型来识别你的图片,例如此处为官方的‘chi_sim’中文训练模型名;            注意:默认只含有英文包eng.traineddata,需要自行下载中文包chi_sim.traineddata,请看上面第一大点【使用官方ocr模型】中第4点讲解。   (5)找到‘RTL’右侧的下拉框,选择‘Make Box File’,之后点击‘Run’;6. 在jTessBoxEditor界面上的Box Editor标签页,见图12;图12  (1)点击‘Open’打开需要识别的图片,即第5点(2)中设置的;  (2)在Box Editor标签下的Box View标签下,结合右侧操作界面,修改识别错误的字体。其中Character为待修改的字体,修改完记得回车;X,Y,W,H分別为字体周围绿色框的横纵坐标,宽高;Merge,Split,Insert,Delete分别代表合并、分离、插入、删除字体框;  (3)修改完后,点击‘Save’,并点击‘Reload’;7. 回到jTessBoxEditor界面上的Trainer标签页,见图13;图13(1)只需选择第5点(5)中的下拉框的值为‘Train with Existing Box’,再点击‘Run’(2)找到同图片路径下生成的tessdata文件夹下的.traineddata(自己训练的模型),例如此次设置的chi_sim_new.traineddata,把此文件放入此次假设的jTessBoxEditor软件安装目录相关路径中:‘D:\jTessBoxEditor\tesseract-ocr\tessdata’8. 控件中的‘识别语言类型’参数,输入此次训练的模型名,例如chi_sim_new,若想结合官方提供的训练模型一起识别图片,直接用+号连接,比如中文模型chi_sim,则可在参数中填入chi_sim+chi_sim_new,见图14;       【简单建议】:直接输入你自己训练的模型名,不要联合官方的,正确率更高,除非你训练模型的图片够多,够好;       【深入理由解释】:联合官方的模型,会导致你的模型过拟合,除非你训练模型的数据集够大够好。图14
  • [技术干货] 华为云-Python:OCR 文字识别-通用表格识别,图片转文字,返回结果输出至Excel
    # -*- coding: utf-8 -*-"""新手测试笔记文字识别 OCR:通用表格识别"""from huaweicloudsdkcore.auth.credentials import BasicCredentialsfrom huaweicloudsdkocr.v1.region.ocr_region import OcrRegionfrom huaweicloudsdkcore.exceptions import exceptionsfrom huaweicloudsdkocr.v1 import *import base64import xlsxwriterclass OCRHuaWei(object): def __init__(self, ak=None, sk=None, service_area=None, client=None, img_base64=None): self.ak = ak self.sk = sk self.service_area = service_area self.client = client self.base64_data = img_base64 def get_client(self): # 接入OCR_HuaWei credentials = BasicCredentials(self.ak, self.sk) # OCR身份认证 # 创建客户端 self.client = OcrClient.new_builder()\ .with_credentials(credentials)\ .with_region(OcrRegion.value_of(self.service_area)) \ .build() return self.client def image_to_base64(self, imagepath): """ 将本地图片转为base64编码: 方法一:如下 方法二:通过Chrome浏览器转为base64编码(图片拖至Chrome浏览器 → F12 → 源代码 → 选中文件**.png→Pretty print **) """ with open(imagepath, "rb") as bin_data: image_data = bin_data.read() # 二进制格式、只读 self.base64_data = base64.b64encode(image_data).decode("utf-8") # 对本地图片进行base64编码 return self.base64_data def recognize_general_table_request(self): """ OCR-通用表格识别 返回JSON:RecognizeGeneralTableResponse """ try: request = RecognizeGeneralTableRequest() request.body = GeneralTableRequestBody( return_confidence=True, # 返回置信度 return_excel=True, # 返回Excel image=self.base64_data ) response = self.client.recognize_general_table(request) # 返回JSON:RecognizeGeneralTableResponse return response except exceptions.ClientRequestException as e: print(e.status_code) print(e.request_id) print(e.error_code) print(e.error_msg) def response_to_execl(self, data, save_path): """ :param data: response中提取的文本块 words_block_lst :param save_path: 指定输出的Excel文件名 """ col_lst, val_lst = ['words', 'confidence'], [] for block in data: words = block['words'] if words: if 'confidence' in block.keys(): confidence = block['confidence'] else: confidence = '' val_lst.append([words, confidence]) # [文本内容, 置信度] options = {'in_memory': True} with xlsxwriter.Workbook(save_path, options) as workbook: worksheet = workbook.add_worksheet() worksheet.set_column('A1:A20', 50) # 设列宽 worksheet.set_column('B1:B20', 11) worksheet.write_row('A1', col_lst) for i, row_lst in enumerate(val_lst): worksheet.write_row('A'+str(i+2), row_lst) # 需逐行写入 workbook.close() def recognize_general_table_to_excel(self, save_path): # OCR-通用表格识别,保存至Excel # 转为python字典 response = self.recognize_general_table_request().to_dict() words_block_lst = response['result']['words_region_list'][0]['words_block_list'] self.response_to_execl(words_block_lst, save_path) # 另存至Excelif __name__ == "__main__": ak = "********************" # ak:华为云Access Key Id(AK) sk = "****************************************" # sk:华为云Secret Access Key(SK) service_area = "cn-north-4" # API项目区域:华北-北京四 # Create OcrClient(初始化身份认证信息、创建OCR客户端) client = OCRHuaWei(ak=ak, sk=sk, service_area=service_area).get_client() # 支持JPEG、JPG、PNG、BMP、TIFF格式 img_base64 = OCRHuaWei().image_to_base64(r"C:\***\tst.png")    # 实例化 ocr_HuaWei = OCRHuaWei(ak=ak, sk=sk, service_area=service_area, img_base64=img_base64, client=client) save_path = r"C:\***\xlsxwriter_tst.xlsx" ocr_HuaWei.recognize_general_table_to_excel(save_path) # OCR 通用表格识别
  • [分享交流] 香港的服务器访问北京1的OCR服务(香港站点没有OCR)性能非常差;是网络的问题吗?
    1.在本地(深圳)调用北京1的OCR服务 效果很不错;2.放到香港的华为云服务期上就非常慢 10秒左右;3.是因为香港的原因才导致访问内地这边的OCR服务很慢?
  • [问题求助] DevStar 智能OCR图像文字识别 创建者应用部署显示无授权
    【功能模块】DevStar 智能OCR图像文字识别【操作步骤&问题现象】1、在进行智能图像识别时,创建项目后,按照步骤在进行应用部署时,一直显示无授权,重复多次仍旧如此2、【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [高校开发者专区] 如何使用 DevStar 10分钟开发增值税发票文字识别应用
  • [交流吐槽] 体验10分钟开发增值税发票文字识别应用的活动不好用啊
    体验10分钟开发增值税发票文字识别应用的活动不好用啊,购买免费套餐的时候价格一直正在计算,刷新不好用,关闭页面重新登录也不好用。
  • [活动公告] 【中级体验任务】OCR开发体验活动
    体验形式:本次体验采用有产品体验+体验问卷反馈的形式。首先成为我们的体验官 (点击链接申请成为体验官   ) 我们会在OCR开发体验体验群中发放产品代金券,体验官要求操作和体验产品,最后填写体验问券。我们会从中筛选出高质量体验反馈,给予礼品奖励和积分奖励。体验产品简介:文字识别OCR提供在线文字识别服务,将图片、扫描件或PDF、OFD文档中的文字识别成可编辑的文本。OCR文字识别支持证件识别、票据识别、定制模板识别、通用表格文字识别等。活动流程:1.如您已经成为产品体验官,小助手会在群内发布招募公告,直接报名即可。2.如您还未申请成为体验官,请点击链接先申请成为体验官,再参与活动哦~申请链接:https://developer.huaweicloud.com/activity/experience-officer.html 3.填写本次活动需先获得代金券,请先加群,并填写群公告中的问卷领取。4.领取代金券后,根据体验场景完成体验:·体验场景以及流程:https://developer.huaweicloud.com/develop/aigallery/article/detail?id=63e51b08-d892-4e44-9402-f19b371c38c8·体验完成条件:调用OCR的API SDK,自定义模板并使用,认真填写体验问卷·体验问卷:https://devcloud.huaweicloud.com/expertmobile/qtn?id=e4d2bc906ef846ccac7b7198da665978中奖率超高哟~~☆奖励设置如下☆参与奖:若干名活动要求:按照要求完成任务奖励:3体验官积分    优秀奖:若干名活动要求:被专家评为优秀反馈奖品:定制无线鼠标1个+5体验官积分活动体验反馈问卷填写时间2022年5月16日-5月30日
  • [热门活动] 【已结束】体验10分钟开发增值税发票文字识别应用,赢取手环、帆布包、京东卡等好礼
    活动已结束,如有问题可加群反馈活动说明:随着各类文字识别需求场景的增多,从零开始构建文字识别应用满足需求效率太低?DevStar给你解决,10分钟内生成应用,且可为后续开发提供可扩展开发的图片文字识别框架。现在体验还有机会赢好礼!体验指导书>>>活动时间:整体活动即日起,截止时间不限,礼品放完为止心得文章投稿须知>>>获奖公示:奖品公示(截至5月30日):如有异议请加入体验群进行反馈,谢谢!恭喜以上获奖小伙伴,请获奖小伙伴(抽奖奖项获奖已填写收件小伙伴无需重复填写)2022年6月10日之前点链接>>>填写领奖信息,逾期将自动视为放弃,礼品将于15个工作日内安排发放,请耐心等待~奖品公示(6月1日-6月30日):如有异议请加入体验群进行反馈,谢谢!恭喜以上获奖小伙伴,请获奖小伙伴2022年7月15日之前点链接>>>填写领奖信息,逾期将自动视为放弃,礼品将于15个工作日内安排发放,请耐心等待~体验交流福利群注意事项:1、请务必使用个人账号参与活动(IAM、企业账号等账号参与无效);2、华为云新用户定义:2022年5月16日后注册华为云账号的用户;3、一个新用户最多获取一次“新用户体验有奖”奖项,不能再获得其他三个活动的该奖项,但可以参与其余三个同期体验活动的体验抽奖(其余三个活动可进群了解);4、只有完成产品体验并截图回帖后再进行问卷抽奖才算有效。否则并不具备获奖资格,将不会发放奖品;5、用户回帖只会仅楼主可见,以防冒用截图;6、截图务必包含华为云账号;7、获奖名单将于每月底统一公布直至礼品发放完毕,届时将发布兑奖方式。8、本活动最终解释权归华为云所有。
总条数:278 到第
上滑加载中