自然语言处理基础_标签_开发者

博客(441)
视频(0)
论坛(0)
云声(8)
代码示例(0)

[其他] AI绘画识别

AI文字成图识别语言理解，yu'yan'chu'li

yd_256854365 发表于2022-12-21 20:55:01 2022-12-21 20:55:01 最后回复 yd_256854365 2022-12-21 20:55:01
18 0

语言理解自然语言处理基础语言生成
[技术干货] 自然语言处理有没有术语定制或者术语库的功能？

机器翻译有没有术语定制或者术语库的功能？在api文档和控制台都没找到。

yd_216721285 发表于2022-11-07 10:24:09 2022-11-07 10:24:09 最后回复 HWCloudAI 2022-11-07 14:14:31
69 1

机器翻译自然语言处理基础
[经验分享] 使用MindStudio进行bert-large推理在CoNll2003上实体识别NER任务

一、 MindStudio介绍MindStudio提供了在AI开发所需的一站式开发环境，支持模型开发、算子开发以及应用开发三个主流程中的开发任务。依靠模型可视化、算力测试、IDE本地仿真调试等功能，MindStudio能够实现在一个工具上高效便捷地完成AI应用开发。对推理任务而言，MindStudio提供了模型压缩工具、模型转换工具和模型可视化工具。模型转换工具将开源框架的网络模型 (如Caffe、TensorFlow等)转换成昇腾AI处理器支持的离线模型，模型转换过程中可以实现算子调度的优化、权值数据重排、内存使用优化等。二、概述bert-big-NER是一个经过微调的 BERT 模型，可用于命名实体识别任务（NER），并为NER任务实现一流的性能。它可以识别四种类型的实体：位置（LOC），组织（ORG），人员（PER）和其他（MISC）。具体而言，此模型是一个bert-large-cased模型，在标准CoNLL-2003命名实体识别(https://www.aclweb.org/anthology/W03-0419.pdf)数据集的英文版上进行了微调。如果要在同一数据集上使用较小的 BERT 模型进行微调，也可以使用基于 NER 的 BERT(https://huggingface.co/dslim/bert-base-NER/) 版本。本文介绍了如何使用MindStudio将hugging face上开源的bert_large_NER模型部署到Ascend平台上，并进行数据预处理、推理脚本的开发，在CoNLL-2003命名实体识别数据集上完成推理任务。三、推理环境准备3.1 Linux端环境准备1. 配置conda环境、安装依赖包依赖名称版本ONNX1.9.0onnxruntime1.12.1Pytorch1.8.0TorchVision0.9.0numpy1.20.3transformers4.21.1tensorflow2.9.1创建conda环境，并安装对应版本安装项目依赖的包。2. 配置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh #root用户下export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/Ascend/driver/lib64/driver/source /usr/local/Ascend/ascend-toolkit/set_env.shnpu-smi info #查看npu信息3.2 windows端环境准备按照MindStudio用户手册中的安装指南—>本地安装依赖：Python（版本要求：3.7~3.9）、MinGW、CMake，安装MindStudio。四、创建工程4.1 创建工程添加远程服务器，选择远程服务器中正确的CANN版本：等待本地同步远端服务器CANN文件，同步完成后，选择ACL Projection（python）项目，点击完成，完成新建项目。配置项目结构：选择add python SDK：选择ssh interpreter，并配置正确的python解释器：配置本地文件夹和远程服务器映射：4.2配置本地、远端环境同步工程目录为：├──bert_large_NER└── bert-large-NER //hugging face提供的词典等└── bert-large-OUT //推理结果输出路径└── bert_bin //生成的推理用数据保存路径└── conll2003 //CoNll-2003数据集└── bert_metric.py //精度测试脚本└── bert_onnx_inference.py //使用onnx模型推理脚本└── bin_create.py //生成om模型推理用数据脚本└── npy_dataset_generate.py //生成onnx模型推理用数据脚本五、执行推理5.1 数据预处理获取原始数据集CoNLL-2003：数据集下载链接：https://data.deepai.org/conll2003.zip数据集目录为：├──conll2003└── valid.txt //验证集└── train.txt //验证集└── test.txt //测试集该数据集为从路透社的新闻文章中摘取的句子，并为这些单词标记人名、地名和组织名称。以测试集为例，数据集的主要形式如下：词词性词块实体U.N. NNP I-NP I-ORGofficial NN I-NP OEkeus NNP I-NP I-PERheads VBZ I-VP Ofor IN I-PP OBaghdad NNP I-NP I-LOC. . O O在NER任务中，只关心1、4列，其中，第一列代表单词，最后一列代表实体对应的类别。实体类别NAME_ENTITY记录为以下九类：B-PER/I-PER表示单词对应于个人实体的开头。B-ORG/I-ORG表示单词对应于组织实体的开头/内部。B-LOC/I-LOC表示对应于位置实体开头的单词。B-MISC/I-MISC表示单词对应于其他实体的开头。0表示单词非四大类实体。数据预处理：将原始数据集转换为模型输入的二进制数据。数据预处理脚本开发：模型有三个输入，input_ids，attention_mask，token_type_ids；input_ids表示将输入的单词经过bert_large_NER模型生成embedding，在这个过程中，设置sequence长度为512，padding为Ture，实现将input_ids补全为长度为512的向量。同时，在每一条句子对应的512个单词中，哪些是句子的实际长度就将其对应的attention_mask设置为1，padding的部分就将对应的attention_mask设置为0。在一些任务中，存在模型的一条输入超过一句话的情况，此时借助token_type_ids来区分不同的句子，但在NER任务中，CoNLL-2003这个语料库里每个语料只有一句话，因此token_type_ids全都是0。数据预处理的代码实现如下：（bin_create.py、npy_dataset_generate.py）首先，定义INPUT_KEYS和NAME_ENTITY两个列表，分别记录输入和实体名称：设置生成数据的文件结构，并创建三个输入token对应的文件夹：加载bert_large_NER模型中定义的tokenizer：使用tokenizer中的convert_tokens_to_ids方法，将英语单词根据对应的词汇表转换成embedding。手动将每个句子的长度填充到512，并根据句子长度填写attention_mask的值。此外，处理每个单词时，记录其对应的实体类别，并将其记录在annofile中，便于后续精度的计算。对于om模型而言，要求的输入是.bin格式的，并将每条数据对应的三条输入分别存入三个文件夹。对于onnx模型而言，要求的输入是.npy格式的，并将每条数据对应的三条输入存入三个.npy文件。因此，在脚本开发中文件保存时要注意格式要求。执行bin_create.py脚本生成om模型需要的推理数据：运行成功后生成：input_ids.npy、attention_mask.npy、token_type_ids.npy三个npy文件，保存在./bert_bin/bert_npy_2022xxxx-xxxxxx/文件夹下，.anno文件记录token对应的label，保存在./bert_bin文件夹下。执行npy_dataset_generate.py脚本生成onnx模型需要的推理数据：运行成功后生成：input_ids、attention_mask、token_type_ids三个文件夹，保存在./bert_bin/bert_bin_2022xxxx-xxxxxx/文件夹下，文件夹中存的数据格式为.bin，作为om模型的输入。.anno文件记录token对应的label，保存在./bert_bin/文件夹下。5.2 模型转换5.2.1 借助transformers[onnx]工具由path转换成onnxpip install transformers[onnx]使用transformers.onnx进行模型转换：python -m transformers.onnx --model=bert-large-NER --feature=token-classification onnx/■参数说明： -- model：hugging face上下载的开源模型 -- feature：用于导出模型的特征类型 -- onnx/：保存导出的onnx模型的路径运行结束后生成model.onnx保存在./onnx文件夹下。5.2.2 onnx转换成om使用ATC命令将onnx模型转换为om模型：atc --framework=5 --model=model.onnx --output=bert_large_bs16_seq512 --input_shape="input_ids:16,512;attention_mask:16,512;token_type_ids:16,512" --soc_version=Ascend310P3■参数说明： --model：为ONNX模型文件。 --framework：5代表ONNX模型。 --output：输出的OM模型。 --input_shape：输入数据的shape。输入数据有三条，均为batch*512，其中512为sequence序列长度。 --soc_version：处理器型号。运行成功后生成bert_large_bs16_seq512.om模型文件。对om模型进行可视化，观察模型的输入输出。5.3 执行离线推理转换om模型成功后，使用MindStudio remote终端执行ais_infer推理。启动ssh session，切换conda环境，切换工作目录：使用ais_infer工具进行推理：a. 下载推理工具ais_infer。git clone https://gitee.com/ascend/tools.gitb. 编译、安装推理工具cd /home/lcy/RotaE/tools/ais-bench_workload/tool/ais_infer/backend/pip3.7 wheel ./ #编译要根据自己的python版本lspip install aclruntime-0.0.1-cp37-cp37m-linux_x86_64.whl精度测试（以batchsize=16为例）：python ./tools/ais-bench_workload/tool/ais_infer/ais_infer.py --model ./bert_large_bs16_seq512_1.om --input "./bert_bin/bert_bin_20220928-061343/input_ids,.bert_bin/bert_bin_20220928-061343/attention_mask,./bert_bin/bert_bin_20220928-061343/token_type_ids" --output ./bert-large-OUT/bs16 --outfmt NPY■参数说明： --model：为ONNX模型文件。 --batchsize：模型的batchsize大小。 --input：模型的输入，input_ids、attention_mask、token_type_ids三个文件夹。 --output：输出指定在./bert-large-OUT/bs16下。 --outfmt：推理结果保存格式。执行结束输出保存在./bert-large-OUT/bs16下。5.4 精度验证推理成功，需要对推理结果进行后处理，通过bert_metric.py进行后处理，验证推理结果，进行精度评估。精度推理脚本开发：首先获取到./bert-large-OUT/bs16目录下的推理结果文件：根据预测正确的条数/总数量得到预测正确的准确率acc：在MindStudio运行bert_metric.py脚本进行精度验证：运行成功后输出模型预测结果的精度为90.73%，接近于hugging face中在测试集上的精度结果91.2%：六、性能调优使用aoe工具进行自动性能调优。No performance improvement”表明：自动性能调优未带来模型推理性能的提升。Q&A由于bert_large_NER模型转换得到的onnx模型较大，且三个输入的形状均为动态的[batch, sequence]，因此在使用MindStudio进行onnx模型的可视化以及onnx模型向om模型转换时出现报错：故在模型转换时直接使用ATC工具完成。在数据预处理过程中，transformer库提供的AutoTokenizer.tokenizer方法，生成的embedding存在两个问题：①对未见过的单词自动进行拆分，导致生成的input_keys与原句子相比常常会变长，此时annofile中记录的每个单词对应的实体类别就会失效；②在句子的起始处和结尾处自动增加[CLS]、[SEP]作为起始符和终止符，在更加强调整句话语义的NLP任务中是至关重要的，但在关注每个单词对应的实体类别的NER任务中是不重要的。在测试过程中，也推测出作者在进行模型训练时，也是未增加起始、终止符的。因此，选择借助AutoTokenizer.convert_tokens_to_ids方法，先手动的对应词汇表将英语单词编码为embedding，对于词汇表中没有的单词会将其编码成100。之后再对根据句子长度和sequence长度（512）对编码后的input_ids进行padding，完成input_ids，attention_mask，token_type_ids的生成和annofile记录单词label的对应。bert_large_NER的vocab.txt如下所示：由tokenizer方法生成的数据如下所示，101表示[CLS]，102表示[SEP]。由convert_tokens_to_ids生成的数据如下所示，对词汇表中未出现过的单词会将其编码为100。若读者在使用MindStudio过程中或推理过程中遇到问题，可在MindStudio昇腾论坛进行提问、讨论。

yd_295513026 发表于2022-10-31 15:09:41 2022-10-31 15:09:41 最后回复 yd_295513026 2022-10-31 15:09:42
42 0

深度学习自然语言处理基础
[技术干货] 关于利用Ascend910 推理网络，NPU利用率为0的问题

使用mindspore搭建了LeNet5网络，对Mnist数据集进行训练，在Modelarts平台上运行，使用公共资源池中的Ascend 910，在训练阶段可以看到NPU利用率在10%左右，但是在推理阶段NPU利用率始终为0，不知这种现象是否正常？对于NPU的利用是否存在单独的开关呢？还是说只要用mindspore搭建即可？

yd_246025824 发表于2022-10-08 18:12:04 2022-10-08 18:12:04 最后回复 yd_246025824 2022-10-08 18:12:04
90 0

资源专属服务 DEC FPGA加速云服务器 FACS 自然语言处理基础图像标签 Image Tagging
[问题求助] 使用API Explorer提交音频文件进行语音识别成功后，返回的数据再哪儿？求大神指点指点

菜鸟一枚，华为云很多东西搞不懂。今天在华为云上调用了一个语音识别的API，但使用API Explorer提交音频文件进行语音识别成功后，不晓得返回的数据结果在哪儿找。

匿名用户 发表于2022-09-27 17:03:20 2022-09-27 17:03:20 最后回复运气男孩 2022-10-01 10:30:09
50 4

人工智能自然语言处理基础
[执行问题] 模型训练时提示无法编译

报错如下：OSError: Mindspore can not compile temporary source code in terminal. Please write source code to a python file and run the file. 这是什么意思呢，参照网上的例子写的

yd_219389515 发表于2022-09-13 11:29:58 2022-09-13 11:29:58 最后回复 chengxiaoli 2022-09-19 14:24:16
56 3

自然语言处理基础
[其他问题] TensorFlow环境怎么换成mindspore有大佬可以交流一下吗

做一个语音识别的算法，TensorFlow框架下做的，想用mindspore跑起来，有大佬可以教一下吗

yd_253425204 发表于2022-09-12 16:21:41 2022-09-12 16:21:41 最后回复 chengxiaoli 2022-09-19 14:23:54
58 3

自然语言处理基础
[其他] 浅谈自然语言处理（NLP）词的分布式表示

自然语言处理（NLP）词的分布式表示基于矩阵的分布表示基于矩阵的分布表示通常又称为分布语义模型，在这种表示下，矩阵中的一行，就成为了对应词的表示，这种表示描述了该词的上下文的分布。由于分布假说认为上下文相似的词，其语义也相似，因此在这种表示下，两个词的语义相似度可以直接转化为两个向量的空间距离。常见到的 Global Vector 模型（ GloVe 模型）是一种对 “词 - 词” 矩阵进行分解从而得到词表示的方法，属于基于矩阵的分布表示。基于神经网络的分布表示，词嵌入（ word embedding）基于神经网络的分布表示一般称为词向量、词嵌入（ word embedding）或分布式表示（ distributed representation）。这正是我们的主角 today。神经网络词向量表示技术通过神经网络技术对上下文，以及上下文与目标词之间的关系进行建模。由于神经网络较为灵活，这类方法的最大优势在于可以表示复杂的上下文。在前面基于矩阵的分布表示方法中，最常用的上下文是词。如果使用包含词序信息的 n-gram 作为上下文，当 n 增加时， n-gram 的总数会呈指数级增长，此时会遇到维数灾难问题。而神经网络在表示 n-gram 时，可以通过一些组合方式对 n 个词进行组合，参数个数仅以线性速度增长。有了这一优势，神经网络模型可以对更复杂的上下文进行建模，在词向量中包含更丰富的语义信息。

QGS 发表于2022-08-25 19:26:18 2022-08-25 19:26:18 最后回复 lucyandlily 2022-08-30 18:18:34
25 4

自然语言处理基础
[其他] 浅谈监督学习—分类

监督学习—分类与回归方法一样，你选择的结果是偏向于速度还是准确性。如果你在寻找准确性，你不仅可以选择核支持向量机，还可以使用之前提到的其他算法，如神经网络、梯度提升树和随机森林。现在，让我们来介绍一下这个新算法。Kernel Support Vector Machine（核支持向量机）在支持向量机模型中，通常使用核技术来连接线性和非线性。为了理解这一点，有必要知道SVM方法学习如何通过形成决策边界来分离不同的组。但是，当我们在一个维度较高的数据集面前，而且成本昂贵时，建议使用这种核方法。它使我们能够在原始特征空间中工作，而不必在高维空间中计算数据的坐标。它主要用于文本分类问题，因为大多数问题都可以被线性分离。当需要速度的时候，我们需要看看我们要采用的技术是否是可解释的，这意味着它可以解释你的模型中从头到尾发生了什么。在这种情况下，我们可能会使用决策树算法或Logistic回归算法。Logistic Regression（逻辑回归）当因变量是分类的时候，就会使用Logistic回归。通过概率估计，它有助于理解因变量和一个或多个自变量之间的联系。有三种不同类型的Logistic回归。二元逻辑回归，响应只有两个可能的值。多项式Logistic回归，三个或更多的结果，没有顺序。有序逻辑回归，三个或更多的类别，有顺序。逻辑回归算法在酒店预订中被广泛使用，它（通过统计研究）向你展示了你在预订中可能想要的选项，如酒店房间、该地区的一些行程等等。如果你只对问题的输入和输出感兴趣，你可以检查你所处理的数据是否太大。如果数量很大，你可以使用线性支持向量机。Linear Support Vector Machine（线性支持向量机）线性SVM用于线性可分离的数据。它在具有不同变量的数据（线性可分离数据）中工作，这些变量可以用一条简单的直线（线性SVM分类器）来分离。这条直线代表了用户的行为或通过既定问题的结果。由于文本通常是线性可分离的，并且有很多特征，因此线性SVM是用于其分类的最佳选择。在我们的下一个算法中，如果数据量大或者不大，你都可以使用它。Naïve Bayes（朴素贝叶斯）这种算法是基于贝叶斯定理的。它包括通过对象的概率进行预测。它被称为Naïve（朴素），是因为它假设一个特征的出现与其他特征的出现无关。这种方法深受欢迎，因为它甚至可以超越最复杂的分类方法。此外，它构造简单，可迅速建立。由于其易于使用和高效，它被用来做实时决策。与此同时，Gmail使用这种算法来知道一封邮件是否是垃圾邮件。Gmail垃圾邮件检测选择一组词或 "标记" 来识别垃圾邮件（这种方法也用于文本分类，它通常被称为词袋）。接下来，他们使用这些tokens（令牌），将其与垃圾邮件和非垃圾邮件进行比较。最后，使用Naïve Bayes算法，他们计算出该邮件是否是垃圾邮件的概率。

QGS 发表于2022-08-21 15:48:50 2022-08-21 15:48:50 最后回复 lucyandlily 2022-08-30 18:50:34
14 2

自然语言处理基础
[问题求助] 【AICC产品】【对接功能】如何对接NLP产品，能否提供Demo

【功能模块】UAP或IVR【操作步骤&问题现象】X新建项目，8.15版本，计划与智能服务NLP对接，请提供一下对接方法，如果是IVR对接，请提供一下demo。【截图信息】无【日志信息】（可选，上传日志内容或者附件）无

yd_237526391 发表于2022-08-02 14:42:52 2022-08-02 14:42:52 最后回复 AICC支撑人员 2022-08-02 15:05:06
170 1

自然语言处理基础
[其他] 金融情绪分析FinBERT案例简单操作

金融情绪分析FinBERT案例https://developer.huaweicloud.com/develop/aigallery/notebook/detail?id=a9a2dc45-6a1a-4404-8853-e099be013ba1使用 FinBERT 预训练的语言模型进行金融情感分析。等待连接跟着大佬的代码运行即可自然语言处理（NLP）是人工智能领域的一个重要方向，是一门融语言学、计算机科学、数学为一体的科学。本课程就NLP基本理论及应用做了介绍，包括NLP的语言模型，文本向量化，常用的NLP算法，NLP的关键技术及应用系统。第1章自然语言处理简介第2章预备知识第3章关键技术及应用第4章自然语言处理实验点击开始学习：http://su.modelarts.club/TV1oPython编程学习路径】1、Python开发技能测评2、从0开始学Python3、Python场景开发4、Python在AI中的应用点击学习：https://education.huaweicloud.com/programs/2708d678-5dbb-4be2-afc4-88ae69f0dca3/about实践案例《AI作诗》：http://su.modelarts.club/dqTT《金融情绪分析FinBERT》：http://su.modelarts.club/zuPd想要自己开发训练模型的小伙伴，可以在《中英机器翻译》案例基础上进行优化：http://su.modelarts.club/wmot这样感觉就挺爽的，能学到东西，又能拿到证书~完成【实践案例】中任意一个案例即可申请证书，点击填写申请证书信息表：http://su.modelarts.club/Z0Kj

QGS 发表于2022-07-31 15:22:27 2022-07-31 15:22:27 最后回复 QGS 2022-07-31 15:22:27
69 0

金融专区自然语言处理基础
[其他] 浅谈自然语言处理的关键技术

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分自然语言处理的关键技术第一：词法分析，词法分析又分为两个方面，比如词型和词汇。词型一般指的是对单词的前缀，后缀的分析，而词汇主要是对整个词汇系统的控制。第二：句法分析，是大家在输入自然语言进行的一种词汇短语的分析，那么具有什么样的目的，主要是识别句子的句法结构，还可以实现全自动句法分析过程。第三：词义分析，是一种自然语言语义的分析法，词法分析和句子分析，会涉及到各个方面，比如单词，词组，句子以及段落等等。第四：语境分析，是指去查询语篇以外的空隙，还更正解释所要查询语言的技术，指一般的知识，特定领域的知识或者是我们去查询的知识。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面

QGS 发表于2022-07-29 21:17:26 2022-07-29 21:17:26 最后回复 QGS 2022-07-29 21:17:26
63 0

自然语言处理基础
[热门活动] DevRun AI应用开发-自然语言处理实战营

【活动亮点】作为人工智能的一个重要方向，AI应用开发实战营将为大家呈现自然语言处理技术的基础技术，结合人工智能应用场景案例，帮助大家理解叩开自然语言处理实战营的大门，做到学以致用。【活动流程】点击完成报名报名加入学习群，②在线课程，③实践案例，④直播课，⑤结业颁奖一、【学习交流群】点击报名加入微信群二、【在线课程】自然语言处理（NLP）是人工智能领域的一个重要方向，是一门融语言学、计算机科学、数学为一体的科学。本课程就NLP基本理论及应用做了介绍，包括NLP的语言模型，文本向量化，常用的NLP算法，NLP的关键技术及应用系统。第1章自然语言处理简介第2章预备知识第3章关键技术及应用第4章自然语言处理实验点击开始学习：http://su.modelarts.club/TV1o 三、【实践案例】1、《AI作诗》：http://su.modelarts.club/dqTT2、《金融情绪分析FinBERT》：http://su.modelarts.club/zuPd3、想要自己开发训练模型的小伙伴，可以在《中英机器翻译》案例基础上进行优化：http://su.modelarts.club/wmot 四、【直播课】老师火速筹备中，请耐心等待~ 五、【结营颁奖】完成【实践案例】中任意一个案例即可申请证书，点击填写申请证书信息表：http://su.modelarts.club/Z0Kj【Python编程学习路径】1、Python开发技能测评2、从0开始学Python3、Python场景开发4、Python在AI中的应用点击学习：https://education.huaweicloud.com/programs/2708d678-5dbb-4be2-afc4-88ae69f0dca3/about 六、【活动说明】请务必使用个人实名账号参与活动（IAM、企业账号等账号参与无效）。为保证活动的公平公正，华为云有权对恶意刷活动资源（“恶意”是指为获取资源而异常注册账号等**活动公平性的行为，黑产用户不计入活动统计），利用资源从事违法违规行为的用户收回奖励资格，本次活动一个实名认证账号只能对应一个收件人（只能参加一次），如同一账号填写多个不同收件人，不予发放奖励，且每个账号只记录最早的一次回帖，多发无效。排名奖项若有并列，按照完成时间先后顺序排列。本活动规则由华为云在法律规定范围内进行解释。华为云保留不时更新、修改或删除本活动规则的权利。上述更新、修改或删除于公布时即时生效，用户应当主动查阅本活动规则的最新内容。所有参加本活动的用户，均视为认可并同意遵守《华为云用户协议》，包括以援引方式纳入《华为云用户协议》的《可接受的使用政策》、《法律声明》、《隐私政策声明》、相关服务等级协议（华为ModelArts服务声明、SLA等），以及华为云服务网站规定的其他协议和政策（统称为“云服务协议”）的约束。如果您不同意本活动规则和云服务协议的条款，请勿参加本活动。

HWCloudAI 发表于2022-07-20 09:20:09 2022-07-20 09:20:09 最后回复 yd_239752338 2023-03-15 14:21:15
1266 4

人工智能自然语言处理基础
[其他] 自然语言处理发展史

最早的自然语言理解方面的研究工作是机器翻译。1949年，美国人威弗首先提出了机器翻译设计方案。其发展主要分为三个阶段。早期自然语言处理第一阶段(60~80年代):基于规则来建立词汇、句法语义分析、问答、聊天和机器翻译系统。好处是规则可以利用人类的内省知识，不依赖数据，可以快速起步；问题是覆盖面不足，像个玩具系统，规则管理和可扩展一直没有解决。统计自然语言处理第二阶段(90年代开始)：基于统计的机器学习(ML)开始流行，很多NLP开始用基于统计的方法来做。主要思路是利用带标注的数据，基于人工定义的特征建立机器学习系统，并利用数据经过学习确定机器学习系统的参数。运行时利用这些学习得到的参数，对输入数据进行解码，得到输出。机器翻译、搜索引擎都是利用统计方法获得了成功。神经网络自然语言处理第三阶段(2008年之后)：深度学习开始在语音和图像发挥威力。随之，NLP研究者开始把目光转向深度学习。先是把深度学习用于特征计算或者建立一个新的特征，然后在原有的统计学习框架下体验效果。比如，搜索引擎加入了深度学习的检索词和文档的相似度计算，以提升搜索的相关度。自2014年以来，人们尝试直接通过深度学习建模，进行端对端的训练。目前已在机器翻译、问答、阅读理解等领域取得了进展，出现了深度学习的热潮华为云自然语言处理和自然语言处理的方法、难点。视频https://education.huaweicloud.com/courses/course-v1:HuaweiX+CBUCNXE177+Self-paced/courseware/6ca29e8127cb49cd9c1445fd42f96ecd/9fbd741452a34d3993a76d7c463a2a3b/

QGS 发表于2022-07-17 14:31:13 2022-07-17 14:31:13 最后回复 QGS 2022-07-17 14:31:13
161 0

深度学习自然语言处理基础
[其他] 介绍一个活动 DevRun AI应用开发-自然语言处理实战营案例简单（证书好拿）

DevRun AI应用开发-自然语言处理实战营https://developer.huaweicloud.com/signup/e4240e984d1c4d20bfcc83e7f7648b6c【活动亮点】作为人工智能的一个重要方向，AI应用开发实战营将为大家呈现自然语言处理技术的基础技术，结合人工智能应用场景案例，帮助大家理解叩开自然语言处理实战营的大门，做到学以致用。【活动流程】报名加入学习群，②在线课程，③实践案例，④直播课，⑤结业颁奖一、【学习交流群】扫码加入学习交流群二、【在线课程】自然语言处理（NLP）是人工智能领域的一个重要方向，是一门融语言学、计算机科学、数学为一体的科学。本课程就NLP基本理论及应用做了介绍，包括NLP的语言模型，文本向量化，常用的NLP算法，NLP的关键技术及应用系统。第1章自然语言处理简介第2章预备知识第3章关键技术及应用第4章自然语言处理实验点击开始学习：http://su.modelarts.club/TV1o【结营颁奖】完成【实践案例】中任意一个案例即可申请证书，点击填写申请证书信息表：http://su.modelarts.club/Z0Kj【Python编程学习路径】1、Python开发技能测评2、从0开始学Python3、Python场景开发4、Python在AI中的应用点击学习：https://education.huaweicloud.com/programs/2708d678-5dbb-4be2-afc4-88ae69f0dca3/about现在的案例比以前好跑太多了，很多环境都要自己配置，现在只需要切换环境，点击运行即可

QGS 发表于2022-07-16 20:43:47 2022-07-16 20:43:47 最后回复 zdnyyh 2022-07-17 22:42:53
437 4

人工智能自然语言处理基础

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript