• [问题求助] 【200DK】【nlp样例】nlp样例make报错
    【功能模块】200DK【操作步骤&问题现象】按照 200DK nlp样例make时报错找不到media_mini.so,但我确实已经按照参考文档进行了media部署和atlasutil安装,能运行目标检测和图像分类的样例。media_mini.so在ascend_ddk子文件夹下能找到。【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [技术干货] 6大革命性创新产品和服务亮相
    6大革命性创新产品和服务亮相随着云原生、AI等技术的发展和应用,千行百业正加速智能升级,迈向全场景智慧。在智能升级过程中,将产生应用现代化、数据资产化和AI工业化开发三大机会。为帮助开发者抓住智能升级的黄金机会,华为发布6大创新产品及服务,其中包括华为云CCE Turbo、华为云CloudIDE、华为云GaussDB(for openGauss)数据库、可信智能计算服务(TICS)、华为云盘古系列大模型以及多样性计算基础软件。余承东介绍,华为云盘古大模型包括4大系列:盘古大模型包括自然语言处理(NLP)、计算机视觉(CV)、多模态和科学计算领域四大系列。其中,最新发布的盘古NLP大模型是业界首个千亿级中文NLP大模型,盘古CV大模型是业界最大的CV大模型。在中文语言理解测评基准测评CLUE中,盘古NLP大模型在总榜、分类榜、阅读理解榜单均获得第一名,刷新业界纪录。最喜欢的就是盘古大模型的对于自然语言的处理   开始手机40TB的文件信息储备  能够轻松的完成问答 资料查询  有助于深度学习AI 领域的使能  引用余总结语:希望能够帮助开发者抓住这次智能升级的机会,站在华为的肩膀上创造未来。最强的智,是众智;最大的力,是合力。每一个开发者都在创造一个一往无前的奔腾时代。世界有你了不起!希望越来越好 加油 。
  • [其他] 分享NLP超越「预训练-调优」范式
    超越「预训练-调优」范式经过不断的迭代,虽然当前的 NLP 模型似乎已经达到了最先进的水平,但是 NLP 研究社区的主流观点仍然是:还有一些问题需要改进。由于我们经常使用对比基准来衡量任务的研究进展,我们渐渐遇到了一些棘手的情况,而且这些模型中有许多已经在现有的 NLP 对比基准上超过了人类的表现。那么我们应该怎么办呢?这就是 Zellers等人(https://arxiv.org/pdf/1905.07830.pdf)提出的问题,在早期的工作中,它为常识性的自然语言推理问题提供了一个挑战性的数据集,结果在发布后不就就发现 BERT 已经达到了与人类相近的表现。为了让问题变得更困难一点,作者发布了一个后续的数据集,该数据集使用一种叫做对抗性过滤的技术选择出令 BERT 和其它模型难以回答的示例。在这个过程中,他们大大增加了对比基准测试的复杂度。BERT 当然并非完美。Nangia 等人(https://arxiv.org/pdf/1905.10425.pdf)的研究表明,基于 BERT 的模型难以应对低资源(可用数据量较少)的句子分类任务,并提出了一个被称为「SuperGLUE」(https://arxiv.org/pdf/1905.00537.pdf)的后续的自然语言理解对比基准,专门对这种机制进行评价。McCoy 等人(https://arxiv.org/pdf/1902.01007.pdf)的另一项工作则说明了,应用于自然语言推理的 BERT 模型实际上学习到了非常简单的语法启发信息,但这些启发信息不能很好地泛化到其它的推演(entailment)例子中。他们也发布了一个评价数据集,从而确定模型是否采用在采用了这些启发信息后也没能解决更一般的推理问题。Min 和 Wallace 等人(https://arxiv.org/pdf/1906.02900.pdf)的另一篇相关论文说明了,许多针对 HotpotQA 数据集(一个多条问答对比基准)提出的模型,实际上并不需要执行多跳推理来获得良好的性能。总的来说,我认为现在大部分的模型仍然是在针对特定数据集做工作,而不是针对特定任务。我们建立的模型可以非常有效地收集和利用数据集特有的偏差。在这个过程中,我们的评价指标又为我们展示了相当具有误导性的分析结果。这让我想起了「古德哈特定律」 :当一项指标成为目标时,那么他就不再是一个好的指标(一项社会指标或经济指标,一旦成为一个用以指引宏观政策制定的既定目标,那么该指标就会丧失其原本具有的信息价值)。那么,接下来我们该如何做呢?考虑到这些评价对比基准对于自然语言任务发展的重要意义,以及模型开发的速度,假设对比基准一成不变似乎是不合理的。相反,我发现开发一套不断演化的、难度越来越大的对比基准,提高自然语言能力的门槛,是特别有前景的。也许从某种程度上来说,这就是我们实现令机器具有人类级别的自然语言能力的方式。转自,MrBear,https://www.leiphone.com/category/academic/6e0VKaqUCAEhjj0q.html
  • [其他] 分享NLP自然语言生成的评价与假设
    再次思考自然语言生成的评价与假设作为对话系统的从业者,在我看来,自然语言生成任务的复杂性是很棘手的。尤其是,对于研究社区来说,对模型的评价仍然是一个非常富有正义的问题,因此看到研究者们积极地改善现状是十分令人鼓舞的。对于初学者来说,Maxime Peyrard(https://www.aclweb.org/anthology/P19-1502)证明了,在评价特定得分范围内的性能时,某些用于文本自动摘要的自动化的评价指标存在不一致性。Clark 等人(https://homes.cs.washington.edu/~nasmith/papers/clark+celikyilmaz+smith.acl19.pdf)也提出了一种新的基于句子移动相似度(sentence mover’s similarity)的生成文本评价指标,该指标被证明比标准的 ROUGE 指标更符合人类的判断。模型生成的文本往往会出现「事实错误」(factual errors)和「虚假陈述」(spurious statements)的问题。因此,Falke 等人(https://leoribeiro.github.io/papers/acl19-summary-correctness.pdf)研究了是否可以用自然语言推理系统对输出进行重排序,从而解决该问题。他们发现现成的自然语言推理系统并不能适用于下游任务,并提供了一些使这些系统能够达到必要性能的工具。Maxime Peyrard 的更加基础的工作(https://www.aclweb.org/anthology/P19-1101)则在理论上严格地定义了本文自动摘要领域的某些概念(例如,冗余度、相关性、信息量)。除了模型评价,Sankar 等人(https://arxiv.org/abs/1906.01603)的优秀工作对「传统的基于循环神经网络」和「基于 Transformer」的序列到序列(Seq2Seq)的对话模型从对话历史中学到的某些假设提出了质疑。他们特别指出,这些模型对于某些应用于上下文的扰动并不十分敏感,这对目前的自然语言对话生成器提出了挑战。转自,MrBear,https://www.leiphone.com/category/academic/6e0VKaqUCAEhjj0q.html
  • [其他] 分享 NLP 模型的可解释性
    模型的可解释性众所周知,神经网络是一种黑箱模型,因此很难真正理解所学到的决策函数。暂且不考虑完全可以解释这些模型是否是必要的,但我们至少可以认为,对模型内部在某种程度上的理解可以对未来的架构设计产生深远的影响。在本届 ACL 上,也有一些优秀的论文旨在解释一些现有的模型。Serrano 等人(https://arxiv.org/pdf/1906.03731.pdf)的工作向「注意力机制可以突显出模型的重要概念」的普遍看法提出了挑战,他们说明这种观点虽然有时是成立的,但是在有些情况下,其它的排序度量标准可能对于表示出模型的决策过程更加有效。另一方面,Jawahar(https://hal.inria.fr/hal-02131630/document)等人深入探讨了利用 BERT 学到的语言结构,说明了 BERT 的网络层学到了丰富的语言信息(例如,底层网络学习到了表面的语言特征,中间层网络学到了句法特征,顶层网络学到了语义特征)。作者认为,对于学习远距离依赖信息,使用更深的网络层架构是很有必要的。还有许多其它的工作也讨论了模型的可解释性。Gehrmann 等人(https://arxiv.org/pdf/1906.04043.pdf)研发了一种工具,它可以通过可视化预测单词的模型密度,来检测用神经网络生成的虚假文本,使人类用户可以将其检测率提升近 20%。Sydorova 等人(https://arxiv.org/pdf/1906.10924.pdf)在问答系统上研究了许多诸如「LIME」(https://github.com/marcotcr/lime)的事后解释方法,说明某些技术可以帮助人们从多个选项中找出优秀的问答系统模型。转自,MrBear,https://www.leiphone.com/category/academic/6e0VKaqUCAEhjj0q.html
  • [其他] 自然语言处理
    NLP是什么?交叉学科: Computer Science,Artificial Intelligence and Computational Linguistics目标:解决计算机和人类((自然)语言的交互问题,尤其是自动处理大规模自然语言语料难点:语言本身复杂、语境相关、抽象概念联想、软硬件技术限制,等等.NLP解决的5个基本问题(摘自李航老师的总结)分类: assigning a label to a string匹配:matching two strings翻译:transforming one string to another·结构化预测:mapping string to structure马氏决策过程:deciding next state given previous state and action自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。2.信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。3.文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。4.机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。5.信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用1、2、3的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。6.问答系统: 对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。7.对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,要开发用户画像以及基于用户画像的个性化回复。摘自  国际计算语言学协会(ACL)候任主席、NLP 领域资深研究者、MSRA副院长周明
  • [其他] 分享一种一种新的 NLP 范式
    一种新的 NLP 范式:先预训练、再调优正如 Krizhevsky 等人于 2011 年发表的开创性工作「ImageNet Classification with Deep Convolutional Neural Networks」一夜之间掀起了计算机视觉领域的革命,深度学习在自然语言处理领域的应用同样也处于爆炸性的快速增长期。从 2015 到 2017 年,NLP 领域中的大多数任务都可以通过一个相对简单的范式来解决:通过某种连续的向量表征嵌入文本输入,对这些表征进行编码,对编码后的表征应用注意力机制,对任务进行预测。Matthew Honnibal 的博文(https://explosion.ai/blog/deep-learning-formula-nlp)对介绍了这种范式。虽然从概念上说很简单,但「嵌入、编码、注意、预测」的范式似乎在 NLP 领域势不可挡,在所有类型的任务(例如机器翻译、问答系统、自然语言推理等等)上都取得了目前最先进的性能。这样的范式在过去一段时间内,似乎是无所不能的。现在,NLP 领域可谓是「城头变幻大王旗」了。随着强大的预训练表征的出现,一些使用语言建模目标进行训练(例如,ELMO,https://arxiv.org/abs/1802.05365),OpenAI GPT(https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf),以及 BERT(https://arxiv.org/pdf/1810.04805.pdf)的 NLP 技术已经可以被直接使用,它们在大规模数据上进行预训练,然后在一些较小的领域内的语料库上针对任务进行调优。实际上,这种策略已经成功地在现有的 NLP 对比基准实验中取得了目前最先进的性能。在本届 ACL 上,这种策略的主导地位被一些已经发表的工作,以及人们对于 NLP 领域研究现状的普遍态度进一步强化了。其中,Dai 和 Yang 等人的工作试图进一步推动基于 Transformer 的超级模型的发展,极大地提升它们的运行速度,实现目前最先进的模型性能。这种新范式的另一个非常具有代表性的工作是 Liu 和 He 等人提出的「Multi-Task Deep Neural Networks for Natural Language Understanding」,他们利用一个基于 BERT 的架构成功登顶 GLUE 对比基准排行榜。(目前排名第3)除了这些工作本身,围绕会议产生的最多的讨论是,如果使用像 BERT这样的训练方法,研究者们之前提出的许多架构可以实现几个百分点的提升。那么问题来了:这种新的范式是否使许多 NLP 领域在建模方面的创新变得不值一提了?针对该问题,我个人持否定态度。总的来说,仍然有很多工作没有得到充分的研究,而这些工作对于推进 NLP 领域在未来的发展是至关重要的。下面,我将列举出其中的一些工作。转自,MrBear,https://www.leiphone.com/category/academic/6e0VKaqUCAEhjj0q.html
  • [其他] 分享NLP的丰富应用
    NLP 的丰富应用自然语言处理领域的研究现状令人欢欣鼓舞,因为我们在该领域开发的模型和工具有解决许多实际问题的潜力。看看本届会议展示的各种各样的 NLP 应用,这一点就愈发明显了。在这个充斥着假新闻和虚假的神经网络新闻的时代,验证陈述的真实性变得越来越重要。Shengli Hu 的工作「Detecting Concealed Information in Text and Speech」(https://www.aclweb.org/anthology/P19-1039)构建了一个利用声学和语言学特征识别文本和语音中的隐藏信息的系统,其性能相较于人类提升了 15%。在健康领域,Shardlow 等人(https://www.aclweb.org/anthology/P19-1037)开发了一种通过特定领域的短语表使得医生编写的临床文书对于患者来说更具可读性的神经网络模型。相关的工作还有,Du 等人(https://arxiv.org/pdf/1906.02239.pdf)提出了根据临床对话提取出疾病症状的任务,并给出了一些对比基线模型,这种手段可以减少初级保健医生花费在与临床文献记录系统交互的时间。今年的 ACL 还专门设立了一个将 NLP 技术应用于生物学问题的研讨会(https://aclweb.org/aclwiki/BioNLP_Workshop)。例如,Fauqueur 等人(https://arxiv.org/pdf/1907.01417.pdf)提出了用于在无需训练数据或手动设计的规则的条件下,从生物医学文献中提取出新的科学事实的技术。Rajagopal 和 Vyas 等人(https://www.aclweb.org/anthology/W19-5009)的另一篇优秀论文,则通过在大规模数据集上训练一个 LSTM-CRF 模型,然后在「低资源」(数据量较少的)语料库上进行调优,从而使语义角色标注系统适用于生物学过程,他们的模型性能在标准数据集上相较于以往的工作提高了 21 个百分点。除此之外,NLP 领域还有一些很酷炫的工作,包括 Zhang 等人的论文「This Email Could Save Your Life: Introducing the Task of Email Subject Line Generation」(https://arxiv.org/abs/1906.03497),他们介绍了电子邮件主题行生成的问题(不妨想一想电子邮件智能回复功能,只不过这里的任务是生成电子邮件的标题),并且针对该问题展示了第一个充满前景的模型,对该模型进行了自动和人工评估。转自,MrBear,https://www.leiphone.com/category/academic/6e0VKaqUCAEhjj0q.html
  • [问题求助] 【Hilens kit】【模型开发】hilens支持自然语言处理类的模型吗?
    在hilens文档的tensorflow算子界面,好像并没有看到embedding,lstm之类的api,是不是hilens无法运行这类模型的技能呢?
  • [其他] 资料笔记 - 大规模生物医学命名实体识别
    论文《Biomedical Named Entity Recognition at Scale》摘要如下:本文基于Apache Spark复现了BiLSTM-CNN-Char深度学习架构,并提出一种单一的可训练的NER模型,该模型无需基于BERT这样的复杂上下文嵌入。同时在7个公共生物医学数据集上均取得了SOTA结果。 命名实体识别是一项应用广泛的自然语言处理任务,是问答、主题建模、信息检索等领域的基础任务。在医疗领域,NER扮演着重要的角色,它从临床笔记和报告中提取有意义的块,然后将这些块反馈给下游任务,如断言状态检测、实体解析、关系提取和去识别。文章主要贡献有三点:1、提供了第一个生产级可伸缩的NER模型实现。2、提供一个最先进的NER模型,超过Stanza和SciSpaCy报告的生物医学NER基准。3、解释了Spark NLP中的NER模型实现,它是唯一可以在Spark集群中扩展的NLP库,同时支持流行的编程语言(Python、Java等)。地址:https://arxiv.org/pdf/2011.06315.pdf
  • [技术干货] 如何让机器说话更像人?清华和京东的三位大牛给出答案 | CCF C³
    金磊 梦晨 发自 凹非寺量子位 报道 | 公众号 QbitA顾客:“我想给父母买一台电视。”客服:“您好,这一款可能会适合您的需求(附带商品链接)。”顾客:“看着不错,但价格好贵啊。”客服:“因为如果是老年人的话,更加推荐4K超清大屏。”顾客:“感谢推荐。”客服:“感谢询问,若有问题随时找我。”……随着电商、网购的普及,诸如上述的场景,相信大多数人都或多或少地经历过。能够根据客户的问题,如此熟练作答的背后,却很可能不是人,而是AI。然而,当问题变得复杂、棘手之时,这种对话AI有时却显得不够智能,往往也因此被客户诟病。近日,由中国计算机学会(CCF)主办、京东承办的第一期CCF C3活动,在京东集团总部如期举行。近30位CCF CTO Club成员和特邀嘉宾参与了此次活动,就“智能客服”这一主题进行了分享和讨论。那么针对这一话题,学界和产业界的大牛,又会擦出怎样的火花?下一代的对话系统,又该何去何从?何晓冬:不仅要响应请求,还要做到情感陪护对于产业界来讲,智能对话机器人或系统,发展现状又是如何?针对这一问题,京东集团副总裁何晓冬带来了《多模态智能交互技术打造有温暖的智能客服体验》的主题演讲。△CCF企工委副主任、TF主席、京东集团副总裁,何晓冬何晓冬介绍道,近几年,在特定领域对话与交互系统中,出现了许多应用,例如京东智能客服、微软小冰、亚马逊智能音箱等等。而早在2018年,谷歌发布的Duplex电话AI,一度被认为通过了图灵测试。但后来却被外媒曝光25%是由人工打出;而在通过自动系统打的电话中,约有15%会需要人工干预。对此,何晓冬直言道:对话AI距离通过图灵测试还有一段距离。若是要达到这一“理想状态”,难点和挑战又是什么?何晓冬认为:对话机器人不仅需要响应用户的请求,完成任务,还需要满足用户对沟通和情感的需求,与用户建立情感联系。为此,何晓冬提出了“多模态人机对话与交互技术”。具体而言,包括三大层:基础技术层:词法句法分析、语义分析、知识构建、知识推理等;核心能力层:语言理解、NLP、多伦对话和跨模态交互;应用层:交互式主动营销导购、智能情感客服、机器阅读理解与问答等。在这种模式下,以“情感分析”为例,基于迁移学习、反向翻译、噪声处理等技术,AI可以在与客户对话过程中,识别客户的情绪变化,使得满意度提升了58%。但与此同时,何晓冬也对“多模态智能对话与交互”提出了五大难点,包括复杂场景下的多轮对话与决策技术、知识获取与推理、深度语义理解、对话内容生成和多模态交互技术。……这便是智能对话系统在产业界的现状与痛点,那么在学界,又有哪些进步与难点呢?黄民烈:下一代对话系统△清华大学计算机系长聘副教授,黄民烈接下来,来自清华大学智能技术与系统实验室的黄民烈教授,从研究的角度分享了对话系统的现状、挑战和未来趋势。黄民烈将下一代对话系统定义为“社交聊天机器人”。他认为,传统对话系统有三大问题。对语义的理解不准确,经常答非所问。在对话中展现的身份、个性不一致,难以获得人类用户的信任。与人类交互中会有社会伦理方面的问题,无法理解其给出的答复中存在的道理、伦理风险,对可能产生的风险视而不见。针对以上问题,下一代对话系统应该结合任务导向型对话系统中的强语义方法,与弱语义的开放域对话系统中端到端框架,使之能够scalable,并且做到有知识、有个性、有温度。对话系统要与结构化的知识相结合,把知识加入到对自然语言的编码和解码过程中,在对话交互中做到言之有物。与此同时,赋予对话系统固定的外在的身份特征,和内在的性格特征,在对话中展现出一致性。并根据这些特征选择适合的语言风格,做到拟人化,体现出人性化的特征。还提出情绪对话生成模型,可以让对话系统能表达喜怒哀乐。同时又借鉴了心理咨询的理论和方法,使对话系统有情感、有温度,能进行情绪支持和社交支持。最后,黄民烈提到现在以GPT3为代表的语言模型,训练参数和使用的非结构化数据已达到千亿规模,但仅以大模型和大数据还不能做好对话系统。未来下一代的对话系统一定是在一个scalable的框架中融合强语义方法,才能做到有知识、有个性、有温度。刘知远:知识指导的预训练语言模型△清华大学计算机系副教授,刘知远来自清华大学的刘知远教授的报告聚焦于技术层面,具体介绍了如何将语义化的知识引入预训练语言模型,解决智能客服技术中存在的问题。预训练语言模型是2018年左右NLP领域的出现的新突破。其优势是突破了人工标记的数据难以大量获取的限制。可充分利用大量互联网上不断产生的为标记数据进行预训练,再辅以少量有标记数据进行微调。预训练语言模型虽在GLUE测试中的表现已超过人类基准,但对语言的理解还停留在浅层。刘知远老师认为,预训练语言模型的进一步发展需要将知识图谱与深度学习两大技术相结合。具体做法有:知识增强:将知识引入到预训练模型的输入阶段,与文本的输入相配合知识支撑:用多个知识适配器将不同类型的知识(如语言学层面的知识和事实层面的知识)统合到模型中。知识约束:在输出阶段加入知识有关的任务,优化目标的同时,将抽取出来的知识返哺到知识图谱中。刘知远表示未来的研究方向之一将是深化知识的层级,从实体知识中抽象出概念性的知识。最后,刘知远介绍了与黄民烈老师及多方团队合作在北京智源研究院算力支持下开发的中文预训练语言模型“清源CPM”。该项目已在GitHub上开源,感兴趣的话可以扫描下图二维码获取。刘知远老师还将研究其研究成果整理出版成中英文书籍,其中《Representation Learning》这本书可以免费获取!传送门在文章末尾。关于CCF CTO Club和C3活动CCF C3活动是CCF CTO Club发起的,面向企业技术专家的热门技术和战略分享会。在此次活动中,CCF副理事长周明在开场致辞过程中,官宣了C3活动的LOGO及其含义:CCF CTO Club首字母:覆盖领域(Computer, Communication and Control);目标:Connection, Culture and Continuum;怎么搞好:Capability,Creativity and Colorfulness。△ CCF副理事长、 创新工场首席科学家,周明周明希望第一期的C3活动,在10年20年后,也为计算产业发展培养国之栋梁,为我们计算机产业更好更强做出贡献。传送门:[1]清源CPM:https://cpm.baai.ac.cn[2]《Representation Learning》:https://arxiv.org/pdf/2102.03732.pdf—完—@量子位 · 追踪AI技术和产品新动态深有感触的朋友,欢迎赞同、关注、分享三连վ'ᴗ' ի ❤——转自知乎/量子位
  • [方案构建] 【自然语言处理】如何在方案中使用华为云自然语言处理能力,请看这里
    分类说明文档名链接产品介绍文档自然语言处理产品介绍自然语言处理服务官网页https://www.huaweicloud.com/product/nlpf.htmlSDK介绍https://support.huaweicloud.com/sdkreference-nlp/nlp_06_0001.htmlAPI介绍https://support.huaweicloud.com/api-nlp/nlp_03_0030.html选型文档适用的场景智能问答系统通过中文分词、短文本相似度、命名实体识别等相关技术计算两个问题对的相似度,可解决问答、对话、语料挖掘、知识库构建等问题。文本分析通过关键词提取、文本聚类、主题挖掘等算法模型,挖掘突发事件、公众话题导向,进行话题发现、趋势发现等。多维度分析公众情绪、热点、趋势、传播途径等,及时全面的掌握话题动态内容推荐通过关键词提取、短文本相似度等技术,提取关键语义信息,精准匹配出语义相似的内容,从而快速构建内容推荐场景。翻译通过文本语言分析,精准翻译语句内容,从而帮助用户跨语言沟通。适配/构建场景文档自然语言处理相关文档自然语言处理论坛页https://bbs.huaweicloud.com/forum/forum-1056-1.html自然语言技术支持文档https://support.huaweicloud.com/nlp/自然语言学习视频https://education.huaweicloud.com/courses/course-v1:HuaweiX+CBUCNXE083+Self-paced/about其他《TensorFlow自然语言处理》https://bbs.huaweicloud.com/blogs/106239NLP入门-- 文本预处理Pre-processinghttps://zhuanlan.zhihu.com/p/53277723
  • [其他] 学习笔记 - NLP之多标签文本分类的一种方法
    NLP中的文本分类可以是多元分类,即文本属于多个类别中的一个分类,也可以是多标签分类,即文本属于多个标签中的多个(一个及以上)分类。多标签分类由于标签之间可能会存在复杂的依赖关系,现阶段还没有成熟的模型来有效解决。在处理多标签分类任务时,一种简单的办法是假定标签之间互相独立,把该任务转化为多元分类。这篇论文《MATCH: Metadata-Aware Text Classification in A Large Hierarchy》提出了针对大型多标签文本分类问题的一个有效解决方案,其阐述如下:多标签文本分类涉及到从标签集中为每个给定文档分配其最相关标签的问题。通常,给定文档的元数据和标签的层次结构在实际应用程序中是可用的。然而,现有的研究大多只关注于文本信息的建模,也有少数尝试使用元数据或层次信号,但没有同时使用它们。在本文中,通过在一个大的标签层次结构(例如有成千上万个标签)中形式化元数据感知文本分类的问题来弥补这一差距。为了解决这个问题,本文提出了MATCH1解决方案 - 一个利用元数据和层次结构信息的端到端框架。为了整合元数据,本文预先训练在同一空间的嵌入下文本和元数据,并利用完全连接的注意力来捕捉它们之间的相互关系。为了充分利用标签层次结构,本文提出了不同的方法来规整每个子标签的参数和输出概率。在两个具有大规模标签层次的大规模文本数据集上进行的大量实验,证明了Match框架有效适用于目前最优的深度学习的范围。地址:https://arxiv.org/pdf/2102.07349.pdf代码:https://github.com/yuzhimanhua/MATCH
  • [其他] Transformers从原理到应用
    Transformers 加速了自然语言处理(NLP)任务的新技术和模型的发展。虽然它主要用于NLP任务,但现在它被大量应用于处理计算机视觉任务。这使它成为一个非常重要的技术。 我知道很多机器学习和NLP的学生和从业者都非常热衷于学习Transformers 。因此,我保存了一份资源和学习材料的配方,帮助学生了解Transformers的世界。 首先,在这篇文章中,我准备了一些材料链接,用于更好地从头开始理解和实现transformer模型。 https://theaisummer.com/transformer/ https://hannes-stark.com/assets/transformer_survey.pdf 技术汇总 此时,你可能正在寻找Transformers的技术摘要和概述。Lilian Weng的博文是一个宝藏,提供了简洁的技术解释/总结: https://lilianweng.github.io/lil-log/2020/04/07/the-transformer-family.html 应用 Transformers 在学习和理解Transformers背后的理论一段时间后,你可能会有兴趣将它们应用到不同的NLP项目或研究中。现在,你最好的选择是HuggingFace的Transformers库。 https://github.com/huggingface/transformers
  • [其他] 自动文本生成研究进展-特别喜欢可以自动帮忙写公文
    【摘 要】自动文本生成是利用人工智能技术实现自然语言文本生成的理论与技术。本文 从文本摘要生成、句子压缩、新闻自动写作,以及图文转换等方面,对自动文 本生成的研究进展进行回顾;同时简要介绍自动文本生成的应用;最后对自动 文本生成研究的发展进行展望。 【关键词】语言智能;文本生成;自动写作;图文转换    自动文本生成是语言智能、自然语言 处理等人工智能领域非常重要的研究内容, 人们希望利用人工智能实现自然语言文本 的自动生成,即希望机器能够像人一样进 行写作,创作出优秀的自然语言文字作品。 自动文本生成的应用前景非常广泛,目前 主要应用于新闻自动生成和人文类写作, 其中新闻自动生成能够以机器独立或人 - 机 混编的方式生成新闻稿件,帮助编辑减少 重复劳动,提高生产效率;人文类写作方 面已有技术能够实现对联自动生成、诗歌 生成、小说生成及部分应用文的自动生成。   1 自动文本生成的分类 自动文本生成的研究和技术实现方法 多样,根据不同的分类标准可以对自动写 作进行如下分类。 (1) 按输入的不同划分自动写作,包 括文本到文本的生成、意义到文本的生成、 数据到文本的生成和图像到文本的生成。 (2)按实现方法的不同划分自动写作, 包括基于模版的文本生成、基于统计的文 本生成、基于深度学习的文本生成,以及基于模版和深度学习混合的文本生成。     1.1 文本到文本的生成 文本到文本的生成是指对给定文本进 行转换和处理从而获得新文本,具体包括 文本摘要(包括单文档摘要和多文档摘要)、 句子压缩、句子融和以及文本复述。     1.2 意义到文本的生成 意义到文本的生成和组合语义分析密 切相关,语义分析旨在对线性词序列进行自 动句法语义解析并得到其真值条件。因为在 分析过程中遵循了弗雷格所提之组合原则, 因而称为组合语义分析,以与分布式语义相 区别。组合语义分析是自然语言处理的一项 核心技术,是迈向深度语义理解的一座重要 桥梁,在多个自然语言处理核心任务中有着 潜在应用,如智能问答、机器翻译等。      1.3 数据到文本的生成 数据到文本的生成技术指根据给定数 值数据生成相关文本,例如基于数值数据 生成天气预报文本、体育新闻、财经报道、 医疗报告等。数据到文本的生成技术具有 极强应用前景,目前该领域已经取得了很 大研究进展,业界已经研制出面向不同领 域和应用的多个生成系统。      1.4 图像到文本的生成 图像到文本的生成技术是指根据给定 的图像生成描述该图像内容的自然语言文 本,例如新闻图像附带的标题、医学图像 附属的说明、儿童教育中常见的看图说话, 以及用户在微博等互联网应用中上传图片时提供的说明文字。        2 结束语       人类作者在撰写文章时通常会对数据、 内容和话题进行深入理解,并可以进行演 绎、推理和联想,从而生成更深入的报道, 充分表达自己的观点和立场。而相比之下, 机器则更长于数据分析和规范的写作,在 自然语言深入理解,以及让稿件具有观点 和立场等方面还有很大的提升空间。 在文本生成动机方面机器学习到的还 只是文字表面,没有具备人类写文章的内在 动因,人写文章表达的是自己的思想和感 受,这是机器所不具备的。因此,即使是机 器写文章,具体想要表达什么还要由人来控 制。要想让机器更自由地生成出合乎逻辑的 文本,还需要更深入的研究,以期让机器对 句子甚至段落的内在逻辑进行学习。         自动文本生成的未来的发展目标—— 人机混合编辑。 来源:中国人工智能学会通讯2019年第5期