- 关键词抽取是从文本中自动提取核心词/短语的NLP基础技术,广泛应用于信息检索、文本分类、自动摘要、个性化推荐及舆情分析等场景。 关键词抽取是从文本中自动提取核心词/短语的NLP基础技术,广泛应用于信息检索、文本分类、自动摘要、个性化推荐及舆情分析等场景。
- 在“Token”被定名为“词元”之后,本文从计算本体、多模态演进与回译一致性等角度指出,该命名存在路径依赖与语义锚定问题。Token本质是跨模态的离散符号单元,而非语言“词”。相比之下,“符元”更能对齐计算本质,具备长期稳定性与认知一致性。 在“Token”被定名为“词元”之后,本文从计算本体、多模态演进与回译一致性等角度指出,该命名存在路径依赖与语义锚定问题。Token本质是跨模态的离散符号单元,而非语言“词”。相比之下,“符元”更能对齐计算本质,具备长期稳定性与认知一致性。
- 为什么你的 NLP 模型一换语言就“智商归零”?多语言 NLP 的坑,比你想的深得多 为什么你的 NLP 模型一换语言就“智商归零”?多语言 NLP 的坑,比你想的深得多
- 别再只会“复制粘贴数据”了:聊聊 NLP 数据增强的那些实战骚操作 别再只会“复制粘贴数据”了:聊聊 NLP 数据增强的那些实战骚操作
- 别再一把梭TF-IDF了:从文本清洗到向量化,一条真正“能用”的NLP数据管道 别再一把梭TF-IDF了:从文本清洗到向量化,一条真正“能用”的NLP数据管道
- 笔者看书时,看到书中提到的这个 WordPiece,只是短短的一句带过。于是查了些资料,做了深入了解。BERT 使用的 WordPiece 词元化方法是一种基于子词分割的技术,其目的是有效地解决自然语言处理中的词汇表问题,同时提高模型的泛化能力。本文将详细阐述 WordPiece 的工作原理,并通过实例与代码进行深度解析。 WordPiece 的背景与目标在自然语言处理中,词汇表的大小直接影... 笔者看书时,看到书中提到的这个 WordPiece,只是短短的一句带过。于是查了些资料,做了深入了解。BERT 使用的 WordPiece 词元化方法是一种基于子词分割的技术,其目的是有效地解决自然语言处理中的词汇表问题,同时提高模型的泛化能力。本文将详细阐述 WordPiece 的工作原理,并通过实例与代码进行深度解析。 WordPiece 的背景与目标在自然语言处理中,词汇表的大小直接影...
- 在自然语言处理(NLP)领域,Transformer架构及其变种模型如BERT(Bidirectional Encoder Representations from Transformers)和GPT(Generative Pre-trained Transformer)的出现,极大地推动了NLP技术的发展。本文将深入探讨BERT与GPT的架构差异,分析自注意力机制与卷积神经网络在处理文本数... 在自然语言处理(NLP)领域,Transformer架构及其变种模型如BERT(Bidirectional Encoder Representations from Transformers)和GPT(Generative Pre-trained Transformer)的出现,极大地推动了NLP技术的发展。本文将深入探讨BERT与GPT的架构差异,分析自注意力机制与卷积神经网络在处理文本数...
- 分词的定义与重要性 分词的任务是把连续的文本序列切分成具有独立语义的基本单元(即“词”或“词元”)。对于英文等天然有空格作为分隔符的语言,分词相对简单。但对于中文、日文、泰文等语言,文本是连续的字符流,词之间没有明确的边界。例如,“给阿姨倒一杯卡布奇诺”,计算机需要依据算法将其正确地切分为 ["给", "阿姨", "倒", "一杯", "卡布基诺"]。在传统的 NLP 处理流程中,分词是后... 分词的定义与重要性 分词的任务是把连续的文本序列切分成具有独立语义的基本单元(即“词”或“词元”)。对于英文等天然有空格作为分隔符的语言,分词相对简单。但对于中文、日文、泰文等语言,文本是连续的字符流,词之间没有明确的边界。例如,“给阿姨倒一杯卡布奇诺”,计算机需要依据算法将其正确地切分为 ["给", "阿姨", "倒", "一杯", "卡布基诺"]。在传统的 NLP 处理流程中,分词是后...
- NLP的定义 什么是NLP自然语言处理(Natural Language Processing, NLP) 是人工智能(AI)领域的重要组成部分,它赋予计算机 理解、解释、生成人类语言 的能力,并基于这些能力对文本数据进行决策 1。NLP 旨在弥合人类交流的模糊性、情境性和复杂性与计算机精确、形式化的指令系统之间的鸿沟。例如,计算机需要理解"我今天很蓝",这里的"蓝"并非颜色,而是情绪的表... NLP的定义 什么是NLP自然语言处理(Natural Language Processing, NLP) 是人工智能(AI)领域的重要组成部分,它赋予计算机 理解、解释、生成人类语言 的能力,并基于这些能力对文本数据进行决策 1。NLP 旨在弥合人类交流的模糊性、情境性和复杂性与计算机精确、形式化的指令系统之间的鸿沟。例如,计算机需要理解"我今天很蓝",这里的"蓝"并非颜色,而是情绪的表...
- # Transformer革命:自然语言处理的未来引擎 🚀## 摘要Transformer架构自2017年提出以来,彻底重构了自然语言处理(NLP)的技术范式。本文从技术原理、架构创新、应用场景三个维度深度解析Transformer的核心价值,通过代码实现与对比实验展示其技术优势,并探讨其在多模态领域的扩展潜力。读者将掌握Transformer的工作机制、掌握主流框架的实战技巧,并理解其对... # Transformer革命:自然语言处理的未来引擎 🚀## 摘要Transformer架构自2017年提出以来,彻底重构了自然语言处理(NLP)的技术范式。本文从技术原理、架构创新、应用场景三个维度深度解析Transformer的核心价值,通过代码实现与对比实验展示其技术优势,并探讨其在多模态领域的扩展潜力。读者将掌握Transformer的工作机制、掌握主流框架的实战技巧,并理解其对...
- 首先,自然语言处理(NLP)涉及文本分析、机器翻译、情感分析等,用户可能想知道最新的进展,比如Transformer模型和BERT、GPT等预训练模型的应用。计算机视觉方面,可能涉及图像识别、目标检测、生成对抗网络(GANs)等,用户可能对最新的CV技术如Vision Transformer感兴趣。强化学习则是关于智能体在环境中学习最优策略,可能涉及深度强化学习(DRL)在游戏、机器人控制等... 首先,自然语言处理(NLP)涉及文本分析、机器翻译、情感分析等,用户可能想知道最新的进展,比如Transformer模型和BERT、GPT等预训练模型的应用。计算机视觉方面,可能涉及图像识别、目标检测、生成对抗网络(GANs)等,用户可能对最新的CV技术如Vision Transformer感兴趣。强化学习则是关于智能体在环境中学习最优策略,可能涉及深度强化学习(DRL)在游戏、机器人控制等...
- 本文将简单介绍自然语言处理的相关知识,重点介绍Hanlp组件的功能,从云化和本地化部署两种模式分别介绍,对有需要的朋友有所帮助。 本文将简单介绍自然语言处理的相关知识,重点介绍Hanlp组件的功能,从云化和本地化部署两种模式分别介绍,对有需要的朋友有所帮助。
- 💎【行业认证·权威头衔】✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者🏆【荣誉殿堂】🎖 连续三年蝉联"华为云十佳博主"(2022-2024)🎖 双冠加冕CSDN"年度博客之星TOP... 💎【行业认证·权威头衔】✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者🏆【荣誉殿堂】🎖 连续三年蝉联"华为云十佳博主"(2022-2024)🎖 双冠加冕CSDN"年度博客之星TOP...
- 在微信自然语言处理(NLP)任务中,L1正则化更适用于特征选择和高维数据场景,而L2正则化更适用于防止过拟合和保持模型稳定性。具体选择需结合任务需求、数据特性及模型目标,以下为详细分析: L1正则化在微信NLP中的适用性特征选择与高维数据场景:微信NLP任务中,若输入特征维度高(如文本分类、命名实体识别等),且存在冗余或不相关特征,L1正则化可通过稀疏化权重自动筛选关键特征。优势:L1正则化... 在微信自然语言处理(NLP)任务中,L1正则化更适用于特征选择和高维数据场景,而L2正则化更适用于防止过拟合和保持模型稳定性。具体选择需结合任务需求、数据特性及模型目标,以下为详细分析: L1正则化在微信NLP中的适用性特征选择与高维数据场景:微信NLP任务中,若输入特征维度高(如文本分类、命名实体识别等),且存在冗余或不相关特征,L1正则化可通过稀疏化权重自动筛选关键特征。优势:L1正则化...
- 简单来说,Patch就是ViT将图像分割成的一个个小图像块。你可以把它想象成将一张完整的拼图打散成一个个小拼图块,然后模型再对这些小拼图块进行处理。 1. 核心概念:什么是Patch?在传统的卷积神经网络中,我们使用滑动窗口的卷积核来提取图像的局部特征。而ViT的思路完全不同,它借鉴了Transformer在NLP领域的成功经验。类比NLP中的Token(词元):在NLP中,一句话会被切分成... 简单来说,Patch就是ViT将图像分割成的一个个小图像块。你可以把它想象成将一张完整的拼图打散成一个个小拼图块,然后模型再对这些小拼图块进行处理。 1. 核心概念:什么是Patch?在传统的卷积神经网络中,我们使用滑动窗口的卷积核来提取图像的局部特征。而ViT的思路完全不同,它借鉴了Transformer在NLP领域的成功经验。类比NLP中的Token(词元):在NLP中,一句话会被切分成...
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签