• [技术干货] BERT简介
    BERT(Bidirectional Encoder Representations from Transformers)在2018年由Google提出后,对自然语言处理(NLP)领域产生了革命性影响,主要体现在以下几个方面:1. 技术影响双向上下文建模:BERT首次通过Transformer的**掩码语言建模(MLM)和下一句预测(NSP)**任务,实现了真正的双向上下文理解,显著超越了此前基于单向模型(如GPT-1)或浅层双向模型(如ELMo)的性能。预训练-微调范式:BERT确立了“大规模预训练+任务特定微调”的范式,成为NLP领域的标准流程。后续模型(如GPT-3、T5等)均沿袭了这一思路。多项SOTA突破:BERT在11项NLP任务(如GLUE、SQuAD)上刷新了最高性能,尤其在问答、文本分类等任务中提升显著(例如SQuAD 1.1的F1分数提升至93.2%)。2. 行业与学术影响开源生态:Google开源了预训练模型和代码,降低了行业应用门槛,推动了BERT在搜索、广告、客服等场景的快速落地。模型小型化:因BERT-large参数量大(3.4亿),后续催生了DistilBERT、TinyBERT等轻量级模型,适应实际部署需求。多语言扩展:BERT的多语言版本(mBERT)推动了跨语言任务的研究,成为NLP国际化的基础工具。3. 训练成本与硬件原始论文数据:BERT-base(1.1亿参数):16块TPU(TPU v2或v3)训练4天。BERT-large(3.4亿参数):64块TPU训练4天。(注:TPU v3的单卡算力约~123 TFLOPS,64块TPU约合7.9 PFLOPS-day)后续优化:通过模型并行、梯度检查点等技术,训练效率已提升。例如,NVIDIA的DGX A100(2020年)可将BERT-large训练时间缩短至1天内(使用数百块A100)。4. 对比其他模型与GPT-1(2018):BERT参数量更大(GPT-1仅1.17亿),且双向性使其在理解任务上更优。与GPT-3(2020):GPT-3(1750亿参数)训练成本高达千万美元级,但BERT的高效性使其仍是工业界主流选择之一。总结BERT的影响不仅在于技术突破,更在于其开源和可复现性推动了NLP民主化。其训练成本虽高(2018年约数万美元),但远低于后续超大规模模型(如GPT-3),且通过硬件优化和模型压缩技术,实际应用成本已大幅降低。TPU因其高带宽互联和定制化架构,在训练Transformer类模型时效率显著优于同期GPU。
  • [技术干货] NLP神经网络发展简史(2001-2023)
    2001-2018年:8个关键里程碑2001 - 神经语言模型• Bengio提出用神经网络预测下一个词,奠定词嵌入基础。2008 - 多任务学习• Collobert首次在NLP中共享词嵌入参数,提升模型泛化能力。2013 - 词嵌入(Word2Vec)• Mikolov的Word2Vec高效训练词向量,捕获词语关系(如“国王-男人+女人≈女王”)。2013 - NLP神经网络架构• RNN/LSTM、CNN和递归神经网络成为主流,分别擅长序列、局部特征和层次结构建模。2014 - 序列到序列(Seq2Seq)模型• Sutskever的编码器-解码器框架革新机器翻译、文本生成等任务。2015 - 注意力机制• Bahdanau的注意力机制解决长序列信息丢失问题,后成为Transformer核心组件。2015 - 记忆网络• 神经图灵机等模型引入显式记忆模块,增强长期依赖处理能力。2018 - 预训练语言模型• ELMo、GPT-1等模型通过无监督预训练大幅提升下游任务表现,开启大模型时代。2019-2023年:最新进展• 2019:GPT-2展示大规模无监督预训练潜力,BERT(双向Transformer)成为NLP新基准。• 2020:GPT-3(1750亿参数)实现零样本学习,T5统一文本任务为“文本到文本”格式。• 2021:多模态模型崛起(CLIP、DALL·E),Prompt-tuning减少微调成本。• 2022:ChatGPT(基于GPT-3.5)推动对话AI普及,PaLM等模型突破万亿参数。• 2023:GPT-4支持多模态输入,LLaMA等开源模型降低大模型应用门槛。总结:从词嵌入到Transformer,再到今天的多模态大模型,NLP的核心突破始终围绕更高效的表示学习和更强大的上下文建模。未来,轻量化、可解释性和多模态融合仍是关键方向。参考材料:一文看懂 NLP 神经网络发展历史中最重要的 8 个里程碑https://www.infoq.cn/article/66vicQt*GTIFy33B4mu9
  • [热门活动] 【热门活动】LLM生成的虚构内容是否可被完全消除?还是说这是其创造力的必然代价?
    如何通过模型架构改进(如RAG、知识图谱融合)减少幻觉?是否应强制标注“AI生成内容可能存在错误”?
  • 转载:【AI系统】AI的领域、场景与行业应用
    转载自:https://zhuanlan.zhihu.com/p/902958277
  • [其他] 2024 年顶级智能文档处理软件
    原文章:https://www.compdf.com/blog/best-intelligent-document-processing-software1. ComIDPComIDP 是由ComPDFKit开发的智能文档处理解决方案,旨在帮助企业实现数据自动化并提高文档处理效率。这款全面的工具涵盖了整个文档生命周期,包括预处理、识别、分类、数据提取和数据分析,为企业提供可靠的决策支持。它为企业提供标准模型和可定制的 AI 解决方案,以满足其在实现数字化转型方面的特定需求。好处ComIDP拥有专利的版式分析和表格识别功能,适用于各种复杂应用场景,提高文档处理效率。支持导入各种非结构化、半结构化文档并进行结构化处理。基于AI的OCR功能支持70+种语言文档识别,准确率高达95%。如何部署ComIDP解决方案?ComIDP 提供三种部署选项:私有部署、公有云部署和本地部署。无论您的企业需要严格的数据安全性和定制、适合中小型企业的经济高效的解决方案,还是需要无缝集成到大型企业的现有系统和应用程序中,ComIDP都能满足您的需求。通过利用 ComIDP,企业可以显著提高文档协作效率和整体生产力。应用ComIDP为大型模型训练提供高精度数据,从而提升AI性能,同时集成企业业务系统,减少冗余任务,支持工作流自动化。ComIDP可应用于各行各业,例如在金融领域,智能文档处理可以满足企业财务管理需求,在银行领域,ComIDP可以加速信贷审核流程,提高业务处理速度和用户满意度。2. AWSAWS(亚马逊网络服务)智能文档处理 解决方案是一套强大的工具和服务,旨在帮助企业和组织自动化和优化其文档处理流程。整个智能文档处理流程包括几个阶段,首先使用Amazon Textract进行文本和表单识别和提取,然后使用Amazon Comprehend进行智能分析和自动校对,最后将处理后的数据存储在Amazon S3中以供企业集成。3. Automation AnywhereAutomation Anywhere IDP 支持本地和云部署,提供 32 种语言模型,满足企业的文档自动化需求。它可以自动处理 80% 的文档数据,减少人为错误并在数据进入关键业务系统之前进行验证。此外,它还可以帮助企业主动避免与不合规相关的成本。4. Microsoft AzureMicrosoft Azur e Form Recognizer 是一款人工智能文档处理解决方案,可以自动从文档中提取和解析关键信息,实现智能数据处理和管理。从各种类型的文档、表格、收据、发票和卡片中准确提取文本、键值对和表格。具有预构建和自定义 AI 模型,可以从结构化、半结构化和非结构化文档中精确提取字段、复选标记和表格。5. ABBYYABBYY Vantage智能文档处理软件可帮助企业自动处理各种类型的文档,包括结构化、半结构化和非结构化文档。通过利用 ABBYY Vantage 预先训练的 AI 提取模型/技能,企业可以高效处理这些文档类型,同时确保高达 90% 的准确率。该软件可以与其他智能自动化系统无缝集成,例如 Microsoft Power Automate、Blue Prism、UiPath 和 Automation Anywhere。Vantage 还可以监控、衡量和分析所有部署技能的性能,以创建新的学习模型,实现持续改进和优化。6. AppainAppian的智能文档处理技术结合AI,帮助企业优化工作流程、统一数据、提高工作效率。通过将智能文档处理与企业系统集成,不仅可以节省时间,还可以将纸质流程数字化,缩短交易时间。该技术支持AI与RPA、业务规则等结合,实现端到端的全流程自动化,并通过自动化的任务调度和内容处理大幅提高工作吞吐量。......更多内容请查看原文章:https://www.compdf.com/blog/best-intelligent-document-processing-software
  • [问题求助] 提取CMU- Mosei数据集的特征
    再使用CMU-Multimodal SDK Version 1.2.0提取CMU- Mosei数据集的特征时,程序运行到一半叫我“Please input dimension namescomputational sequence version for computational sequence: ” 该输入什么?
  • [技术干货] TensorFlow Transformer 自定义实现(IMDB情感分类)
    Transformer是当下最先进的深度学习架构之一,它被广泛应用与自然语言处理领域和视觉领域。并且替代了以前的循环神经网络(RNN和LSTM),并且以此为基础衍生了诸如BERT、GPT-3等知名网络架构。本文将介绍如何使用TensorFlow原生API从零实现Transformer多头自注意力机制,并在IMDB数据集上验证网络的性能,模型的训练结果如下:TensorFlow极简代码实现可以参考Notebook:
  • [问题求助] 想接文本翻译的API,但是怎么拿用户token?
    就 我想接一个文本翻译的API,给频道机器人加点功能。 但是只能用Java,调接口比较麻烦,在接API的时候发现要有一个"对应region的token" 请问这个token怎么获取的啊?看了半天文档没看明白,是要自己再调一个接口才能拿到吗? String token = "对应region的token"; HttpURLConnection connection = (HttpURLConnection) url.openConnection(); connection.setRequestMethod("POST"); connection.setDoInput(true); connection.setDoOutput(true); connection.addRequestProperty("Content-Type", "application/json"); // 就这里 connection.addRequestProperty("X-Auth-Token", token);
  • [问题求助] 自然语言处理,分词,这里面的PKU标准是什么含义?有什么优点?
    自然语言处理,分词,这里面的PKU标准是什么含义?有什么优点?
  • [问题求助] 华为云NLP的中文分词用的是“基于词典分词算法(字符串匹配分词算法)”还是“基于统计的分词方法”?
    华为云NLP的中文分词用的是“基于词典分词算法(字符串匹配分词算法)”还是“基于统计的分词方法”?
  • [问题求助] 华为云的智能语言对话,用的是不是盘古大模型的技术?
    华为云的智能语言对话,用的是不是盘古大模型的技术?
  • [问题求助] 华为云是否有提供自然语言转SQL的服务?
    华为云是否有提供自然语言转SQL的服务?
  • [问题求助] 使用Atlas开发板将onnx模型转为om模型出现了错误
    使用Atlas开发板将onnx模型转为om模型出现了错误现在不知道该如何解决,其onnx模型如下:
  • 智能数据洞察(DataArts Insight)应用场景
    固定式报表/大屏制作场景场景简介:DataArts Insight支持快速搭建固定报表/大屏,实现全自然语言交互的BI自助分析,让一般业务人员和管理者也能轻松获取和分析数据。用户痛点:业务涉及表多,报表响应慢;报表交互和样式复杂,调试工作量大。产品优势:高性能BI引擎支持多种加速模式,10亿数据秒级响应;AutoGraph引擎自动生成可视化图表,风格统一,美观。个性化分析场景场景简介:企业业务需求的多样化催生出对特定BI功能的需求,除了基础的数据查询和可视化分析,DataArts Insight提供了多种DataArts Insight能力,提供不同的数据视图和报表,以满足不同工作职责的用户需求实现个性化分析。用户痛点:报表需求多、变化快,分析成本高,需求响应慢;BI使用门槛高,业务人员难上手。产品优势:盘古for BI,自然语言交互的BI自助分析,无论是业务人员还是技术人员都能轻松获取和分析数据。数据挖掘场景场景简介:DataArts Insight 内置或集成行业算法,深入挖掘数据价值;支持业务态势洞察,辅助业务管理者高效决策。用户痛点:传统BI只满足简单的统计分析,无法支撑问题根因分析、趋势预测等需求。产品优势:DataArts Insight 内置集成行业算法,深入挖掘数据价值;支持自动分析洞察讲解和专题故事生成,辅助业务管理者高效决策。数据管理和安全场景场景简介:DataArts Insight支持数据平台原生集成。华为云库/仓/湖/治理等数据平台产品原生集成,降低集成和运维难度,提供全链路数据安全保护能力。用户痛点:数据平台架构复杂,集成和运维困难,全链路数据安全存在隐患。产品优势:华为云数据生产线原生集成,开箱即用,提供全链路数据安全保护能力。嵌入式BI场景场景简介:DataArts Insight支持嵌入式分析,使能应用智能化升级。轻松将可视化图表和盘古 for BI智能问答机器人嵌入到您的SaaS应用界面中,使能SaaS应用智能化升级,提升用户体验,并催生新的盈利机会。用户痛点:强依赖嵌入式报表,BI开发门槛高,灵活度低。产品优势:盘古for BI “0”门槛自助分析,全自然语言交互的BI自助分析。
  • [问题求助] 关于将 GPU 项目迁移至 NPU 平台后,AICore利用率问题
    使用 MindStudio 将一个在 GPU 正常运行的项目迁移至 NPU,AICore 的利用率一直上不去。在平时的 RTX 3090 显卡训练,GPU的利用率能够一直维持在 99% 左右,训练时长大约为一个小时。但是,在 NPU 上一直不出结果,训练推进缓慢。是不是我训练的设置有问题?还是项目相应的 API 需要修改?