-
一、技术逻辑层面的融合知识图谱的持久记忆功能知识图谱通过实体-关系-属性三元组构建结构化知识库,形成长期记忆网络。其核心价值在于:提供可解释的知识关联路径(如"姚明→出生于→上海")支持多模态知识融合(文本/图像/视频的语义关联)动态遗忘的短期调节机制动态遗忘通过以下方式与知识图谱互补:选择性遗忘过时信息(如政策法规更新时自动淘汰旧条款)强化高频使用知识节点的权重(通过衰减算法实现) 二、典型应用场景教育领域学习路径动态调整:根据遗忘曲线推荐复习节点认知诊断:识别学生薄弱知识点并生成强化训练方案媒体行业新闻时效性管理:自动淘汰过时报道并标记关联事件敏感信息过滤:建立合规知识库并动态更新黑名单企业知识管理技术文档版本控制:追踪知识更新并归档历史版本跨部门知识共享:构建动态权限访问图谱三、前沿发展趋势与大语言模型协同通过RAG(检索增强生成)实现动态知识注入结合遗忘机制优化模型内存占用元宇宙场景应用虚拟角色记忆构建:实时更新数字人的知识图谱沉浸式学习体验:基于遗忘曲线的自适应教学内容生成
-
阶段一:项目启动与规划 (Project Initiation & Planning)定义标注目标与规则:明确任务类型:首先要确定是哪种AI任务(如计算机视觉、自然语言处理等)及其具体的标注类型。计算机视觉 (CV):图像分类、目标检测(拉框)、图像分割(像素级)、关键点检测、OCR转写等。自然语言处理 (NLP):文本分类、命名实体识别(NER)、情感分析、关系抽取、机器翻译数据清洗、意图槽位标注等。音频 (Audio):语音转写、声音事件检测、说话人日志等。制定详细的标注规则说明书:这是最重要的文档,必须清晰、无歧义。它需要定义:标签体系 (Label System):所有类别的定义和具体例子。例如,“汽车”是否包含面包车、卡车?车顶打开的天窗是否算作车体的一部分?标注边界案例 (Edge Cases):如何处理模糊、有争议的情况。例如,被遮挡一半的物体要不要标?非常模糊的目标要不要标?标注工具使用规范:框要贴紧边缘还是留空隙?多边形用多少个点?资源评估与计划:数据量评估:需要标注多少数据?初期可能需要先标注一个种子数据集用于模型训练和评估。预算与时间线:根据数据量、标注复杂度(标注一个样本的平均时间)和人力成本,估算总预算和项目周期。团队组建:决定是内部标注、外包给专业标注公司,还是使用众包平台。阶段二:数据准备与管理 (Data Preparation & Management)数据收集与清洗:收集原始数据(爬虫、传感器采集、业务日志等)。进行初步清洗,去除重复、低质、无效的数据(如损坏的图片、空文本)。数据分区与版本控制:将数据划分为训练集、验证集和测试集。通常测试集会被严格保护,标注质量要求最高,甚至由专家标注。对所有数据和标注文件进行版本控制,清晰记录每次的变更。阶段三:标注系统构建 (Annotation System Setup)选择与部署标注工具:开源工具:LabelImg, LabelMe, CVAT (计算机视觉),BRAT (NLP) 等。适合技术能力强、需要定制的团队。商业化平台:LabelStudio, Scale AI, Appen, 百度的众测、阿里达摩院等。提供一体化解决方案,功能强大,管理方便。自研工具:当有特殊需求或极高安全性要求时,会选择自研。平台配置:在工具中创建项目,配置标签列表、标注规则说明。设置质检流程和通过标准。阶段四:标注人员管理 (Annotator Management)招募与培训:根据项目难度招募合适的标注员。进行强制性培训:讲解标注规则,并进行摸底考试,不合格者不能上岗。分工与发放:将数据分配给不同的标注员,通常同一份数据会分给多人做交叉标注,用于后续计算一致性。阶段五:标注执行与质检 (Annotation Execution & QC)这是核心执行环节,通常是一个循环迭代的过程。试标与校准:项目开始初期,让所有标注员标注同一批数据(比如100条)。计算标注者间信度,找出分歧点,召开评审会,统一标准,更新标注规则书。这个步骤至关重要,能极大提高后续整体一致性。正式标注:标注员按照规则和工具使用规范进行标注。质量检查 (Quality Control, QC):一级质检(内部抽检):标注员自查或小组长抽检。二级质检(专业质检):由专职质检员或资深标注员进行,抽查比例更高(如30%-100%)。质检方法:抽样检查:随机抽取一定比例的样本进行复核。交叉验证:将同一份数据分给多个标注员标,计算一致性(Kappa系数、IoU等),分歧大的数据由专家仲裁。问题反馈与修正:质检发现的问题及时反馈给标注员,使其理解错误并修改。反复出错者可能需要重新培训。阶段六:验收与交付 (Acceptance & Delivery)最终验收:由项目经理或算法工程师对最终标注结果进行验收,尤其是测试集部分。数据交付:导出指定格式的标注文件(如COCO, Pascal VOC, TXT等)。提供数据集说明文档,包括标签分布统计、标注人员信息、版本号等。阶段七:项目闭环与迭代 (Project Closure & Iteration)效果评估:用标注好的数据训练模型,模型在测试集上的表现是衡量标注质量的最终金标准。主动学习迭代:将模型预测不确定度高的样本(困难样本)找出来,优先交给标注员进行标注。将这些新标注的高价值数据加入训练集,重新训练模型,可以更快地提升模型性能。这就形成了一个“标注 -> 训练 -> 发现困难样本 -> 再标注”的飞轮,是最高效的数据标注策略。
-
1. 特征选择(Feature Selection)这是最直接、最有效的特征工程手段。直接移除无关或冗余的特征,降低维度。Filter(过滤法):基于统计指标选择特征,与模型无关。方差选择:移除方差接近0的特征(即几乎所有样本值都相同),这类特征毫无区分度。from sklearn.feature_selection import VarianceThreshold相关性分析:移除与目标变量相关性极低的特征(对模型预测无帮助)。移除与其他特征高度相关的特征(冗余特征,提供了重复信息)。可以使用相关矩阵热图来可视化。卡方检验:适用于分类问题,检验特征与目标之间的独立性。互信息:衡量特征与目标变量之间的任意关系(包括非线性),比相关性更强大。Wrapper(包装法):使用模型的性能作为评价准则来选择特征子集。递归特征消除(RFE):例如,RFECV 可以自动选择最优特征数量。它反复构建模型(如线性回归、SVM),并剔除最不重要的特征,直到达到指定数量。正向选择/反向剔除:逐步添加或删除特征,看其对模型性能的影响。Embedded(嵌入法):模型训练过程本身自动进行特征选择。使用L1正则化(Lasso):L1正则化会将不重要特征的系数压缩到** exactly 0**,从而实现特征选择。这是非常强大且常用的方法。from sklearn.linear_model import LassoCV基于树模型的特征重要性:训练如随机森林、XGBoost等模型后,查看 feature_importances_ 属性,剔除重要性为0或很低的特征。2. 特征降维(Dimensionality Reduction)在不直接删除特征的情况下,将高维特征空间映射到低维空间,同时尽可能保留重要信息。主成分分析(PCA): 将原始特征线性变换为一组方差最大、彼此不相关的新特征(主成分)。通常保留95%方差的成分即可,极大减少维度。注意: 转换后的特征失去了原始语义。线性判别分析(LDA):与PCA类似,但是一种有监督方法,降维后会使得类别间的分离度最大。3. 特征编码(Feature Encoding)的谨慎处理不合理的编码会引入不必要的复杂度。避免过多One-Hot编码:对于高基数(High-Cardinality) 类别特征(如“邮政编码”、“用户ID”),直接进行One-Hot编码会产生大量稀疏的特征列,极易导致过拟合。解决方案:目标编码(Target Encoding):用该类别下目标变量的均值(或其它统计量)来替换类别标签。重要: 必须使用交叉验证技巧或在训练集上拟合后转换验证/测试集,否则会引入数据泄露。频率编码:用该类别的出现频率来编码。简单有效,不会泄露目标信息。嵌入:对于深度学习,可以为高基数特征学习一个低维的嵌入向量。4. 特征构建(Feature Engineering)与简化创建更有意义、更简单的特征来代替原始复杂特征。分箱(Binning / Discretization):将连续特征转换为离散的区间(如将“年龄”分为“青年”、“中年”、“老年”)。这降低了模型对连续值细微波动的敏感性,使其更稳定,抗噪声能力更强。pd.cut()简化交互特征:虽然特征交互(如 a * b, a / b)有时很有效,但盲目创建所有特征的交互项会使特征空间爆炸式增长。应该基于业务理解创建有明确意义的交互特征,而不是穷举。5. 处理缺失值与异常值异常值和噪声是模型过拟合的“元凶”之一,模型会为了拟合这些极端点而变得复杂。异常值处理:盖帽法(Capping):将超出特定分位数(如99%)的值用该分位数的值替换。直接删除(如果异常值很少且确实是错误数据)。缺失值处理:避免使用一个过于复杂的模型(如另一个ML模型)来预测缺失值,这本身可能引入过拟合。优先使用简单方法,如中位数、众数填充,或添加一个“是否缺失”的指示标志。
-
一个简单的例子假设我们要根据“学习时间”预测“考试成绩”。数据点中包含一些噪声(比如某天学生生病了,学得久但考得差)。欠拟合模型:可能只用一条直线来拟合。它无法捕捉“学习时间增加到一定程度后,成绩提升变慢”的趋势,导致预测不准确。恰到好处的模型:一条平滑的曲线,能够很好地反映成绩随学习时间增长的整体趋势,并且对噪声点不敏感。过拟合模型:一条剧烈波动的曲线,为了完美通过每一个数据点(包括那个因生病导致的噪声点),它记住了所有训练样本的细节。当一个新的学生数据进来时,如果他的学习时间稍微偏离原有数据点,预测就可能谬以千里。如何监测和避免?划分数据集:将数据分为训练集(用于训练模型)、验证集(用于调整超参数、选择模型)和测试集(用于最终评估模型性能)。监控误差:在训练过程中,同时监控模型在训练集和验证集上的误差(或性能指标如准确率)。如果两者都高,很可能欠拟合。如果训练误差很低,但验证误差很高,并且差距很大,就是过拟合的典型信号。使用正则化:正则化技术(如 L2 正则化)通过在损失函数中增加一个“惩罚项”,来限制模型的复杂度,从而有效防止过拟合。早停(Early Stopping):在训练过程中,当验证集上的误差不再下降反而开始上升时,就立即停止训练。这是一种简单有效的防止过拟合的方法。总之,欠拟合和过拟合是模型能力与数据复杂性不匹配的表现。成功的模型训练就是在偏差(Bias,欠拟合的根源) 和方差(Variance,过拟合的根源) 之间找到最佳平衡,从而获得最强的泛化能力。
-
一、核心定义:Token 是什么?Token 是大模型处理和生成文本的基本单位。 它并不是一个严格的“单词”或“汉字”,而是子词(Subword) 片段。模型看到的不是我们人类理解的句子,而是一串由 Token 组成的序列。这个过程分为两步:分词(Tokenization): 将输入文本拆分成一个个 Token。编码(Encoding): 将每个 Token 转换成一个唯一的数字(ID),因为模型只能处理数字。二、Token 的具体形式Token 的划分方式因模型和分词器(Tokenizer)而异,但通常包括以下几种情况:完整的常见单词:例如,"the", "apple", "is" 这类高频词通常会成为一个独立的 Token。单词的一部分(子词):前缀/词根:例如,"##ing", "##ed", "##s"(## 通常表示这个 Token 是另一个 Token 的后缀,需要连接起来)。长单词拆分:例如,"unbelievable" 可能会被拆分成 "un", "##believe", "##able" 三个 Token。单个字符:尤其是对于中文、日文等语言,一个汉字通常就是一个独立的 Token。例如,“你好”会被分成 ["你", "好"] 两个 Token。标点符号和空格:例如,".", "?", "\n"(换行符)也都会被当作独立的 Token。举个例子:句子:"Don't hesitate to ask questions."一个可能的分词结果是:["Don", "'", "t", " hesitate", " to", " ask", " questions", "."]这里,"hesitate" 是一个完整 Token,而 "Don't" 被拆成了三个 Token (Don, ', t)。三、为什么使用 Token(而不是单词或字符)?这种子词(Subword)分词策略是深思熟虑后的最佳平衡点,解决了另外两种方法的核心缺陷:基于单词(Word-based)的问题:词汇表爆炸(Vocabulary Explosion):语言中的单词组合是无限的,新词、俚语、专业术语会不断出现。模型需要一个巨大的词汇表,导致效率低下。未知词(OOV, Out-of-Vocabulary)问题:遇到词汇表里没有的单词,模型就无法处理(通常表示为 [UNK]),严重影响性能。基于字符(Character-based)的问题:序列过长:一个句子会被拆分成几百个字符,模型需要处理极长的序列,计算量和记忆负担非常重。语义学习困难:单个字符(如英文字母)本身几乎没有含义,模型需要从更长的序列中艰难地学习语义组合。基于子词(Subword)Token 的优势(折中方案):高效的词汇表:通过共享词根(如 ##ing, ##ed),可以用一个较小的词汇表覆盖几乎所有的单词。几乎消除未知词:即使是一个从未见过的长单词,如 "antidisestablishmentarianism",也可以被拆成已知的子词 Token(如 "anti", "##dis", "##establish", "##ment", "##arian", "##ism"),模型能根据这些部分推测其大致含义。平衡序列长度和语义:序列长度介于单词和字符之间,即保证了效率,又能让每个 Token 携带一定的语义信息。四、Token 的重要性和影响计算和计费的依据:模型的处理能力通常以其能处理的最大上下文 Token 数量来衡量,比如 4k, 8k, 32k, 128k, 200k 等。这决定了模型一次能“记住”和参考多长的文本。API 调用费用通常是按 Token 数量计费的(输入 + 输出)。无论是提示(Prompt)还是生成的回复,都按 Token 数量算钱。影响生成质量和效率:分词方式会影响模型对词义的理解。一个好的分词器能提升模型性能。生成长文本在本质上是一个“逐个生成 Token”的循环过程,Token 数量直接决定了生成所需的时间。中英文 Token 数量的差异:英文:平均下来,1个 Token ≈ 0.75个单词。100个英文单词大约对应 ~133 个 Token。中文:由于汉字密集,1个汉字通常就是 1~2 个 Token(常见字是1个,生僻字可能被拆成多个字节级别的 Token)。因此,同样内容的中文文本,其 Token 数量通常会比英文多。这也是为什么用中文和模型对话有时感觉“更费钱”的原因。
-
我在华为modelarts平台上,通过Notebook租用了8卡910B服务器,并用VScode远程连接。租用的过程中我发现:刚开始几天可以通过VScode成功连接服务器,但是过了一段时间就显示无法与服务器建立连接了。该现象过个半天一天有时就可以莫名其妙的解决。想请教一下,要怎么解决这个问题?如何保持服务器长期能够通过VScode建立连接?
-
在实践过程中我的环境变量老是出错
-
免费领取云主机点击免费领取链接, 登录华为云账号,免费领取云主机。如果没有华为账号的话,先点击注册;有账号的话直接登录。根据提示,填写手机号和密码,完成注册。然后找到配置云主机根据下面的提示选择配置,然后点击安装。这样云主机就领取并安装好了。启动云主机接下来,我们进入云主机安装宝塔面板,快速建站。首先点击打开云主机,选择进入桌面打开云主机,会进入初始化界面,等待几分钟然后就看到云主机的桌面了安装配置宝塔面板和 DeepSeek我们在之前的文章 华为云主机安装宝塔面板并使用DeepSeek助力网站运维(./华为云主机安装宝塔面板并使用DeepSeek助力网站运维.md)中已经介绍了如何安装宝塔面板 和 DeepSeek,这里就不再赘述。安装 DifyDify 是一个开源的生成式 AI 应用开发平台,旨在简化和加速 AI 应用的创建和部署。打开宝塔的 Docker 菜单,搜索 Dify,找到第一个,点击安装。这里按默认的选项即可,点击确定开发安装。等待安装配置在配置页面,设置域名等基本信息,点击确定填写应用名称配置端口点击提交,面板进行初始化,等到几分钟后,即可访问访问 Dify
-
请问大家,如何解决在RDP远程连接断开后,flexus自动锁屏的问题,挂在后台的代码无法正常运行
-
华为云服务器怎么开启VT,一重启就断开连接进入不了BIOS
-
图解弹性云服务器-什么是云服务器
-
云端钜惠·限时秒杀!扫码活动地址:活动链接直达:https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=244248d2-b417-4bcd-827a-0dcc76135509&utm_source=aGlkX2RqZXh6Y2l0cTB1NWs4ZA===&utm_medium=cps&utm_campaign=201905
-
2025华为软件精英挑战赛可以跨赛区组队吗
-
您好我已经按照文档要求部署好了,但是要提交的东西不是很明确,我最后输入指令,生成的不是文档中的程序,我最后要提交的应该是什么东西。
-
选择云华为云Flexus云服务,新用户有云礼包选了3天,从云主机到云服务器,从弹性云服务器(也就是常说的ECS)到云服务器实例(就是本文提到的Flexus),从AWS看到阿里再看到华为,从cloud studio 看到 modelArts IDE,最后入了2个规格的Flexus2核1G 2M 和 2核 | 4GiB,加上弹性公网和域名,相当于周末约顿饭的费用成本入手后进入控制台,查看自己的云服务器访问云在这儿吐槽一下,官方文档是挺全的, 不过按场景的少,要自己找,跳来跳去容易乱,第一次用比较费时间,下边是按本文场景顺序理的官网参考文档VNC远程登录华为Cloudshell登录SHH密码登录如果Web登录不了,查看弹性公网是否绑定如果还登录不了,查看安全组规则,是否开放约定port我最常用的是Web和IDE,试用了modelArts,体验不错,主要这个IDE现阶段也不收费云上部署AI目标:部署dify如果你找到了快速搭建Dify-LLM应用开发平台,但是并不想另外付费的话,请转==下步==(这里也要说的是,我想把这个方案部署好在已经购买的云服务器上,都不行,只能另外付费)。转==这里==方式二:Docker Compose方式部署Dify,这个方式在本地验证过(可以看我之前的blog:windows+dify+wsl),简单,推荐访问difygiteee有dify v1.0.01.在您的云服务器列表页查看当前机器的公网IP地址2.浏览器中输入复制的IP地址以访问Dify:http://xxxx.xxxx.xxxx.xxxap监控云主机
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签