华为云Flexus云服务_标签_开发者

博客(63)
视频(0)
论坛(196)
云声(377)
代码示例(0)

知识图谱与动态遗忘在ai中的应用

一、技术逻辑层面的融合‌知识图谱的持久记忆功能‌知识图谱通过实体-关系-属性三元组构建结构化知识库，形成长期记忆网络。其核心价值在于：提供可解释的知识关联路径（如"姚明→出生于→上海"）‌支持多模态知识融合（文本/图像/视频的语义关联）‌‌动态遗忘的短期调节机制‌动态遗忘通过以下方式与知识图谱互补：选择性遗忘过时信息（如政策法规更新时自动淘汰旧条款）‌强化高频使用知识节点的权重（通过衰减算法实现）‌ 二、典型应用场景‌教育领域‌学习路径动态调整：根据遗忘曲线推荐复习节点‌认知诊断：识别学生薄弱知识点并生成强化训练方案‌‌媒体行业‌新闻时效性管理：自动淘汰过时报道并标记关联事件‌敏感信息过滤：建立合规知识库并动态更新黑名单‌‌企业知识管理‌技术文档版本控制：追踪知识更新并归档历史版本‌跨部门知识共享：构建动态权限访问图谱‌三、前沿发展趋势‌与大语言模型协同‌通过RAG（检索增强生成）实现动态知识注入‌结合遗忘机制优化模型内存占用‌‌元宇宙场景应用‌虚拟角色记忆构建：实时更新数字人的知识图谱‌沉浸式学习体验：基于遗忘曲线的自适应教学内容生成‌

湘山Hsiong 发表于2025-08-29 17:10:05 2025-08-29 17:10:05 最后回复云聪明 2025-09-01 15:32:07
7 2

华为云Flexus云服务
[技术干货] AI数据标注全流程

阶段一：项目启动与规划 (Project Initiation & Planning)定义标注目标与规则：明确任务类型：首先要确定是哪种AI任务（如计算机视觉、自然语言处理等）及其具体的标注类型。计算机视觉 (CV)：图像分类、目标检测（拉框）、图像分割（像素级）、关键点检测、OCR转写等。自然语言处理 (NLP)：文本分类、命名实体识别（NER）、情感分析、关系抽取、机器翻译数据清洗、意图槽位标注等。音频 (Audio)：语音转写、声音事件检测、说话人日志等。制定详细的标注规则说明书：这是最重要的文档，必须清晰、无歧义。它需要定义：标签体系 (Label System)：所有类别的定义和具体例子。例如，“汽车”是否包含面包车、卡车？车顶打开的天窗是否算作车体的一部分？标注边界案例 (Edge Cases)：如何处理模糊、有争议的情况。例如，被遮挡一半的物体要不要标？非常模糊的目标要不要标？标注工具使用规范：框要贴紧边缘还是留空隙？多边形用多少个点？资源评估与计划：数据量评估：需要标注多少数据？初期可能需要先标注一个种子数据集用于模型训练和评估。预算与时间线：根据数据量、标注复杂度（标注一个样本的平均时间）和人力成本，估算总预算和项目周期。团队组建：决定是内部标注、外包给专业标注公司，还是使用众包平台。阶段二：数据准备与管理 (Data Preparation & Management)数据收集与清洗：收集原始数据（爬虫、传感器采集、业务日志等）。进行初步清洗，去除重复、低质、无效的数据（如损坏的图片、空文本）。数据分区与版本控制：将数据划分为训练集、验证集和测试集。通常测试集会被严格保护，标注质量要求最高，甚至由专家标注。对所有数据和标注文件进行版本控制，清晰记录每次的变更。阶段三：标注系统构建 (Annotation System Setup)选择与部署标注工具：开源工具：LabelImg, LabelMe, CVAT (计算机视觉)，BRAT (NLP) 等。适合技术能力强、需要定制的团队。商业化平台：LabelStudio, Scale AI, Appen, 百度的众测、阿里达摩院等。提供一体化解决方案，功能强大，管理方便。自研工具：当有特殊需求或极高安全性要求时，会选择自研。平台配置：在工具中创建项目，配置标签列表、标注规则说明。设置质检流程和通过标准。阶段四：标注人员管理 (Annotator Management)招募与培训：根据项目难度招募合适的标注员。进行强制性培训：讲解标注规则，并进行摸底考试，不合格者不能上岗。分工与发放：将数据分配给不同的标注员，通常同一份数据会分给多人做交叉标注，用于后续计算一致性。阶段五：标注执行与质检 (Annotation Execution & QC)这是核心执行环节，通常是一个循环迭代的过程。试标与校准：项目开始初期，让所有标注员标注同一批数据（比如100条）。计算标注者间信度，找出分歧点，召开评审会，统一标准，更新标注规则书。这个步骤至关重要，能极大提高后续整体一致性。正式标注：标注员按照规则和工具使用规范进行标注。质量检查 (Quality Control, QC)：一级质检（内部抽检）：标注员自查或小组长抽检。二级质检（专业质检）：由专职质检员或资深标注员进行，抽查比例更高（如30%-100%）。质检方法：抽样检查：随机抽取一定比例的样本进行复核。交叉验证：将同一份数据分给多个标注员标，计算一致性（Kappa系数、IoU等），分歧大的数据由专家仲裁。问题反馈与修正：质检发现的问题及时反馈给标注员，使其理解错误并修改。反复出错者可能需要重新培训。阶段六：验收与交付 (Acceptance & Delivery)最终验收：由项目经理或算法工程师对最终标注结果进行验收，尤其是测试集部分。数据交付：导出指定格式的标注文件（如COCO, Pascal VOC, TXT等）。提供数据集说明文档，包括标签分布统计、标注人员信息、版本号等。阶段七：项目闭环与迭代 (Project Closure & Iteration)效果评估：用标注好的数据训练模型，模型在测试集上的表现是衡量标注质量的最终金标准。主动学习迭代：将模型预测不确定度高的样本（困难样本）找出来，优先交给标注员进行标注。将这些新标注的高价值数据加入训练集，重新训练模型，可以更快地提升模型性能。这就形成了一个“标注 -> 训练 -> 发现困难样本 -> 再标注”的飞轮，是最高效的数据标注策略。

湘山Hsiong 发表于2025-08-29 17:06:01 2025-08-29 17:06:01 最后回复一只牛博 2025-09-04 09:05:14
567 4

华为云Flexus云服务
[技术干货] AI特征工程-如何缓解模型过拟合

1. 特征选择（Feature Selection）这是最直接、最有效的特征工程手段。直接移除无关或冗余的特征，降低维度。Filter（过滤法）：基于统计指标选择特征，与模型无关。方差选择：移除方差接近0的特征（即几乎所有样本值都相同），这类特征毫无区分度。from sklearn.feature_selection import VarianceThreshold相关性分析：移除与目标变量相关性极低的特征（对模型预测无帮助）。移除与其他特征高度相关的特征（冗余特征，提供了重复信息）。可以使用相关矩阵热图来可视化。卡方检验：适用于分类问题，检验特征与目标之间的独立性。互信息：衡量特征与目标变量之间的任意关系（包括非线性），比相关性更强大。Wrapper（包装法）：使用模型的性能作为评价准则来选择特征子集。递归特征消除（RFE）：例如，RFECV 可以自动选择最优特征数量。它反复构建模型（如线性回归、SVM），并剔除最不重要的特征，直到达到指定数量。正向选择/反向剔除：逐步添加或删除特征，看其对模型性能的影响。Embedded（嵌入法）：模型训练过程本身自动进行特征选择。使用L1正则化（Lasso）：L1正则化会将不重要特征的系数压缩到** exactly 0**，从而实现特征选择。这是非常强大且常用的方法。from sklearn.linear_model import LassoCV基于树模型的特征重要性：训练如随机森林、XGBoost等模型后，查看 feature_importances_ 属性，剔除重要性为0或很低的特征。2. 特征降维（Dimensionality Reduction）在不直接删除特征的情况下，将高维特征空间映射到低维空间，同时尽可能保留重要信息。主成分分析（PCA）: 将原始特征线性变换为一组方差最大、彼此不相关的新特征（主成分）。通常保留95%方差的成分即可，极大减少维度。注意：转换后的特征失去了原始语义。线性判别分析（LDA）：与PCA类似，但是一种有监督方法，降维后会使得类别间的分离度最大。3. 特征编码（Feature Encoding）的谨慎处理不合理的编码会引入不必要的复杂度。避免过多One-Hot编码：对于高基数（High-Cardinality）类别特征（如“邮政编码”、“用户ID”），直接进行One-Hot编码会产生大量稀疏的特征列，极易导致过拟合。解决方案：目标编码（Target Encoding）：用该类别下目标变量的均值（或其它统计量）来替换类别标签。重要：必须使用交叉验证技巧或在训练集上拟合后转换验证/测试集，否则会引入数据泄露。频率编码：用该类别的出现频率来编码。简单有效，不会泄露目标信息。嵌入：对于深度学习，可以为高基数特征学习一个低维的嵌入向量。4. 特征构建（Feature Engineering）与简化创建更有意义、更简单的特征来代替原始复杂特征。分箱（Binning / Discretization）：将连续特征转换为离散的区间（如将“年龄”分为“青年”、“中年”、“老年”）。这降低了模型对连续值细微波动的敏感性，使其更稳定，抗噪声能力更强。pd.cut()简化交互特征：虽然特征交互（如 a * b, a / b）有时很有效，但盲目创建所有特征的交互项会使特征空间爆炸式增长。应该基于业务理解创建有明确意义的交互特征，而不是穷举。5. 处理缺失值与异常值异常值和噪声是模型过拟合的“元凶”之一，模型会为了拟合这些极端点而变得复杂。异常值处理：盖帽法（Capping）：将超出特定分位数（如99%）的值用该分位数的值替换。直接删除（如果异常值很少且确实是错误数据）。缺失值处理：避免使用一个过于复杂的模型（如另一个ML模型）来预测缺失值，这本身可能引入过拟合。优先使用简单方法，如中位数、众数填充，或添加一个“是否缺失”的指示标志。

湘山Hsiong 发表于2025-08-29 17:01:46 2025-08-29 17:01:46 最后回复一只牛博 2025-09-04 09:05:14
10 4

华为云Flexus云服务
[技术干货] AI模型训练中过拟合和欠拟合的区别是什么？

一个简单的例子假设我们要根据“学习时间”预测“考试成绩”。数据点中包含一些噪声（比如某天学生生病了，学得久但考得差）。欠拟合模型：可能只用一条直线来拟合。它无法捕捉“学习时间增加到一定程度后，成绩提升变慢”的趋势，导致预测不准确。恰到好处的模型：一条平滑的曲线，能够很好地反映成绩随学习时间增长的整体趋势，并且对噪声点不敏感。过拟合模型：一条剧烈波动的曲线，为了完美通过每一个数据点（包括那个因生病导致的噪声点），它记住了所有训练样本的细节。当一个新的学生数据进来时，如果他的学习时间稍微偏离原有数据点，预测就可能谬以千里。如何监测和避免？划分数据集：将数据分为训练集（用于训练模型）、验证集（用于调整超参数、选择模型）和测试集（用于最终评估模型性能）。监控误差：在训练过程中，同时监控模型在训练集和验证集上的误差（或性能指标如准确率）。如果两者都高，很可能欠拟合。如果训练误差很低，但验证误差很高，并且差距很大，就是过拟合的典型信号。使用正则化：正则化技术（如 L2 正则化）通过在损失函数中增加一个“惩罚项”，来限制模型的复杂度，从而有效防止过拟合。早停（Early Stopping）：在训练过程中，当验证集上的误差不再下降反而开始上升时，就立即停止训练。这是一种简单有效的防止过拟合的方法。总之，欠拟合和过拟合是模型能力与数据复杂性不匹配的表现。成功的模型训练就是在偏差（Bias，欠拟合的根源）和方差（Variance，过拟合的根源）之间找到最佳平衡，从而获得最强的泛化能力。

湘山Hsiong 发表于2025-08-29 17:00:36 2025-08-29 17:00:36 最后回复一只牛博 2025-09-04 09:05:14
6 2

华为云Flexus云服务
[技术干货] 关于大模型中token的理解

一、核心定义：Token 是什么？Token 是大模型处理和生成文本的基本单位。它并不是一个严格的“单词”或“汉字”，而是子词（Subword）片段。模型看到的不是我们人类理解的句子，而是一串由 Token 组成的序列。这个过程分为两步：分词（Tokenization）: 将输入文本拆分成一个个 Token。编码（Encoding）: 将每个 Token 转换成一个唯一的数字（ID），因为模型只能处理数字。二、Token 的具体形式Token 的划分方式因模型和分词器（Tokenizer）而异，但通常包括以下几种情况：完整的常见单词：例如，"the", "apple", "is" 这类高频词通常会成为一个独立的 Token。单词的一部分（子词）：前缀/词根：例如，"##ing", "##ed", "##s"（## 通常表示这个 Token 是另一个 Token 的后缀，需要连接起来）。长单词拆分：例如，"unbelievable" 可能会被拆分成 "un", "##believe", "##able" 三个 Token。单个字符：尤其是对于中文、日文等语言，一个汉字通常就是一个独立的 Token。例如，“你好”会被分成 ["你", "好"] 两个 Token。标点符号和空格：例如，".", "?", "\n"（换行符）也都会被当作独立的 Token。举个例子：句子："Don't hesitate to ask questions."一个可能的分词结果是：["Don", "'", "t", " hesitate", " to", " ask", " questions", "."]这里，"hesitate" 是一个完整 Token，而 "Don't" 被拆成了三个 Token (Don, ', t)。三、为什么使用 Token（而不是单词或字符）？这种子词（Subword）分词策略是深思熟虑后的最佳平衡点，解决了另外两种方法的核心缺陷：基于单词（Word-based）的问题：词汇表爆炸（Vocabulary Explosion）：语言中的单词组合是无限的，新词、俚语、专业术语会不断出现。模型需要一个巨大的词汇表，导致效率低下。未知词（OOV, Out-of-Vocabulary）问题：遇到词汇表里没有的单词，模型就无法处理（通常表示为 [UNK]），严重影响性能。基于字符（Character-based）的问题：序列过长：一个句子会被拆分成几百个字符，模型需要处理极长的序列，计算量和记忆负担非常重。语义学习困难：单个字符（如英文字母）本身几乎没有含义，模型需要从更长的序列中艰难地学习语义组合。基于子词（Subword）Token 的优势（折中方案）：高效的词汇表：通过共享词根（如 ##ing, ##ed），可以用一个较小的词汇表覆盖几乎所有的单词。几乎消除未知词：即使是一个从未见过的长单词，如 "antidisestablishmentarianism"，也可以被拆成已知的子词 Token（如 "anti", "##dis", "##establish", "##ment", "##arian", "##ism"），模型能根据这些部分推测其大致含义。平衡序列长度和语义：序列长度介于单词和字符之间，即保证了效率，又能让每个 Token 携带一定的语义信息。四、Token 的重要性和影响计算和计费的依据：模型的处理能力通常以其能处理的最大上下文 Token 数量来衡量，比如 4k, 8k, 32k, 128k, 200k 等。这决定了模型一次能“记住”和参考多长的文本。API 调用费用通常是按 Token 数量计费的（输入 + 输出）。无论是提示（Prompt）还是生成的回复，都按 Token 数量算钱。影响生成质量和效率：分词方式会影响模型对词义的理解。一个好的分词器能提升模型性能。生成长文本在本质上是一个“逐个生成 Token”的循环过程，Token 数量直接决定了生成所需的时间。中英文 Token 数量的差异：英文：平均下来，1个 Token ≈ 0.75个单词。100个英文单词大约对应 ~133 个 Token。中文：由于汉字密集，1个汉字通常就是 1~2 个 Token（常见字是1个，生僻字可能被拆成多个字节级别的 Token）。因此，同样内容的中文文本，其 Token 数量通常会比英文多。这也是为什么用中文和模型对话有时感觉“更费钱”的原因。

湘山Hsiong 发表于2025-08-29 16:26:16 2025-08-29 16:26:16 最后回复一只牛博 2025-09-04 09:05:08
168 3

华为云Flexus云服务
[问题求助] vscode连接modelarts服务器问题

我在华为modelarts平台上，通过Notebook租用了8卡910B服务器，并用VScode远程连接。租用的过程中我发现：刚开始几天可以通过VScode成功连接服务器，但是过了一段时间就显示无法与服务器建立连接了。该现象过个半天一天有时就可以莫名其妙的解决。想请教一下，要怎么解决这个问题？如何保持服务器长期能够通过VScode建立连接？

yd_281557169 发表于2025-08-22 15:45:57 2025-08-22 15:45:57 最后回复黄生 2025-08-26 16:26:09
60 3

华为云Flexus云服务帮助中心
累计完成了一个案例一：开发者空间 - 云开发环境使用指导

在实践过程中我的环境变量老是出错

雪雨漫漫 发表于2025-08-13 19:30:19 2025-08-13 19:30:19 最后回复雪雨漫漫 0
13 0

裸金属服务器 BMS 华为云Flexus云服务
[热门活动] 华为云主机使用DeepSeek和Dify打造AI智能体

免费领取云主机点击免费领取链接, 登录华为云账号，免费领取云主机。如果没有华为账号的话，先点击注册；有账号的话直接登录。根据提示，填写手机号和密码，完成注册。然后找到配置云主机根据下面的提示选择配置，然后点击安装。这样云主机就领取并安装好了。启动云主机接下来，我们进入云主机安装宝塔面板，快速建站。首先点击打开云主机，选择进入桌面打开云主机，会进入初始化界面，等待几分钟然后就看到云主机的桌面了安装配置宝塔面板和 DeepSeek我们在之前的文章华为云主机安装宝塔面板并使用DeepSeek助力网站运维(./华为云主机安装宝塔面板并使用DeepSeek助力网站运维.md)中已经介绍了如何安装宝塔面板和 DeepSeek，这里就不再赘述。安装 DifyDify 是一个开源的生成式 AI 应用开发平台，旨在简化和加速 AI 应用的创建和部署。打开宝塔的 Docker 菜单，搜索 Dify，找到第一个，点击安装。这里按默认的选项即可，点击确定开发安装。等待安装配置在配置页面，设置域名等基本信息，点击确定填写应用名称配置端口点击提交，面板进行初始化，等到几分钟后，即可访问访问 Dify

DCmini 发表于2025-07-31 15:10:44 2025-07-31 15:10:44 最后回复 DCmini 2025-07-31 15:10:44
9 0

专属主机 DeH 华为云Flexus云服务全栈专属服务 FCS
[问题求助] 远程连接断开flexus锁屏

请问大家，如何解决在RDP远程连接断开后，flexus自动锁屏的问题，挂在后台的代码无法正常运行

yd_259029540 发表于2025-06-25 10:56:54 2025-06-25 10:56:54 最后回复小强鼓掌 2025-06-30 10:15:30
53 4

华为云Flexus云服务 Python
云服务器开启VT

华为云服务器怎么开启VT，一重启就断开连接进入不了BIOS

yd_242435809 发表于2025-06-06 09:55:35 2025-06-06 09:55:35 最后回复云聪明 2025-06-06 11:55:36
74 1

专属主机 DeH 华为云Flexus云服务镜像服务 IMS 弹性云服务器 ECS
一张图了解什么是华为云弹性云服务器

图解弹性云服务器-什么是云服务器

公有云小学生 发表于2025-04-23 10:10:45 2025-04-23 10:10:45 最后回复公有云小学生 0
10 0

华为云Flexus云服务弹性负载均衡 ELB 弹性云服务器 ECS
[热门活动] 普惠上云专区汇聚全站年度销量TOP云产品

云端钜惠·限时秒杀！扫码活动地址：活动链接直达:https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=244248d2-b417-4bcd-827a-0dcc76135509&utm_source=aGlkX2RqZXh6Y2l0cTB1NWs4ZA===&utm_medium=cps&utm_campaign=201905

公有云小学生 发表于2025-04-23 09:00:45 2025-04-23 09:00:45 最后回复公有云小学生 0
36 0

华为云Flexus云服务对象存储服务 OBS 网站备案弹性云服务器 ECS 企业主机安全 HSS
[常见FAQ] 可以跨学校赛区组队吗

2025华为软件精英挑战赛可以跨赛区组队吗

yd_269914478 发表于2025-03-17 17:39:22 2025-03-17 17:39:22 最后回复林欣 2025-03-18 10:26:21
176 1

专属主机 DeH 裸金属服务器 BMS 函数工作流 FunctionGraph 华为云Flexus云服务 FPGA加速云服务器 FACS
[问题求助] 要提交的应该是什么

您好我已经按照文档要求部署好了，但是要提交的东西不是很明确，我最后输入指令，生成的不是文档中的程序，我最后要提交的应该是什么东西。

yd_259871013 发表于2025-03-11 14:33:10 2025-03-11 14:33:10 最后回复多米诺的古牌 2025-03-30 19:03:48
48 3

华为云Flexus云服务
[交流吐槽] Flexus云服务，开玩dify，拥有自己的云AI

选择云华为云Flexus云服务,新用户有云礼包选了3天，从云主机到云服务器，从弹性云服务器（也就是常说的ECS）到云服务器实例（就是本文提到的Flexus），从AWS看到阿里再看到华为，从cloud studio 看到 modelArts IDE，最后入了2个规格的Flexus2核1G 2M 和 2核 | 4GiB，加上弹性公网和域名，相当于周末约顿饭的费用成本入手后进入控制台，查看自己的云服务器访问云在这儿吐槽一下，官方文档是挺全的，不过按场景的少，要自己找，跳来跳去容易乱，第一次用比较费时间，下边是按本文场景顺序理的官网参考文档VNC远程登录华为Cloudshell登录SHH密码登录如果Web登录不了，查看弹性公网是否绑定如果还登录不了，查看安全组规则，是否开放约定port我最常用的是Web和IDE，试用了modelArts，体验不错，主要这个IDE现阶段也不收费云上部署AI目标：部署dify如果你找到了快速搭建Dify-LLM应用开发平台，但是并不想另外付费的话，请转==下步==（这里也要说的是，我想把这个方案部署好在已经购买的云服务器上，都不行，只能另外付费）。转==这里==方式二：Docker Compose方式部署Dify，这个方式在本地验证过（可以看我之前的blog：windows+dify+wsl），简单，推荐访问difygiteee有dify v1.0.01.在您的云服务器列表页查看当前机器的公网IP地址2.浏览器中输入复制的IP地址以访问Dify：http://xxxx.xxxx.xxxx.xxxap监控云主机

三万八千 发表于2025-03-03 14:29:56 2025-03-03 14:29:56 最后回复三万八千 0
55 0

华为云Flexus云服务华为云APP 控制台弹性公网IP EIP 弹性云服务器 ECS

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript