-
一个简单的例子假设我们要根据“学习时间”预测“考试成绩”。数据点中包含一些噪声(比如某天学生生病了,学得久但考得差)。欠拟合模型:可能只用一条直线来拟合。它无法捕捉“学习时间增加到一定程度后,成绩提升变慢”的趋势,导致预测不准确。恰到好处的模型:一条平滑的曲线,能够很好地反映成绩随学习时间增长的整体趋势,并且对噪声点不敏感。过拟合模型:一条剧烈波动的曲线,为了完美通过每一个数据点(包括那个因生病导致的噪声点),它记住了所有训练样本的细节。当一个新的学生数据进来时,如果他的学习时间稍微偏离原有数据点,预测就可能谬以千里。如何监测和避免?划分数据集:将数据分为训练集(用于训练模型)、验证集(用于调整超参数、选择模型)和测试集(用于最终评估模型性能)。监控误差:在训练过程中,同时监控模型在训练集和验证集上的误差(或性能指标如准确率)。如果两者都高,很可能欠拟合。如果训练误差很低,但验证误差很高,并且差距很大,就是过拟合的典型信号。使用正则化:正则化技术(如 L2 正则化)通过在损失函数中增加一个“惩罚项”,来限制模型的复杂度,从而有效防止过拟合。早停(Early Stopping):在训练过程中,当验证集上的误差不再下降反而开始上升时,就立即停止训练。这是一种简单有效的防止过拟合的方法。总之,欠拟合和过拟合是模型能力与数据复杂性不匹配的表现。成功的模型训练就是在偏差(Bias,欠拟合的根源) 和方差(Variance,过拟合的根源) 之间找到最佳平衡,从而获得最强的泛化能力。
-
一、核心定义:Token 是什么?Token 是大模型处理和生成文本的基本单位。 它并不是一个严格的“单词”或“汉字”,而是子词(Subword) 片段。模型看到的不是我们人类理解的句子,而是一串由 Token 组成的序列。这个过程分为两步:分词(Tokenization): 将输入文本拆分成一个个 Token。编码(Encoding): 将每个 Token 转换成一个唯一的数字(ID),因为模型只能处理数字。二、Token 的具体形式Token 的划分方式因模型和分词器(Tokenizer)而异,但通常包括以下几种情况:完整的常见单词:例如,"the", "apple", "is" 这类高频词通常会成为一个独立的 Token。单词的一部分(子词):前缀/词根:例如,"##ing", "##ed", "##s"(## 通常表示这个 Token 是另一个 Token 的后缀,需要连接起来)。长单词拆分:例如,"unbelievable" 可能会被拆分成 "un", "##believe", "##able" 三个 Token。单个字符:尤其是对于中文、日文等语言,一个汉字通常就是一个独立的 Token。例如,“你好”会被分成 ["你", "好"] 两个 Token。标点符号和空格:例如,".", "?", "\n"(换行符)也都会被当作独立的 Token。举个例子:句子:"Don't hesitate to ask questions."一个可能的分词结果是:["Don", "'", "t", " hesitate", " to", " ask", " questions", "."]这里,"hesitate" 是一个完整 Token,而 "Don't" 被拆成了三个 Token (Don, ', t)。三、为什么使用 Token(而不是单词或字符)?这种子词(Subword)分词策略是深思熟虑后的最佳平衡点,解决了另外两种方法的核心缺陷:基于单词(Word-based)的问题:词汇表爆炸(Vocabulary Explosion):语言中的单词组合是无限的,新词、俚语、专业术语会不断出现。模型需要一个巨大的词汇表,导致效率低下。未知词(OOV, Out-of-Vocabulary)问题:遇到词汇表里没有的单词,模型就无法处理(通常表示为 [UNK]),严重影响性能。基于字符(Character-based)的问题:序列过长:一个句子会被拆分成几百个字符,模型需要处理极长的序列,计算量和记忆负担非常重。语义学习困难:单个字符(如英文字母)本身几乎没有含义,模型需要从更长的序列中艰难地学习语义组合。基于子词(Subword)Token 的优势(折中方案):高效的词汇表:通过共享词根(如 ##ing, ##ed),可以用一个较小的词汇表覆盖几乎所有的单词。几乎消除未知词:即使是一个从未见过的长单词,如 "antidisestablishmentarianism",也可以被拆成已知的子词 Token(如 "anti", "##dis", "##establish", "##ment", "##arian", "##ism"),模型能根据这些部分推测其大致含义。平衡序列长度和语义:序列长度介于单词和字符之间,即保证了效率,又能让每个 Token 携带一定的语义信息。四、Token 的重要性和影响计算和计费的依据:模型的处理能力通常以其能处理的最大上下文 Token 数量来衡量,比如 4k, 8k, 32k, 128k, 200k 等。这决定了模型一次能“记住”和参考多长的文本。API 调用费用通常是按 Token 数量计费的(输入 + 输出)。无论是提示(Prompt)还是生成的回复,都按 Token 数量算钱。影响生成质量和效率:分词方式会影响模型对词义的理解。一个好的分词器能提升模型性能。生成长文本在本质上是一个“逐个生成 Token”的循环过程,Token 数量直接决定了生成所需的时间。中英文 Token 数量的差异:英文:平均下来,1个 Token ≈ 0.75个单词。100个英文单词大约对应 ~133 个 Token。中文:由于汉字密集,1个汉字通常就是 1~2 个 Token(常见字是1个,生僻字可能被拆成多个字节级别的 Token)。因此,同样内容的中文文本,其 Token 数量通常会比英文多。这也是为什么用中文和模型对话有时感觉“更费钱”的原因。
-
我在华为modelarts平台上,通过Notebook租用了8卡910B服务器,并用VScode远程连接。租用的过程中我发现:刚开始几天可以通过VScode成功连接服务器,但是过了一段时间就显示无法与服务器建立连接了。该现象过个半天一天有时就可以莫名其妙的解决。想请教一下,要怎么解决这个问题?如何保持服务器长期能够通过VScode建立连接?
-
在实践过程中我的环境变量老是出错
-
免费领取云主机点击免费领取链接, 登录华为云账号,免费领取云主机。如果没有华为账号的话,先点击注册;有账号的话直接登录。根据提示,填写手机号和密码,完成注册。然后找到配置云主机根据下面的提示选择配置,然后点击安装。这样云主机就领取并安装好了。启动云主机接下来,我们进入云主机安装宝塔面板,快速建站。首先点击打开云主机,选择进入桌面打开云主机,会进入初始化界面,等待几分钟然后就看到云主机的桌面了安装配置宝塔面板和 DeepSeek我们在之前的文章 华为云主机安装宝塔面板并使用DeepSeek助力网站运维(./华为云主机安装宝塔面板并使用DeepSeek助力网站运维.md)中已经介绍了如何安装宝塔面板 和 DeepSeek,这里就不再赘述。安装 DifyDify 是一个开源的生成式 AI 应用开发平台,旨在简化和加速 AI 应用的创建和部署。打开宝塔的 Docker 菜单,搜索 Dify,找到第一个,点击安装。这里按默认的选项即可,点击确定开发安装。等待安装配置在配置页面,设置域名等基本信息,点击确定填写应用名称配置端口点击提交,面板进行初始化,等到几分钟后,即可访问访问 Dify
-
请问大家,如何解决在RDP远程连接断开后,flexus自动锁屏的问题,挂在后台的代码无法正常运行
-
2025华为软件精英挑战赛可以跨赛区组队吗
-
您好我已经按照文档要求部署好了,但是要提交的东西不是很明确,我最后输入指令,生成的不是文档中的程序,我最后要提交的应该是什么东西。
-
这个咋回事有知道的吗
-
在云计算平台上,如何高效管理API接口以提高服务质量?
-
在云计算平台上,如何高效管理API接口以提高服务质量?
-
Windows 2016 迁移失败 安装的是py3 agent
-
根据产品文档AICC 23.200.0在cc-gateway与cti的连接上输出的日志出现类似乱码的情况,在用AgentDemo链接时会长时间的卡主,并不能话务员工号登录。但是监控台的提示是正常的!
-
版本:AICC 23.200.0 跟教程需要安装生成指定的证书,但是教程中却好像没有对应的生成方法!采取此阶段生成的tomcatKeyStore文件,放入后依旧无法启动!./startup.sh之后依旧无法启动
-
大家认为云计算的热度在未来会不断增加吗?以及华为的云数据库体验如何?欢迎大佬们在下面评论区评论!
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中 -
一个AI团队帮你写代码:华为云码道Agent Space实战2026/06/25 周四 19:00-21:00
张翰文-华为云码道工程师/郭英旭-青软创新科技集团股份有限公司 软件架构师
本场直播聚焦华为云码道Agent Space两大模式:研发办公、代码开发,亲身体验从需求到代码的AI自动化能力。实操演示基于华为 CodeArts CLI,依托 OpenSpec 规格体系从零搭建业务项目。
回顾中
热门标签