- 当大模型完成微调后,如何科学地评估其效果,而非仅凭主观感觉判断“好不好”?许多人将大量精力投入调参,却在评测环节仅凭直觉,导致上线后问题频发。实际上,有效的评测是驱动模型持续优化的闭环起点。本文将系统梳理从分类到生成任务的评测方法论,结合关键指标解读与实战代码,带你走出“凭感觉”的误区,用数据驱动模型迭代。 当大模型完成微调后,如何科学地评估其效果,而非仅凭主观感觉判断“好不好”?许多人将大量精力投入调参,却在评测环节仅凭直觉,导致上线后问题频发。实际上,有效的评测是驱动模型持续优化的闭环起点。本文将系统梳理从分类到生成任务的评测方法论,结合关键指标解读与实战代码,带你走出“凭感觉”的误区,用数据驱动模型迭代。
- 当大模型完成微调后,如何科学地评估其效果,而非仅凭主观感觉判断“好不好”?许多人将大量精力投入调参,却在评测环节仅凭直觉,导致上线后问题频发。实际上,有效的评测是驱动模型持续优化的闭环起点。本文将系统梳理从分类到生成任务的评测方法论,结合关键指标解读与实战代码,带你走出“凭感觉”的误区,用数据驱动模型迭代。 当大模型完成微调后,如何科学地评估其效果,而非仅凭主观感觉判断“好不好”?许多人将大量精力投入调参,却在评测环节仅凭直觉,导致上线后问题频发。实际上,有效的评测是驱动模型持续优化的闭环起点。本文将系统梳理从分类到生成任务的评测方法论,结合关键指标解读与实战代码,带你走出“凭感觉”的误区,用数据驱动模型迭代。
- 本文基于 LLaMA-Factory Online 平台,详细介绍了如何通过对 Qwen2-Audio-7B-Instruct 模型进行LoRA微调,构建一个具备传统音乐解析能力的智能音频交互系统。该系统不仅能够理解音乐调式、情感韵律,还深度融合了中国传统五声音阶特征,为音乐教育、文化传承、虚拟角色交互等场景提供了可落地的AI解决方案。 本文基于 LLaMA-Factory Online 平台,详细介绍了如何通过对 Qwen2-Audio-7B-Instruct 模型进行LoRA微调,构建一个具备传统音乐解析能力的智能音频交互系统。该系统不仅能够理解音乐调式、情感韵律,还深度融合了中国传统五声音阶特征,为音乐教育、文化传承、虚拟角色交互等场景提供了可落地的AI解决方案。
- 当深度研究能力被云端大模型垄断,企业却面临数据无法出域的安全禁令,这曾是一道无解的选择题。直到最近,清华大学、面壁智能等联合开源了仅8B参数却具备深度研究写作能力的智能体。它在完全本地部署的前提下,通过重构“写作即推理”的底层机制,首次将闭源云端模型的深度分析能力带入了内网,为高保密场景下的自动化研究打开了新局面。 当深度研究能力被云端大模型垄断,企业却面临数据无法出域的安全禁令,这曾是一道无解的选择题。直到最近,清华大学、面壁智能等联合开源了仅8B参数却具备深度研究写作能力的智能体。它在完全本地部署的前提下,通过重构“写作即推理”的底层机制,首次将闭源云端模型的深度分析能力带入了内网,为高保密场景下的自动化研究打开了新局面。
- 当团队从LLM原型转向生产应用时,往往陷入两难:开源框架集成复杂,闭源API则失去控制。我们历经三个月深度实践,发现Dify在可控性与开箱即用之间找到了那个难得的平衡点。本文将分享它如何重塑我们的AI应用开发流程。 当团队从LLM原型转向生产应用时,往往陷入两难:开源框架集成复杂,闭源API则失去控制。我们历经三个月深度实践,发现Dify在可控性与开箱即用之间找到了那个难得的平衡点。本文将分享它如何重塑我们的AI应用开发流程。
- 在AI编程工具同质化竞争的当下,长亭科技推出的MonkeyCodeAI打破了“仅做代码补全”的局限,以“企业级AI研发基础设施”为定位,覆盖需求拆解、设计、开发、Review全流程,凭借开源特性、安全能力与多场景适配性,成为个人开发者与团队的优选工具。本文将从核心技术能力、实际案例落地、企业级实践建议三方面,拆解MonkeyCodeAI的技术价值。一、核心技术能力:不止于“写代码”的全链路赋... 在AI编程工具同质化竞争的当下,长亭科技推出的MonkeyCodeAI打破了“仅做代码补全”的局限,以“企业级AI研发基础设施”为定位,覆盖需求拆解、设计、开发、Review全流程,凭借开源特性、安全能力与多场景适配性,成为个人开发者与团队的优选工具。本文将从核心技术能力、实际案例落地、企业级实践建议三方面,拆解MonkeyCodeAI的技术价值。一、核心技术能力:不止于“写代码”的全链路赋...
- 团队想搭AI测试体系却无从下手?中小团队资源有限能否落地?作为实战老兵,我曾用现有资源从0到1搭建体系,将回归效率提升40%。本文分享三步落地法:从精准选点到安全实践,再到流程融合,手把手助你避开常见坑位,让AI真正成为测试提效利器。 团队想搭AI测试体系却无从下手?中小团队资源有限能否落地?作为实战老兵,我曾用现有资源从0到1搭建体系,将回归效率提升40%。本文分享三步落地法:从精准选点到安全实践,再到流程融合,手把手助你避开常见坑位,让AI真正成为测试提效利器。
- 团队想搭AI测试体系却无从下手?中小团队资源有限能否落地?作为实战老兵,我曾用现有资源从0到1搭建体系,将回归效率提升40%。本文分享三步落地法:从精准选点到安全实践,再到流程融合,手把手助你避开常见坑位,让AI真正成为测试提效利器。 团队想搭AI测试体系却无从下手?中小团队资源有限能否落地?作为实战老兵,我曾用现有资源从0到1搭建体系,将回归效率提升40%。本文分享三步落地法:从精准选点到安全实践,再到流程融合,手把手助你避开常见坑位,让AI真正成为测试提效利器。
- RLHF 技术详解有监督微调(Supervised Fine-tuning, SFT):即用成对的“(指令, 回答)”数据来训练模型SFT 的局限性:缺乏泛化能力:模型只能很好地响应数据集中出现过的指令模式,无法覆盖用户千奇百怪的真实意图。“对齐”不足:模型的回答可能在事实上正确,但在风格、语气、安全性或有用性上,并不符合人类的期望。它只知道“正确答案”,却不知道“更好的答案”。 SFT ... RLHF 技术详解有监督微调(Supervised Fine-tuning, SFT):即用成对的“(指令, 回答)”数据来训练模型SFT 的局限性:缺乏泛化能力:模型只能很好地响应数据集中出现过的指令模式,无法覆盖用户千奇百怪的真实意图。“对齐”不足:模型的回答可能在事实上正确,但在风格、语气、安全性或有用性上,并不符合人类的期望。它只知道“正确答案”,却不知道“更好的答案”。 SFT ...
- 面对海量多模态数据管理困境,思必驰通过构建以 Apache Doris 为核心的数据集平台,实现了数据从“散、乱、滞”到“统、明、畅”的转变。在关键场景中,存储占用下降 80%、查询 QPS 提升至 3w,不仅实现可量化的效率提升和成本优化,更系统化地提升了 AI 研发效率与模型质量。 面对海量多模态数据管理困境,思必驰通过构建以 Apache Doris 为核心的数据集平台,实现了数据从“散、乱、滞”到“统、明、畅”的转变。在关键场景中,存储占用下降 80%、查询 QPS 提升至 3w,不仅实现可量化的效率提升和成本优化,更系统化地提升了 AI 研发效率与模型质量。
- 新增10+特性,在插件、MCP、知识库、工作流节点等实现能力拓展 新增10+特性,在插件、MCP、知识库、工作流节点等实现能力拓展
- 与将向量检索视为独立外挂服务的方案不同,Apache Doris 4.0 选择将向量检索能力深度集成于其 MPP 分析型数据库内核。实现向量检索与 SQL 计算、实时分析和事务保障的无缝融合。 本文旨在深入剖析 Doris 向量检索的系统级设计与工程实践,展示其如何在性能、易用性与规模扩展之间取得的平衡。 与将向量检索视为独立外挂服务的方案不同,Apache Doris 4.0 选择将向量检索能力深度集成于其 MPP 分析型数据库内核。实现向量检索与 SQL 计算、实时分析和事务保障的无缝融合。 本文旨在深入剖析 Doris 向量检索的系统级设计与工程实践,展示其如何在性能、易用性与规模扩展之间取得的平衡。
- 当AI模型规模不断扩张,一个根本性问题愈发凸显:宝贵的算力是否被浪费在了本应“记住”而非“推算”的任务上?DeepSeek最新披露的Engram技术,正是对这一痛点的结构性回应。它试图将事实性记忆从昂贵的连续神经网络计算中剥离,转向确定性的高效查找,为大模型架构开辟了一条全新的“稀疏性”优化路径。这或许意味着,下一代模型的竞争焦点,正从参数规模转向计算质量的重新分配。 当AI模型规模不断扩张,一个根本性问题愈发凸显:宝贵的算力是否被浪费在了本应“记住”而非“推算”的任务上?DeepSeek最新披露的Engram技术,正是对这一痛点的结构性回应。它试图将事实性记忆从昂贵的连续神经网络计算中剥离,转向确定性的高效查找,为大模型架构开辟了一条全新的“稀疏性”优化路径。这或许意味着,下一代模型的竞争焦点,正从参数规模转向计算质量的重新分配。
- 大模型正从对话迈向行动,核心是工具调用(Function Calling)。开发者向模型注册工具函数后,模型能根据问题智能选择并调用,附上正确参数,并将执行结果转化为最终答案。相比ReAct提示工程,工具调用更聚焦于明确的函数接口,适合API调用等场景,开发相对简便。它标志着大模型从“认知”走向“行动”,成为解决实际问题的关键。 大模型正从对话迈向行动,核心是工具调用(Function Calling)。开发者向模型注册工具函数后,模型能根据问题智能选择并调用,附上正确参数,并将执行结果转化为最终答案。相比ReAct提示工程,工具调用更聚焦于明确的函数接口,适合API调用等场景,开发相对简便。它标志着大模型从“认知”走向“行动”,成为解决实际问题的关键。
- 2026年伊始,AI领域的信号已从趋势预测转向工程现实。马斯克与华尔街的共同判断,OpenAI与DeepSeek的连续动作,都指向一个明确方向:AI正从工具演变为能自主执行任务的系统主体。这一结构性变迁,将软件测试与质量保障推到了变革的最前沿,对传统的验证方法发起了根本性挑战。 2026年伊始,AI领域的信号已从趋势预测转向工程现实。马斯克与华尔街的共同判断,OpenAI与DeepSeek的连续动作,都指向一个明确方向:AI正从工具演变为能自主执行任务的系统主体。这一结构性变迁,将软件测试与质量保障推到了变革的最前沿,对传统的验证方法发起了根本性挑战。
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签