- 摘要:针对大模型应用中专用向量库成本高、混合查询难的痛点,本文深入拆解 Apache Doris 4.1 原生向量检索的工程实践。从 IVF 算法降本、存储分层,到突破性能瓶颈的 ANN Index Only Scan,系统化解决 AI 时代的海量数据存算难题。在大幅压低内存开销的同时,跑出了 900 QPS 与 97% 召回率的亮眼成绩。随着大语言模型(LLM)应用与 RAG(检索增强生成... 摘要:针对大模型应用中专用向量库成本高、混合查询难的痛点,本文深入拆解 Apache Doris 4.1 原生向量检索的工程实践。从 IVF 算法降本、存储分层,到突破性能瓶颈的 ANN Index Only Scan,系统化解决 AI 时代的海量数据存算难题。在大幅压低内存开销的同时,跑出了 900 QPS 与 97% 召回率的亮眼成绩。随着大语言模型(LLM)应用与 RAG(检索增强生成...
- Agent 时代,为什么需要新的可观测范式?先从一个真实场景出发:某团队上线了一款客服 Agent,并规范地接入了 Prometheus、Grafana、ELK 等主流的可观测性工具。从监控大盘来看,各项核心指标非常完美:P99 延迟为 0.2 秒,错误率为 0.001%,Token 消耗曲线表现平稳,所有系统指标均处于健康状态。然而,产品团队很快在用户反馈中发现了一个问题:系统把一个明明符... Agent 时代,为什么需要新的可观测范式?先从一个真实场景出发:某团队上线了一款客服 Agent,并规范地接入了 Prometheus、Grafana、ELK 等主流的可观测性工具。从监控大盘来看,各项核心指标非常完美:P99 延迟为 0.2 秒,错误率为 0.001%,Token 消耗曲线表现平稳,所有系统指标均处于健康状态。然而,产品团队很快在用户反馈中发现了一个问题:系统把一个明明符...
- 导读:多模态数据正成为企业核心资产,但规模化管理仍具挑战。自动驾驶在 PB 级图像、点云、视频等数据治理中积累了可复用经验。本文介绍某公司以 Apache Doris 统一标签、元数据、全文和向量检索,将查询从分钟级提升至秒级。多模态数据正在成为各行业企业的核心资产,但大多数团队仍在摸索如何对其进行规模化管理。自动驾驶是少数已经在生产环境中,大规模面对并持续优化这一问题的领域之一:图像、点云... 导读:多模态数据正成为企业核心资产,但规模化管理仍具挑战。自动驾驶在 PB 级图像、点云、视频等数据治理中积累了可复用经验。本文介绍某公司以 Apache Doris 统一标签、元数据、全文和向量检索,将查询从分钟级提升至秒级。多模态数据正在成为各行业企业的核心资产,但大多数团队仍在摸索如何对其进行规模化管理。自动驾驶是少数已经在生产环境中,大规模面对并持续优化这一问题的领域之一:图像、点云...
- 过去一年,Agent 正从一个技术概念,逐渐变成企业智能化落地的核心入口。这背后并不只是应用形态变化,更像是一场新的接口革命:人不再需要理解每一个工具的使用方式,也不再需要在不同系统之间反复切换;人只需要表达目标,Agent 则负责理解意图、拆解任务、选择工具、调用数据并完成执行。在即将举行的 SelectDB 产品发布会上,我们也将围绕这一变化做一次更系统的分享:当 Agent 成为新的应... 过去一年,Agent 正从一个技术概念,逐渐变成企业智能化落地的核心入口。这背后并不只是应用形态变化,更像是一场新的接口革命:人不再需要理解每一个工具的使用方式,也不再需要在不同系统之间反复切换;人只需要表达目标,Agent 则负责理解意图、拆解任务、选择工具、调用数据并完成执行。在即将举行的 SelectDB 产品发布会上,我们也将围绕这一变化做一次更系统的分享:当 Agent 成为新的应...
- 在交易、行情、IoT、日志补全等典型时间序列场景中,业务需要的不是普通等值关联,而是“按业务键分组后,在时间轴上找到不晚于左侧记录的最近一条右侧记录”。ASOF JOIN 正是为这类问题设计的:它把“同键匹配”和“时间近邻”统一到一条执行路径上,天然适合做交易撮合行情补全、事件归因、快照对齐等分析任务。Doris 在 4.0.5 和 4.1.0 版本引入的 ASOF JOIN,正是为这类场景... 在交易、行情、IoT、日志补全等典型时间序列场景中,业务需要的不是普通等值关联,而是“按业务键分组后,在时间轴上找到不晚于左侧记录的最近一条右侧记录”。ASOF JOIN 正是为这类问题设计的:它把“同键匹配”和“时间近邻”统一到一条执行路径上,天然适合做交易撮合行情补全、事件归因、快照对齐等分析任务。Doris 在 4.0.5 和 4.1.0 版本引入的 ASOF JOIN,正是为这类场景...
- 摘要:在工业互联网和智能制造的浪潮下,实时数据处理能力成为连接物理世界与数字世界的核心能力。本文从生态共建、企业级实践和国产化适配三个维度,对比 TDengine 与 Apache Ignite 在工业数字化转型中的价值差异。一、工业互联网的数据基座需求随着"中国制造2025"和"工业互联网创新发展行动计划"的深入推进,工业企业正加速推进数字化转型。在这一过程中,海量工业设备的实时数据采集、... 摘要:在工业互联网和智能制造的浪潮下,实时数据处理能力成为连接物理世界与数字世界的核心能力。本文从生态共建、企业级实践和国产化适配三个维度,对比 TDengine 与 Apache Ignite 在工业数字化转型中的价值差异。一、工业互联网的数据基座需求随着"中国制造2025"和"工业互联网创新发展行动计划"的深入推进,工业企业正加速推进数字化转型。在这一过程中,海量工业设备的实时数据采集、...
- 摘要:瓴岳科技原数据平台基于 Hive 与 StarRocks、Spark 多引擎协同架构,随着数据规模增长,在性能与易用性上逐渐面临瓶颈。通过引入阿里云 SelectDB,构建湖仓一体化探索分析平台,在无需迁移数据的前提下实现对 Hive 数据湖的透明加速,显著提升查询性能并简化架构,完成从多引擎协同向统一分析平台的升级。瓴岳科技是一家以大数据与人工智能为核心的数字科技集团,旗下拥有国内产... 摘要:瓴岳科技原数据平台基于 Hive 与 StarRocks、Spark 多引擎协同架构,随着数据规模增长,在性能与易用性上逐渐面临瓶颈。通过引入阿里云 SelectDB,构建湖仓一体化探索分析平台,在无需迁移数据的前提下实现对 Hive 数据湖的透明加速,显著提升查询性能并简化架构,完成从多引擎协同向统一分析平台的升级。瓴岳科技是一家以大数据与人工智能为核心的数字科技集团,旗下拥有国内产...
- 在过去几年中,数据基础设施的演进始终围绕一个核心问题展开:如何更快地分析数据?但进入 2026 年,这个问题正在被重新定义。随着 AI 应用的爆发式增长,数据系统不再只是分析工具,而逐渐成为 智能系统的一部分。数据不再只是被查询,而是被 Agent 调用、被模型理解、被系统实时消费。在这样的背景下,Apache Doris 社区提出了 2026 年的年度主题:Scale Intelligen... 在过去几年中,数据基础设施的演进始终围绕一个核心问题展开:如何更快地分析数据?但进入 2026 年,这个问题正在被重新定义。随着 AI 应用的爆发式增长,数据系统不再只是分析工具,而逐渐成为 智能系统的一部分。数据不再只是被查询,而是被 Agent 调用、被模型理解、被系统实时消费。在这样的背景下,Apache Doris 社区提出了 2026 年的年度主题:Scale Intelligen...
- 凌晨,硅谷又炸了锅。谷歌DeepMind毫无征兆地甩出Gemma 4全家桶——四款开源模型,从2B到31B,全部基于Gemini 3同源技术打造。这不是一次常规更新,而是对开源大模型格局的彻底重写。最让同行后背发凉的数字:31B Dense模型,Elo评分1452,开源榜单第三。排它前面的两位,参数分别是它的20倍和30倍。用三十分之一的体量,打出了同等水平的成绩——参数效率这个词,被谷歌重... 凌晨,硅谷又炸了锅。谷歌DeepMind毫无征兆地甩出Gemma 4全家桶——四款开源模型,从2B到31B,全部基于Gemini 3同源技术打造。这不是一次常规更新,而是对开源大模型格局的彻底重写。最让同行后背发凉的数字:31B Dense模型,Elo评分1452,开源榜单第三。排它前面的两位,参数分别是它的20倍和30倍。用三十分之一的体量,打出了同等水平的成绩——参数效率这个词,被谷歌重...
- 在快递行业,运单数据贯穿业务全流程,每一单的流转状态、时效分析、异常监控,都离不开实时数据的支撑。作为行业领军企业,中通快递每天新增的运单数据超过 6 亿条(80% 为更新操作),总数据量高达 45 亿条,单表字段超过 200 个——这是一个超大规模、超高维度的实时分析场景。面对如此庞大的数据规模,如何让数据分析快起来,让业务人员随时能查到想看的运单信息,成为技术团队必须攻克的难题。今天,我... 在快递行业,运单数据贯穿业务全流程,每一单的流转状态、时效分析、异常监控,都离不开实时数据的支撑。作为行业领军企业,中通快递每天新增的运单数据超过 6 亿条(80% 为更新操作),总数据量高达 45 亿条,单表字段超过 200 个——这是一个超大规模、超高维度的实时分析场景。面对如此庞大的数据规模,如何让数据分析快起来,让业务人员随时能查到想看的运单信息,成为技术团队必须攻克的难题。今天,我...
- 摘要:Apache Doris 4.0 作为一个重要里程碑正式发布,引入了原生向量检索、AI 函数以及全新的混合检索与分析处理(HSAP)架构。此后,社区通过 4.0.1 至 4.0.4 四个版本快速演进,本文总结了这四个版本中引入的关键新特性。Apache Doris 4.0.4 现已正式发布,该版本相较于其他 4.0.x 版本,更为稳定、可靠。Apache Doris 4.0.4 版本囊... 摘要:Apache Doris 4.0 作为一个重要里程碑正式发布,引入了原生向量检索、AI 函数以及全新的混合检索与分析处理(HSAP)架构。此后,社区通过 4.0.1 至 4.0.4 四个版本快速演进,本文总结了这四个版本中引入的关键新特性。Apache Doris 4.0.4 现已正式发布,该版本相较于其他 4.0.x 版本,更为稳定、可靠。Apache Doris 4.0.4 版本囊...
- 导读:AI 时代日志量巨大,传统用 Elasticsearch 做搜索、ClickHouse 做分析的两套系统成本高且复杂。SelectDB(基于 Apache Doris 内核研发的商业化产品) 通过内置 search() 函数,在同一个引擎内融合全文检索与 SQL 分析,实现一份数据同时支持搜索和分析,大幅简化架构、提升查询性能。 AI 时代日志爆增带来的难题当下,日志成为 AI 时代最... 导读:AI 时代日志量巨大,传统用 Elasticsearch 做搜索、ClickHouse 做分析的两套系统成本高且复杂。SelectDB(基于 Apache Doris 内核研发的商业化产品) 通过内置 search() 函数,在同一个引擎内融合全文检索与 SQL 分析,实现一份数据同时支持搜索和分析,大幅简化架构、提升查询性能。 AI 时代日志爆增带来的难题当下,日志成为 AI 时代最...
- 像 PostgreSQL 和 MySQL 这样的 OLTP(在线事务处理)数据库,凭借其强一致性和高并发事务处理能力,已成为行业标准。为应对更大规模的工作负载,许多团队还会引入分库分表方案,将数据分布到多个实例和表中,以此突破单节点瓶颈。然而,这种对事务行之有效的方案,在实时分析需求(实时运营仪表盘、多维业务报告、用户行为分析和实时监控)面前却暴露出明显短板。问题的关键不在于将 Postgr... 像 PostgreSQL 和 MySQL 这样的 OLTP(在线事务处理)数据库,凭借其强一致性和高并发事务处理能力,已成为行业标准。为应对更大规模的工作负载,许多团队还会引入分库分表方案,将数据分布到多个实例和表中,以此突破单节点瓶颈。然而,这种对事务行之有效的方案,在实时分析需求(实时运营仪表盘、多维业务报告、用户行为分析和实时监控)面前却暴露出明显短板。问题的关键不在于将 Postgr...
- Data + AI 能用在哪些场景?具体落地又该如何操作?本文借助 SelectDB + AI,搭建一个用于收集、整合与分析全域用户反馈的智能洞察系统。以此实战,给有需求的用户提供可参考的基础方法论。 Data + AI 能用在哪些场景?具体落地又该如何操作?本文借助 SelectDB + AI,搭建一个用于收集、整合与分析全域用户反馈的智能洞察系统。以此实战,给有需求的用户提供可参考的基础方法论。
- 高精度解析是强大的“武器”,但唯有与业务场景结合,才能转化为真正的“战斗力”。 高精度解析是强大的“武器”,但唯有与业务场景结合,才能转化为真正的“战斗力”。
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签