- I. Neyman正交性与因果识别的理论基础 1.1 因果模型的参数化表述考虑部分线性模型(Partially Linear Model):Y=θD+g(X)+U,E[U∣X,D]=0Y = \theta D + g(X) + U, \quad E[U|X,D] = 0Y=θD+g(X)+U,E[U∣X,D]=0其中YYY是结果变量,DDD是我们关心的处理变量(如价格),XXX是高维协变量... I. Neyman正交性与因果识别的理论基础 1.1 因果模型的参数化表述考虑部分线性模型(Partially Linear Model):Y=θD+g(X)+U,E[U∣X,D]=0Y = \theta D + g(X) + U, \quad E[U|X,D] = 0Y=θD+g(X)+U,E[U∣X,D]=0其中YYY是结果变量,DDD是我们关心的处理变量(如价格),XXX是高维协变量...
- I. 核心识别假设的放松与强化 1.1 清晰断点到模糊断点的假设演变假设类型清晰断点(Sharp)模糊断点(Fuzzy)经济含义分配连续性$\lim_{x\to c^-} \mathbb{E}[Y_i(0)X_i=x] = \lim_{x\to c^+} \mathbb{E}[Y_i(0)X_i=x]$处理确定性Di=ZiD_i = Z_iDi=Zi放松:ZiZ_iZi仅为工具变量处... I. 核心识别假设的放松与强化 1.1 清晰断点到模糊断点的假设演变假设类型清晰断点(Sharp)模糊断点(Fuzzy)经济含义分配连续性$\lim_{x\to c^-} \mathbb{E}[Y_i(0)X_i=x] = \lim_{x\to c^+} \mathbb{E}[Y_i(0)X_i=x]$处理确定性Di=ZiD_i = Z_iDi=Zi放松:ZiZ_iZi仅为工具变量处...
- I. 引言:多重检验的必然性与挑战在单假设检验框架下,我们习惯于控制I类错误概率为α\alphaα(通常为0.05)。然而,当代数据分析很少局限于单一问题。当检验mmm个相互独立的假设时,至少犯一次I类错误的概率膨胀为:P(至少一个假阳性)=1−(1−α)mP(\text{至少一个假阳性}) = 1 - (1 - \alpha)^mP(至少一个假阳性)=1−(1−α)m当m=10m=10m... I. 引言:多重检验的必然性与挑战在单假设检验框架下,我们习惯于控制I类错误概率为α\alphaα(通常为0.05)。然而,当代数据分析很少局限于单一问题。当检验mmm个相互独立的假设时,至少犯一次I类错误的概率膨胀为:P(至少一个假阳性)=1−(1−α)mP(\text{至少一个假阳性}) = 1 - (1 - \alpha)^mP(至少一个假阳性)=1−(1−α)m当m=10m=10m...
- I. 引言:超越平均效应的局限在数字经济和精准营销时代,“一刀切"的策略已难以满足精细化运营的需求。传统的A/B测试报告通常聚焦于平均处理效应(Average Treatment Effect, ATE),例如"新推荐算法使整体点击率提升2.3%”。然而,这种聚合指标可能掩盖了用户群体间的显著差异:年轻用户可能提升8%,而老年用户反而下降3%,最终相互抵消形成微弱的平均效应。异质性处理效应... I. 引言:超越平均效应的局限在数字经济和精准营销时代,“一刀切"的策略已难以满足精细化运营的需求。传统的A/B测试报告通常聚焦于平均处理效应(Average Treatment Effect, ATE),例如"新推荐算法使整体点击率提升2.3%”。然而,这种聚合指标可能掩盖了用户群体间的显著差异:年轻用户可能提升8%,而老年用户反而下降3%,最终相互抵消形成微弱的平均效应。异质性处理效应...
- I. 引言:高维因果推断的挑战与机遇在数字经济时代,因果推断正面临前所未有的维度爆炸。金融科技公司的用户行为数据包含数千维特征,医疗影像分析涉及百万级像素点,电商平台的推荐系统需处理数百个用户-商品交互变量。传统因果推断方法——无论是倾向得分匹配还是双重差分——均基于"低维可观测假设",即研究者能穷尽所有混淆因素。但当特征维度p超过样本量n(p>>n),或协变量存在高度多重共线性时,传统方... I. 引言:高维因果推断的挑战与机遇在数字经济时代,因果推断正面临前所未有的维度爆炸。金融科技公司的用户行为数据包含数千维特征,医疗影像分析涉及百万级像素点,电商平台的推荐系统需处理数百个用户-商品交互变量。传统因果推断方法——无论是倾向得分匹配还是双重差分——均基于"低维可观测假设",即研究者能穷尽所有混淆因素。但当特征维度p超过样本量n(p>>n),或协变量存在高度多重共线性时,传统方...
- I. 引言:因果推断中的估计挑战与外生性问题在经济学、公共卫生与政策评估领域,识别处理效应(Treatment Effect)始终是实证研究的核心使命。传统的回归方法依赖条件均值独立假设(E[ε|X]=0),但在观察性研究中,处理分配往往与潜在结果相关,导致内生性偏误。倾向得分匹配(Propensity Score Matching, PSM)通过构建反事实框架,在可观测变量上实现“准随机... I. 引言:因果推断中的估计挑战与外生性问题在经济学、公共卫生与政策评估领域,识别处理效应(Treatment Effect)始终是实证研究的核心使命。传统的回归方法依赖条件均值独立假设(E[ε|X]=0),但在观察性研究中,处理分配往往与潜在结果相关,导致内生性偏误。倾向得分匹配(Propensity Score Matching, PSM)通过构建反事实框架,在可观测变量上实现“准随机...
- 引言:超越响应率的营销智能在数字化营销和个性化推荐的时代,企业的核心痛点已从"用户是否会响应"升级到**“我的干预是否真正有效”**。传统响应模型(Response Model)能预测用户看到广告后的购买概率,但无法回答 “这笔订单是否因为广告而产生” 这个关键问题。Uplift Modeling(增量建模)正是为解决这一难题而生的因果推断技术。它直接建模干预的增量效应(Increment... 引言:超越响应率的营销智能在数字化营销和个性化推荐的时代,企业的核心痛点已从"用户是否会响应"升级到**“我的干预是否真正有效”**。传统响应模型(Response Model)能预测用户看到广告后的购买概率,但无法回答 “这笔订单是否因为广告而产生” 这个关键问题。Uplift Modeling(增量建模)正是为解决这一难题而生的因果推断技术。它直接建模干预的增量效应(Increment...
- 引言:理解纵向数据的本质纵向数据分析(Longitudinal Data Analysis)是现代统计学和数据科学中处理重复测量数据的核心方法论。与横截面数据不同,纵向数据追踪同一组个体在不同时间点的变化,天然具有面板数据结构(Panel Data),既包含时间序列维度也包含截面维度。这种双重维度带来了独特的分析挑战:组内相关性(within-group correlation)和个体异质... 引言:理解纵向数据的本质纵向数据分析(Longitudinal Data Analysis)是现代统计学和数据科学中处理重复测量数据的核心方法论。与横截面数据不同,纵向数据追踪同一组个体在不同时间点的变化,天然具有面板数据结构(Panel Data),既包含时间序列维度也包含截面维度。这种双重维度带来了独特的分析挑战:组内相关性(within-group correlation)和个体异质...
- KNN(K Near Neighbor):k个最近的邻居,即每个样本都可以用它最接近的k个邻居来代表。KNN算法属于监督学习方式的分类算法,我的理解就是计算某给点到每个点的距离作为相似度的反馈。简单来讲,KNN就是“近朱者赤,近墨者黑”的一种分类算法。KNN是一种基于实例的学习,属于懒惰学习,即没有显式学习过程。要区分一下聚类(如Kmeans等),KNN是监督学习分类,而Kmeans是无监督... KNN(K Near Neighbor):k个最近的邻居,即每个样本都可以用它最接近的k个邻居来代表。KNN算法属于监督学习方式的分类算法,我的理解就是计算某给点到每个点的距离作为相似度的反馈。简单来讲,KNN就是“近朱者赤,近墨者黑”的一种分类算法。KNN是一种基于实例的学习,属于懒惰学习,即没有显式学习过程。要区分一下聚类(如Kmeans等),KNN是监督学习分类,而Kmeans是无监督...
- NDVI, Species Cover, and LAI, Burned and Unburned sites, Interior Alaska, 2017-2018简介本数据集提供了美国阿拉斯加内陆北方森林的叶面积指数(LAI)、树种和冠层覆盖度、归一化植被指数(NDVI)以及 NDVI 趋势。收集这些数据是为了研究受干扰和演替影响的森林结构和组成与 NDVI 趋势之间的关系。数据来自 2... NDVI, Species Cover, and LAI, Burned and Unburned sites, Interior Alaska, 2017-2018简介本数据集提供了美国阿拉斯加内陆北方森林的叶面积指数(LAI)、树种和冠层覆盖度、归一化植被指数(NDVI)以及 NDVI 趋势。收集这些数据是为了研究受干扰和演替影响的森林结构和组成与 NDVI 趋势之间的关系。数据来自 2...
- 什么是时间序列?由于这是一本关于时间序列数据的书,我们应该首先澄清我们所讨论的内容。在本节中,我们将介绍时间序列及其特性,并深入探讨与机器学习和统计学相关的不同问题和分析类型。许多学科,如金融、公共行政、能源、零售和医疗保健,主要依赖时间序列数据。微观经济学和宏观经济学的很多领域依赖于应用统计学,特别是侧重于时间序列分析和建模。以下是一些时间序列数据的例子:股票指数的每日收盘值每周某疾病的感... 什么是时间序列?由于这是一本关于时间序列数据的书,我们应该首先澄清我们所讨论的内容。在本节中,我们将介绍时间序列及其特性,并深入探讨与机器学习和统计学相关的不同问题和分析类型。许多学科,如金融、公共行政、能源、零售和医疗保健,主要依赖时间序列数据。微观经济学和宏观经济学的很多领域依赖于应用统计学,特别是侧重于时间序列分析和建模。以下是一些时间序列数据的例子:股票指数的每日收盘值每周某疾病的感...
- 1.背景与问题在AI大模型训练过程中,性能优化是永恒的主题。如何快速、高效地实现算子级优化,进一步提升整网训练效率,成为很多开发者与企业的核心诉求。昇腾CANN开放了算子源码,并提供了Ascend C编程能力,使用户能够根据自身业务需求开发高性能算子。本实践聚焦于两个紧密相关的损失函数:交叉熵损失(CrossEntropyLoss)和ZLoss。在客户的某大模型训练场景中,使用Mind St... 1.背景与问题在AI大模型训练过程中,性能优化是永恒的主题。如何快速、高效地实现算子级优化,进一步提升整网训练效率,成为很多开发者与企业的核心诉求。昇腾CANN开放了算子源码,并提供了Ascend C编程能力,使用户能够根据自身业务需求开发高性能算子。本实践聚焦于两个紧密相关的损失函数:交叉熵损失(CrossEntropyLoss)和ZLoss。在客户的某大模型训练场景中,使用Mind St...
- 在人工智能的发展历程中,大语言模型(LLMs)的出现无疑是一座里程碑。它们能够生成流畅的文本、回答复杂的问题、甚至进行创意写作。但你是否想过,这些强大的能力是如何被激发出来的?今天,我们将深入探讨两个让大模型“更聪明”的关键技术:上下文学习(In-Context Learning)和指令微调(Instruction Tuning)。理解它们,将帮助我们更好地与AI对话,更有效地利用AI的潜力... 在人工智能的发展历程中,大语言模型(LLMs)的出现无疑是一座里程碑。它们能够生成流畅的文本、回答复杂的问题、甚至进行创意写作。但你是否想过,这些强大的能力是如何被激发出来的?今天,我们将深入探讨两个让大模型“更聪明”的关键技术:上下文学习(In-Context Learning)和指令微调(Instruction Tuning)。理解它们,将帮助我们更好地与AI对话,更有效地利用AI的潜力...
- 人类认知世界的伟大之处,在于我们能自然而然地融会贯通——我们看到一只猫的图片,脑中能浮现它的叫声;听到“海浪”这个词,鼻尖仿佛能嗅到咸湿的海风。我们的视觉、听觉、语言等感官信息在大脑中形成了一个统一的理解网络。然而,对于传统人工智能而言,处理图片的模型是“盲人”,处理文本的模型是“哑巴”,它们各自为政,仿佛生活在平行的感官宇宙中。如何让AI也获得这种“通感”能力,真正地理解我们这个多模态的世... 人类认知世界的伟大之处,在于我们能自然而然地融会贯通——我们看到一只猫的图片,脑中能浮现它的叫声;听到“海浪”这个词,鼻尖仿佛能嗅到咸湿的海风。我们的视觉、听觉、语言等感官信息在大脑中形成了一个统一的理解网络。然而,对于传统人工智能而言,处理图片的模型是“盲人”,处理文本的模型是“哑巴”,它们各自为政,仿佛生活在平行的感官宇宙中。如何让AI也获得这种“通感”能力,真正地理解我们这个多模态的世...
- 雨后的一号线里,车窗上还挂着没干的水珠。我拎着一杯温豆浆,旁边坐着修了三十年收音机的老马师傅,另一边是一位准备参加信息学竞赛的高中生。广播里反复提醒“注意脚下”,我忽然想到:要让更多人听懂AI,也许就从脚下这几样“新路面”讲起——状态空间模型(Mamba、S4)、神经架构搜索(NAS)、以及正在冒头的量子机器学习。先说状态空间模型。别被名字吓到,它的本质像一条“会记忆”的河。河里有水流(当前... 雨后的一号线里,车窗上还挂着没干的水珠。我拎着一杯温豆浆,旁边坐着修了三十年收音机的老马师傅,另一边是一位准备参加信息学竞赛的高中生。广播里反复提醒“注意脚下”,我忽然想到:要让更多人听懂AI,也许就从脚下这几样“新路面”讲起——状态空间模型(Mamba、S4)、神经架构搜索(NAS)、以及正在冒头的量子机器学习。先说状态空间模型。别被名字吓到,它的本质像一条“会记忆”的河。河里有水流(当前...
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签