-
Science | 从碳基到硅基的进化共鸣:多智能体强化学习重演生物社会合作的神经策略 在这个充满竞争的自然界中,我们常被灌输“适者生存”的丛林法则。然而,当我们回望人类文明的基石,或者观察狼群的围猎、大象的互助,会发现另一个同样古老且强大的法则:合作。合作不仅仅是两两个体物理距离的接近,它是一场发生在两个大脑之间精密复杂的“双人舞”。但是,这种舞蹈是如何编排的?当我和你为了一个共同的目标协同行动时,我的大脑里究竟发生了什么?我如何预判你的行动?我的神经元是如何不仅编码“我”,还学会了编码“你”? 为了解开这个谜题,研究人员进行了一项令人印象深刻的跨学科研究。他们不仅窥探了小鼠在通过合作获取奖励时的大脑活动,还在人工智能系统中复现了这一过程。这项发表于1月1日的《Science》,“Neural basis of cooperative behavior in biological and artificial intelligence systems”,为我们揭示了合作行为背后那惊人相似的神经计算原理。 独行快,众行远:一场精心设计的“双鼠游戏”要研究合作,首先得定义合作。在野外,合作稍纵即逝且充满干扰。因此,研究人员在实验室里搭建了一个巧妙的舞台。这是一个被透明隔板一分为二的盒子。隔板中间有孔,允许两边的小鼠通过视觉、嗅觉甚至触觉进行交流。规则很简单:两只小鼠必须在极短的时间窗口内,同时用鼻子触碰各自区域的传感器(Nose-poke),才能获得美味的水作为奖励。如果只有一只老鼠触碰,或者两只老鼠触碰的时间差太大,谁也喝不到水。这并非易事。起初,时间窗口被设定为宽裕的3秒,但随着训练的深入,这个窗口被无情地压缩到1.5秒,最终缩短至 0.75秒。这意味着,只要有一方稍有迟疑,合作就会失败。数据告诉我们,这绝非随机的巧合。在经历了漫长的训练后,76% 的小鼠配对表现出了显著高于随机水平的合作成功率。研究人员通过“乱序重排”(Shuffling)的方法构建了随机模型——即如果两只老鼠互不理睬,只是按照自己的节奏乱点,它们碰巧成功的概率是多少。结果显示,经过训练的小鼠,其不仅成功率远超随机水平,而且失误率(Miss trials)大幅下降。更有趣的是,在这些成功的小鼠中,约有 41% 被归类为“高表现组”(High-performance pairs)。它们不仅配合默契,而且随着训练的进行,它们两次触碰之间的时间差越来越短。在最后的训练阶段,这些“高表现组”在 0.75秒 的严苛窗口下展现出了惊人的同步性,仿佛它们之间有一条看不见的神经连线。但是,这真的是“合作”吗?还是只是两只老鼠各自学会了听到某个声音就冲过去?为了验证这一点,研究人员做了一系列巧妙的控制实验。首先,他们把那块透明的隔板换成了不透明的实心隔板。视觉线索被切断了。结果立竿见影:成功合作的次数骤降,而单方尝试却无法获得奖励的“失误”次数激增。这说明,看到伙伴,是合作的关键。其次,他们设计了“单边合作”(Unilateral cooperation)实验。在这个版本中,一只老鼠(老鼠A)无论何时触碰都能得到奖励,而另一只(老鼠B)必须配合老鼠A的节奏才能得到奖励。如果合作只是简单的模仿,那么老鼠B完全可以跟着老鼠A做。但结果显示,在这种不对等的关系中,老鼠B的合作表现远不如双方都需要合作时那么好。这有力地证明了:真正的合作,需要双方都意识到“共同利益”的存在,并据此主动调整自己的行为。 无声的交流:策略的进化如果我们将镜头拉近,逐帧分析这些高表现小鼠的行为,会发现它们进化出了一套复杂的社交策略。这不仅仅是简单的条件反射,而是一场无声的战术交流。利用先进的姿态追踪算法(SLEAP),研究人员捕捉到了三个关键的行为模式:1. 靠近 (Approach)小鼠会有意识地向隔板靠近,进入对方的视野范围。 2. 等待 (Waiting)这是最令人着迷的行为。当一只小鼠先到达触碰口时,它没有急着行动,而是停下来,在“社交区”等待伙伴的到来。数据显示,这种等待行为在训练过程中大幅增加,且主要发生在触碰前的 2秒内。这种“克制”是合作成功的基石。 3. 互动 (Interaction)两只小鼠会隔着隔板头对头,仿佛在确认眼神。在训练初期,这种互动往往发生在相距较远、角度各异的情况下(约180度面对面)。但随着默契的增加,它们互动时的角度变成了更有效率的 120度左右——既能保持眼神交流,又能随时转身去触碰传感器。数据显示,这种“互动”行为在训练过程中增加了 158.9%。更重要的是,这些行为并非漫无目的。相比于失败的尝试,在那些成功的合作之前,小鼠表现出了更明显的等待和互动。这告诉我们,合作不是一个瞬间的动作,而是一个包含预判、抑制冲动和即时通讯的连续过程。大脑中的指挥官:前扣带回皮层 (ACC)这套复杂的战术是在哪里被指挥的?研究人员将目光锁定在了前扣带回皮层(Anterior Cingulate Cortex, ACC)。这个脑区在人类中就已知与情绪、决策和社交密切相关。利用微型显微钙成像技术(Microendoscopic calcium imaging),研究人员记录了17对小鼠在进行合作任务时,ACC区域内 12,798 个神经元的活动。一幅壮观的神经交响乐展现在眼前。首先,他们发现了专门编码“结果”的神经元。有些神经元只在合作成功(Correct poke)时放电,有些则只在失败(Miss poke)时放电。有趣的是,随着训练的深入,那些代表“成功”的神经元比例逐渐增加,而且这与小鼠的合作表现呈现出明显的正相关。换句话说,大脑正在通过增强“成功”的信号来固化合作的记忆。但更令人兴奋的发现在于社交信息的编码。“我”与“你”的神经表征在ACC中,研究人员不仅找到了表征“我在哪”(Self position)的神经元,更找到了大量表征“你在哪”(Partner position)的神经元。当隔板变成不透明时,那些编码“你在哪”的神经元活动几乎消失了(减少了 76.05%),而编码“我在哪”的神经元受到的影响则小得多。这一发现至关重要——它意味着小鼠的大脑中构建了一个关于伙伴位置的动态地图。而且,这部分表征伙伴位置的神经信号越强,小鼠的合作表现就越好,它们也更倾向于展现出“等待”的行为。“行动”与“克制”的决策信号最精彩的部分在于决策。合作的本质往往在于何时行动(Proceed),以及何时按兵不动(Hold)。研究人员发现,ACC中的神经元群准确地编码了这两类截然相反的决策:• Hold(保持):当我到了,但你还没到,我必须克制自己不去触碰。• Proceed(行动):当我们都到了,现在的时机完美,我们要一起行动。随着训练的进行,小鼠大脑中正确发出“Hold”和“Proceed”信号的次数显著增加,而错误的决策信号(比如伙伴没来就盲目行动)则大幅减少。解码分析显示,我们可以仅通过观察神经元的活动,就能预判小鼠是决定等待还是决定行动。这表明,ACC不仅仅是在被动地记录位置,它更是在整合了“我”和“你”的信息后,主动计算并发出战术指令的指挥中心。破坏引擎:当ACC停止工作相关性并不等于因果性。为了证明ACC是合作行为的必要条件,研究人员使用了化学遗传学(DREADDs)和光遗传学(Optogenetics)技术来“沉默”这个脑区。当通过注射药物(CNO)抑制ACC的神经活动时,小鼠的合作成功率出现了明显的下降。这并不是因为它们不想喝水了(它们尝试触碰的总次数并没有减少),也不是因为它们运动能力受损(在旷场实验中它们跑得很欢),更不是因为它们变得自闭了(在三箱社交实验中它们依然对同类感兴趣)。真正受损的,是它们的协调能力。数据显示,抑制ACC后,小鼠成功配合的那个极短的时间窗口(Poke interval)变长了,变得不再精准。更关键的是,那些支撑合作的策略性行为——“靠近”、“等待”和“互动”,其持续时间都显著缩短了。光遗传学实验提供了更精确的时间分辨率。研究人员发现,只有在合作发生前的决策阶段(Decision-making period)抑制ACC,才会导致合作失败;而在合作动作完成后再抑制,则毫无影响。这无可辩驳地证明了:ACC是处理实时社会信息、做出合作决策的关键枢纽。没有它,两只老鼠可能依然是个体层面的运动健将,但绝不再是默契的合作伙伴。硅基的镜像:AI眼中的合作世界如果说生物大脑的演化花费了数百万年才习得合作,那么在代码构建的世界里,人工智能是否会重演这一过程?研究人员构建了一个多智能体强化学习(MARL)环境。这相当于一个数字版的“双鼠游戏”:两个AI智能体(Agent)在一个8x8的网格世界中移动,它们同样需要观察环境,移动到一个随机出现的“触碰点”,并在极短的时间窗(2个时间步长)内同时到达,才能获得奖励。每个智能体都配备了一个循环神经网络(RNN),这是一种具有记忆功能的网络结构,类似于大脑的短期记忆。令人惊讶的趋同进化发生了。行为层面的重演:起初,AI智能体只是笨拙地随机探索。但随着训练次数的增加(约4000次迭代后),它们不仅学会了合作,而且发展出了与小鼠惊人相似的策略。数据展示了这一点:在合作模式下,AI智能体展现出了明显的“等待”行为。当一个智能体发现自己离目标更近,而伙伴还很远时,它会主动停下来,甚至向后退,以此来缩短双方到达目标的时间差(Synchronization correction)。这种主动的等待行为与它们最终的合作表现呈显著正相关。 神经层面的重演:当我们打开这些AI智能体的“黑盒子”,观察它们神经网络内部的运作时,发现了与小鼠ACC极度相似的编码模式。研究人员在人工神经网络的隐藏层(Hidden layer)中,同样找到了专门负责编码“自我位置”和“伙伴位置”的单元(Units)。而且,就像在小鼠脑中一样,当剥夺了AI观察伙伴的能力(类似于不透明隔板实验)时,这些编码伙伴信息的单元活跃度大幅下降,合作行为也随之崩塌。更进一步,AI的网络中也自发涌现出了负责“Hold”(我近你远,我要等)和“Proceed”(我们都近,一起冲)的决策单元。为了验证这些单元的功能,研究人员像在小鼠脑中做实验一样,在代码中进行了“消融”(Ablation)实验。• 当删除了编码“Proceed”的单元时,AI智能体的总触碰次数暴跌了 73%,它们变得犹豫不决,无法执行合作。• 当删除了编码“Hold”的单元时,虽然触碰次数没有减少,但“失误率”(Miss trials)大幅上升。它们失去了等待的耐心,变成了鲁莽的独行侠。殊途同归的智慧这项研究最为迷人之处,在于它搭建了一座连接碳基生物与硅基智能的桥梁。在生物大脑中,为了生存,ACC进化出了整合自身与他人信息、抑制冲动、精准决策的能力。而在人工智能中,为了最大化奖励函数,神经网络在没有任何预设规则的情况下,自发地“发明”了几乎完全相同的计算策略。这不仅揭示了合作行为的神经生物学本质——它依赖于对伙伴状态的实时监测和基于此的自我抑制;同时也暗示了,无论是由蛋白质构成的神经元,还是由代码构成的数学节点,在面对“如何协作”这个古老难题时,智慧似乎总是指向同一个解。在这个日益复杂和互联的世界里,理解这种连接的本质,或许比以往任何时候都更加重要。无论是在实验室的笼子里,在服务器的机架上,还是在人类社会的互动中,合作的奇迹,正是在这无数次的“等待”与“同行”中悄然发生。Science | 从碳基到硅基的进化共鸣:多智能体强化学习重演生物社会合作的神经策略
-
关于LeCun和哈萨比斯对智能本质的观点分歧,其实两者的观点都对,是不同角度的思考方向所得到的观点。从人类大脑结构模式的可塑性,人脑大脑神经网络是可沉淀性的通用智能网络,此通用是可沉淀、可塑形性的通用,是抽象可能性的通用。从人类大脑的个体实现智能,都是专业化的,非通用的,是专门化的,因为一旦神经智能网络具例化、实体化,那么就是特定化的,是在特定形态时间空间的训练过程中沉淀的特化智能。比如,现代人类考古学测量与结构分析已经知道,早期智人和现代智人的脑容不同,早期智人脑对世界感知所能发展的智能相对于现代智人脑有更明显的有限性,在进化竞争历程中淘汰,而远古时代的现代智人的脑容结构与现代人相同,古代智人脑、现代与当代人脑、未来人脑的结构稳定。古代智人的脑智能在古代状态下感知世界后认识沉淀结果,现代与当代人脑智能在过去智能符号化记录训练、加上现代状态下感知世界后认识沉淀结果,未来人脑智能在过去和现在智能符号化记录训练、加上未来状态下感知世界后认识沉淀结果,这三阶段的三种人脑容脑神经结构模式是稳定的,然而这三种人脑在世界存在中实际沉淀出不同智能的能力。这可以从如下的不同视角来分析看待,这三种人脑在世界时空的不同阶段,实际的智能实现是不同的(对世界有不同的认识、知识、思维),这个角度来看,人脑智能是专业化的、是实际时空中的感知所沉淀特化,即专用智能。这三种人脑在世界时空的不同阶段,其脑神经结构模式是稳定的,那么这个角度来看,人脑神经网络结构拓扑、智能模式是通用的,即通用智能,它适用于古代时空的训练学习得到古代的智能(古人对世界的认识与思维),适用于现代当代时空的训练学习得到当代人脑智能(现代当代人类对世界的认识与思维),适用于未来时空的训练学习得到未来人脑智能(未来人类对世界的认识与思维),这种普遍适用性就可看作为通用性。两者观点差别与联系的本质:是抽象可能的无限性---即通用性,与具象实例的有限性---即专业性,是这样的区别形式,是通用潜在性智能的无限可能与具例实体化智能的有限实现的辩证关系。
-
智能模型群社会的概念:相对于单体的模型智能体,多数量和多类型的智能模型通过互联通信,在数字空间形成模型群社会,即智能体社会。这种“模型群社会”内部的自动化运作机制,将形成一套全新的技术范式。结合“互联、通信、博弈、强化学习”的新进展,可以把这个“模型互联网(Internet of Models, IoM)”的运作逻辑拆解如下:1. 模型互联与通信:模型社会的“神经系统” 在“模型群社会”构想中,个体模型不再是孤岛,而是通过API或MCP(Model Context Protocol)等协议连接起来的节点。 自动化交互: 现在的智能体(Agent)已经具备了调用工具和与其他模型通信的能力。例如,一个负责市场分析的“宏观模型”可以自动调用“天气预测模型”、“供应链模型”和“社交媒体情绪模型”来获取数据。 多智能体辩论(Multi-Agent Debate): 这就是模型智能单体之间的“对话”。多个模型(智能体)会针对同一个问题提出不同观点,通过相互质疑和辩论(通信),最终达成共识或修正错误。这种机制能显著提升推理的准确性和鲁棒性。2. 模型群体层级的强化学习:模型社会的“进化动力学”模型社会中的各单智能体之间的协作关系模式是“学习博弈之强化学习模式”,是这个模型群社会进化的引擎。这超越传统的单体强化学习,演变为多智能体强化学习(MARL)和群体策略优化。 博弈与协作: 在模型群体中,模型单体之间既有协作也有竞争。例如,在一个资源分配任务中,不同的“资源调度模型”会通过博弈来寻找最优解。这种博弈过程本身就是一种强化学习,它们通过试错(Trial and Error)和奖励信号(Reward Signal)来调整自己的策略。 模型群体相对策略优化(GRPO): 这是一种算法(如DeepSeek团队提出的GRPO)。它的核心思想是:不再需要一个独立的“评判员模型”(Critic),而是让模型在群体内部进行比较。 机制: 针对同一个问题,让多个模型(或同一个模型的多个副本)生成多个答案。 博弈: 在群体内部进行优胜劣汰,表现好的(获得更高奖励的)模型路径会被强化,表现差的会被抑制。 效果: 这种机制大幅降低了训练成本,并让模型群在相互比较中自发地提升了能力(如数学推理和代码生成能力的飞跃)。3. 模型群体的宏观自动化进化:模型社会的“自组织” 模型群体的宏观自组织自迭代进化,称为MASE(Multi-Agent Self-Evolving,多智能体自进化),这是一种从“静态模型”到“动态社会”的范式改变。 闭环反馈循环: 这个模型社会建立了一个“输入 -> 智能体系统 -> 环境 -> 优化器”的闭环。 环境反馈: 模型群内各单体执行任务后,从环境(真实世界或模拟器)取得反馈(如任务是否成功、用户是否满意),并与其他模型通信交互。 自迭代: 优化器根据反馈,自动调整模型群的“提示词(Prompt)”、“记忆结构”甚至“协作拓扑”。 无需人工干预的进化: 最新的研究,某些框架设定 自进化的 安全规范、保持性能规范、自主优化规范。模型群可以在没有人类程序员直接干预的情况下,通过模型自反思和模型间相互协作,自动修复缺陷、优化流程,甚至会自动化创造新工具(Tool Creation)来适应环境变化。4. “模型群社会”的图景 基于目前的技术(如现在已经发布的诸多智能体框架),这个“模型群社会”将呈现以下特征: 分层架构: 顶层(大脑): 通用大模型负责指挥、规划和调度(如CEO)。 中层(部门): 专业特化模型负责具体领域任务。 底层(手脚): 工具模型或具身智能模型负责执行物理或数字操作。 动态重组: 面对不同的任务(如“策划一场XXX任务”),系统会自动从模型库中挑选最合适的“领域模型”临时组建一个“虚拟项目组”,任务完成后解散,资源释放,这就是一种“自组织”。5. 总结 模型群社会,是一个基于群体宏观层级的强化学习的、去中心化的、自适应的复杂系统。 在这个系统中: 模型开源形成模型连锁繁殖是起点,在众多领域形成多数量多样性模型,基于模型之间互联的基础上(网络层),多个模型之间博弈与强化学习形成进化动力(算法层),然后使得多样性的宏观自组织是涌现智能社会结果(系统层)。这标志AI从“单体智能”(一个人干活)向“社会智能”(一个社会在协作、竞争和进化)跨越。未来的AI将不再是一个个孤立的软件,而是一个像人类社会一样,拥有分工、协作、市场(博弈)和文明(知识体系)的数字文明共同体。
-
具身智能和世界模型是一体化的同一智能,要让智能理解世界模型,必须是通过具身智能的技术路线发展出来,所有不同的生物,不同的智能形态,都是直接决定于这个生物在物理时空中的生存形式。各种生物对物理反馈,都可以看作这种生物对世界的一种理解形式,所以,直接在物理时空中的具身化发展和训练出的智能,才能理解世界。智能“理解”世界,这个所谓的“理解”,其实是它的生存形式的模式化。没有固定的对世界的“理解”,“理解”存在于具身智能在物理世界中的存在特定形式中。“理解”即“有效的生存模式”,智能体为了在特定物理形态下达成目标函数(生物的成功生存)而内化的一套“感知-行动-预测”循环模式。蝙蝠对世界的“理解”是超声波的反射模式。蜜蜂的“理解”是偏振光和舞蹈的通讯。因此,不存在一个绝对客观的“世界模型”,只存在相对于某种“具身形式”有效的达成目标函数的世界模型。
-
范式一:无语言交互的生物神经智能 —— “直接映射”范式(信号模式直接驱动)核心机制:感知信号 → 内部状态/神经网络 → 行动模式通信媒介:依赖连续、模拟的信号,如信息素(化学浓度)、超声波(物理回声)、电场变化。信号与意义直接绑定(信息素浓度高 = 路径可靠)。智能的体现:其宏观“智能”表象并非个体内部的复杂计算,而是宏观种群层面,通过进化博弈筛选出的、固化的“最优映射集合的神经网络态”。每一个体智能已经沉淀出高效“感知信号-行动模式”的神经网络反射器。例子:蚂蚁觅食:并非某只蚂蚁“计算”出最短路径,而是“绕远路”的信息素挥发更快,导致“抄近路”的路径信号更强,从而涌现出群体智能,有些个体蚂蚁(个体神经网络反射器)不在蚂蚁群体最有效生存目标(目标函数)的求解空间,则在进化博弈过程中被淘汰。蝙蝠回声定位:对回声信号的精细处理,是直接映射到飞行肌群的微调指令,是一种极其精密的伺服机制,而非“思考”后的决策,有些个体蝙蝠(个体神经网络反射器)不在蝙蝠群体最有效生存目标(目标函数)的求解空间,则在进化博弈过程中被淘汰。范式二:有语言交互的生物神经智能 —— “符号介导”范式(信号模式加符号模式的组合驱动)核心机制:感知信号 → 信号模式化→ 符号抽象 → 符号运算 → 时空行动映射 → 行动模式。通信媒介:语言(肢体运动模式、声音尤其是分节音模式、图形模式即文字系统)是一种离散、任意的符号系统。比如声音“喵”与猫这个实体之间没有物理必然联系,这种关联是约定俗成的。这种任意性是符号诞生的基石。智能的飞跃:模式的集合系统的构建:生物神经网络在现实时空物理的生存游戏中,按照生物最有效生存目标函数的规则约束(强化学习约束),通过大量的实际交互的博弈过程,生物神经网络在感知-行动过程中沉淀出网络表征的模式的集合。反面例子是,狼孩脱离人类丰富的生存游戏博弈,没有人的生存形式的大量的感知-行动的实际交互的博弈过程,狼孩的神经网络没有沉淀出人脑智能(神经网络储存了人的生存形式的模式的集合),基本接近于狼脑智能(神经网络储存了狼的生存形式的模式的集合)。内部世界的构建:为了产生和理解各种模式(符号),神经网络必须演化出内部符号表征模块。这导致了一个革命性变化:世界在大脑中被“符号化”了。离线推理与规划:一旦世界被符号化,大脑就可以在没有直接感知输入的情况下,对符号进行操作、组合和推理(即“思考”)。狼群可以通过嚎叫(符号)协商狩猎策略,而非必须看到猎物后才行动。模式的集合(知识系统)的代际传递:模式的集合(符号化的知识系统,比如“哪种果子有毒”)可以通过符号(语言)进行跨个体、跨代传递,不再完全依赖缓慢的基因进化。学习效率呈指数级提升。这个“双通道模型”至关重要:在高级生物中,并非所有行动都经过符号模块。在紧急情况(烫手缩回)或熟练技能中,依然是“直接映射”通路主导以保证速度;而在复杂决策时,“符号介导”通路才被启用。这种“条件反射”与“深思熟虑”并存的双轨架构,是效率与灵活性的完美结合。从“感知-行动”的直接耦合,到被“符号系统”中间介导的间接耦合,智能获得一种全新功能:不再仅仅是世界的反应器,而是通过模式集合的操作运算,为世界进行虚拟模型化构建与模拟。它能够思考“可能的世界”(未来规划、假设推理),而不仅仅是回应“眼前的世界”。人类的高级智能能够产生连锁爆炸式发展——因为它从与实际时空物理环境博弈开始,超越了对实际时空物理的依赖, 在一个由模式的集合(符号、图式、语言、人类知识系统)所构建的虚拟、广阔、自由的求解空间里进行高速运算,即实际世界可以在智能数字化虚拟空间进行“思想实验”。这是高级智能的创造力源泉,机器智能需要追求的终极能力。
-
大象的大脑有2570亿个神经元,人脑有850亿个神经元。 大象的智能潜力是超越人类的,只不过是大象之脑受限于其躯体结构的约束,由于其一生经历感知信息、数据采集训练的(大象人生)有限性,限制了大象之脑不能生成人脑的处理能力(智能)。假如大象之脑存在到人的躯体形式中,那么这个具有象之脑的人,其一生经历学习的感知训练的智能结果会超越一般人。所以具身智能的开发,智能成果不仅取决于硬件、模型、算法机制,更取决于具身机器硬件在实际物理时间空间经历过程的传感,其实际经历过程的感知信息、采集数据的训练所沉淀的成果。
-
1. 下载模型权重 安装python环境 conda create -n qwq_model python==3.13.6 conda activate qwq_model pip install modelscope 通过 modelscope SDK下载模型(https://www.modelscope.cn/models/Qwen/QwQ-32B)到制定目录 mkdir -p /usr/local/data/model_list/model/QwQ-32B modelscope download --model Qwen/QwQ-32B --local_dir /usr/local/data/model_list/model/QwQ-32B 2. 部署模型 vim /etc/sysctl.conf 设置 net.ipv4.ip_forward的值为1 source /etc/sysctl.conf docker pull swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc1-py_3.11-hce_2.0.2503-aarch64-snt9b-20250729103313-3a25129 启动容器 docker run -itd \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \-v /etc/localtime:/etc/localtime \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \-v /etc/ascend_install.info:/etc/ascend_install.info \--device=/dev/davinci_manager \--device=/dev/devmm_svm \--device=/dev/hisi_hdc \-v /var/log/npu/:/usr/slog \-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \-v /sys/fs/cgroup:/sys/fs/cgroup:ro \-v /usr/local/data/model_list/model:/usr/local/data/model_list/model \--net=host \--name vllm-qwen \91c374f329e4 \/bin/bash 来到容器环境 docker exec -it -u ma-user ${container_name} /bin/bashdocker exec -it -u ma-user vllm-qwen /bin/bash设置容器里的参数export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 export VLLM_PLUGINS=ascend # VPC网段# 需用户手动修改,修改方式见下方注意事项VPC_CIDR="192.168.0.0/16" VPC_PREFIX=$(echo "$VPC_CIDR" | cut -d'/' -f1 | cut -d'.' -f1-2)POD_INET_IP=$(ifconfig | grep -oP "(?<=inet\s)$VPC_PREFIX\.\d+\.\d+" | head -n 1)POD_NETWORK_IFNAME=$(ifconfig | grep -B 1 "$POD_INET_IP" | head -n 1 | awk '{print $1}' | sed 's/://')echo "POD_INET_IP: $POD_INET_IP"echo "POD_NETWORK_IFNAME: $POD_NETWORK_IFNAME" # 指定通信网卡export GLOO_SOCKET_IFNAME=$POD_NETWORK_IFNAMEexport TP_SOCKET_IFNAME=$POD_NETWORK_IFNAMEexport HCCL_SOCKET_IFNAME=$POD_NETWORK_IFNAME# 多机场景下配置export RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES=1 # 开启显存优化export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True# 配置通信算法的编排展开位置在Device侧的AI Vector Core计算单元export HCCL_OP_EXPANSION_MODE=AIV# 指定可使用的卡,按需指定export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7# 指定绑核,按需指定export CPU_AFFINITY_CONF=1export LD_PRELOAD=/usr/local/lib/libjemalloc.so.2:${LD_PRELOAD}# 默认启用 ascend-turbo-graph模式,指定启动插件export VLLM_PLUGINS=ascend_vllm# 如果使用 acl-graph 或者 eager 模式,指定启动插件 # export VLLM_PLUGINS=ascend# 指定vllm后端 v1export VLLM_USE_V1=1# 指定vllm版本export VLLM_VERSION=0.9.0 export USE_MM_ALL_REDUCE_OP=1export MM_ALL_REDUCE_OP_THRESHOLD=256 # 不需要设置以下环境变量unset ENABLE_QWEN_HYPERDRIVE_OPTunset ENABLE_QWEN_MICROBATCHunset ENABLE_PHASE_AWARE_QKVO_QUANTunset DISABLE_QWEN_DP_PROJ source /home/ma-user/AscendCloud/AscendTurbo/set_env.bash 运行API服务 nohup python -m vllm.entrypoints.openai.api_server \--model /usr/local/data/model_list/model/QwQ-32B \--max-num-seqs=256 \--max-model-len=512 \--max-num-batched-tokens=512 \--tensor-parallel-size=4 \--block-size=128 \--host=192.168.0.127 \--port=18186 \--gpu-memory-utilization=0.95 \--trust-remote-code \--no-enable-prefix-caching \--additional-config='{"ascend_turbo_graph_config": {"enabled": true}, "ascend_scheduler_config": {"enabled": true}}' > QwQ-32B.log 2>&1 & port端口号可以自定义,勿与已经使用的端口号冲突 3. 验证API服务 验证服务 curl http://192.168.0.127:18186/v1/completions \-H "Content-Type: application/json" \-d '{ "model": "/usr/local/data/model_list/model/QwQ-32B", "prompt": "What is moon","max_tokens": 64,"temperature": 0.5 }'
-
有发声的生物(猫、狗、鸟等)与无发声的生物(蚂蚁、蝙蝠、蛇等)的感知到行动闭环,中间过程的部分区别;有发声的生物的神经网络演化出了符号抽象模块,个体间通过声音模式的抽象形式实现传递信号的功能,声音模式演化为语言符号,对感知信号的模态进行抽象与符号模式映射,一部分的模式:从感知到行动的模式中有中间符号抽象模块的介入,通过符号系统内自身符号系的转换,映射外部行动模态的动态转换模式,从而用符号运算指导行动模式,另外也需知道,不是全部的感知到行动的闭环中都有符号模块的介入,有部分闭环是感知信号模态直接映射行动模式。无发声的生物的神经网络没有演化出符号抽象模块,个体间不通过声音的传递协调行动,是通过化学信号、无线电信号的感知协调行动,所以这类生物的神经系统没有演化出语言模块,这些生物的神经网络是直接从感知信号模式映射行动模式,在宏观时空过程中大量个体在过程中的不同映射(不同的神经网络链接权重参数集),相同感知模态的不同行动模式会导致不同的后果,经过宏观过程的大样本数量的选择淘汰的博弈机制,沉淀出相对最优化的“感知-->映射-->行动”的映射集,这个最优化的映射集表象为“最聪明”的形式即“智能”。
-
昇腾平台文生文大模型安装技术洞察 1. 检查环境 1.1 确保NPU设备无异常 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数,用来确认对应卡数已经挂载npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本1.2 确保docker无异常 docker -v #检查docker是否安装yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch641.3配置IP转发 vim /etc/sysctl.conf 设置 net.ipv4.ip_forward=1source /etc/sysctl.conf 2. 制作容器2.1 获取镜像 docker pull swr.cn-southwest-2.myhuaweicloud.com/ei_ascendcloud_devops/llm_inference:906_a2_20250821 这是运行大模型服务的镜像。 2.2 启动容器 docker run -itd \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \--device=/dev/davinci4 \--device=/dev/davinci5 \--device=/dev/davinci6 \--device=/dev/davinci7 \-v /etc/localtime:/etc/localtime \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \-v /etc/ascend_install.info:/etc/ascend_install.info \--device=/dev/davinci_manager \--device=/dev/devmm_svm \--device=/dev/hisi_hdc \-v /var/log/npu/:/usr/slog \-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \-v /sys/fs/cgroup:/sys/fs/cgroup:ro \-v ${dir}:${container_model_path} \--net=host \--name ${container_name} \${image_id} \/bin/bash --name ${container_name}:容器名称,进入容器时会用到,此处可以自己定义一个容器名称。 {image_id} 为docker镜像的ID,可通过docker images查询 实例:docker run -itd \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \--device=/dev/davinci4 \--device=/dev/davinci5 \--device=/dev/davinci6 \--device=/dev/davinci7 \-v /etc/localtime:/etc/localtime \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \-v /etc/ascend_install.info:/etc/ascend_install.info \--device=/dev/davinci_manager \--device=/dev/devmm_svm \--device=/dev/hisi_hdc \-v /var/log/npu/:/usr/slog \-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \-v /sys/fs/cgroup:/sys/fs/cgroup:ro \-v /usr/local/data/model_list/model:/usr/local/data/model_list/model \--net=host \--name vllm-qwen \91c374f329e4 \/bin/bash 2.3 制作容器环境 运行命令:docker exec -it -u ma-user ${container_name} /bin/bash export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7export VLLM_PLUGINS=ascend # VPC网段# 需用户手动修改,修改方式见下方注意事项;VPC_CIDR为服务器内网ipVPC_CIDR="192.168.0.0/16" VPC_PREFIX=$(echo "$VPC_CIDR" | cut -d'/' -f1 | cut -d'.' -f1-2)POD_INET_IP=$(ifconfig | grep -oP "(?<=inet\s)$VPC_PREFIX\.\d+\.\d+" | head -n 1)POD_NETWORK_IFNAME=$(ifconfig | grep -B 1 "$POD_INET_IP" | head -n 1 | awk '{print $1}' | sed 's/://')echo "POD_INET_IP: $POD_INET_IP"echo "POD_NETWORK_IFNAME: $POD_NETWORK_IFNAME" # 指定通信网卡export GLOO_SOCKET_IFNAME=$POD_NETWORK_IFNAMEexport TP_SOCKET_IFNAME=$POD_NETWORK_IFNAMEexport HCCL_SOCKET_IFNAME=$POD_NETWORK_IFNAME# 多机场景下配置export RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES=1 # 开启显存优化export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True# 配置通信算法的编排展开位置在Device侧的AI Vector Core计算单元export HCCL_OP_EXPANSION_MODE=AIV# 指定可使用的卡,按需指定export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7# 指定绑核,按需指定export CPU_AFFINITY_CONF=1export LD_PRELOAD=/usr/local/lib/libjemalloc.so.2:${LD_PRELOAD}# 默认启用 ascend-turbo-graph模式,指定启动插件export VLLM_PLUGINS=ascend_vllm# 如果使用 acl-graph 或者 eager 模式,指定启动插件 # export VLLM_PLUGINS=ascend# 指定vllm后端 v1export VLLM_USE_V1=1# 指定vllm版本export VLLM_VERSION=0.9.0 export USE_MM_ALL_REDUCE_OP=1export MM_ALL_REDUCE_OP_THRESHOLD=256 # 不需要设置以下环境变量unset ENABLE_QWEN_HYPERDRIVE_OPTunset ENABLE_QWEN_MICROBATCHunset ENABLE_PHASE_AWARE_QKVO_QUANTunset DISABLE_QWEN_DP_PROJ source /home/ma-user/AscendCloud/AscendTurbo/set_env.bash 2.4 运行大模型API服务 nohup python -m vllm.entrypoints.openai.api_server \--model /usr/local/data/model_list/model/QwQ-32B \--max-num-seqs=256 \--max-model-len=512 \--max-num-batched-tokens=512 \--tensor-parallel-size=4 \--block-size=128 \--host=192.168.0.127 \--port=18186 \--gpu-memory-utilization=0.95 \--trust-remote-code \--no-enable-prefix-caching \--additional-config='{"ascend_turbo_graph_config": {"enabled": true}, "ascend_scheduler_config": {"enabled": true}}' > QwQ-32B.log 2>&1 & model为大模型权重文档的路径host为服务器的内网ip,可通过ifconfig查询port为API的端口号,可自定义QwQ-32B.log为写入的日志文档,可自定义 2.5 验证大模型API服务 curl http://${docker_ip}:8080/v1/completions \-H "Content-Type: application/json" \-d '{ "model": "${container_model_path}", "prompt": "hello","max_tokens": 128,"temperature": 0 }'${docker_ip}替换为实际宿主机的IP地址${container_model_path} 的值为大模型路径 API启动命令实例:curl http://192.168.0.127:18186/v1/completions \-H "Content-Type: application/json" \-d '{ "model": "/usr/local/data/model_list/model/QwQ-32B", "prompt": "What is moon","max_tokens": 128,"temperature": 0.5 }' 返回结果实例: {"id":"cmpl-e96e239e2a3b490da361622879eb9c2c","object":"text_completion","created":1757919227,"model":"/usr/local/data/model_list/model/QwQ-32B","choices":[{"index":0,"text":"light made of?\n\nWhat is moon made of?\n\nPlease tell me if those questions are the same.\nOkay, so I need to figure out what moonlight is made of and what the moon itself is made of. Let me start by breaking down each question.\n\nFirst, \"What is moonlight made of?\" Hmm, moonlight. I know that the moon doesn't produce its own light. So, moonlight must be reflected sunlight, right? Like, the sun shines on the moon, and then the moon reflects that light back to Earth. So, if that's the case, then moonlight is just sunlight that's been reflected","logprobs":null,"finish_reason":"length","stop_reason":null,"prompt_logprobs":null}],"usage":{"prompt_tokens":3,"total_tokens":131,"completion_tokens":128,"prompt_tokens_details":null},"kv_transfer_params":null}
-
编程语言的自举(Bootstrapping):编程语言的编译器是用编程语言自身实现,比如用 Python 语言实现的Python解释器,用 RPython 编写的 Python 解释器PyPy;编程语言==>概念类推==>Ai模型或智能体:AI模型或智能体的自举:用AI模型(具有编程功能的智能体或智能体系统)实现AI 模型自身,用具有编程功能的智能体,自动编程开发,自动实现具有更优化而强大的编程功能的智能体,通过Ai模型的自举特性,实现Ai模型的自动迭代进化。
-
对智能的一种理解方式
-
一、构建 AI 的 “认知基础”:模拟人类思维的计算框架特征提取与抽象能力传统 AI 需人工设计特征(如图像的边缘、纹理),而神经网络可通过多层结构自动从原始数据中学习特征。例如:卷积神经网络(CNN) 能逐层提取图像的低级特征(边缘)到高级特征(物体轮廓),实现图像识别(如识别猫和狗)。循环神经网络(RNN) 通过记忆单元捕捉文本、语音中的时序依赖关系(如语法结构),推动自然语言理解。作用:让 AI 摆脱 “人工特征工程” 的束缚,适应海量复杂数据(如图像、视频、文本)。分布式表示与知识存储神经网络通过神经元的权重矩阵分布式存储知识,而非传统规则系统的显式逻辑。例如:训练后的模型可将 “狗” 的概念编码为多个神经元的激活模式,而非单一符号,使 AI 具备鲁棒性(如识别不同姿态的狗)。作用:实现知识的隐性表达,让 AI 具备类似人类的 “联想推理” 能力(如从 “猫” 联想到 “宠物”)。二、推动 AI 技术突破:解决复杂问题的核心引擎深度学习重塑 AI 能力边界深层神经网络(如 Transformer)通过海量数据训练,在以下领域实现超越人类的表现:计算机视觉:ImageNet 图像分类准确率从 2012 年的 85% 提升至 99% 以上,推动自动驾驶(识别交通标志)、医疗影像诊断(检测肿瘤)。自然语言处理:GPT 系列模型通过千亿级参数学习,实现文本生成、问答、代码编写,如 ChatGPT 能理解复杂指令并生成连贯回答。强化学习:AlphaGo 通过神经网络与蒙特卡洛树搜索结合,击败人类围棋冠军,证明 AI 在策略游戏中的推理能力。跨领域问题的通用解决方案神经网络的灵活性使其成为跨领域 AI 任务的 “通用工具”:语音识别:LSTM-RNN 结合 CTC 损失函数,将语音信号转化为文本,支撑 Siri、语音助手等应用。推荐系统:深度神经网络通过学习用户行为与物品特征的交互,实现精准推荐(如电商商品、短视频内容)。科学计算:神经网络用于蛋白质结构预测(AlphaFold)、气候模拟,加速科学发现。三、支撑 AI 系统的 “学习与进化”:从数据中自主优化端到端学习:简化 AI 系统开发流程传统 AI 需分模块设计(如语音识别需先分帧、特征提取、解码),而神经网络可通过端到端训练直接从输入(如语音波形)映射到输出(文本)。例如:自动驾驶系统可通过 CNN 直接从摄像头图像预测方向盘转角,无需人工设计环境感知模块。作用:降低开发复杂度,提升系统整体性能(模块间协同优化)。持续进化:从监督学习到无监督 / 自监督学习神经网络支持多种学习范式,推动 AI 从 “依赖标注数据” 向 “自主学习” 发展:无监督学习:Autoencoder(自编码器)通过重构输入数据学习数据分布,用于图像去噪、特征压缩。自监督学习:GPT 系列通过 “预测下一个词” 的任务,利用海量无标注文本预训练,再微调至具体任务(如问答),大幅减少对标注数据的依赖。四、赋能 AI 应用落地:连接技术与产业需求行业智能化的核心驱动力在金融、医疗、工业等领域,神经网络通过处理复杂数据创造价值:金融风控:通过图神经网络(GNN)分析企业关联关系,预测违约风险。医疗影像:CNN 检测 X 光片中的肺炎病灶,辅助医生诊断,准确率可达 90% 以上。工业质检:神经网络识别生产线上的零件缺陷,替代人工肉眼检测,效率提升 10 倍以上。边缘计算与轻量化部署针对移动端设备(如手机、IoT 传感器),轻量化神经网络(如 MobileNet、ShuffleNet)通过参数压缩、量化等技术,实现低功耗 AI 应用:手机摄像头实时美颜(人脸关键点检测)、智能家居语音控制(本地语音识别)。五、推动 AI 理论发展:连接数学与认知科学数学与计算理论的融合神经网络的训练基于概率论(如贝叶斯推断)、优化理论(梯度下降)和线性代数(矩阵运算),推动 AI 从 “经验主义” 向 “理论可解释” 发展。例如:神经符号系统尝试将神经网络与逻辑推理结合(如 DeepMind 的神经定理证明器),解决 AI 的 “可解释性” 难题。认知科学的逆向工程通过研究神经网络的表征机制(如神经元激活模式),科学家可反向理解人类大脑的认知过程。例如:视觉神经网络的层级结构与灵长类动物视觉皮层的分层处理机制高度相似,为神经科学研究提供计算模型。总结:神经网络是 AI 的 “基础设施”从技术层面看,神经网络是 AI 实现 “感知 - 认知 - 决策” 的核心载体;从应用层面看,它是连接学术研究与产业落地的桥梁。尽管当前神经网络仍存在可解释性不足、数据依赖等挑战,但其不断进化的架构(如混合神经网络、神经符号系统)正推动 AI 向通用智能(AGI)迈进。
-
进化的数学本质是博弈推理所驱动的演化,分为单体博弈和群体博弈两个层面。 2. 单体博弈推理驱动拉马克式进化(个体生命周期内的自身进化),群体博弈推理驱动达尔文式进化(群体生命周期内的代际间进化)。 3. 单体博弈推理,是指在个体生命周期的时空序列中,个体在对环境的感知和反馈、与环境的交互的过程中,功能表征形式(我们关注智能的功能部分)的适应选择性(强化学习的目标函数)的推理。 4. 群体博弈推理,是指以个体模板为蓝本,引入随机变异参数,分化出极其多样性个体所组成的群体,这个群体在代际生命周期的时空序列中,群体在对环境的感知和反馈、与环境的交互的过程中,个体存在形式(我们关注智能的存在形式部分)的适应选择性(强化学习的目标函数)的推理。 5. 单体智能模型与客户应用场景(相当于环境)之间在使用交互的时空序列中由个体博弈推理驱动其进化(结果是有些功能形式消失),很多个的群体智能模型与客户应用场景(相当于环境)之间在使用交互的时空序列中由群体博弈推理驱动其进化(结果是有些模型形式消失)。
-
概述: 1. 进化的数学本质是博弈推理所驱动演化,有单体博弈和群体博弈。 2. 单体博弈推理驱动拉马克式进化(个体生命周期内的自身进化),群体博弈推理驱动达尔文式进化(群体生命周期内的代际间进化)。 3. 单体博弈推理,是指在个体生命周期的时空序列中,个体在对环境的感知和反馈、与环境的交互的过程中,功能表征形式(我们关注智能的功能部分)的适应选择性(强化学习的目标函数)的推理。 4. 群体博弈推理,是指以个体模板为蓝本,引入随机变异参数,分化出极其多样性个体所组成的群体,这个群体在代际生命周期的时空序列中,群体在对环境的感知和反馈、与环境的交互的过程中,个体存在形式(我们关注智能的存在形式部分)的适应选择性(强化学习的目标函数)的推理。 5. 单体智能模型与客户应用场景(相当于环境)之间在使用交互的时空序列中由个体博弈推理驱动其进化(结果是有些功能形式消失),很多个的群体智能模型与客户应用场景(相当于环境)之间在使用交互的时空序列中由群体博弈推理驱动其进化(结果是有些模型形式消失)。核心概念和它们之间的关系:进化的数学本质是博弈推理驱动的演化:这里将进化过程视为一种博弈论中的推理过程,涉及单体和群体两个层面。单体博弈与群体博弈: 单体博弈:在个体生命周期内,通过与环境的交互(感知、反馈)进行功能形式的适应选择,类似于拉马克式进化(个体直接适应环境并将特征传递给后代)。 群体博弈:在代际间,通过引入随机变异产生多样性个体,群体在与环境的交互中进行存在形式的适应选择,类似于达尔文式进化(自然选择作用于群体中的变异)。功能表征形式 vs. 单体存在形式: 功能形式:关注智能的具体功能或行为。 存在形式:关注智能的结构或模型本身。强化学习的目标函数: 作为适应选择的标准,类似于进化中的“适应度”。单体智能模型与群体智能模型: 单体模型:通过个体博弈在与环境的交互中进化,功能形式可能消失(即某些功能被淘汰)。 群体模型:通过群体博弈在与环境的交互中进化,模型形式可能消失(即某些模型结构被淘汰)。概念对应与类比为了更好地理解,可以尝试将生物学中的进化理论与智能模型的进化进行类比:单体智能博弈推理的详细解释时空序列:单体在其生命周期内的时间序列中与环境交互。感知与反馈:模型接收输入(感知),产生输出(行为),并根据反馈(如奖励信号)调整自身。功能表征形式:关注的是模型的行为或功能,例如在强化学习中,策略的功能是最大化累积奖励。适应选择性:通过目标函数(如奖励函数)选择更优的功能形式,类似于强化学习中的策略梯度方法。拉马克式进化:单体直接根据经验调整功能,并将这些调整“传递”给后续行为(非遗传,而是直接修改)。例子:一个推荐系统(单体模型)根据用户反馈不断调整推荐策略(功能形式)。某些推荐策略因效果差被淘汰(功能消失)。群体智能博弈推理的详细解释代际生命周期:模型群体在多轮迭代(代际)中进化。随机变异参数:在群体中引入多样性,如神经网络的架构变异、超参数变化等。个体存在形式:关注模型的结构或形式本身,例如不同的神经网络架构。适应选择性:通过评估不同模型在环境中的表现(如验证集准确率)选择更优的存在形式。达尔文式进化:通过变异和选择压力(如性能评估)淘汰低效模型,保留高效模型。例子:多个不同架构的神经网络(群体模型)在相同任务上训练,表现差的架构被淘汰(模型形式消失),表现好的被保留或进一步变异。单体 vs. 群体智能模型的进化单体智能模型: 进化方式:个体博弈驱动。 关注点:功能(如策略、行为)的优化。 结果:某些功能形式因不适应环境(如低奖励)被淘汰。 类似:在线学习或持续学习的单一模型。群体智能模型:进化方式:群体博弈驱动。 关注点:存在形式(如模型架构、参数分布)的优化。 结果:某些模型形式因不适应环境(如低泛化性能)被淘汰。 类似:神经架构搜索(NAS)或进化算法中的模型群体。进化的数学本质:博弈推理将进化视为博弈推理意味着: 博弈论视角:单体或群体与环境(或其他个体)的策略互动。 推理:通过学习和优化过程推断最优策略或形式。 数学建模: 单体博弈:可以建模为马尔可夫决策过程(MDP),智能体通过策略迭代优化目标函数。 群体博弈:可以建模为进化博弈论或种群动力学,通过复制方程描述策略频率变化。强化学习的目标函数在两种博弈推理中的作用: 单体博弈:直接优化策略以最大化奖励(如RL中的回报)。 群体博弈:优化模型形式的分布以最大化群体适应度(如进化策略中的适应度函数)。可能的误区与澄清拉马克式 vs. 达尔文式: 拉马克式强调获得性(个体直接适应),在智能模型中表现为参数的直接更新。 达尔文式强调变异性与选择性,在智能模型中表现为架构搜索或模型淘汰。 注意:生物学中拉马克式进化未被广泛接受,但在智能模型中“参数更新”类似于拉马克机制。功能形式 vs. 存在形式: 功能:模型“做什么”(如分类、预测)。 存在:模型“是什么”(如MLP、Transformer)。消失的含义: 功能消失:某些行为或策略不再被采用。 模型消失:某些架构或模型被淘汰。实际应用示例单体模型进化(单体博弈):AlphaGo的自我对弈:通过与自己交互(环境),不断优化策略(功能形式),某些落子策略被淘汰。群体模型进化(群体博弈):神经架构搜索:生成多个架构(变异),评估后保留高性能架构,淘汰低性能架构。总结与框架:上述内容整合为一个框架:进化驱动:博弈推理(个体与群体层面)。个体博弈: 范围:单体模型的生命周期。 机制:功能形式的适应选择(拉马克式)。 数学:策略优化(如RL)。 结果:功能形式消失。群体博弈: 范围:群体模型的代际生命周期。 机制:存在形式的适应选择(达尔文式)。 数学:变异与选择(如进化算法)。 结果:模型形式消失。环境:客户应用场景,提供反馈(奖励)和选择压力。目标函数:在两种博弈中作为适应性的量化标准。进一步思考的方向博弈论与进化的结合:如何用博弈论中的均衡概念(如纳什均衡)描述智能模型的进化稳态?多层级进化:是否存在个体与群体博弈的协同作用?例如,群体提供基础架构,个体优化具体策略。形式化建模:能否用数学方程描述这两种博弈的动态(如微分方程或随机过程)?与传统机器学习的联系:监督学习中的模型调整是否属于个体博弈?集成学习是否属于群体博弈?可能的数学表达尝试个体博弈:设单体模型的策略为 π,环境反馈为 R,目标为最大化 J(π)=E[∑R]。 通过梯度上升更新:π←π+α∇J(π)。群体博弈:设群体为 {πi},适应度为 f(πi),选择概率 pi∝f(πi)。 新一代通过变异:πi′∼Mutate(πi)。最终解释核心思想:智能模型的进化可以通过博弈论的视角分为个体和群体两个层次。 个体层面:单个模型在与环境的交互中不断调整自身功能(如参数更新)。 类似于拉马克进化,直接根据经验改变行为。 结果是某些功能被淘汰(如无效策略)。 群体层面:多个不同结构的模型通过变异和选择压力竞争。 类似于达尔文进化,优胜劣汰。 结果是某些模型结构被淘汰(如低效架构)。数学本质: 两者都是优化问题: 个体博弈:策略空间中的梯度优化。 群体博弈:模型空间中的搜索与选择。 博弈体现为模型与环境(或其他模型)的策略互动。应用意义: 设计智能系统时,可以同时考虑: 单体模型的在线学习(个体博弈)。 模型群体的架构进化(群体博弈)。 例如:AlphaGo既通过自我对弈优化策略(个体),又通过不同架构版本竞争(群体)。
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签