今日速览 · Fortune Health

cs 04-21 00:00

GRAIL：通过交互学习实现神经符号强化学习的自主概念落地

神经符号强化学习结合符号推理与梯度优化，旨在获得可解释的策略。传统方法依赖专家手动定义“左侧”、“附近”等关系概念，限制了跨环境的适应性。本文提出GRAIL框架，利用大语言模型提供通用概念表示作为弱监督，并通过环境交互自主精炼，以捕捉环境特定语义。该方法解决了稀疏奖励和概念错位问题。在Atari游戏上的实验表明，GRAIL在简化环境中匹配或超越了人工定义概念的智能体，并在完整环境中揭示了奖励最大化与高层目标完成之间的权衡。

神经符号强化学习概念落地大语言模型自主智能体可解释ai

cs 04-21 00:00

未训练CNN与反向传播在V1区表现相当：四种学习规则与人类fMRI的系统性RSA比较

本研究通过表征相似性分析（RSA），系统比较了反向传播（BP）、反馈对齐（FA）、预测编码（PC）和脉冲时序依赖可塑性（STDP）四种学习规则在相同卷积架构下的表现，并与人类fMRI数据（THINGS-fMRI数据集）进行对齐度评估。关键发现是，早期视觉皮层（V1/V2）的对齐主要由网络架构驱动：未训练CNN（$\rho = 0.071$）与BP（$\rho = 0.072$）在统计上无差异。学习规则仅在高级视觉区（如LOC/IT）产生分化：BP表现最优，而采用局部Hebbian更新的PC在IT区的对齐度与BP无统计差异。FA在V1区的表征甚至弱于随机基线。结果表明，学习规则与皮层对齐的关系具有区域特异性。

计算神经科学表征相似性分析学习规则比较视觉皮层对齐卷积神经网络fmri

cs 04-21 00:00

EA-RLVR：通过可验证奖励强化学习，激发大模型参数中的跨文化实体翻译知识

针对大语言模型在跨文化实体翻译中常产生字面直译而非文化适配翻译的难题，本研究提出EA-RLVR训练框架。该框架不依赖外部知识库，而是通过一个可验证的实体级奖励信号，结合轻量级结构门来稳定优化过程，激励模型有效利用其预训练参数中已编码的知识。实验表明，仅用7千样本训练，即可将Qwen3-14B模型在5万全新实体测试集上的翻译准确率从23.66%提升至31.87%，并展现出优秀的领域外泛化能力。

跨文化翻译强化学习实体翻译大语言模型参数知识可验证奖励

cs 04-21 00:00

SinkRouter：基于注意力汇聚点感知的路由框架，提升大模型长上下文解码效率

本文针对大语言模型及多模态模型在长上下文解码时，注意力机制因需加载大量KV缓存而受限于内存带宽的问题，提出了SinkRouter框架。该框架基于对“注意力汇聚点”现象的新理解——它对应于训练中构建的一个稳定、可达且误差可控的固定点——实现了无需训练的选择性路由。SinkRouter通过检测汇聚点信号，跳过会产生接近零输出的计算。为实现实际加速，作者开发了具备块级分支和Split-K并行能力的硬件感知Triton内核。在包括LongBench、InfiniteBench、CVBench、MileBench和MMVP在内的多样化长上下文基准测试中，使用Llama-3.1、Yi、LLaVA等模型进行评估，SinkRouter在保持竞争力的模型精度下，解码效率持续提升，在512K上下文长度下最高达到2.03倍加速。

长上下文解码注意力机制kv缓存优化模型推理加速选择性路由大语言模型

cs 04-21 00:00

基于解耦架构的电磁兼容主动RIS抗干扰优化方法

本文针对无线通信系统面临的复杂干扰攻击，提出了一种电磁兼容的主动可重构智能表面（EMC-Active RIS）模型。该模型首次在抗干扰系统中明确考虑了RIS硬件中的互耦效应、信道相关性和离散相位等电磁与物理特性。为评估其抗干扰性能，作者开发了一种基于解耦架构的低复杂度交替优化算法，以最大化遍历可达速率。该架构通过显式消除单元间的互耦效应，将原始耦合系统转化为易于处理且可扩展的非耦合表示。数值结果表明，所提算法能显著降低建模与优化复杂度，并以更低的迭代开销高效求解问题。

抗干扰通信主动ris电磁兼容解耦架构交替优化

cs 04-21 00:00

完全免参数随机优化：基于自边界分析的网格搜索框架

本文提出了一种名为GRASP的通用网格搜索框架，旨在实现“完全免参数”的随机优化。与以往依赖问题参数上下界的“部分免参数”方法不同，该方法通过新颖的自边界分析技术，自动确定参数搜索范围，无需任何关于真实问题参数的先验知识。在非凸优化中，该方法实现了接近最优（对数因子内）的收敛速率；在凸优化中，其性能在加速和普适性方面具有竞争力。研究还改进了网格搜索最后一步——模型集成——在插值方差特性下的理论保证。

免参数优化随机优化网格搜索自边界分析非凸优化凸优化

cs 04-21 00:00

EasyVideoR1：首个专为视频理解任务设计的高效强化学习框架

本文提出了EasyVideoR1，一个专为训练大规模视觉语言模型进行视频理解而设计的完整高效强化学习框架。它通过离线预处理和张量缓存技术，消除了冗余的视频解码，实现了1.47倍的吞吐量提升。框架包含一个覆盖11种视频与图像任务类型的综合奖励系统，并采用混合离线-在线数据训练范式，结合高质量轨迹与在线探索。此外，它支持图像与视频的联合训练，并配备了覆盖22个主流视频理解基准的异步多基准评估框架，复现精度与官方报告分数高度一致。

视频理解强化学习多模态模型训练框架性能优化

cs 04-21 00:00

小样本高维场景下基于协方差的结构方程建模新方法

针对传统基于因子的结构方程模型（SEM）在小样本、高维（$p>n$）场景下因样本协方差矩阵奇异而失效的问题，本文提出了一种新颖的估计框架。该方法将协方差结构重新表述为自协方差和交叉协方差分量，并构建了一个结合似然可行集与相对误差约束的估计框架。实验表明，该方法显著提升了参数估计的稳定性，特别是在恢复结构参数的符号和方向上，为小样本决策提供了实用的方向性信息。

结构方程模型小样本学习高维统计协方差估计参数稳定性

cs 04-21 00:00

物理信息追踪：结合神经网络与物理约束的无监督粒子跟踪框架

本研究提出物理信息追踪框架，通过神经网络自编码器将视频中的粒子定位为热图峰值，并嵌入可微物理模块，使多个时间点的定位点构成的轨迹满足已知动力学约束。其核心创新是物理信息地标损失，它无需真实标签，通过比较预测轨迹与地标来强制物理一致性。有监督变体则利用仿真数据实现端到端反向传播。实验表明，该框架在多种噪声条件下均能实现亚像素级跟踪精度。

粒子跟踪物理信息学习自编码器可微物理无监督学习计算机视觉

cs 04-21 00:00

从交换公理到加权几何平均：AMM 的内在几何结构

本文从三个基本公理出发，为自动做市商（AMM）的常见形式提供了理论解释。研究证明，若要求 AMM 满足状态有效性不变性、帕累托效率与单位不变性，则其两资产交易轨道必然由加权几何平均 $x^w y^{1-w}$ 的等高线刻画。将此结论推广至 $n$ 资产池，轨道则由 $\prod_i x_i^{w_i}$ 的等高线描述。若进一步施加代币重标记对称性，则权重被唯一确定，从而在双资产情况下恢复恒定乘积 $xy$ 形式，在一般情况恢复 $\prod_i x_i$ 形式。

自动做市商几何平均公理化defi交易轨道

cs 04-21 00:00

QANM：结合Nesterov加速与量化通信的高效分布式优化算法

本文提出QANM算法，旨在解决大规模网络系统中的分布式优化问题。该算法同时应对两个核心挑战：一是节点目标函数在不同方向上曲率差异巨大导致的“之字形”收敛现象；二是节点间通信带宽受限。QANM将Nesterov加速梯度下降与分布式有限时间量化共识协议相结合，在强凸且光滑的假设下，实现了线性收敛至最优解邻域。在分布式传感器融合的多维目标参数估计应用中，仿真验证了其收敛性保证，并显示出相较于无动量基线的明显加速优势。

分布式优化nesterov加速量化通信传感器融合线性收敛

cs 04-21 00:00

基于合作博弈视角的端到端迭代学习控制：应对不可跟踪重复任务

本文针对闭环系统中存在不可跟踪期望轨迹的重复任务，提出了一种端到端的迭代学习控制（ILC）设计。传统ILC假设存在完美跟踪的输入，但实际任务可能无法满足此假设。新方法将参考输入与ILC前馈输入共同视为“玩家”，基于测量数据进行逐次更新，并从合作博弈的视角分析其行为。研究发现，这种双玩家端到端ILC在满足特定条件下，其成本低于传统的单玩家范数最优ILC（NOILC）。数值仿真验证了该方法的有效性。

迭代学习控制合作博弈闭环系统轨迹跟踪控制优化

cs 04-21 00:00

大语言模型能否识别已撤稿的学术论文？

本研究测试了三个开源大语言模型（GPT OSS 120B、Gemma 3 27B、DeepSeek R1 72B）对161篇知名撤稿论文的识别能力。结果显示，仅凭标题和摘要，超过80%的情况下模型错误地声称撤稿论文未被撤稿。即使模型做出正确判断，其给出的理由也常常是错误的。这表明，除非模型被允许并确实进行了在线检索，否则它们基本无法区分有效研究与已撤稿的研究。在34,070篇非撤稿基准论文的测试中，模型错误声称撤稿的情况极少，表明模型误判有效研究的风险较低。

大语言模型学术诚信撤稿论文文献检索模型可靠性

cs 04-21 00:00

OC-Distill：融合本体感知对比学习与跨模态蒸馏的ICU风险预测新框架

本研究提出OC-Distill，一个用于ICU风险预测的两阶段框架。针对现有方法将患者均视为负样本、忽略临床诊断相似性，以及忽略临床文本等互补模态的问题，该框架在第一阶段引入本体感知对比学习目标，利用ICD疾病分类层次结构量化患者相似性，学习更具临床意义的表征；在第二阶段通过跨模态知识蒸馏，将临床文本中的丰富上下文信息迁移到仅使用生命体征信号的模型中。在MIMIC数据集上的实验表明，OC-Distill在仅使用生命体征推理的情况下，实现了卓越的标签效率和最先进的预测性能。

icu风险预测对比学习跨模态蒸馏本体感知知识蒸馏多模态学习

cs 04-21 00:00

自适应法证特征优化：通过内在重要性感知提升合成图像检测的泛化能力

针对合成图像检测（SID）在跨分布泛化到未知生成源时面临的挑战，本文提出了一种基于视觉基础模型（VFM）的框架I2P。该框架将VFM适应重新表述为一个联合优化问题：既要识别最适合承载伪造判别信息的关键表示层，又要约束任务知识注入对预训练结构的扰动。I2P首先自适应地识别对SID最具判别性的关键层表示，然后将任务驱动的参数更新约束在低敏感性参数子空间内，从而在提高任务特异性的同时，尽可能保留预训练表示的可迁移结构。

合成图像检测视觉基础模型跨分布泛化自适应特征优化内在重要性感知

cs 04-21 00:00

Symphony：利用网络内机制解决分布式AI训练中的环形通信步调失准问题

本文提出Symphony，一种网络内解决方案，旨在解决分布式AI训练中广泛使用的环形集体操作因网络抖动和拥塞导致的步调失准问题。Symphony通过（1）轻量级机制跟踪每个任务的流水线进度，以及（2）创新性地利用拥塞信号选择性抑制超前流，使落后流得以追赶，无需全局协调。Astra-Sim模拟显示，Symphony可将任务/集体通信时间提升高达54%。研究还在Intel Tofino2可编程交换机上进行了原型验证，证明了其实用性。

分布式训练环形通信网络拥塞控制可编程交换机性能优化

cs 04-21 00:00

BiasCareVL：医疗AI公平性新框架，通过偏差感知多模态学习提升临床可靠性

本研究提出BiasCareVL，一种将偏差控制直接融入模型设计的医疗多模态AI框架。它通过自适应不确定性建模和可选的人机协同优化，来调控主导数据模式的影响，在数据分布不平衡时促进公平推理。该框架在涵盖15种成像模态的344万样本上训练，支持视觉问答、疾病分类、分割和报告生成等任务。在8个公开基准测试中，其性能超越20种先进方法，尤其在临床挑战性场景下提升显著，如在多类皮肤病变诊断中准确率提升超10%，在小肿瘤分割中Dice系数提升超20%。

医疗ai多模态学习公平性偏差控制临床可靠性不确定性建模

cs 04-21 00:00

COIN基准：评估具身智能体在真实场景中的交互式推理能力

本文提出了COIN基准，旨在系统评估具身智能体在部分可观测环境下执行长时程、因果依赖任务所需的交互式推理能力。该基准包含COIN-50（50个日常交互任务）、COIN-Primitive（基础因果任务）和COIN-Composition（技能学习与泛化评估）。研究者开发了低成本移动AR遥操作系统，收集了包含1000条演示的COIN-Primitive数据集，并设计了执行稳定性和泛化鲁棒性评估指标。对CodeAsPolicy、VLA等方法的评估揭示了当前模型在视觉理解与运动执行间存在显著差距，难以完成复杂交互推理任务。

具身智能交互式推理机器人操作基准测试因果依赖

cs 04-21 00:00

时分复用驱动技术：实现肌腱驱动机械臂的轻量化与高容错

本文提出了一种用于肌腱驱动机器人的时分复用驱动（TDMA）方法，旨在解决航空航天等严苛应用中对机械臂轻量化与高可靠性的双重需求。该方法通过创新的垂直堆叠旋转选择结构，集成了自旋转TDM电机、电磁离合器、蜗轮减速器和双编码器系统，在显著减少驱动器数量的同时，保持了高扭矩输出和内在的容错能力。基于TDMA构建的MuxArm原型自重仅2.17公斤，驱动能力达10公斤，末端精度保持在臂长的1%以内，即使在部分伺服器故障时也能维持性能。此外，研究还开发了驱动空间轨迹规划算法，实现了容错控制，并将肌腱负载较传统方法降低了50%。

肌腱驱动时分复用轻量化设计故障容错机器人控制航空航天机器人

cs 04-21 00:00

PIE框架：通过特征归因剪枝实现高效电路发现的跨层转码器原生方法

本文提出了首个跨层转码器（CLT）原生端到端框架PIE，将剪枝、自动解释和解释评估相连接，用于高效发现对目标行为至关重要的少量特征。核心贡献是提出了特征归因修补（FAP）方法，通过聚合梯度加权的写入贡献来对CLT特征进行评分，以及FAP-Synergy协同感知重排序程序。实验表明，在IOI和Doc-String任务上，使用FAP方法仅需剪枝至100个特征，即可达到从活跃特征集中随机选择约4000个特征才能达到的行为保真度（KL散度），实现了约40倍的压缩，并大幅减少了低质量特征和解释/评估成本。

特征归因模型剪枝可解释性电路发现跨层转码器高效评估

cs 04-21 00:00

Step-GRPO：让大模型学会动态“提前退出”，推理效率提升32%

针对大语言模型在思维链推理中过度思考、计算冗余的问题，本文提出Step-GRPO后训练框架。该方法通过引入语言标记将推理过程结构化，将优化目标从原始Token转向语义步骤。核心创新包括动态截断展开机制，让模型在探索中接触简洁的高置信度轨迹，以及基于组级基线的步骤感知相对奖励，动态惩罚冗余。在Qwen3-8B等模型上的实验表明，该方法在保持精度的同时，比原始模型减少了32.0%的Token消耗，优于传统的长度惩罚方法。

推理优化提前退出后训练思维链计算效率强化学习

cs 04-21 00:00

CrossFlowDG：利用跨模态流匹配弥合模态鸿沟，提升视觉领域泛化能力

针对视觉领域泛化中模型易过拟合于领域特定风格而非类别语义的问题，本文提出CrossFlowDG框架。现有方法依赖余弦相似度的对比学习，导致图像与文本嵌入间仍存在几何分离的“模态鸿沟”。CrossFlowDG创新性地采用无噪声的跨模态流匹配技术，在联合欧几里得潜在空间中学习连续变换，将具有领域偏见的图像嵌入显式地“输送”至正确类别的、领域不变的文本嵌入附近。该方法在多个标准基准测试中取得有竞争力的性能，并在TerraIncognita数据集上达到最优水平。

领域泛化跨模态学习流匹配模态鸿沟视觉表征

cs 04-21 00:00

全模态大语言模型存在视觉偏好，研究揭示其形成机制与诊断应用

本研究首次系统量化了原生全模态大语言模型（OLLMs）的模态偏好现象。通过构建基于冲突的评测基准，评估了十种代表性模型，发现与传统视觉语言模型的“文本主导”不同，多数OLLMs表现出显著的视觉偏好。层间探测分析表明，这种偏好并非静态，而是在中后层网络中逐步涌现。基于此内部信号，研究进一步提出了一种诊断跨模态幻觉的方法，在三个下游多模态基准上无需任务特定数据即取得了有竞争力的性能，为构建更可信的OLLMs提供了机制理解和实用工具。

全模态大模型模态偏好跨模态幻觉模型评测机制分析

cs 04-21 00:00

利用VR机器人游戏框架，高效收集具身智能交互数据

针对具身智能任务交互数据收集成本高、难度大的问题，本研究提出了一种基于Unity的游戏化数据收集框架。该框架集成了程序化场景生成、VR人形机器人控制、自动任务评估与轨迹记录功能。通过一个垃圾拾取放置任务原型验证了完整工作流。实验结果表明，收集的演示数据覆盖了广阔的状态-动作空间，且任务难度提升会带来更高的运动强度和更广泛的手臂工作空间探索。该框架证明了游戏化虚拟环境可作为具身数据收集的有效且可扩展的解决方案。

具身智能数据收集虚拟现实机器人控制游戏化框架

24 小时跨学科精选

计算机科学

2026-04-21 速览 · 计算机科学

GRAIL：通过交互学习实现神经符号强化学习的自主概念落地

未训练CNN与反向传播在V1区表现相当：四种学习规则与人类fMRI的系统性RSA比较

EA-RLVR：通过可验证奖励强化学习，激发大模型参数中的跨文化实体翻译知识

SinkRouter：基于注意力汇聚点感知的路由框架，提升大模型长上下文解码效率

基于解耦架构的电磁兼容主动RIS抗干扰优化方法

完全免参数随机优化：基于自边界分析的网格搜索框架

EasyVideoR1：首个专为视频理解任务设计的高效强化学习框架

小样本高维场景下基于协方差的结构方程建模新方法

物理信息追踪：结合神经网络与物理约束的无监督粒子跟踪框架

从交换公理到加权几何平均：AMM 的内在几何结构

QANM：结合Nesterov加速与量化通信的高效分布式优化算法

基于合作博弈视角的端到端迭代学习控制：应对不可跟踪重复任务

大语言模型能否识别已撤稿的学术论文？

OC-Distill：融合本体感知对比学习与跨模态蒸馏的ICU风险预测新框架

自适应法证特征优化：通过内在重要性感知提升合成图像检测的泛化能力

Symphony：利用网络内机制解决分布式AI训练中的环形通信步调失准问题

BiasCareVL：医疗AI公平性新框架，通过偏差感知多模态学习提升临床可靠性

COIN基准：评估具身智能体在真实场景中的交互式推理能力

时分复用驱动技术：实现肌腱驱动机械臂的轻量化与高容错

PIE框架：通过特征归因剪枝实现高效电路发现的跨层转码器原生方法

Step-GRPO：让大模型学会动态“提前退出”，推理效率提升32%

CrossFlowDG：利用跨模态流匹配弥合模态鸿沟，提升视觉领域泛化能力

全模态大语言模型存在视觉偏好，研究揭示其形成机制与诊断应用

利用VR机器人游戏框架，高效收集具身智能交互数据