今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-03-04 03-04 15:27

今日计算机科学领域研究聚焦于提升模型效率、鲁棒性与可解释性,通过轻量化评估、架构创新与理论分析推动技术进步。

  • GLEAN框架:提出轻量级污染感知评估协议,通过确定性错误分类法揭示TAPEX与TAPAS模型在表格推理中的稳定错误模式分离,为基准测试的可靠性提供诊断工具。
  • 联邦推理新范式:形式化隐私保护下的模型协作推理,揭示隐私约束、非独立同分布数据与有限可观测性之间的结构性权衡,为分布式模型服务设计提供理论框架。
  • MoE压缩路由器校准:研究发现无需重训练的MoE模型压缩后性能下降主因是路由器与专家不匹配,提出轻量级路由器知识蒸馏方法,仅更新极少量参数即可显著恢复性能。
  • 注意力路由吸收现象:实验揭示稀疏注意力Transformer中Q/K/V投影会吸收路由信号,导致学习门控与随机门控效果相近,指出后验解耦表示学习与稀疏化可规避此问题。
  • 神经分页架构:为解决大模型上下文窗口瓶颈,提出可微分页面控制器,理论分析表明其能将长程推理复杂度从二次方降低,实现近似语义Belady最优的Token管理。
  • 结构化与无结构剪枝理论鸿沟:通过逼近单个ReLU神经元的简化模型,证明结构化剪枝所需网络规模呈指数级增长,揭示了两种剪枝范式在函数逼近能力上的根本差异。

2026-03-04 速览 · 计算机科学

2026-03-04 共 24 条抓取,按综合热度排序

← 返回日历
cs 03-04 00:00

GLEAN:面向表格推理的轻量级污染感知评估框架

本文提出GLEAN,一种轻量级评估协议,用于解决表格推理基准测试中的污染、数据伪影和检索失败问题。该框架整合了污染感知探针、弱监督治理、检索-推理诊断,并在16GB GPU预算下,通过SQL可执行锚点(执行率95.2%)对多个数据集进行评估。GLEAN建立了确定性错误分类法(L0-L4级),揭示了TAPEX与TAPAS模型的稳定错误模式分离:前者偏向于接地错误(L3),后者偏向于幻觉/弃权错误(L2/L0)。研究还验证了证据行启发式方法的有效性,并表明检索Recall@K可能在端到端EM/F1有限时达到饱和,强调了超越原始召回率的错误归因必要性。

表格推理评估框架污染感知错误诊断轻量级评估检索增强
cs 03-04 00:00

同时保留词频分布与长程相关性的符号序列替代模型

本文提出了一种新的符号序列替代模型,能够同时保留原始序列的符号频率分布(如齐夫定律)和其长程相关性结构(通过去趋势波动分析指数量化)。该方法通过将分数高斯噪声映射到经验直方图,生成满足双重约束的替代序列,从而在随机化短程依赖的同时,精确匹配原始序列的一阶统计量和长程标度行为。模型在英语、拉丁语文本以及基因组DNA序列上得到验证,为分析语言、DNA等符号系统的结构特征和检验标度律起源假说提供了原理性工具。

替代模型长程相关性齐夫定律符号序列去趋势波动分析分数高斯噪声
cs 03-04 00:00

联邦推理:隐私保护下的协作与激励模型服务新范式

本文提出“联邦推理”作为一种区别于联邦学习的独立协作范式,旨在使独立训练、私有的模型能在不共享数据或参数的前提下进行推理协作。研究形式化了联邦推理为一种受保护的协同计算,并分析了其核心设计维度,揭示了在推理时同时施加隐私约束、非独立同分布数据和有限可观测性所带来的结构性权衡。通过具体实例与实证分析,研究强调了隐私保护推理、基于集成的协作以及激励对齐中的常见摩擦点,并指出联邦推理展现出无法从训练时联邦或经典集成方法直接继承的系统级行为。

联邦推理隐私保护模型协作推理服务激励机制非独立同分布数据
cs 03-04 00:00

RxnNano:通过分层课程学习训练用于化学反应预测的紧凑大语言模型

本研究提出RxnNano框架,旨在通过提升化学理解而非单纯扩大模型规模来改进化学反应预测。其核心创新包括:1)潜在化学一致性目标,将反应建模为连续化学流形上的运动;2)分层认知课程,引导模型从语法掌握渐进至语义推理;3)原子映射排列不变性,确保模型学习不变的关系拓扑。最终训练的0.5B参数紧凑模型在严格基准测试中,Top-1准确率显著超越大十倍的微调大模型及所有领域基线,提升达23.5%。

化学反应预测逆合成分析课程学习紧凑大模型化学人工智能
cs 03-04 00:00

ATPO:自适应树策略优化算法提升多轮医疗对话诊断准确性

本文针对多轮医疗对话中信息不完整导致诊断困难的问题,提出了一种新颖的自适应树策略优化算法。该方法将交互过程建模为分层马尔可夫决策过程,并通过结合贝尔曼误差和动作值方差的复合度量来量化不确定性,从而自适应地将计算资源分配给高不确定性的状态。这不仅实现了更精确的价值估计,还促进了更高效和多样化的探索。为降低基于树的强化学习的高计算成本,算法引入了不确定性引导的剪枝机制和利用KV缓存重用的异步搜索架构。在三个公开医疗对话基准上的实验表明,该方法显著优于多个基线模型,使Qwen3-8B模型在诊断准确率上超越了更大的GPT-4o模型。

医疗对话系统强化学习自适应策略优化不确定性量化分层决策过程模型效率优化
cs 03-04 00:00

无需重训练?MoE模型压缩中路由器校准的必要性

研究发现,无需重训练的MoE模型压缩(专家剪枝、编辑、合并)后性能下降的主要原因是路由器与专家不匹配。作者提出,有效的压缩应避免更新专家参数,但需进行轻量级路由器校准。为此,他们设计了路由器知识蒸馏方法,仅使用未标注校准数据和原始模型的下一词分布来更新极少量路由器参数。实验表明,该方法能显著恢复性能,尤其在细粒度MoE模型中效果更佳。

moe模型压缩路由器校准知识蒸馏模型剪枝参数高效
cs 03-04 00:00

可持续自我进化:如何让大语言模型在自我对弈中持续学习

研究表明,大语言模型(LLM)的自我对弈系统常因无法持续增加可学习信息而陷入瓶颈。本文通过编程任务实验,揭示了可持续自我进化需要一个能确保跨迭代可学习信息增益的自我合成数据管道。研究提出了一个三元角色框架(提议者、求解者、验证者),并设计了三种系统机制:非对称协同进化、能力增长和主动信息寻求。这些机制共同作用,为从脆弱的自我对弈转向可持续的自我进化提供了可衡量的系统级路径。

自我进化大语言模型自我对弈可学习信息协同进化系统设计
cs 03-04 00:00

NExT-Guard:无需训练与标注的实时大模型安全防护框架

针对大模型在流式场景下的实时安全防护难题,本研究提出了一种无需额外训练与词级标注的新框架NExT-Guard。它挑战了流式安全必须依赖词级监督训练的范式,创新性地利用预训练稀疏自编码器(SAEs)从大模型的隐层表示中提取可解释的风险特征进行实时监控。实验表明,该方法在多种模型、SAE变体和风险场景下,均超越了传统后处理和基于监督训练的流式防护方法,展现出卓越的鲁棒性,为实现低成本、可扩展的实时安全部署提供了新路径。

大模型安全流式防护稀疏自编码器无监督学习实时监控可解释性
cs 03-04 00:00

TimeGS:将时间序列预测重构为2D高斯渲染的新框架

本文提出TimeGS框架,将时间序列预测范式从回归转变为2D生成式渲染。针对现有方法将1D序列重塑为2D周期-相位表示时存在的拓扑失配和建模效率低下问题,TimeGS将未来序列视为连续潜在表面,利用高斯核的各向异性自适应建模复杂变化。其核心创新包括:多基高斯核生成模块,从固定字典合成核以稳定优化;多周期时序连续光栅化模块,强制跨周期边界的严格时间连续性。在标准基准数据集上的实验表明,TimeGS达到了最先进的性能。

时间序列预测高斯渲染生成式模型时序连续性自适应建模
cs 03-04 00:00

MedFeat:基于大语言模型与模型感知的临床表格数据特征工程框架

本文提出MedFeat框架,利用大语言模型整合医学领域知识进行特征工程。其创新在于引入模型感知机制,结合下游预测模型特性与SHAP特征重要性反馈,指导LLM生成对模型学习困难但信息量高的新特征。该方法避免了传统方法在预定义变换上的盲目搜索。在多项临床预测任务上的实验表明,MedFeat能稳定提升模型性能,发现具有临床意义且能泛化至分布外数据(如跨年份、从ICU到普通住院患者)的稳健特征,为实际部署提供了新思路。

特征工程大语言模型临床预测可解释性模型感知表格数据
cs 03-04 00:00

MedCalc-Bench基准审计:开放书评估揭示其真实测量能力

本研究对临床计算器基准MedCalc-Bench进行了系统性审计,发现其存在公式错误与实现缺陷。通过简单的“开放书”提示(在推理时提供计算器规范),GLM-4.6V/4.7模型的准确率从约52%提升至81-85%,超越了所有已发布的强化学习方法。使用GPT-5.2-Thinking确定的上限为95-97%,剩余误差主要源于数据本身问题。结果表明,该基准主要衡量公式记忆与算术精度,而非临床推理,更适合作为工具使用评估。

基准审计临床计算开放书评估大语言模型工具使用医学人工智能
cs 03-04 00:00

机器学习揭示野火疏散行为模式:资源与规划是关键预测因素

本研究通过大规模调查数据,结合无监督与有监督机器学习方法,系统分析了美国西部居民的野火疏散行为。研究使用多重对应分析、K-Modes聚类和潜在类别分析,识别出由车辆可及性、防灾计划、技术资源、宠物拥有情况和居住稳定性等因素区分的不同行为亚群。监督模型表明,家庭特征可以高可靠性地预测疏散交通方式,但由于对动态火情的依赖,疏散时机的预测仍具挑战。该研究为制定有针对性的应急准备策略和资源分配提供了数据驱动的见解。

野火疏散机器学习应急管理行为预测聚类分析
cs 03-04 00:00

注意力路由吸收现象:为何随机门控在稀疏注意力中难以被超越

研究发现,在端到端训练的稀疏注意力Transformer中,Q/K/V投影会与施加的注意力掩码协同适应,吸收路由信号,导致学习的门控网络性能与冻结的随机门控相差无几。这种现象被称为“路由吸收”。通过四项独立实验证据,包括软门控与随机门控的困惑度对比、硬门控的零梯度问题、蒸馏门控的灾难性部署表现以及训练中随机掩码的失效,论文揭示了注意力机制中路由吸收的结构性严重性。研究指出,采用后验方法将表示学习与稀疏化解耦,可以完全规避此问题。

稀疏注意力路由吸收transformer门控网络协同适应模型训练
cs 03-04 00:00

神经分页:为图灵完备智能体学习上下文管理策略

本研究提出“神经分页”架构,以解决大语言模型作为通用智能体时面临的关键瓶颈——有限且昂贵的上下文窗口。该架构将符号推理与信息管理解耦,定义了“上下文分页问题”,并引入一个轻量级、可微分的“页面控制器”,旨在近似“语义Belady最优性”,即在明确访问模式假设下,保留具有高未来效用的Token。理论分析表明,在上下文窗口大小K有限的情况下,神经分页能将长程推理的渐进复杂度从二次方O(N²)降低到O(N·K²),并推导了在策略相关访问下的鲁棒性边界。

大语言模型上下文管理智能体架构计算复杂度神经分页语义缓存
cs 03-04 00:00

LLM智能体安全训练:助人优化后安全能力依然保持

研究探讨了在多步、使用工具的“智能体”场景下对大型语言模型进行安全后训练的效果。与单步“聊天”设置不同,此处的安全指模型直接采取有害行动的风险。研究发现,单独针对安全性或助人性进行直接偏好优化(DPO)会导致模型性能偏向极端。但关键发现是,先进行安全训练再进行助人训练,安全能力会得以保持。所有训练配置最终都接近一个线性的帕累托前沿($R^2 = 0.77$)。即使同时针对两个指标进行训练,也只是得到前沿上的另一个点,而非找到“两全其美”的策略,尽管数据集中存在此类策略。这凸显了深入理解后训练动态的必要性。

大语言模型智能体安全偏好优化后训练帕累托前沿ai对齐
cs 03-04 00:00

SCDD:基于显式状态转移的自校正离散扩散模型

本文提出了一种自校正离散扩散模型(SCDD),旨在解决现有离散扩散模型中自校正技术泛化性有限、推理性能受损的问题。SCDD通过显式状态转移在离散时间中直接学习自校正,简化了训练噪声调度,并消除了冗余的重掩码步骤。实验表明,该方法在GPT-2规模上实现了更高效的并行解码,同时保持了生成质量。

离散扩散模型自校正并行解码状态转移生成模型
cs 03-04 00:00

物理架构嵌入神经网络:实现大规模波场重建的突破

本研究提出了一种新型物理架构嵌入神经网络(PE-PINN),用于解决大规模波场重建中计算效率与精度的难题。传统物理信息神经网络(PINN)仅将物理定律嵌入损失函数,导致收敛慢、优化不稳定及频谱偏差。PE-PINN通过设计新的包络变换层,将波源特性、材料界面等物理知识直接参数化到网络架构中。实验表明,该方法相比标准PINN收敛速度提升10倍以上,相比有限元法内存使用降低数个数量级,成功实现了涉及反射、折射和衍射的大规模2D/3D电磁波高保真建模。

物理信息神经网络波场重建计算电磁学深度学习科学计算架构嵌入
cs 03-04 00:00

超越二元偏好:基于序数反馈的奖励建模理论框架

本研究提出了一个理论严谨的框架,将基于李克特量表(如“显著更好”、“稍好”)的序数偏好反馈建模为一个离散序数回归问题。与现有基于二元偏好模型(如Bradley-Terry)并采用临时启发式方法(如固定边界项)不同,该框架推导出两种损失函数:负对数似然损失和全阈值损失。这些函数通过数据学习阈值参数,自然捕获偏好的序数结构。实验表明,该方法在聊天、推理和安全等多种任务评估中,性能均优于或媲美现有启发式方法,为在奖励模型训练中有效利用细粒度人类反馈提供了首个数学原理框架。

奖励建模序数回归人类偏好对齐大语言模型损失函数
cs 03-04 00:00

自适应个性化联邦学习:基于核均值嵌入的多任务平均方法

本文提出了一种新的个性化联邦学习(PFL)方法,其中每个智能体通过优化所有智能体经验风险的加权组合来学习个性化模型,权重直接从数据中学习而非预先指定。其核心创新在于将协作权重的估计构建为一个多数据源的核均值嵌入估计问题,并利用多任务平均工具来捕捉智能体间的统计关系。该方法无需数据异质性的先验知识,能自动在全局与局部学习模式间切换。通过将目标重构为高维均值估计问题,作者为广泛分布的局部超额风险提供了有限样本保证,并量化了协作带来的统计增益。为应对联邦学习中的通信约束,还提出了一种基于随机傅里叶特征的实用实现方案,可在通信成本与统计效率间进行权衡。

个性化联邦学习核均值嵌入多任务学习数据异质性通信效率统计保证
cs 03-04 00:00

结构化剪枝与无结构剪枝的理论鸿沟:逼近单个ReLU神经元所需的网络规模呈指数级差异

本研究聚焦于强彩票假说(SLTH)下的剪枝范式,理论分析了无结构剪枝(移除单个权重)与结构化剪枝(如神经元剪枝)在逼近目标函数能力上的根本差异。通过构建一个随机初始化的无偏置两层ReLU网络来逼近单个无偏置ReLU神经元这一简化模型,研究证明:要达到ε-逼近精度,神经元剪枝需要起始网络隐藏层神经元数量为Ω(d/ε),而无结构剪枝仅需O(d log(1/ε))个神经元。这揭示了两种剪枝方法在所需网络规模上存在指数级差距,为理解结构化剪枝的理论局限性提供了新见解。

神经网络剪枝强彩票假说结构化剪枝理论计算机科学模型压缩计算复杂度
cs 03-04 00:00

让神经网络验证工具听懂人话:基于自然语言的自动形式化规范生成

现有神经网络验证工具仅支持对原始输入/输出的底层约束进行验证,难以处理应用领域中以高级语义(如自然语言)表达的正确性需求。本文提出一种新框架,通过在验证流程中引入一个自动翻译组件,将用户用自然语言描述的高层规范,分析并转换为与现有先进验证器兼容的形式化查询。在结构化和非结构化数据集上的评估表明,该方法能成功验证以往无法处理的复杂语义规范,且转换过程忠实于用户意图,计算开销低,从而显著扩展了形式化DNN验证在现实世界高层需求中的适用性。

神经网络验证形式化方法规范生成自然语言处理语义规范
cs 03-04 00:00

LoRA持续学习遗忘机制:梯度子空间几何角决定灾难性遗忘

本研究提出了一个几何理论来解释低秩适应(LoRA)在持续学习中的灾难性遗忘现象。核心发现是遗忘遵循一个简单的几何定律:$\mathcal{F} = \alpha(1 - \cos^2\theta_{\min}) + \beta$,其中 $\theta_{\min}$ 是任务梯度子空间之间的最小主角度。该公式揭示了近似秩不变性:当子空间角度较大时,遗忘程度基本与适配器秩无关。研究在合成任务(相关性 $r=0.994$)、Split-CIFAR100(ViT-LoRA)和顺序GLUE(RoBERTa-LoRA)上验证了该理论。分析表明,秩仅在任务子空间相似(角度小)时影响遗忘,而当自然正交性较高时,正交方法(如O-LoRA)的收益有限。

持续学习灾难性遗忘低秩适应梯度子空间几何理论参数高效微调
cs 03-04 00:00

无需人工标注的奖励模型规模化训练方法研究

本研究提出了一种名为“基于奖励的规模化”(RBS)的无监督方法,通过在大规模网络语料库(如1100万数学相关标记)上学习文档前缀与后缀之间的偏好,来训练奖励模型。该方法无需昂贵且可能不可靠的人工标注,在RewardBench v1和v2基准测试中实现了稳定提升,平均准确率最高提升+7.7个百分点,在数学子集上提升高达+16.1。当应用于最佳N选择(best-of-N)和策略优化时,这些奖励模型显著提升了下游数学任务性能,并达到或超越了同等规模的强监督基线。

无监督学习奖励模型偏好学习规模化训练大语言模型对齐
cs 03-04 00:00

选择性更新RNN:通过神经元级开关解决长序列建模中的记忆衰减问题

本文提出选择性更新循环神经网络(suRNN),以解决传统RNN在处理长序列时因每个时间步都强制更新状态而导致的“记忆衰减”问题。suRNN的核心创新在于为每个神经元引入一个二元开关,该开关仅在输入信息丰富时打开以更新状态,在冗余或静态输入期间则保持记忆不变。这种机制解耦了循环更新与原始序列长度,为梯度在时间上流动创造了直接路径,从而能更有效地保留长期依赖关系。实验表明,suRNN在Long Range Arena、WikiText等基准测试上达到了与Transformer相当甚至更优的精度,同时在长期存储方面显著更高效。

循环神经网络长序列建模选择性更新记忆衰减高效计算
AI速览助手