今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-04-15 04-15 15:40

今日计算机科学领域研究聚焦于提升AI系统的效率、鲁棒性与可解释性,并探索其底层机制与跨领域应用。

  • 提升模型训练与微调效率:针对大语言模型训练成本高昂的问题,研究通过动态核心集选择(GRACE)和选择性更新中间层(SFT层析分析)等方法,在保证性能的同时显著降低计算开销。
  • 增强模型推理与适应能力:研究探索通过多令牌预测训练目标诱导模型进行规划式推理,并开发了零样本自适应框架(MVAdapt),使模型能更好地泛化到新任务或新物理环境。
  • 优化AI代理与记忆系统设计:为解决AI代理权限过大或记忆系统僵化的问题,研究提出了动态最小权限治理框架(Aethelgard)和可自动演化的记忆程序(M$^\star$),以提升其安全性与任务适应性。
  • 改进模型可解释性与不确定性量化:在医疗等高风险领域,研究致力于通过无监督概念发现(MedConcept)提升视觉语言模型的可解释性,并开发理论保证的引导框架为CNN提供可靠的不确定性估计。
  • 探索科学发现的认知局限:一项元科学研究类比机器学习中的优化过程,分析了科学知识体系因路径依赖而陷入“局部最优”的机制,为设计突破性研究策略提供了新视角。
  • 关注模型行为与评估的复杂性:研究揭示了增强推理能力可能损害社会模拟保真度的“求解-采样错配”现象,并报告了行为特质蒸馏的失败案例,强调了严谨验证的重要性。

2026-04-15 速览 · 计算机科学

2026-04-15 共 21 条抓取,按综合热度排序

← 返回日历
cs 04-15 00:00

GRACE:面向大语言模型优化的动态核心集选择框架

本文提出GRACE框架,以解决大语言模型(LLM)训练中因数据量大、计算成本高而面临的效率挑战。GRACE通过结合表示多样性与基于梯度的度量,动态构建和更新核心集(coreset),确保其信息量和效率。为降低频繁更新的计算开销,GRACE利用$k$-NN图传播机制,并选择性更新分数和嵌入,以适应训练动态。在三个基准测试上的实验表明,GRACE能显著提升不同LLM和任务的训练效率与下游性能。

大语言模型核心集选择训练优化动态框架图传播
cs 04-15 00:00

M$^\star$:通过可执行程序演化自动发现任务优化的记忆系统

针对现有大语言模型智能体采用固定记忆设计、难以跨任务迁移的问题,本文提出了M$^\star$方法。该方法将智能体记忆系统建模为一个用Python编写的“记忆程序”,该程序封装了数据模式、存储逻辑和工作流指令。通过一种基于种群搜索和失败分析的反射性代码演化方法,M$^\star$能自动联合优化这些组件,为不同任务发现定制的记忆系统。在对话、具身规划和专家推理等四个不同基准上的评估表明,M$^\star$的性能均稳健优于现有的固定记忆基线,且演化出的程序展现出针对不同领域的独特处理机制。

记忆系统程序演化智能体任务优化大语言模型
cs 04-15 00:00

科学知识为何非最优?路径依赖与局部最优陷阱

本文提出,科学知识体系在任一历史时刻都处于“局部最优”而非全局最优。类比机器学习中的梯度下降,科学发现受限于历史偶然性、认知路径依赖和制度锁定,沿着可操作性、经验可及性和制度回报的局部最陡梯度前进,可能因此错失对自然更根本的描述。文章通过数学、物理、化学等多个领域的案例,分析了认知、形式化和制度三种锁定机制,并探讨了设计元科学策略以跳出局部最优的可能性。

科学哲学路径依赖局部最优认知锁定制度锁定元科学
cs 04-15 00:00

基于大语言模型的表格表示学习方法实现临床多模态推理的零样本泛化

本研究提出了一种新颖的Schema-Adaptive Tabular Representation Learning方法,旨在解决机器学习在处理表格数据时面临的模式泛化难题。该方法的核心是利用大语言模型(LLMs)将结构化的表格变量转化为语义化的自然语言描述,从而生成可迁移的表格嵌入表示。通过这种方式,模型能够在无需人工特征工程或重新训练的情况下,实现对新数据模式的零样本对齐。研究将该编码器集成到一个用于痴呆症诊断的多模态框架中,结合了表格数据和MRI影像。在NACC和ADNI数据集上的实验表明,该方法取得了最先进的性能,并成功实现了对未见数据模式的零样本迁移,在回顾性诊断任务中显著超越了包括经过认证的神经科医生在内的临床基线模型。这些结果验证了这种LLM驱动的方法能够为现实世界中异构数据提供一个可扩展且鲁棒的解决方案,并为将基于LLM的推理能力扩展到结构化领域开辟了路径。

表格表示学习大语言模型临床推理多模态学习零样本泛化痴呆症诊断
cs 04-15 00:00

课程感知AI导师:在编程入门课中提供检索增强式指导

针对学生过度依赖大语言模型(LLM)获取完整代码解决方案、削弱自身问题解决能力的问题,本研究设计并部署了一个课程感知的在线Python导师系统。该系统将基于Web的编程环境与对话代理相结合,通过检索增强生成(RAG)技术,提供基于课程材料的提示、苏格拉底式提问和解释,而非生成完整答案。学生反馈和交互日志分析表明,该系统主要用于概念理解、实现指导和调试,被视为一种鼓励参与而非直接复制解决方案的、与课程内容对齐的上下文感知学习支持工具。

ai教育编程教学检索增强生成大语言模型智能导师系统人机交互
cs 04-15 00:00

监督微调层析分析:中间层稳定,末层敏感,提出高效调优新方法

本研究对监督微调(SFT)进行了深入的层析分析,揭示了指令跟随能力在不同模型层中的涌现规律。通过信息论、几何和优化指标对1B至32B规模模型的分析发现,中间层(20%-80%)在微调过程中保持稳定,而最终层则表现出高度敏感性。基于此,研究者提出了“中间块高效调优”方法,选择性地更新这些关键中间层。实验表明,该方法在GSM8K基准测试(OLMo2-7B模型)上比标准LoRA方法性能提升高达10.2%,且参数开销更低,证明了有效的对齐能力在模型架构中是局部化而非分布式存在的。

监督微调层析分析模型对齐高效调优指令跟随大语言模型
cs 04-15 00:00

Aethelgard:为自主AI代理实现动态最小权限治理的框架

针对自主AI代理普遍存在的“能力过度配置”问题(如摘要任务拥有与代码部署相同的系统权限),本文提出了Aethelgard四层自适应治理框架。该框架通过强化学习(PPO)策略学习不同任务类型所需的最小可行能力集,并动态限制代理在会话中可感知的工具,结合基于规则与微调分类器的安全路由器拦截执行前调用,从而在运行时强制执行最小权限原则。

ai安全最小权限强化学习自主代理能力治理运行时安全
cs 04-15 00:00

PERA:通过多项式扩展增强低秩微调的高阶交互能力

本文提出多项式扩展秩适应(PERA)方法,以解决低秩适应(LoRA)在微调大语言模型时因线性结构限制而表达能力不足的问题。PERA通过在低秩因子空间引入结构化多项式扩展,在组合前合成高阶交互项,将适应空间转换为多项式流形,从而在不增加秩或推理成本的情况下建模更丰富的非线性耦合。理论分析表明PERA具有更强的表达能力和更有效的特征利用。实验证明,PERA在多种基准测试中均优于现有方法,其中引入高阶非线性分量(特别是平方项)对提升表达能力和保持鲁棒性能至关重要。

低秩微调多项式扩展大语言模型模型适配高阶交互非线性建模
cs 04-15 00:00

DBGL:基于衰减感知二分图学习的不规则医疗时间序列分类方法

本文提出DBGL模型,用于解决不规则医疗时间序列(如异质采样率、异步观测)的分类难题。模型核心是构建患者-变量二分图,无需人工对齐即可捕捉不规则采样模式与变量关系。同时,创新性地设计了节点特异性时间衰减编码机制,根据采样间隔建模每个变量的衰减率,从而更精确地表征不规则时序动态。在四个公开数据集上的实验表明,DBGL性能优于现有基线方法。

医疗时间序列图神经网络衰减建模不规则采样时序分类二分图
cs 04-15 00:00

MVAdapt:面向端到端自动驾驶的零样本多车辆自适应框架

本文提出了MVAdapt框架,旨在解决端到端自动驾驶模型因车辆物理特性(如尺寸、质量、传动系统)不同而导致的性能下降问题。该方法通过一个轻量级物理编码器和交叉注意力模块,将车辆属性信息与冻结的TransFuser++场景编码器特征进行融合,从而在路径点解码前实现驾驶策略对车辆物理特性的显式条件化。在CARLA Leaderboard 1.0基准测试中,MVAdapt在已知和未见车辆上均优于直接迁移和多体现基线方法,展现出强大的零样本迁移能力,并为物理特性差异巨大的车辆提供了数据高效的小样本校准方案。

自动驾驶零样本学习领域自适应车辆动力学端到端模型
cs 04-15 00:00

BIND-USBL:利用水面船队声学定位协同抑制水下航行器惯性导航漂移

本文提出BIND-USBL框架,解决GPS拒止环境下自主水下航行器(AUV)的持续精确定位难题。该框架通过配备超短基线(USBL)声学定位系统的自主水面船(ASV)编队,为AUV提供间歇性位置修正,以约束惯性航位推算的累积漂移。核心在于分析修正点的时空稀疏性与几何可用性,而非单点精度。方法结合了多ASV编队模型、基于冲突图的时分多址上行链路调度器,以及对接收到的USBL更新与航位推算结果的延迟融合。仿真结果表明,定位性能由勘测尺度、声学覆盖、团队构成及ASV编队几何形状共同决定,且调度器能在无冲突约束下提升AUV的修正点接收率。

协同定位水下机器人惯性导航声学定位多智能体系统导航漂移抑制
cs 04-15 00:00

小规模语言模型行为特质蒸馏研究:三项实验均未获成功

本研究尝试通过四阶段蒸馏流程,将自我验证、不确定性承认和反馈整合等行为特质注入小规模语言模型(0.6B-2.3B参数)。尽管初期报告了显著性能提升,但后续验证发现这些结果是虚假的。研究通过三项系统性实验(SFT/DPO微调、推理时注意力头干预、基于冻结基座的旁路模块)均未能实现特质迁移,且发现特质改善往往以内容质量下降或风格模仿为代价。研究贡献了机制性负面结果、线性探针的双失败模式分类,以及一个可将假阳性转化为可发表负面结果的验证流程。

语言模型行为蒸馏负面结果模型评估小规模模型
cs 04-15 00:00

Transformer初始化信号传播分析:揭示LayerNorm与非线性激活对训练稳定性的影响

本研究通过平均偏雅可比范数(APJN)分析了Transformer模型在初始化阶段的信号传播行为。研究将APJN分析扩展到具有双向注意力和置换对称输入配置的Transformer,并通过推导激活统计量和APJN的跨层递推关系,理论预测了注意力机制如何改变APJN在深层网络中的渐近行为。研究发现,类似于残差网络中的临界性现象:采用LayerNorm的架构表现出APJN的幂律增长,而将LayerNorm替换为类$\tanh$逐元素非线性激活的架构则表现出拉伸指数增长,表明后者处于亚临界状态。该理论解释了为何DyT和Derf等架构对初始化和优化选择更为敏感,需要精细调参才能稳定训练。

transformer信号传播模型初始化梯度分析训练稳定性深度学习理论
cs 04-15 00:00

热力学液体流形网络:用于离网微电网太阳能预测的物理约束深度学习

本研究提出了一种名为“热力学液体流形网络”的新型深度学习模型,旨在解决离网光伏系统太阳能预测中传统模型存在的物理不一致性问题。该模型通过将22个气象和几何变量投影到Koopman线性化的黎曼流形中,并结合光谱校准单元与热力学Alpha门,将实时大气不透明度与理论晴空边界模型进行合成,从而在结构上强制模型遵循严格的天体几何规律。该方法完全消除了虚假的夜间发电预测,并在天气快速变化时实现了零滞后同步。在严酷的半干旱气候下进行的五年期测试表明,该模型实现了18.31 Wh/m²的RMSE和0.988的皮尔逊相关系数,夜间误差严格为零,且在高频光学瞬变期间的相位响应小于30分钟。其超轻量级设计(仅63,458个可训练参数)为边缘可部署的微电网控制器建立了稳健且热力学一致的新标准。

太阳能预测物理约束学习微电网热力学模型黎曼流形边缘计算
cs 04-15 00:00

多令牌预测如何让Transformer学会规划推理

研究揭示了多令牌预测(MTP)训练目标如何让Transformer模型学会规划式推理。相比传统的下一个令牌预测(NTP),MTP在合成图路径查找任务及Countdown、布尔可满足性等现实推理基准上表现更优。理论分析表明,在简化的两层Transformer上,MTP会诱导出一个两阶段逆向推理过程:模型先关注目标节点,再反向追溯中间节点。这源于MTP的梯度解耦特性,能提供比NTP更清晰的训练信号,使优化过程偏向于构建鲁棒且可解释的推理电路。

多令牌预测transformer推理规划梯度解耦逆向推理语言模型训练
cs 04-15 00:00

基于凸神经网络引导的CNN不确定性量化新框架

本文针对卷积神经网络(CNN)在医学等高风险领域应用时缺乏可靠不确定性量化(UQ)工具的问题,提出了一种基于引导法(Bootstrap)的新框架。该方法通过凸化神经网络为引导过程提供了理论一致性保证,确保不确定性估计的质量。其核心优势在于计算效率高,利用“热启动”策略避免了每次引导都从头训练模型。此外,作者还探索了一种新颖的迁移学习方法,使该框架能适用于任意神经网络结构。实验表明,该方法在多种图像数据集上优于基线CNN和现有先进方法。

不确定性量化卷积神经网络引导法凸优化迁移学习医学图像
cs 04-15 00:00

推理能力越强,模拟效果越差?大语言模型在多智能体谈判中的“求解-采样”错配

研究指出,在将大语言模型用作社会、经济模拟中的智能体时,一个常见假设是更强的推理能力能提升模拟保真度。然而,当目标是采样“有限理性”的合理行为,而非求解最优策略时,这一假设可能失效。增强推理的模型可能成为更好的“求解器”,但却是更差的“模拟器”:它们会过度优化主导策略、压制妥协行为,有时产生“有多样性而无保真度”的模式。研究在三个多智能体谈判环境中验证了这种“求解-采样错配”,并发现“有限反思”设置比“无反思”或“原生推理”能产生更多样化、更倾向妥协的行为轨迹。

大语言模型多智能体模拟行为仿真有限理性谈判博弈模型评估
cs 04-15 00:00

UniMark:面向自回归图像生成器的统一自适应多比特水印框架

本文提出UniMark,一种无需训练的统一水印框架,解决了现有自回归图像生成水印方法的三大局限:仅支持零比特验证、静态码本分区易受攻击、以及无法跨范式泛化。其核心创新在于:1)基于密钥和语义相似度的自适应语义分组(ASG),在保证图像质量的同时提升安全性;2)分块多比特编码(BME),结合纠错码实现可靠信息传输;3)统一令牌替换接口(UTRI),可适配多种自回归范式(如LlamaGen和VAR)。理论分析了检测错误率和嵌入容量,实验表明其在图像质量(FID)、水印检测准确率和多比特信息提取方面均达到SOTA,并对裁剪、JPEG压缩、噪声等多种攻击具有鲁棒性。

图像水印自回归生成多比特编码自适应分组ai内容溯源版权保护
cs 04-15 00:00

轻量级块密码在实时CAN总线加密中的可行性评估

本研究评估了在基于QT PY ESP32-S2微控制器的实时嵌入式控制器局域网(CAN)节点中集成轻量级块密码进行载荷加密的可行性。实验旨在探究块密码能否防止基于语义分类的逆向工程,即攻击者通过观察和统计分析未加密的CAN流量来推断信号含义。研究通过测量时序影响、载荷模式可观测性和基于相关性的推断来评估加密效果。结果表明,加密能有效掩盖恒定值和可预测的信号模式,同时维持100 Hz的传输调度。这些发现表明,轻量级载荷加密可以在资源受限的硬件上,以有限的时序开销为代价,有效降低基于被动观察的CAN信号语义推断风险。

can总线安全轻量级加密嵌入式系统实时通信逆向工程防护
cs 04-15 00:00

MedConcept:无监督概念发现提升医学视觉语言模型可解释性

本文提出MedConcept框架,旨在解决医学视觉语言模型(VLMs)内部表征不透明、难以解释的问题。该方法以完全无监督的方式,从预训练VLM的稀疏神经元激活中识别潜在的医学概念,并将其转化为伪报告风格的摘要,使医生能够检查模型的内部推理过程。为量化评估概念的可解释性,研究引入了一种语义验证协议,利用独立的预训练医学大语言模型作为外部评估器,通过定义对齐、未对齐和不确定三个概念分数,来量化概念与放射学报告在语义上的一致性、矛盾性或模糊性,为医学VLM的可解释性评估提供了定量基准。

医学人工智能模型可解释性无监督学习视觉语言模型概念发现
cs 04-15 00:00

V-Nutri:利用第一人称烹饪视频进行菜品级营养估算

现有基于图像的营养估算方法通常依赖最终成品的单张图片,难以识别烹饪后变得模糊的油、酱汁等关键成分。本文提出V-Nutri框架,首次利用第一人称烹饪视频中的过程信息来辅助营养估算。该框架结合了预训练的视觉主干网络与一个轻量级融合模块,能够聚合最终菜品帧和从视频中提取的关键烹饪过程帧的特征。实验表明,在受控条件下,烹饪过程线索能提供互补的营养证据,提升估算精度。

营养估算烹饪视频计算机视觉第一人称视角多模态融合
AI速览助手