今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-03-03 03-03 15:28

今日计算机科学领域研究聚焦于提升模型与系统的效率、安全性与泛化能力,核心趋势是通过算法创新与架构设计应对复杂场景下的性能瓶颈与可靠性挑战

  • 模型效率与部署优化:研究关注降低大模型的计算与内存开销,例如通过注意力机制转换减少ASR模型的GPU内存消耗,或利用图对比学习采样框架实现GPU仿真的高保真加速,以及提出精准的GPU延迟预测框架指导深度神经网络高效部署。
  • 安全与可靠性前沿:针对大模型的安全防线与决策可靠性,出现了多模态越狱攻击对抗攻击框架,同时也有研究系统揭示LLM代码审查的误判缺陷并提出验证过滤器,凸显了增强模型鲁棒性与可信评估的迫切需求。
  • 跨模态与跨尺度泛化:工作致力于提升模型在多模态测试时适应跨尺度图像处理中的泛化能力,通过解耦学习策略或转化问题形式,使模型能动态适应新分布或不同分辨率输入。
  • 架构与训练方法创新:在基础模型架构方面,提出了统一的宽度-深度联合缩放参数化方法以确保扩展稳定性;在训练数据生成上,出现了逻辑驱动框架合成可验证的智能体任务数据,以及MCTS驱动方法构建能力导向的评测基准。

2026-03-03 速览 · 计算机科学

2026-03-03 共 24 条抓取,按综合热度排序

← 返回日历
cs 03-03 00:00

黑箱多尺度多物理场耦合的随机保守场传递方法

本文提出了一种用于黑箱耦合场景下执行场传递操作的新方法,适用于无法获取源离散化信息的情况。该方法采用伽辽金投影的随机近似,从而渐进地保证了守恒性。在简单域和LTX聚变反应堆网格上,其精度和守恒性误差与网格相交法及径向基函数法进行了对比。在所有测试案例中,新方法均展现出比径向基函数法更高的精度和更低的守恒误差,并且与网格相交法不同,它适用于黑箱耦合。此外,研究还展示了该方法在NVIDIA A100 GPU上的实现与性能,其计算成本与网格相交法相当。

黑箱耦合场传递随机近似伽辽金投影多物理场gpu加速
cs 03-03 00:00

LLM代码审查可靠性存疑:系统化过度修正导致需求符合性误判

研究发现,大型语言模型在判断代码是否符合自然语言需求时存在系统性缺陷。通过广泛采用的基准测试和统一提示设计,LLM经常将正确的代码实现误判为不合规或有缺陷。令人意外的是,要求模型提供解释和修正建议的详细提示设计反而会导致更高的误判率。研究进一步分析了导致这些失败的机制,并提出了“修正引导验证过滤器”方法,将模型提出的修正视为可执行的反事实证据,通过基准测试和规范约束的增强测试来验证原始和修订后的实现。

代码审查llm可靠性需求符合性系统误判软件工程ai辅助开发
cs 03-03 00:00

谱条件统一大模型宽度-深度联合缩放参数化方法

本研究针对生成式基础模型在宽度和深度维度同时扩展时面临的稳定性挑战,提出了一个统一的谱框架来推广最大更新参数化(μP)方法。通过引入谱μP条件,精确描述了权重及其更新步长应如何随宽度和深度缩放,统一了此前分散的μP公式。基于此条件,研究推导出适用于广泛优化器的通用参数化方案,不仅恢复了SGD、AdamW等现有方法,还自然扩展到更多优化器。GPT-2风格语言模型实验表明,该谱条件能保持稳定的特征学习,并实现宽度-深度联合缩放下的超参数鲁棒迁移。

大模型缩放参数化方法谱条件宽度-深度缩放超参数迁移稳定训练
cs 03-03 00:00

量子一次程序的最优安全边界:从不可能性到可构造性

本文探讨了“最优可能的一次程序”的安全极限。经典一次程序依赖硬件假设,而量子一次程序对于确定性功能因温和测量攻击而不可实现。研究首先证明,即使对于经典随机功能,通用的最优一次编译器也不存在。为此,作者引入了“可测试一次程序”子类,并提出了广义单有效查询模拟安全概念。通过证明该安全概念蕴含最优可测试安全性,并在经典预言机模型中为所有量子功能构造了SEQ安全的一次程序,首次实现了超越经典随机功能的任意量子信道的一次程序。此外,文章提出了状态量子不可区分混淆的概念,并证明它同样可实现,为构建最优可测试一次程序提供了新途径。

量子密码学一次程序最优安全性不可区分混淆量子信道
cs 03-03 00:00

M-JudgeBench:面向能力的多模态大模型评测基准与MCTS驱动的数据生成

本研究针对使用多模态大语言模型作为评估者的新兴范式,提出了能力导向的评测基准M-JudgeBench。该基准将评估能力分解为成对思维链比较、避免长度偏见和过程错误检测等十个细粒度子任务,系统揭示了现有MLLM-as-a-judge模型的系统性弱点。为提升模型能力,研究者进一步提出了Judge-MCTS数据构造框架,通过蒙特卡洛树搜索生成具有不同正确性和长度的成对推理轨迹,并据此训练了M-Judger系列强评估模型。实验表明,M-Judger在现有基准及M-JudgeBench上均表现出优越性。

多模态大模型模型评估能力基准数据生成蒙特卡洛树搜索思维链
cs 03-03 00:00

GCL-Sampler:基于图对比学习的GPU模拟采样框架,实现高保真与高速仿真

针对GPU架构仿真速度慢的问题,本研究提出GCL-Sampler采样框架。该方法利用关系图卷积网络与对比学习,自动从程序执行轨迹图中发现内核相似性,将指令序列与数据依赖编码为图嵌入,从而捕捉丰富的结构和语义特征。实验表明,GCL-Sampler在保持0.37%低误差的同时,实现了平均258.94倍的仿真加速,性能显著优于现有方法。

gpu仿真图对比学习采样方法关系图卷积网络性能优化计算机体系结构
cs 03-03 00:00

手术室几何追踪系统:解决多视角3D跟踪中的几何不一致问题

本研究提出Geometry OR Tracker,一个用于手术室环境的两阶段世界尺度多视角3D跟踪框架。针对临床部署中相机标定和RGB-D配准不可靠导致的跨视角几何不一致(产生“重影”)问题,系统首先通过多视角度量几何校正模块,将不精确的标定统一为具有单一全局尺度的几何一致相机设置,随后在统一的世界坐标系中直接执行遮挡鲁棒的3D点跟踪。在MM-OR基准测试中,几何一致性的提升显著改善了跟踪性能:校正前端将跨视角深度不一致性降低了超过30倍。消融研究进一步证实了标定质量与跟踪精度之间的强关联。

手术室追踪多视角几何3d跟踪相机标定计算机视觉医疗ai
cs 03-03 00:00

Whisper-MLA:通过注意力机制转换降低ASR模型的GPU内存消耗

针对Transformer架构的Whisper语音识别模型在处理长音频时,其多头注意力机制导致KV缓存线性增长,GPU内存消耗巨大的问题,本研究提出Whisper-MLA。该方法将多头潜在注意力机制融入Whisper模型,并系统研究了其在编码器自注意力、解码器自注意力及交叉注意力模块的应用。实验表明,仅将MLA应用于解码器自注意力可在性能与内存效率间取得最佳平衡。该方法支持将预训练的Whisper模型以最小微调成本转换为Whisper-MLA。在LibriSpeech基准测试中,Whisper-MLA将KV缓存大小降低高达87.5%,同时保持了具有竞争力的识别准确率。

语音识别注意力机制模型压缩gpu内存优化transformer
cs 03-03 00:00

MIDAS:多图像分散与语义重构攻击,破解多模态大模型安全防线

本研究提出MIDAS,一种针对多模态大语言模型的新型越狱攻击框架。该方法将有害语义分解为风险子单元,分散到多个视觉线索中,并利用跨图像推理逐步重构恶意意图,从而绕过现有安全机制。MIDAS通过强制模型进行更长、更结构化的多图像链式推理,显著降低其安全注意力,提升攻击成功率。实验表明,该方法在4个闭源MLLMs上平均攻击成功率高达81.46%,优于现有方法。

多模态大模型越狱攻击安全对抗视觉推理语义重构
cs 03-03 00:00

AdvBandit:基于连续臂老虎机的黑盒对抗攻击框架

本文提出AdvBandit,一种针对神经上下文老虎机的黑盒自适应对抗攻击方法。攻击者将上下文投毒建模为连续臂老虎机问题,无需访问受害者内部参数或梯度信息。通过最大熵逆强化学习模块构建代理模型,并结合投影梯度下降优化扰动,同时利用置信上界感知的高斯过程指导攻击臂选择。理论分析证明了攻击者的次线性遗憾和受害者遗憾的线性下界。在Yelp、MovieLens和Disin三个真实数据集上的实验表明,该攻击模型能比现有基线方法产生更高的累积受害者遗憾。

对抗攻击上下文老虎机黑盒攻击逆强化学习投毒攻击在线学习
cs 03-03 00:00

DeMol:双通道分子表示学习框架,通过键中心建模提升分子性质预测

本研究针对传统以原子为中心的分子模型忽略复杂键级现象(如共振、立体选择性)的问题,提出了DeMol双图框架。该框架通过信息论分析论证了键中心视角的信息增益,并设计了并行的原子通道与键通道,利用多尺度双螺旋块学习原子-原子、原子-键、键-键之间的复杂相互作用。此外,通过基于共价半径的正则化项增强几何一致性。在PCQM4Mv2、OC20 IS2RE、QM9和MoleculeNet等多个基准测试上的综合评估表明,DeMol实现了新的最优性能,证实了显式建模键信息与相互作用的优越性。

分子表示学习双图神经网络键中心建模分子性质预测化学信息学
cs 03-03 00:00

TopoEdge:基于拓扑感知的智能体框架,用于边缘网络配置生成与修复

TopoEdge 是一个面向软件定义网络(SDN)的端到端配置生成与修复框架,专为满足边缘计算场景下的低延迟、隐私保护和本地执行等严格约束而设计。其核心创新在于将目标网络拓扑表示为路由器级图,并利用对比训练的图神经网络(GNN)进行嵌入,以检索经过验证的参考配置。框架采用基于拓扑的检索增强生成(TopoRAG)上下文,并部署一个由规划、生成、验证三个智能体协同工作的分布式“生成-验证-修复”循环。规划智能体制定拓扑一致的配置计划,生成智能体产出可执行的配置文件和驱动脚本,验证智能体则通过 FRRouting Topotest/pytest 测试套件运行验证,并将失败信息压缩为追踪日志以指导迭代修复。

软件定义网络图神经网络智能体框架配置修复边缘计算检索增强生成
cs 03-03 00:00

多模态测试时自适应新框架:解耦稳定性与可塑性

本文提出DASP框架,解决多模态模型在测试时适应新分布时的挑战。研究发现,有偏模态的特征维度间存在高冗余性,而无偏模态则相反。基于此,DASP采用非对称适应策略:对有偏模态激活可塑性组件以捕获领域信息,对无偏模态则绕过可塑性组件并利用KL正则化更新稳定性组件,防止负迁移。该方法在多个基准测试中显著优于现有技术。

多模态学习测试时适应领域自适应模型鲁棒性特征解耦
cs 03-03 00:00

SWE-Hub:构建可扩展、可执行的软件工程任务统一生产系统

本文针对软件工程智能体训练与评估中面临的三大挑战——环境脆弱、大规模系统级缺陷合成困难、任务视野短浅,提出了一个端到端的统一生产系统SWE-Hub。该系统通过Env Agent建立可复现的多语言容器环境,利用SWE-Scale引擎进行高吞吐量的缺陷-修复实例合成,并通过Bug Agent生成涉及跨模块依赖的高保真系统级回归任务。此外,SWE-Architect将任务范围从修复扩展到创建,实现了从自然语言需求到仓库级代码库构建任务的转换。SWE-Hub集成了这些组件,形成了一个能够持续交付覆盖软件工程全生命周期可执行任务的统一生产流水线。

软件工程智能体任务合成可执行环境系统级缺陷代码仓库构建生产流水线
cs 03-03 00:00

SMDIM:高效长序列扩散模型用于符号音乐生成

本文提出SMDIM模型,旨在解决符号音乐生成中长序列建模带来的高计算成本问题。模型结合结构化状态空间模型以近线性成本捕获长程音乐上下文,并通过混合精炼方案选择性优化局部细节。在涵盖西方古典、流行及传统民谣的广泛数据集上,SMDIM在生成质量与计算效率上均优于现有方法,并对未充分探索的音乐风格展现出鲁棒泛化能力。

符号音乐生成扩散模型长序列建模结构化状态空间模型计算效率
cs 03-03 00:00

LOGIGEN:逻辑驱动框架生成可验证的智能体任务训练数据

针对大语言模型向自主智能体演进时面临的数据稀缺瓶颈,LOGIGEN提出了一种逻辑驱动的框架,用于合成可验证的训练数据。该框架基于三大支柱:硬编译策略锚定、逻辑驱动前向合成和确定性状态验证。通过“架构师”、“集合设计师”和“探索者”三智能体协同,将自然语言策略编译为数据库约束,并生成边界状态以触发关键策略冲突,从而搜索因果解路径。该方法生成了涵盖8个领域的20,000个复杂任务数据集,并通过精确状态等价检查严格保证有效性。结合基于验证的训练协议(SFT与RL),LOGIGEN-32B(RL)在$\tau^2$-Bench上取得了79.5%的成功率,显著优于基线模型(40.7%)。

智能体训练逻辑驱动合成可验证数据强化学习状态验证大语言模型
cs 03-03 00:00

自适应动态去雾框架:通过任务反馈与指令驱动实现下游任务优化

本文提出了一种创新的自适应动态去雾框架,旨在解决真实视觉系统中去雾任务需同时满足图像质量提升与多样化下游任务(如检测、分割)特定需求的双重挑战。该框架的核心在于集成了一个闭环优化机制,包含两个互补模块:1)一个任务反馈循环,能根据多个下游任务的性能动态调制去雾输出;2)一个文本指令接口,允许用户指定高级任务偏好。这种双引导策略使得模型在训练后仍能适应其去雾行为,实时调整输出以满足不同任务的动态需求。大量实验表明,该方法在多种视觉任务上均表现出强大的有效性、鲁棒性和泛化能力。

图像去雾自适应优化任务反馈指令驱动计算机视觉闭环系统
cs 03-03 00:00

ScaleFormer与PanScale基准:实现跨尺度全色锐化的新方法

本文针对全色锐化任务在真实高分辨率场景下泛化能力不足的问题,系统性地研究了跨尺度全色锐化的挑战。研究团队首先构建了首个大规模跨尺度数据集PanScale及配套基准PanScale-Bench。为应对尺度泛化,提出了新颖的ScaleFormer架构,其核心创新在于将图像分辨率泛化问题转化为序列长度泛化问题:通过Scale-Aware Patchify模块将图像分块为分辨率固定但长度与图像尺度成正比的序列。模型解耦了块内空间特征学习与块间序列依赖建模,并引入旋转位置编码以增强对未见尺度的外推能力。大量实验表明,该方法在融合质量与跨尺度泛化性能上均优于现有先进方法。

全色锐化跨尺度泛化transformer遥感图像融合深度学习
cs 03-03 00:00

融合多模态数据的3D视觉Transformer:阿尔茨海默病分类准确率达97.14%

本研究提出了一种名为MIMD-3DVT的新型方法,用于阿尔茨海默病的MRI影像分类。该方法通过处理连续脑切片以保留三维空间信息,融合多个脑区ROI的成像数据,并整合人口统计学、认知评估等多源信息。在ADNI、AIBL和OASIS联合数据集上的实验表明,该模型在区分正常认知与阿尔茨海默病时准确率达到97.14%,优于现有方法。

阿尔茨海默病3d视觉transformer多模态融合医学影像分析深度学习
cs 03-03 00:00

PM2Lat:基于GPU架构的深度神经网络执行延迟精准预测框架

本文提出PM2Lat,一种快速、通用的框架,用于精准预测深度神经网络在GPU(特别是NVIDIA)上的执行延迟。与依赖深度学习模型或手工启发式规则的现有方法不同,PM2Lat利用GPU的单指令多线程架构对DNN模型的执行时间进行建模。其核心创新在于细粒度的GPU操作建模,通过分析计算行为和内存访问模式,识别出即使功能相同、配置不同的GPU内核也存在显著性能差异。因此,PM2Lat采用内核感知的建模方法,根据内核配置进行差异化分析。这使得PM2Lat能够在不同数据类型和硬件平台上保持低于10%的预测误差率,在Transformer模型上,其性能优于当前最先进的NeuSight方法(FP32误差降低10-20%,BF16误差降低至少50%)。此外,该框架不仅支持标准矩阵乘法,还能泛化至复杂的GPU内核,如Triton、Flash Attention和Cutlass Attention,在这些复杂内核上的误差率保持在3-8%。

gpu性能预测神经网络延迟内核感知建模计算架构分析硬件感知优化
cs 03-03 00:00

LAS-VAD:弱监督视频异常检测新框架,通过语义分组与意图推理提升性能

本文针对弱监督视频异常检测(WS-VAD)中因缺乏帧级标注而难以有效学习异常语义的问题,提出了LAS-VAD框架。该框架创新性地集成了异常连通分量机制和意图感知机制:前者将视频帧划分为共享相同语义信息的分组;后者通过意图感知策略区分相似的正异常行为(如拿取与偷窃)。此外,模型还引入了异常属性信息(如爆炸伴随火焰和浓烟)来进一步建模异常语义。在XD-Violence和UCF-Crime两个基准数据集上的实验表明,LAS-VAD显著优于当前最先进的方法。

视频异常检测弱监督学习语义分组意图推理计算机视觉
cs 03-03 00:00

EMPA:评估大语言模型对话代理的人格对齐共情过程

本文提出EMPA框架,用于评估基于大语言模型的对话代理在长期互动中的人格对齐共情能力。传统评估面临用户状态隐式、反馈稀疏且难以实时验证的挑战。EMPA将真实互动提炼为可控的心理场景,通过多智能体沙盒暴露策略适应与失败模式,并在潜在心理空间中从方向对齐性、累积影响和稳定性三个维度对互动轨迹进行评分。该框架支持对长程共情行为的可复现比较与优化,并可扩展至其他由隐式动态和弱反馈塑造的智能体场景。

共情评估人格对齐大语言模型对话代理过程评估多智能体
cs 03-03 00:00

基于PLC触发的机器人技能控制规划方法:优化运动序列提升执行效率

本研究提出了一种增强型基于技能的机器人编程规划方法,通过集成运动序列优化来解决现有方案执行效率低下的问题。该方法的核心创新是引入了一种新的“MoveContinuousSkill”,并开发了在可编程逻辑控制器(PLC)上执行的相应软件。实验结果表明,通过优化运动序列,该方法能在多种机器人系统上实现执行时间的显著提升。

机器人编程运动规划plc控制技能自动化执行优化
cs 03-03 00:00

CoMoL:通过动态核心空间合并实现高效的LoRA专家混合

本文提出CoMoL,一种新颖的MoE-LoRA框架,旨在解决现有参数高效微调方法中专家参数爆炸和粗粒度路由的问题。其核心创新在于引入紧凑的“核心空间专家”存储和“核心空间路由”机制,前者控制参数增长,后者实现细粒度的、基于令牌的动态专家选择与激活。激活的核心专家通过软合并策略融合,并与共享的LoRA模块结合,形成专门的适配模块。实验表明,CoMoL在保持MoE-LoRA架构适应性的同时,达到了与标准LoRA相当的参数效率,并在多项任务中优于现有方法。

参数高效微调混合专家lora大语言模型动态路由模型适配
AI速览助手