今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-03-27 03-27 15:26

今日计算机科学领域研究呈现“系统优化与安全验证并重,AI应用向专业化、可解释性深化”的趋势。

  • 系统安全与验证:针对LLM推理等复杂系统,出现了结合模型感知与符号执行的自动化内存安全验证工具(如Model2Kernel),能高效发现未知漏洞,提升系统可靠性。
  • AI优化方法学:研究聚焦于提升AI效率与可靠性,包括:1) 为多LLM系统设计理论保证下的低成本查询分配方案;2) 通过分解执行轨迹(TRAJEVAL)对代码智能体进行细粒度诊断;3) 探索混合经典算法与LLM的HPO方法(Centaur),平衡可靠性与知识利用。
  • 专业化AI应用:AI正深入特定领域并追求可解释性,例如:1) 利用因果推断框架解释模拟电路设计参数的影响;2) 通过多智能体LLM系统将化工草图自动转换为可执行仿真模型(Sketch2Simulation);3) 在医学影像诊断中构建可审计的智能体操作环境(MedOpenClaw),评估其动态推理能力。
  • 基础模型与学习机制:前沿探索涉及:1) 分析无约束机器学习模型如何从数据中近似学习物理对称性;2) 提出让LLM智能体通过反思经验提炼规则以实现自我进化(经验反思学习)的框架;3) 构建避免使用语言和外部知识的交互式基准(ARC-AGI-3),专注于评估智能体的核心自适应能力。

2026-03-27 速览 · 计算机科学

2026-03-27 共 23 条抓取,按综合热度排序

← 返回日历
cs 03-27 00:00

Model2Kernel:首个针对LLM推理CUDA内核内存安全的自动验证系统

本文提出Model2Kernel系统,旨在解决大语言模型(LLM)推理系统中CUDA内核的内存安全问题。该系统通过模型感知的动态分析,确定模型如何调用内核,并将内核参数分类为模型架构固定或用户可控。随后,结合针对CUDA优化的符号执行技术,并引入动态张量内存和线程标识符的新抽象,以精确定位内核中的内存错误。在vLLM、Hugging Face等实际内核与模型上的评估表明,Model2Kernel发现了353个先前未知的漏洞,误报率极低,验证了其有效性。

内存安全符号执行cuda内核大语言模型模型感知分析gpu加速
cs 03-27 00:00

基于持续同调的拓扑优化方法综述:理论、算法与应用

本文综述了将计算拓扑中的持续同调作为定量描述符,并用于优化问题的研究进展。持续同调能从图像、图、点云等结构化对象中提取拓扑特征,这些特征可作为先验知识或正则化项融入机器学习模型的损失函数中。核心挑战在于如何设计可微的拓扑损失,并利用基于梯度的算法(如梯度下降)进行有效优化。文章系统梳理了近十年来的理论基础、算法实现(包括伴随开源库)以及在多个领域的实际应用,旨在为数学家和数据科学家提供该领域的入门指南。

持续同调拓扑优化拓扑数据分析可微拓扑机器学习正则化计算拓扑
cs 03-27 00:00

多LLM查询优化:在保证分类可靠性的前提下最小化查询成本

本文研究如何为多个异构大语言模型(LLM)分配查询,以最低总成本完成对未知真实标签的分类,同时保证对每个可能标签的分类错误率都低于预设阈值。作者将该问题建模为一个鲁棒的离线查询规划问题,并证明其为NP难问题。通过结合并界分解和切尔诺夫型集中不等式,构建了一个可分离的、保可行性的替代目标函数。理论分析表明,该替代函数在优化层面是渐近紧的,即当误差容忍度趋近于零时,替代最优解与真实最优解的成本比收敛于1,收敛率为 $O\left(\frac{\log\log(1/\alpha_{\min})}{\log(1/\alpha_{\min})}\right)$。最后,作者设计了一个渐近完全多项式时间近似方案(AFPTAS),可高效求得替代目标函数的 $(1+\varepsilon)$ 近似解。

大语言模型查询优化资源分配近似算法可靠性保证np难问题
cs 03-27 00:00

因果AI革新模拟混合信号电路设计:可解释参数影响分析框架

针对模拟混合信号(AMS)电路高度非线性、难以用数据驱动AI建模的挑战,本研究提出一种因果推断框架。该方法首先从SPICE仿真数据中发现有向无环图(DAG),然后通过平均处理效应(ATE)估计量化设计参数(如器件尺寸、偏置电压)对电路性能的影响。该框架能生成可解释的设计参数排名和明确的“假设分析”预测,帮助设计者理解尺寸与拓扑的权衡。在TSMC 65nm工艺下三种运放电路上的评估表明,因果模型的ATE预测平均绝对误差低于25%,显著优于误差超80%且常预测错误符号的神经网络基线,在精度与可解释性上均具优势。

因果aiams电路设计可解释性参数分析设计自动化
cs 03-27 00:00

基于环境感知与生成扩散模型的空地无线信道建模方法

本文提出了一种可扩展的空地无线信道建模方法,旨在解决低轨卫星快速移动导致信道快速变化、且受地理环境强烈影响的问题。该方法利用真实环境数据(如数字高程模型和土地覆盖信息)结合射线追踪,确定链路的视距/非视距状态及信号反射路径,并综合衍射损耗、植被吸收和大气衰减模型来定量表征信道行为。为解决射线追踪计算密集的问题,研究使用其生成的样本和环境特征训练了一个可扩展的扩散模型,能够高效预测任意卫星与地面终端位置的信道性能,从而支持实时决策。实验通过蜂窝和低轨卫星链路的实测数据验证了模型在真实环境中的有效性。

信道建模空地通信低轨卫星环境感知生成扩散模型射线追踪
cs 03-27 00:00

ReSyn:递归正则表达式合成框架,显著提升复杂模式生成准确率

针对现有基于示例编程(PBE)系统在处理结构复杂(如深层嵌套、频繁并集)的真实正则表达式时性能下降的问题,本研究提出了ReSyn。这是一个与合成器无关的分治框架,可将复杂合成问题分解为可管理的子问题。同时,研究还引入了Set2Regex,一个参数高效的合成器,能捕捉示例的排列不变性。实验结果表明,ReSyn能显著提升多种合成器的准确率,其与Set2Regex的组合在具有挑战性的真实基准测试中达到了新的最优水平。

正则表达式合成编程示例分治框架程序合成自动化编程
cs 03-27 00:00

SolRugDetector:针对Solana生态的Rug Pull检测系统与大规模实证研究

本研究首次对Solana区块链上的Rug Pull骗局进行了系统性分析。与依赖恶意智能合约的以太坊模式不同,Solana上基于统一SPL代币程序的欺诈行为转向了市场操纵等链上操作。基于68个真实事件报告,研究构建并发布了包含117个已确认欺诈代币的手动标注数据集,并据此提出了仅使用链上交易和状态数据的检测系统SolRugDetector。实验表明其性能优于现有工具。通过对2025年上半年新发行的100,063个代币进行大规模测量,识别出76,469个欺诈代币。分析揭示了Solana上Rug Pull具有生命周期极短、价格驱动性强、经济损失严重以及高度组织化群体行为等特征。

区块链安全欺诈检测solanarug pull实证研究链上分析
cs 03-27 00:00

Sketch2Simulation:基于多智能体大语言模型的流程图自动生成与仿真系统

本研究提出了一种端到端多智能体大语言模型系统,旨在解决化工流程图中手绘草图到可执行仿真模型转换的瓶颈问题。该系统通过三层协同框架实现:流程图解析与理解、仿真模型合成、多级验证。专用智能体分别负责视觉解析、基于图的中间表示构建、HYSYS COM接口代码生成、执行与结构验证。在四个复杂度递增的化工案例(从简单脱盐到含多循环回路的工业芳烃生产流程)中,系统均成功生成了可执行的HYSYS模型,在较简单案例中实现了完全结构保真,在复杂案例中连接一致性与流股一致性分别高于0.93和0.96。

流程模拟多智能体系统大语言模型化工流程图自动化生成端到端系统
cs 03-27 00:00

TRAJEVAL:分解代码智能体执行轨迹,实现细粒度诊断与性能提升

针对当前代码智能体评估仅关注最终结果(如Pass@1)而无法定位失败原因的局限,本文提出了TRAJEVAL诊断框架。该框架将智能体解决GitHub问题的执行轨迹分解为搜索(定位文件)、阅读(理解函数)和编辑(定位修改)三个阶段,并通过与参考补丁对比计算各阶段精确率与召回率。通过对三个架构、七个模型的16,758条轨迹分析,揭示了通用低效(平均多检查22倍函数)与模型特有失败模式(如GPT-5定位准确但编辑错误,Qwen-32B则无法发现文件)。验证表明,该诊断可预测模型级Pass@1(MAE为0.87-2.1%),并能转化为实时反馈,使两个SOTA模型性能提升2.2-4.6个百分点,同时成本降低20-31%。

代码智能体轨迹诊断细粒度评估性能优化人工智能工程
cs 03-27 00:00

基于双图多智能体强化学习的蜂窝网络切换优化

本研究提出了一种名为TD3-D-MA的离散多智能体强化学习算法,用于优化蜂窝网络中的切换控制参数。该方法将网络切换问题建模为基于网络对偶图的去中心化部分可观测马尔可夫决策过程,每个智能体控制一对相邻小区的偏移参数。算法采用共享参数的图神经网络作为执行器,并配合区域级双重评论家进行训练,以改善密集部署中的信用分配。在基于真实运营商参数的系统级仿真中,该方法相比传统启发式规则和集中式强化学习基线,显著提升了网络吞吐量,并在拓扑和流量变化下表现出良好的鲁棒性。

蜂窝网络切换优化多智能体强化学习图神经网络去中心化决策网络仿真
cs 03-27 00:00

DyMRL:动态多空间表示学习,提升知识图谱多模态事件预测

本文提出DyMRL方法,旨在解决多模态知识图谱中动态事件预测的难题。针对现有方法在知识获取上难以捕获深层动态结构特征,以及在知识融合上难以捕捉不同模态历史贡献变化的问题,DyMRL进行了双重创新:1)在欧几里得、双曲和复数空间中集成时间敏感的结构特征,通过关系消息传递框架学习深度表示;2)引入先进的双重融合-演化注意力机制,以对称方式为不同时间戳的不同模态动态分配学习权重。通过在四个新建的多模态时序知识图谱基准上的实验,DyMRL在事件预测性能上超越了现有的动态单模态和静态多模态基线方法。

多模态学习知识图谱动态表示事件预测注意力机制几何深度学习
cs 03-27 00:00

无约束机器学习模型如何学习物理对称性

本研究探讨了无约束机器学习模型在物理模拟中学习并近似满足物理量基本对称性的能力。作者引入了严格的度量标准来量化模型学习到的对称性内容,并评估其输出满足等变性条件的准确性。通过分析基于Transformer的点云模型(用于原子模拟的图神经网络和用于粒子物理的PointNet风格架构),揭示了对称性信息如何在网络层间传递及在训练中被学习。基于此分析,研究建立了一个诊断模型频谱失效模式的框架,并证明通过策略性地注入最小必要的归纳偏置,可以在保持无约束架构高表达性和可扩展性的同时,实现更优的稳定性和准确性,并保证物理保真度。

机器学习物理对称性等变性transformer点云模型归纳偏置
cs 03-27 00:00

经验反思学习:让大语言模型智能体通过经验实现自我进化

本文提出了一种名为“经验反思学习”的简单自改进框架,旨在解决现有自主智能体难以适应特定环境、无法有效利用过往经验的问题。该框架的核心在于让智能体反思任务执行轨迹与结果,从中提炼出可跨任务迁移的启发式规则。在测试时,系统会根据当前任务检索相关启发规则,并将其注入智能体的上下文以指导执行。在Gaia2基准测试中,该方法将成功率提升了7.8%,显著增强了任务完成的可靠性,并超越了先前的经验学习方法。系统消融实验表明,选择性检索至关重要,且启发式规则比少样本轨迹提示提供了更具可迁移性的抽象。

大语言模型自主智能体经验学习自我改进启发式规则任务迁移
cs 03-27 00:00

自监督图神经网络学习无网格离散微分算子

本研究提出了一种参数化框架,利用图神经网络学习无网格离散微分算子。模型通过源自截断泰勒展开的多项式矩约束进行训练,将局部模板点的相对位置直接映射为离散算子权重。结果表明,神经网络既能学习经典的多项式一致性,又能保持对不规则邻域几何的鲁棒性。所学习的算子仅依赖于局部几何,与分辨率无关,可在不同粒子配置和控制方程中重复使用。评估显示,该方法在中等精度范围内,相比光滑粒子流体动力学精度更高,且相对于代表性的高阶一致性无网格方法,在精度与成本之间取得了更优的平衡。

无网格方法图神经网络离散微分算子自监督学习计算流体力学数值分析
cs 03-27 00:00

LLM与传统超参数优化算法对比研究:混合方法Centaur表现最佳

本研究通过autoresearch平台,在固定计算预算下对比了经典超参数优化(HPO)算法(如CMA-ES、TPE)与基于LLM的方法。在固定搜索空间中,经典方法持续优于LLM智能体。然而,一个能在无约束搜索空间中直接编辑训练源代码的LLM智能体(使用27B开源模型)显著缩小了与经典方法的差距。研究发现,避免内存溢出的方法比搜索多样性更高的方法表现更好,表明可靠性比探索广度更重要。为结合经典方法的优化状态跟踪能力和LLM的领域知识,研究者提出了Centaur混合方法,它将CMA-ES的内部状态(包括均值向量、步长和协方差矩阵)与LLM共享。实验结果表明,Centaur取得了最佳性能,其0.8B变体甚至优于27B变体,表明当与强大的经典优化器配对时,一个廉价的LLM已足够。代码已开源。

超参数优化大语言模型混合方法自动化机器学习cma-es代码编辑
cs 03-27 00:00

临床访谈中的系统性偏差:模型如何利用访谈者提示而非患者语言预测抑郁

本研究分析了三个抑郁症检测数据集(ANDROIDS, DAIC-WOZ, E-DAIC),发现半结构化临床访谈中存在系统性偏差。模型仅通过访谈者固定的提问模式和位置,而非患者的真实语言,就能高精度区分抑郁与非抑郁个体。当模型仅使用患者话语时,决策证据分布更广,更能反映真实语言线索。结果表明,包含访谈者提示会因利用脚本人工痕迹而虚增模型性能,强调了按时间和说话者定位决策证据的必要性,以确保模型真正学习患者的语言特征。

抑郁症检测临床访谈模型偏差可解释性自然语言处理半结构化访谈
cs 03-27 00:00

网络剪枝为何在生成任务中失效?从表示层次视角解析

本研究从表示层次视角分析了网络剪枝在不同语言任务中的表现差异。研究发现,剪枝对嵌入空间和logit空间的表示扰动较小,但logit到概率的非线性变换会放大这些偏差,并在生成任务中随时间步累积,导致性能显著下降。相反,分类-标记概率子空间的稳定性与嵌入空间的鲁棒性共同支持了剪枝在检索、多选等非生成任务中的有效性。该分析为剪枝的实际应用提供了理论指导。

网络剪枝表示学习语言模型生成任务模型压缩
cs 03-27 00:00

自适应数据结构选择中的结构性过指定检测与修复的算法障碍

本文研究了自适应数据结构选择中一种系统性“结构性过指定”问题带来的算法障碍。当输入实例暗示了某种工作负载特征(如排序、稀疏性、动态性),而候选实现因匹配该完整特征被偏好时,即使实测证据仅支持其严格子集,过指定便会产生。研究证明,在成对评估器偏好实现暗示特征的模型下,这种偏好会通过基准聚合和Bradley-Terry-Luce拟合传播。主要结论包括:1)判定表示选择流水线是否存在超出实测证据的结构性承诺,在无限输入域上是不可判定的(可归约为停机问题),但在有限域上可通过穷举枚举判定;2)在要求证据对齐流水线保持不变的保守修复约束下,任何完全可计算的修复算子都通过Kleene递归定理存在一个过指定的不动点。这些障碍与数据结构设计中的经典下界有本质不同:它们不限制有限工作负载上的效率,但限制了跨流水线族统一检测和修复过指定的可能性。

数据结构选择算法障碍过指定可计算性自适应系统工作负载分析
cs 03-27 00:00

零成本列式文件元数据NDV估计方法

本文提出了一种仅利用列式文件(如Apache Parquet)现有元数据、无需额外存储或数据访问即可估计列中唯一值数量(NDV)的方法。该方法结合两种互补信号:1)通过反演字典编码存储大小方程,在唯一值均匀分布时获得准确估计;2)通过统计行组间最小/最大值并反演优惠券收集模型,为已排序或分区数据提供稳健估计。一个轻量级分布检测器负责在两种估计器间路由。该技术可推广至任何支持字典编码和分区统计的格式,适用于基于成本的查询优化、GPU内存分配和数据剖析。

列式存储元数据估计查询优化数据剖析字典编码ndv估计
cs 03-27 00:00

ARC-AGI-3:面向前沿智能体的新型交互式基准测试

本文介绍了ARC-AGI-3,一个用于研究智能体智能的交互式基准测试。它通过新颖、抽象、回合制的环境,要求智能体在没有明确指令的情况下进行探索、推断目标、构建环境动态的内部模型并规划有效行动序列。该基准完全专注于评估智能体在新任务上的流畅自适应效率,避免使用语言和外部知识。环境仅利用核心知识先验,并通过大量人类测试者进行难度校准。测试显示,人类能解决100%的环境,而截至2026年3月,前沿AI系统的得分低于1%。

智能体基准通用人工智能交互式环境自适应效率核心知识规划推理
cs 03-27 00:00

基于物理信息神经网络的精馏塔动态数字孪生模型

本研究提出了一种结合物理信息神经网络(PINN)与Aspen仿真的数字孪生框架,用于精馏塔在瞬态工况下的动态逐板建模。模型将修正拉乌尔定律描述的气液平衡、板级物料与能量平衡等热力学约束,通过物理残差项直接嵌入神经网络损失函数。在由Aspen HYSYS生成的8小时瞬态操作高保真数据集上,该模型对HX摩尔分数的预测RMSE达到0.00143(R²=0.9887),相比最佳纯数据基线模型误差降低44.6%,同时严格满足热力学约束。结果表明,该数字孪生能准确捕捉进料板响应、回流比变化等动态特性,为实时软测量、模型预测控制及异常检测提供了可靠基础。

数字孪生物理信息神经网络精馏塔建模动态过程过程控制软测量
cs 03-27 00:00

面向水下物联网的节能分层联邦异常检测框架

本文提出了一种面向水下物联网的节能分层联邦学习框架,以解决水下声学通信带宽低、能耗高带来的模型训练难题。该框架包含三个核心组件:可行性感知的传感器-雾节点关联、压缩模型更新传输以及雾节点间的选择性协同聚合。通过将大部分通信限制在短距离集群内,并仅在必要时激活雾节点间交换,该方案在保持与持续交换方案相同检测精度的同时,将能耗降低了31-33%,压缩上传更使总能耗降低71-95%。实验表明,该框架在严重通信约束下,能维持高网络参与度和检测质量。

联邦学习水下物联网异常检测节能通信分层聚合模型压缩
cs 03-27 00:00

MedOpenClaw:可审计医疗影像智能体,实现全三维病例动态推理

研究团队提出MEDOPENCLAW,一个可审计的运行环境,使视觉语言模型能在标准医学影像工具(如3D Slicer)中动态操作,以模拟真实临床诊断流程。同时,他们构建了MEDFLOWBENCH基准测试,涵盖多序列脑部MRI和肺部CT/PET全病例研究,用于系统评估智能体在仅查看、工具使用和开放方法三种模式下的能力。实验发现,尽管先进大模型能成功导航查看器完成基础任务,但在获得专业工具支持后,其性能反而因缺乏精确空间定位能力而下降。该工作为开发可审计、基于全病例的医疗影像智能体建立了可复现的基础。

医疗影像智能体可审计推理三维医学影像视觉语言模型临床工作流基准测试
AI速览助手