今日速览 · Fortune Health

cs 03-30 00:00

行为一致性如何放大智能体性能：高一致性可能固化错误

本研究在SWE-bench软件工程基准测试中，分析了Claude 4.5 Sonnet、GPT-5和Llama-3.1-70B的行为一致性（相同任务下产生相似行动序列的程度）与准确性的关系。研究发现，模型间比较时，更高的一致性通常对应更高的准确性（Claude CV: 15.2%，准确率58%；GPT-5 CV: 32.2%，准确率32%；Llama CV: 47.0%，准确率4%）。但关键发现是：一致性会放大结果而非保证正确性——71%的Claude失败源于“一致性错误解释”，即在所有运行中重复相同错误假设。这表明对于生产部署，解释准确性比执行一致性更重要。

大语言模型智能体行为一致性软件工程基准模型评估可靠性分析

cs 03-30 00:00

利用Stable Diffusion生成合成图像替代实验数据，实现陶瓷表面粗糙度分类

本研究探索了使用Stable Diffusion XL生成的合成图像，作为实验获取数据的有效替代或补充，用于陶瓷表面粗糙度分类。结果表明，将生成图像与真实数据集结合，能达到与仅使用实验图像相当的测试准确率，证明合成图像能有效复现分类所需的结构特征。通过系统调整训练超参数（如训练轮数、批次大小和学习率），研究进一步评估了方法的鲁棒性，并找到了在减少数据需求的同时保持性能的配置。这为材料图像分类工作流提供了提高数据效率和可靠性的实用路径。

合成数据表面粗糙度材料图像分类生成式ai数据增强陶瓷涂层

cs 03-30 00:00

ETA-VLA：通过时序融合与模型内稀疏化提升自动驾驶视觉语言动作模型效率

本文提出ETA-VLA，一种面向自动驾驶视觉-语言-动作（VLA）模型的高效令牌自适应框架。针对历史多视角图像序列处理带来的巨大计算负担（主要源于大语言模型中自注意力机制的二次复杂度），该方法引入了一种新颖的模型内稀疏聚合器（ILSA）。ILSA受人类驾驶员注意力分配启发，在文本查询和时序一致性的引导下，动态识别并剪枝冗余的视觉令牌，通过文本引导评分和多样性保持的稀疏化策略，选取关键令牌子集。在NAVSIM v2基准测试上的实验表明，ETA-VLA在保持与先进基线模型相当驾驶性能的同时，将计算FLOPs降低了约32%，成功剪枝85%的视觉令牌，推理FLOPs减少61%，且仍保留原模型94%的准确率。

自动驾驶视觉语言模型模型效率令牌剪枝时序推理计算优化

cs 03-30 00:00

音频预训练新突破：数据质量与统一标注系统驱动通用音频理解

本研究针对当前音频预训练依赖弱标注、噪声大、规模有限的问题，提出了一种以数据为中心的解决方案。借鉴视觉领域的成功经验，研究团队构建了一个大规模、强监督的音频预训练框架，其核心是引入高保真音频描述生成器以创建高质量音频描述，并设计了首个统一标签系统（UTS），以弥合语音、音乐和环境声音之间的鸿沟。通过系统比较不同预训练目标，研究发现数据质量和覆盖范围是性能提升的主要驱动力，而目标函数的选择则决定了模型在下游任务中的专业化方向。

音频预训练强监督学习统一标签系统数据质量通用音频理解对比研究

cs 03-30 00:00

UCAgent：基于大语言模型的端到端硬件功能验证智能体

针对传统方法难以应对日益复杂的芯片设计验证挑战，本研究提出了UCAgent，一个端到端的智能体，旨在自动化硬件模块级功能验证。其核心创新在于：1）建立纯Python验证环境，避免依赖LLM生成易错的SystemVerilog代码；2）引入包含31个可配置阶段的细粒度验证工作流，每个阶段由自动化检查器把关；3）提出验证一致性标签机制，为LLM生成的验证工件分配层次化标签，提升可靠性与可追溯性。实验表明，UCAgent在UART、FPU等模块上实现了高达98.5%的代码覆盖率和100%的功能覆盖率，并发现了实际设计中先前未识别的缺陷。

功能验证硬件验证大语言模型智能体自动化测试芯片设计

cs 03-30 00:00

IncreRTL：基于需求演化的增量式RTL代码生成框架

针对大型语言模型（LLM）在生成硬件描述语言（RTL）代码时难以适应需求变更的问题，本文提出了IncreRTL框架。该框架通过构建需求与代码间的可追溯性链接，精确定位并仅重新生成受需求演化影响的代码片段，有效避免了结构漂移和全量再生的高昂成本。在新建的EvoRTL-Bench基准测试中，IncreRTL在代码更新的一致性和生成效率方面均表现出显著提升，推动了基于LLM的RTL生成技术向实际工程部署迈进。

rtl代码生成需求演化增量生成可追溯性大型语言模型硬件设计自动化

cs 03-30 00:00

ReCUBE：首个评估大模型利用代码库上下文能力的基准

本文提出了ReCUBE基准，旨在专门评估大语言模型在代码生成任务中利用整个代码仓库级上下文的能力。模型需根据仓库中其他源文件、依赖项和文档来重构一个被遮蔽的文件，并通过模拟内部模块逻辑和外部跨文件集成的测试用例进行评估。实验表明，即使是最先进的模型（如GPT-5）在此任务上也面临巨大挑战，严格通过率仅为37.57%。作者进一步提出了基于依赖图的Caller-Centric Exploration工具包，可集成至智能体框架以引导其探索最相关的调用者文件，该工具包使智能体性能在所有评估模型中均超越基线，最高提升7.56%。

代码生成大语言模型评估仓库级上下文软件工程基准智能体探索

cs 03-30 00:00

强化学习如何优化传染病防控策略

本文综述了强化学习在传染病控制中的应用进展。强化学习因其能适应动态系统并在约束下最大化长期收益的特性，被用于优化非药物与药物干预策略，以控制疾病传播和应对疫情暴发。综述重点探讨了满足公共卫生需求的几个关键议题：资源分配、生命与生计的平衡、多种干预措施的混合策略以及跨区域协同控制。文章最后指出了该领域未来的几个潜在研究方向。

强化学习传染病控制公共卫生干预策略资源分配协同控制

cs 03-30 00:00

STAINet：融合物理知识的深度学习模型实现任意位置地下水位预测

本研究提出了一种名为STAINet的注意力深度学习模型，用于预测任意位置和时间点的地下水位。模型创新性地融合了稀疏的地下水位测量数据和密集的气象信息。为提升模型的可信度与泛化能力，研究探索了三种将地下水流方程作为物理约束引入模型的策略：引入归纳偏置（STAINet-IB）、增加学习偏置损失项（STAINet-ILB）以及利用专家知识定义的补给区信息（STAINet-ILRB）。其中，STAINet-ILB表现最佳，在滚动预测测试中取得了优异性能（中位MAPE 0.16%， KGE 0.58），并能输出符合物理意义的方程组分，为构建新一代可信的混合深度学习地球系统模型提供了路径。

地下水预测物理引导深度学习时空预测注意力机制模型可信度

cs 03-30 00:00

法官智能体将AI生成科学模拟代码的可靠性从53%提升至89%

研究提出了一种名为“法官智能体”的自动化验证系统，通过经典数学验证（适定性、收敛性、误差认证）来大幅降低大语言模型生成科学模拟代码时的“静默失败”率。在涵盖12个科学领域的134个测试案例中，静默失败率从42%降至1.5%。在一项前瞻性基准测试中，72项由12位独立科学家提交的盲审任务，在启用自动化误差界的情况下，成功率达到了89%（95% CI: [80%, 95%]），而未启用时仅为53%。研究还引入了“可模拟性类S”的概念来形式化验证边界，并提出了机器可读的规范格式spec.md。

ai代码生成科学计算自动化验证可靠性提升大语言模型

cs 03-30 00:00

视觉Transformer是否需要寄存器？跨架构评估揭示局限性

本研究重新评估了Darcet等人（2024）关于视觉Transformer（ViT）注意力图中出现伪影现象的研究。原研究认为ViT需要在[CLS]标记外存储全局信息，并提出添加空输入标记（寄存器）的解决方案。我们复现了其核心发现，并在DINO、DINOv2、OpenCLIP、DeiT3等多种模型上进行验证。结果表明，部分结论无法普遍推广至其他架构。研究还探讨了模型尺寸的影响，并将结论扩展至更小模型，同时澄清了原论文中的术语不一致问题及其对模型泛化评估的影响。

视觉transformer注意力机制模型泛化计算机视觉深度学习

cs 03-30 00:00

Sommelier：面向全双工语音模型的可扩展多轮音频预处理框架

随着AI范式从文本大模型转向语音语言模型，对能够实时、自然交互的全双工系统需求激增。然而，高质量、多说话人对话数据的稀缺制约了此类模型发展。现有大规模资源多为单说话人或数据量有限，且难以处理自然对话中的重叠、附和等复杂动态，标准处理流程常存在说话人分离错误和ASR幻觉问题。为此，本研究提出了一个专为全双工模型设计的鲁棒、可扩展开源数据处理管道Sommelier，旨在填补这一空白。

语音语言模型全双工交互音频预处理多说话人对话开源工具

cs 03-30 00:00

基于关系图驱动差分去噪与扩散注意力融合的多模态对话情感识别

针对多模态对话情感识别中音频与视频信号易受噪声干扰、模态间信息质量不平衡导致融合失真的问题，本研究提出了一种关系感知的去噪与扩散注意力融合模型。该方法首先设计差分Transformer，通过显式计算注意力图差异来增强时序一致性信息并抑制噪声；其次构建模态内与跨模态关系子图，以捕捉说话者依赖的情感依赖关系；最后引入文本引导的跨模态扩散机制，将视听信息自适应地融入文本流，实现更鲁棒且语义对齐的多模态融合。

多模态情感识别差分去噪关系图扩散注意力模态融合对话分析

cs 03-30 00:00

A-SelecT：为扩散Transformer表征学习自动选择最优时间步

本文提出A-SelecT方法，旨在解决扩散Transformer在判别式表征学习中面临的关键瓶颈。传统方法依赖计算密集的穷举搜索来选择信息最丰富的时间步，效率低下。A-SelecT通过动态分析Transformer特征，在单次运行中自动定位最优时间步，无需穷举搜索或次优特征选择。在分类和分割基准测试上的实验表明，结合A-SelecT的扩散Transformer模型，在效率和效果上均超越了所有先前的基于扩散的方法。

扩散模型transformer表征学习时间步选择判别式任务自动优化

cs 03-30 00:00

OCR评估方法调查：历史文档在现有评估体系中的隐形问题

本研究系统回顾了2006-2025年间OCR与文档理解系统的评估方法，发现当前评估体系过度聚焦于现代、西方及机构文档，导致对历史档案（尤其是黑人历史报纸等边缘化资料）的系统性忽视。研究指出，现有评估指标（如字符准确率）难以捕捉历史文档中常见的版面结构错误、字体识别失败及文本幻觉等问题。这种评估偏差源于数据集构建的激励机制与数据治理决策，最终导致历史档案在数字化进程中的结构性隐形与表征伤害。

ocr评估历史文档数字人文算法偏见文档理解

cs 03-30 00:00

CANGuard：融合CNN-GRU-注意力机制的时空深度学习架构，用于车载网络入侵检测

本文提出CANGuard，一种新颖的时空深度学习架构，用于保护车载网络（CAN总线）免受DoS和欺骗攻击。该模型结合了卷积神经网络（CNN）、门控循环单元（GRU）和注意力机制，以同时捕捉CAN总线数据的空间特征和时间依赖关系。在CICIoV2024数据集上的评估表明，其在准确率、精确率、召回率和F1分数上均优于现有方法。消融研究和SHAP分析验证了各组件贡献并解释了模型决策过程，为现代智能网联汽车环境提供了实用且可扩展的安全增强方案。

入侵检测车载网络安全深度学习时空模型can总线注意力机制

cs 03-30 00:00

AI代码审查的循环困境：为何需要可执行规范作为质量门

本文指出，在没有可执行规范的情况下，使用AI审查AI生成的代码存在结构性循环问题：生成和审查代理基于相同训练分布，错误高度相关，无法真正验证代码意图。研究提出三个假设：1）同质化LLM流水线中的错误会共振而非抵消；2）可执行规范能将问题从复杂域转换到可管理域；3）AI审查应仅针对规范无法覆盖的残余缺陷。最终架构应是：规范先行，确定性验证次之，AI仅审查结构性残余问题。

ai代码审查可执行规范llm错误相关软件质量cynefin框架

cs 03-30 00:00

FPRL：认知启发的内窥镜视频分析框架，模拟临床诊断过程提升表征学习

针对内窥镜视频分析标注数据稀缺的挑战，本研究提出了一种受认知启发的分层表征学习框架FPRL。该框架模拟临床诊断过程，首先通过教师先验自适应掩码（TPAM）与多视图稀疏采样聚焦于帧内病灶区域，学习静态语义；随后通过跨视图掩码特征补全（CVMFC）与注意力引导时序预测（AGTP）感知病灶的跨帧演化，建模上下文语义。在11个内窥镜视频数据集上的实验表明，FPRL在多种下游任务中均取得了优越性能。

内窥镜视频分析自监督学习表征学习医学影像分层建模认知启发

cs 03-30 00:00

ArtHOI：利用基础模型实现单目视频中手部与可动物体交互的4D重建

本文提出ArtHOI框架，首次解决了从单目RGB视频重建人手与可动物体交互4D序列的难题。该框架通过整合并优化多个基础模型的先验知识，创新性地引入了自适应采样细化方法以优化物体尺度与姿态，并利用多模态大语言模型指导手-物体对齐，通过接触推理约束优化网格组合。研究贡献了ArtHOI-RGBD与ArtHOI-Wild两个新数据集，实验验证了该方法在不同物体与交互场景下的鲁棒性与有效性。

4d重建手物交互单目视觉基础模型可动物体优化框架

cs 03-30 00:00

FA-CNN：通过端到端特征对齐实现内在类别归因的CNN架构

本文提出特征对齐CNN（FA-CNN），一种通过端到端特征对齐实现内在类别归因的原型架构。其核心在于引入两个新的保序层（阻尼跳跃连接和全局平均池化分类头），强制模型从原始输入像素到最终类别logits保持特征对齐。这种对齐增强了模型可解释性，使原始特征图能内在地展现类别归因。理论证明，FA-CNN的倒数第二层特征图与Grad-CAM显著图相同，且这些特征图随网络深度逐层演变，展示了特征向最终类别激活的演化过程。模型在基准图像分类数据集上表现良好，并在可解释性任务中与Grad-CAM等方法进行了对比。

特征对齐可解释性卷积神经网络类别归因计算机视觉

cs 03-30 00:00

HeyFriend Helper：为芝加哥低收入居民提供综合资源访问的对话式AI平台

本研究介绍了HeyFriend Helper，一个为芝加哥低收入居民设计的基于Web的对话式AI平台。该平台整合了简历制作与反馈、面试练习、心理健康资源、就业趋势信息、语言学习支持以及基于位置的社区服务访问等多种工具，旨在通过个性化对话界面提供全面的就业支持。这项跨学科合作（社会工作、计算机科学、工程学）的研究表明，职业准备工具与对话式用户界面（CUI）在满足低收入人群多方面需求、提供整体性支持方面具有重要作用。

对话式ai数字包容就业支持低收入群体跨学科应用资源整合

cs 03-30 00:00

LEMON：首个用于计算病理学中细胞核形态表征的基础模型

本文提出LEMON（Learning Embeddings from Morphology Of Nuclei），一个用于单细胞图像表征学习的自监督基础模型。该模型在来自多种组织和癌症类型的数百万细胞图像上进行训练，学习到稳健且通用的形态学表征，支持病理学中的大规模单细胞分析。在五个基准数据集上的评估表明，LEMON在一系列预测任务中表现出色，为细胞层面的计算病理学提供了新的范式。

计算病理学基础模型单细胞分析自监督学习细胞核形态表征学习

cs 03-30 00:00

BeSafe-Bench：揭示功能环境中智能体的行为安全风险

本研究提出了BeSafe-Bench基准测试，用于评估在Web、移动、具身视觉语言模型等四大功能环境中智能体的行为安全风险。通过构建包含九类关键风险的多样化指令空间，并采用基于规则的检查与LLM作为评判的混合评估框架，对13个主流智能体进行了测试。结果显示，即使表现最佳的智能体，在完全遵守安全约束下完成的任务也不足40%，且任务性能与严重的安全违规行为高度相关，凸显了在现实世界部署前加强安全对齐的紧迫性。

智能体安全基准测试行为风险功能环境安全评估多模态模型

24 小时跨学科精选

计算机科学

2026-03-30 速览 · 计算机科学

行为一致性如何放大智能体性能：高一致性可能固化错误

利用Stable Diffusion生成合成图像替代实验数据，实现陶瓷表面粗糙度分类

ETA-VLA：通过时序融合与模型内稀疏化提升自动驾驶视觉语言动作模型效率

音频预训练新突破：数据质量与统一标注系统驱动通用音频理解

UCAgent：基于大语言模型的端到端硬件功能验证智能体

IncreRTL：基于需求演化的增量式RTL代码生成框架

ReCUBE：首个评估大模型利用代码库上下文能力的基准

强化学习如何优化传染病防控策略

STAINet：融合物理知识的深度学习模型实现任意位置地下水位预测

法官智能体将AI生成科学模拟代码的可靠性从53%提升至89%

视觉Transformer是否需要寄存器？跨架构评估揭示局限性

Sommelier：面向全双工语音模型的可扩展多轮音频预处理框架

基于关系图驱动差分去噪与扩散注意力融合的多模态对话情感识别

A-SelecT：为扩散Transformer表征学习自动选择最优时间步

OCR评估方法调查：历史文档在现有评估体系中的隐形问题

CANGuard：融合CNN-GRU-注意力机制的时空深度学习架构，用于车载网络入侵检测

AI代码审查的循环困境：为何需要可执行规范作为质量门

FPRL：认知启发的内窥镜视频分析框架，模拟临床诊断过程提升表征学习

ArtHOI：利用基础模型实现单目视频中手部与可动物体交互的4D重建

FA-CNN：通过端到端特征对齐实现内在类别归因的CNN架构

HeyFriend Helper：为芝加哥低收入居民提供综合资源访问的对话式AI平台

LEMON：首个用于计算病理学中细胞核形态表征的基础模型

BeSafe-Bench：揭示功能环境中智能体的行为安全风险