今日速览 · Fortune Health

cs 04-14 00:00

NetAgentBench：首个面向智能体网络配置的状态中心化基准测试

本文提出了NetAgentBench，一个用于评估智能体网络配置的动态基准测试框架。其核心创新在于采用有限状态机（FSM）形式化方法，保证了测试的确定性、正确性和执行有界性，为衡量智能体在多轮交互中的复杂操作行为提供了严谨基础。实证评估了四种前沿大语言模型智能体，发现其在基础任务上表现尚可，但在专家级配置中普遍存在严重的“探索崩溃”和“连贯性塌陷”问题。该研究表明，系统性地评估多轮行为稳定性是实现可信、全自主网络不可或缺的一步。

网络智能体基准测试有限状态机网络配置多轮交互行为评估

cs 04-14 00:00

HCP-MAD：基于异构共识验证的高效多智能体辩论框架

本文提出了一种异构共识-渐进推理的高效多智能体辩论框架（HCP-MAD），旨在解决现有方法因固定辩论结构导致的高计算成本问题。该框架的核心是利用共识作为动态信号，根据任务复杂度自适应地调整协作规模。它采用三阶段渐进推理机制：首先通过异构智能体对进行快速共识验证以实现早期停止；其次对未达成共识的任务启动异构对智能体辩论，并应用自适应停止准则；最后通过升级的集体投票聚合更多智能体的观点来解决复杂任务。实验表明，HCP-MAD在多个基准测试中显著提高了准确性，同时大幅降低了计算开销。

多智能体系统协作推理高效计算共识机制自适应辩论

cs 04-14 00:00

R2E-VID：基于时序门控的两阶段鲁棒路由框架，实现弹性边云视频推理

本文提出R2E-VID，一个用于弹性边云视频推理的两阶段鲁棒路由框架。第一阶段引入时序门控机制，建模视频流的时序一致性与运动动态，以预测每个片段的最优路由模式，实现细粒度时空弹性。第二阶段通过多模型自适应优化路由分配，在动态网络与负载变化下联合最小化推理延迟与资源消耗。实验表明，相比云端基线，R2E-VID可降低高达60%的总成本，相比前沿边云方案延迟降低35-45%，推理精度提升2-7%。

边云协同视频推理鲁棒路由时序门控资源优化弹性计算

cs 04-14 00:00

决策理论视角下O-RAN中角色驱动多智能体系统的安全评估框架

本研究针对开放无线接入网中基于大语言模型的多智能体系统，提出了一个角色驱动的框架。通过可配置的行为角色（编码优化优先级、风险容忍度和决策风格）来指导五个专业智能体。核心贡献是建立了一个基于决策理论的三维评估框架，从规范性合规、指令对齐和行为动态三个维度进行系统验证。在两项O-RAN优化任务上的实验表明，角色与智能体的对齐度对个体性能影响显著（达14.3%），检索架构（GraphRAG vs. RAG）从根本上制约了定制化效果，且单智能体的角色修改会通过级联效应影响整个系统。

多智能体系统o-ran决策理论安全评估角色驱动检索增强生成

cs 04-14 00:00

零样本交通监控视频事故检测、定位与分类的模块化方法

本文提出了一种无需真实世界标注数据的零样本流水线，用于交通监控视频中的事故检测。该方法将问题分解为三个独立模块：1）通过帧差信号的峰值检测定位事故发生时间；2）利用Farneback算法计算累积稠密光流图的加权质心，确定事故影响位置；3）通过比较CLIP图像嵌入与基于多提示自然语言描述构建的文本嵌入之间的余弦相似度，对碰撞类型进行分类。整个流程仅使用预训练模型权重，无需领域微调。

零样本学习交通监控事故检测视频分析计算机视觉

cs 04-14 00:00

信念感知视觉语言模型：融合记忆与强化学习实现类人推理

本文针对传统意图推理模型难以泛化及现有视觉语言模型缺乏显式信念表示的问题，提出了一种信念感知的视觉语言模型框架。该框架通过基于检索的向量记忆来近似表示和更新信念，而非学习显式信念模型，并将检索到的多模态上下文信息融入模型进行推理。此外，模型在视觉语言模型的潜在空间上应用强化学习策略以优化决策。在HD-EPIC等公开VQA数据集上的评估表明，该方法相比零样本基线取得了持续改进，凸显了信念感知推理的重要性。

视觉语言模型信念推理强化学习向量记忆多模态学习意图推断

cs 04-14 00:00

Grid2Matrix：揭示视觉语言模型中的数字失认症

本文提出Grid2Matrix（G2M）基准测试，通过要求模型将彩色网格及其颜色-数字映射转换为对应矩阵，来评估视觉语言模型（VLMs）对精细视觉细节的捕捉能力。研究发现，VLMs在零样本端到端评估中表现出早期崩溃，即使网格尺寸很小也会失败，而非随任务密度增加而逐渐退化。分析表明，视觉编码器保留了比最终语言输出更多的网格信息，揭示了视觉特征与语言表达之间存在差距，作者称之为“数字失认症”。错误模式高度结构化，且与网格单元和视觉补丁边界的重叠方式密切相关。模型缩放和多模态对齐等常见策略无法完全消除此故障模式。G2M可作为理解VLMs在何处及如何丢失精细视觉细节的有用测试平台。

视觉语言模型基准测试数字失认症多模态推理视觉细节模型评估

cs 04-14 00:00

实例密度作为数据复杂性的量化指标：揭示人脸数量如何影响模型性能

本研究通过严格控制类别平衡，量化了实例密度（以图像中人脸数量衡量）对机器学习模型性能的影响。在WIDER FACE和Open Images数据集上的实验表明，即使模型已接触所有密度范围，其分类、回归和检测性能仍随人脸数量增加而单调下降。更重要的是，在低密度数据上训练的模型难以泛化到高密度场景，会出现系统性低估偏差，错误率最高增加4.6倍，表明密度差异可视为一种域偏移。这确立了实例密度作为数据内在复杂性的可量化维度。

数据复杂性实例密度泛化能力域偏移人脸检测机器学习

cs 04-14 00:00

CAGE：通过代码锚定生成增强技术弥合教育图表中的准确性与美观性鸿沟

本研究针对K-12教育图表生成中存在的“准确性-美观性”两难问题，提出CAGE框架。该框架首先利用大语言模型生成可执行代码以保障标签的结构准确性，再通过ControlNet引导的扩散模型对图表进行视觉美化，在保持标签正确性的同时提升视觉吸引力。研究还发布了包含2000对程序化-风格化图表的EduDiagram-2K数据集，为多媒体教育技术提供了新的解决方案。

教育图表生成多模态生成代码锚定视觉增强教育技术

cs 04-14 00:00

Tipiano：基于指尖先验的级联钢琴手部运动合成框架

本研究提出Tipiano，一个四阶段级联框架，用于合成高精度且自然的钢琴手部运动。该方法利用钢琴运动固有的层级特性：指尖位置由钢琴几何与指法近乎确定，而手腕及中间关节则提供风格自由度。框架包含基于统计的指尖定位、FiLM条件轨迹优化、手腕估计及STGCN姿态合成。研究贡献了F"urElise数据集的专家标注指法（153首曲目，约10小时）。实验显示其F1分数达0.910，显著优于扩散基线模型（F1=0.121），用户研究（N=41）证实其质量接近动作捕捉。专业钢琴家评估（N=5）指出前瞻性运动是未来改进的关键方向。

运动合成钢琴演奏计算机视觉层级建模人机交互

cs 04-14 00:00

TaFall：基于被动热传感的平衡感知跌倒检测系统

本文提出TaFall系统，利用低成本、保护隐私的热阵列传感技术，通过建模跌倒为平衡退化过程来检测跌倒。其核心方法包括：外观-运动融合模型用于鲁棒姿态重建、基于物理的平衡感知学习，以及姿态桥接预训练以提高鲁棒性。在包含35名参与者的3000多次跌倒实例数据集中，TaFall实现了98.26%的检测率和0.65%的误报率。在四个家庭的27天实际部署中，系统误报率低至0.00126%，并在浴室潮湿和热干扰环境下验证了其稳健性。

跌倒检测热传感隐私保护姿态估计平衡动力学智能健康

cs 04-14 00:00

在线视觉语言模型中的隐私保护与效用平衡研究

本文探讨了用户向在线视觉语言模型（OVLM）上传图像时面临的个人身份信息（PII）泄露风险。研究发现，图像中的上下文关系可能导致直接或间接的敏感信息暴露。为应对此问题，作者提出了在基于VLM的应用中保护隐私同时保持图像效用的方法，并通过评估验证了这些技术的有效性，强调了在线图像处理环境中隐私保护与功能效用之间的微妙平衡。

隐私保护视觉语言模型个人身份信息图像安全效用平衡

cs 04-14 00:00

锐度感知替代训练：缩小脉冲神经网络部署时的性能差距

本文提出锐度感知替代训练（SAST）方法，旨在解决脉冲神经网络（SNN）在部署时因平滑替代梯度与硬阈值激活函数不匹配而导致的性能急剧下降问题。该方法将锐度感知最小化（SAM）应用于替代前向SNN，在保证训练目标平滑和梯度精确的同时，有效缩小了替代训练与硬阈值部署之间的性能差距。理论分析提供了状态稳定性、输入Lipschitz性和平滑性边界，并给出了非凸收敛结果。在N-MNIST和DVS Gesture两个事件相机基准测试中，仅替换硬脉冲的准确率分别从65.7%提升至94.7%、从31.8%提升至63.3%。在硬件感知推理模拟（INT8/INT4量化、定点膜电位）下，SAST依然表现强劲，同时显著降低了SynOps（突触操作）计数。

脉冲神经网络锐度感知训练替代梯度事件相机硬件感知推理模型部署

cs 04-14 00:00

医学影像分类中测试时增强的意外陷阱：为何TTA反而降低准确率

本研究系统评估了测试时增强（TTA）在医学影像分类中的效果，挑战了其能普遍提升准确率的假设。通过对MedMNIST v2三个基准数据集和四种架构的实验发现，使用标准增强流程的TTA反而会降低模型性能，其中ResNet-18在病理图像上的准确率下降高达31.6个百分点。研究指出，增强数据与训练数据间的分布偏移，尤其是批归一化统计量不匹配，是性能下降的主要机制。结果表明，TTA不应作为默认的后处理手段，而需针对具体模型-数据集组合进行验证。

医学影像测试时增强模型评估分布偏移批归一化

cs 04-14 00:00

沉浸式对话推荐系统：场景内物品标签的评估新范式

本文针对新兴的沉浸式对话推荐系统，提出了一个核心问题：如何在用户的视觉环境中为推荐物品选择和呈现场景内标签信息。研究将用户的信息需求分为显式意图满足和前瞻性信息需求两类，并据此定义了新的评估指标。通过对基于IR、LLM和VLM的方法在时尚、电影推荐和零售购物三个场景下的测试，发现现有方法存在三大局限：1) 未能充分利用场景特定的信息模态（如时尚的视觉线索、零售的元数据）；2) 呈现了视觉上可推断的冗余信息；3) 仅从显式对话中难以准确预测用户的前瞻性需求。这项工作为ICRS中的场景内标签评估提供了新范式，并指明了未来研究的关键挑战。

沉浸式推荐对话系统信息需求场景内标签评估指标多模态交互

cs 04-14 00:00

注意力引导流匹配：稀疏三维地质建模新突破

针对从稀疏钻孔与地表数据构建高分辨率三维地质模型这一高度不适定问题，本研究提出了首个注意力引导连续流匹配框架3D-GeoFlow。该方法将离散分类生成重构为基于均方误差优化的无模拟连续向量场回归，建立了稳定、确定性的最优传输路径。通过集成三维注意力门机制，模型能动态传播局部钻孔特征至整个体素隐空间，确保宏观结构一致性。在大规模多模态数据集上的评估表明，该方法显著超越了传统启发式插值与标准扩散基线。

三维地质建模流匹配注意力机制稀疏数据重建生成模型

cs 04-14 00:00

PASTA：基于视觉Transformer的弱监督目标与异常分割方法

本研究提出PASTA方法，利用图像级弱监督实现工业与农业场景中的目标与异常分割。该方法通过对比观测场景与参考场景，在自监督视觉Transformer特征空间中进行分布分析，并结合Segment Anything Model 3的语义文本提示进行零样本分割。在钢铁废料回收和植物数据集上的实验表明，该方法训练时间减少75.8%，目标分割IoU最高达88.3%，异常分割IoU最高达63.5%。

弱监督分割视觉transformer异常检测工业视觉零样本学习特征聚合

cs 04-14 00:00

IAU-Net：通过身份感知表征学习实现细粒度细胞分割

本文提出了一种名为身份感知U-Net（IAU-Net）的统一框架，旨在解决形态高度相似物体的精确分割难题。该方法在U-Net编码器-解码器架构基础上，增加了一个辅助嵌入分支，用于从高级特征中学习具有判别性的身份表征，同时主分支预测像素级掩码。通过引入基于三元组的度量学习，模型能够拉近同一目标的嵌入表征，并使其与形态相似的困难负样本分离，从而在轮廓相似、布局密集、边界模糊等挑战性场景下，显著提升对视觉相似物体的区分能力。在细胞分割等基准测试中取得了优异效果。

细胞分割身份感知度量学习u-net细粒度分割计算机视觉

cs 04-14 00:00

CayleyTopo：基于强化学习优化多智能体通信拓扑结构

本文提出CayleyTopo，一种将通信图本身作为设计变量的新方法。它利用循环凯莱图族，通过强化学习框架优化其生成元集合，以最小化网络直径，从而直接提升最坏情况下的信息传播速度。该方法引入了数论先验和消息传播评分机制，在庞大的搜索空间中高效寻找最优结构。实验表明，CayleyTopo在信息传播速度、链路故障恢复能力和通信负载方面均优于现有手工设计的稀疏拓扑，并接近理论上的摩尔界，为大规模多智能体系统提供了可优化、可扩展的通信基础。

多智能体系统通信拓扑优化凯莱图强化学习网络直径可扩展性

cs 04-14 00:00

混合分层联邦学习：利用5G/NextG网络重叠覆盖提升训练效率

本文针对5G/NextG网络中协调多点传输技术带来的新机遇，提出了混合分层联邦学习框架。该框架突破了传统分层联邦学习中每个客户端只能连接单一边缘服务器的限制，允许处于重叠覆盖区域的客户端同时与多个边缘服务器进行模型聚合。理论分析给出了收敛上界，实验表明，在数据非独立同分布场景下，HHFL能显著提升知识共享效率，缓解模型发散，实现高达2倍的收敛速度提升。

联邦学习5g网络边缘计算模型聚合非独立同分布数据收敛分析

cs 04-14 00:00

从默认到审慎：基于项目特性的持续集成采纳决策框架

当前持续集成（CI）的采纳决策常缺乏对项目特性的系统考量，导致服务冗余、工作流维护困难及迁移成本高昂。本文提出一个AI驱动的框架，旨在将CI采纳从“默认有益”转向“审慎决策”。该框架通过评估项目从CI中获益的可能性、基于项目特性推荐合适的CI服务，并提供定制化的配置指导，以在采纳前预防效率低下。研究议程结合了开发者研究、大规模仓库挖掘和推荐系统设计。

持续集成采纳决策上下文感知ai框架软件工程推荐系统

cs 04-14 00:00

GaussLock：首个保护3D高斯生成模型免遭未经授权微调攻击的免疫框架

针对预训练3D高斯生成模型权重公开易遭微调攻击、导致知识产权泄露的问题，本研究提出了首个防御框架GaussLock。该方法通过授权蒸馏与属性感知陷阱损失（针对位置、尺度、旋转、不透明度及颜色）的联合优化，在保持授权任务性能的同时，系统性地破坏未经授权微调的结构完整性，使其空间分布坍缩、几何形状扭曲、旋转轴对齐并抑制图元可见性。实验表明，GaussLock能有效抵御攻击，显著降低未经授权重建的质量（LPIPS升高，PSNR降低）。

3d生成模型模型安全知识产权保护高斯表示对抗防御微调攻击

cs 04-14 00:00

美洲豹重识别诊断框架：模型是否依赖背景而非斑纹？

研究指出，基于公民科学图像的美洲豹重识别模型可能在标准检索指标上表现良好，却错误地依赖背景或轮廓而非个体独特的毛皮斑纹。为此，作者提出了一个双轴诊断框架：一是通过修复背景与前景图像计算“泄漏控制上下文比”，二是基于跨侧面检索和镜像自相似性的“侧向性诊断”。为量化评估，团队构建了包含像素级分割掩码和身份平衡评估协议的潘塔纳尔美洲豹基准数据集，并以ArcFace微调、反对称正则化和洛伦兹双曲嵌入等代表性方法为例，在同一评估框架下分析其依赖的视觉证据。

野生动物重识别模型诊断背景依赖图像分割计算机视觉生物多样性监测

cs 04-14 00:00

EDFNet：融合边缘与深度信息，提升无人机对细长障碍物的感知能力

本文提出EDFNet，一种用于无人机导航的早期融合分割框架，旨在解决细长障碍物（如电线、树枝）因像素少、对比度弱而难以检测的问题。该方法将RGB图像、深度信息与边缘线索进行早期融合，在Drone Depth and Obstacle Segmentation数据集上评估了16种模态-主干网络配置。结果表明，RGB-Depth-Edge早期融合提供了均衡且具竞争力的基线性能，在边界敏感和召回率指标上提升最显著。预训练的RGBDE U-Net取得了最佳综合性能，其细长结构评估分数、平均IoU和边界IoU分别达到0.244、0.219和0.234，同时保持了19.62 FPS的实时推理速度。然而，所有模型对超细类别（如单根电线）的分割性能仍较低，表明该问题仍是开放挑战。

无人机导航细长障碍物分割多模态融合早期融合计算机视觉语义分割

24 小时跨学科精选

计算机科学

2026-04-14 速览 · 计算机科学

NetAgentBench：首个面向智能体网络配置的状态中心化基准测试

HCP-MAD：基于异构共识验证的高效多智能体辩论框架

R2E-VID：基于时序门控的两阶段鲁棒路由框架，实现弹性边云视频推理

决策理论视角下O-RAN中角色驱动多智能体系统的安全评估框架

零样本交通监控视频事故检测、定位与分类的模块化方法

信念感知视觉语言模型：融合记忆与强化学习实现类人推理

Grid2Matrix：揭示视觉语言模型中的数字失认症

实例密度作为数据复杂性的量化指标：揭示人脸数量如何影响模型性能

CAGE：通过代码锚定生成增强技术弥合教育图表中的准确性与美观性鸿沟

Tipiano：基于指尖先验的级联钢琴手部运动合成框架

TaFall：基于被动热传感的平衡感知跌倒检测系统

在线视觉语言模型中的隐私保护与效用平衡研究

锐度感知替代训练：缩小脉冲神经网络部署时的性能差距

医学影像分类中测试时增强的意外陷阱：为何TTA反而降低准确率

沉浸式对话推荐系统：场景内物品标签的评估新范式

注意力引导流匹配：稀疏三维地质建模新突破

PASTA：基于视觉Transformer的弱监督目标与异常分割方法

IAU-Net：通过身份感知表征学习实现细粒度细胞分割

CayleyTopo：基于强化学习优化多智能体通信拓扑结构

混合分层联邦学习：利用5G/NextG网络重叠覆盖提升训练效率

从默认到审慎：基于项目特性的持续集成采纳决策框架

GaussLock：首个保护3D高斯生成模型免遭未经授权微调攻击的免疫框架

美洲豹重识别诊断框架：模型是否依赖背景而非斑纹？

EDFNet：融合边缘与深度信息，提升无人机对细长障碍物的感知能力