今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-03-09 03-09 15:28

今日计算机科学领域整体呈现“人机协同深化”与“系统智能增强”两大趋势,研究重点从追求单一模型性能转向构建可靠、安全、高效且以人为本的复杂智能系统。

  1. 人机协作成为AI应用开发核心:实证研究揭示了AI治理、人机循环迭代等四个核心协作主题,强调需构建可操作框架以平衡自动化与人类权威,这为设计更有效的AI开发流程提供了实证基础。
  2. 智能体系统追求可验证性与安全性:研究通过将执行日志蒸馏为可执行的行为树(Traversal-as-Policy),或将可达性约束集成到场景生成中(RoboLayout),旨在构建安全、可验证且易于交互的自主智能体,解决黑盒策略和事后修补的安全隐患。
  3. 多模态与跨模态学习趋向高效统一:为解决多专家编码器带来的复杂度问题,研究提出将异构模态压缩进单一密集编码器(Omni-C),或构建可动态合成视频数据的操作系统(VDCook),旨在降低计算开销并支持灵活、高效的多模态学习与数据定制。
  4. 数据驱动方法的可靠性与合规性增强:在轨迹预测、神经算子等领域,研究通过引入结构化损失(数字孪生损失)或空间自适应正则化(JAWS),将物理约束与先验知识融入训练,以提升模型推演的稳定性、安全性和对现实规则的遵守。
  5. 交互与可视化分析范式面临重塑:面对AI分析结果的不确定性,研究探索利用XR构建混合数据可视化空间,并设计更符合直觉的注视手势,强调需在整个人-数据交互栈中重新定义角色,以构建以人为中心的新一代交互式分析系统。
  6. 隐私、评估与基准测试走向系统化:研究指出多智能体系统中的隐私泄露是系统级问题,需全局约束;同时,推出了支持完整查询语言的神经图数据库基准(NGDBench)与国际工具调用数据集,推动对AI系统在复杂、跨文化场景下能力的更严谨评估。

2026-03-09 速览 · 计算机科学

2026-03-09 共 24 条抓取,按综合热度排序

← 返回日历
cs 03-09 00:00

离散事件系统的标记数据信息性与数据驱动监控

本文针对模型未知的离散事件系统,提出了一种基于行为数据集的标记非阻塞监控方法。核心贡献是形式化定义了“标记数据信息性”概念,并设计了验证算法。若数据集不满足该性质,则进一步提出“受限标记数据信息性”与“标记可信息化”概念,并给出计算满足受限信息性的最大规范子集的算法。

离散事件系统数据驱动控制监督控制非阻塞性信息性
cs 03-09 00:00

AI应用开发中的人机协作主题:一项实证研究

本研究通过回顾性日记研究和对8位AI专家的访谈,对1,435个编码词进行了五轮主题分析,揭示了AI应用开发中四个核心的人机协作主题:AI治理与人类权威、人机循环迭代优化、AI系统生命周期与操作约束、以及人机团队协作与协调。这些发现为后续构建可操作的人机协作框架提供了实证基础。

人机协作ai治理系统生命周期人机循环实证研究主题分析
cs 03-09 00:00

Companion:集成大语言模型的绘画机器人,实现人机协同视觉叙事创作

本研究提出“Companion”系统,将绘画机器人与大语言模型(LLMs)结合,旨在从追求机器自主性转向人机协同创作。系统利用上下文学习和实时工具调用,通过语音和草图进行双向交互,使机器人从被动执行者转变为能驱动共享视觉叙事的创意伙伴。研究采用共识评估技术(CAT)由七位艺术领域专家评估,结果证实该系统能产出具有独特美学特性和专业展览价值的作品,展现了AI作为高能力艺术合作者的潜力。

人机交互协同创作视觉叙事绘画机器人大语言模型艺术科技
cs 03-09 00:00

生物识别技术如何赋能个性化辅助沟通系统

本研究提出将生物识别技术应用于个性化辅助与替代沟通(AAC)系统的技术路线图。核心是构建“AAC生物识别注册表”和“生物识别驱动的可重构AAC通道”,通过采集和处理手势等生理行为特征,将其映射为合成语音等中间特征,从而为沟通障碍人士创建可定制的沟通渠道。研究通过手语识别等案例评估发现,当前AI技术的准确度尚不能满足实际应用需求,并提出了弥合社会需求与技术差距的改进建议。

生物识别辅助沟通技术路线图手势识别人机交互无障碍技术
cs 03-09 00:00

ARC系统:集成化工具降低文献综述认知负荷,支持透明AI辅助探索

针对系统性文献综述(SLR)过程中工具分散、认知负荷高的问题,本研究通过20位研究者的探索性设计研究,识别出三大痛点:跨数据库迭代查询、文献规模爆炸式增长、自动化与学者自主性间的张力。为此,研究者开发了ARC设计探针,实现了多数据库集成、透明迭代搜索与可验证的AI辅助筛选。对比用户研究表明,集成化环境能帮助研究者从繁琐的管理任务转向战略性探索,通过外部表征支撑探索过程与透明AI推理,支持从知识综合创建到长期维护的可验证判断。

文献综述人机交互ai辅助研究认知负荷工具设计知识综合
cs 03-09 00:00

Traversal-as-Policy:通过日志蒸馏构建可验证、安全高效的智能体策略

针对自主LLM智能体因策略隐含于模型权重且安全性事后修补导致的失败问题,本研究提出Traversal-as-Policy方法。核心是将沙盒执行日志蒸馏为单一可执行的Gated Behavior Tree(GBT),并将树遍历(而非无约束生成)作为任务覆盖范围内的控制策略。节点编码从成功轨迹中挖掘并合并检查的状态条件动作宏;涉及不安全轨迹的宏会在结构化工具上下文和有界历史上附加确定性预执行门控,并在经验基础的单调性下更新,确保先前拒绝的不安全上下文无法重新被接纳。运行时,轻量级遍历器将基础模型的意图与子宏匹配,在全局和节点本地门控下一次执行一个宏,并在停滞时执行风险感知的最短路径恢复。在超过15个软件、网络、推理及安全基准测试中,GBT显著提高了任务成功率,将违规率趋近于零,并大幅降低了计算成本。例如在SWE-bench Verified上,成功率达73.6%,违规率降至0.2%,令牌使用量减少约40%。

行为树策略蒸馏智能体安全可验证ai日志分析门控机制
cs 03-09 00:00

CoEditor++:基于认知推理的指令式图像编辑框架

针对现有大模型在指令式图像编辑中语义推理与视觉一致性不足的问题,本研究提出了CoEditor++。该免训练框架通过“编辑什么”和“如何编辑”两阶段认知推理,结合反思自选机制,实现了鲁棒、细粒度且可解释的编辑。实验表明,在通用编辑基准SmartEdit和隐私合规基准AltBear上,CoEditor++在视觉一致性方面显著优于需训练的开源模型,并与闭源模型在指令遵循上表现相当。其有效性源于结构化认知设计,而非特定组件。

图像编辑多模态模型认知推理免训练框架视觉一致性
cs 03-09 00:00

Aletheia:基于LLM的浏览器扩展,实时验证新闻真伪并提供证据解释

本文提出Aletheia,一款创新的浏览器扩展,旨在应对虚假新闻的传播。该系统结合检索增强生成(RAG)与大语言模型(LLMs),不仅能检测新闻真伪,还能提供基于证据的解释。其创新点在于包含两个交互组件:围绕被标记内容展开用户讨论的“讨论中心”,以及展示近期事实核查的“保持关注”功能。实验表明,Aletheia在检测性能上优于现有基线方法。一项涉及250名参与者的用户研究进一步证实了该系统的可用性和用户感知有效性,凸显了其作为透明工具对抗网络虚假新闻的潜力。

虚假新闻检测大语言模型检索增强生成浏览器扩展人机交互事实核查
cs 03-09 00:00

多智能体LLM系统的信息论隐私控制:解决序列化信息泄露问题

本文研究了顺序多智能体大语言模型系统中的组合隐私泄露问题。作者使用互信息对泄露进行形式化,并推导出理论界限,揭示了局部泄露如何在序列执行中跨智能体放大。基于此分析,提出了一种隐私正则化训练框架,直接约束智能体输出与本地敏感变量之间的信息流。在三个基准数据集上对不同深度的智能体管道进行评估,展示了稳定的优化动态和一致、可解释的隐私-效用权衡。结果表明,仅靠局部约束无法保证智能体LLM系统的隐私,必须在训练和部署中将其视为系统级属性。

多智能体系统隐私泄露信息论llm安全序列化处理隐私-效用权衡
cs 03-09 00:00

RoboLayout:面向具身智能体的可微分三维场景布局生成方法

本文提出RoboLayout,一种扩展自LayoutVLM的可微分三维场景生成框架,旨在解决现有方法生成的场景布局难以被具身智能体交互的挑战。该方法的核心创新在于将智能体的可达性约束显式地集成到可微分的布局优化过程中,从而生成既语义连贯又可供具身智能体导航与操作的三维室内场景。此外,系统引入了一个局部细化阶段,能够选择性重优化有问题的物体摆放,提高了收敛效率。实验表明,RoboLayout在保持原有框架语义对齐与物理合理性的同时,显著提升了面向多样化智能体(如服务机器人、不同年龄段人类)的场景生成适用性。

具身智能场景生成可微分优化三维布局机器人交互室内环境
cs 03-09 00:00

Omni-C:将异构模态压缩为单一密集编码器,实现高效多模态学习

本文提出Omni-C(Omni-Compress),一种基于Transformer的单一密集编码器,旨在解决多模态系统中因使用多个专家编码器而导致的复杂度和计算开销线性增长问题。通过在大规模未对齐数据上进行单模态对比预训练,Omni-C学习图像、音频和文本的共享表征,仅需轻量级模态特定投影头,无需混合专家(MoE)架构、配对监督或路由机制。该方法支持在内存受限系统上进行顺序模态处理和低内存推理,实验表明其在单模态和跨模态任务上性能与专家模型相当,同时大幅降低了推理内存使用。

多模态学习模型压缩transformer编码器对比学习高效推理
cs 03-09 00:00

NGDBench:首个支持完整Cypher查询语言的神经图数据库基准测试

本文针对神经网络模型在处理结构化图数据时面临的挑战,提出了NGDBench——一个统一的神经图数据库能力评估基准。该基准覆盖金融、医疗和AI智能体工具等多个领域,并首次支持完整的Cypher查询语言,能够测试复杂的模式匹配、变长路径查询和数值聚合。研究通过注入真实噪声和动态数据管理操作,评估了当前最先进的LLM和RAG方法,揭示了它们在结构化推理、噪声鲁棒性和分析精度方面的显著不足,为推进神经图数据管理提供了关键的测试平台。

图数据库基准测试cypher查询结构化推理神经模型评估数据管理
cs 03-09 00:00

无需标注的步态识别新方法:基于边缘结构提取的SKETCHGAIT框架

本文提出了一种无需语义标注的步态识别新范式SKETCHGAIT。针对传统轮廓法信息稀疏、解析法依赖上游模型导致性能不稳定的问题,研究从结构视角重新审视步态表征,引入SKETCH作为新视觉模态。该方法通过边缘检测器直接从RGB图像中提取高频结构线索(如肢体关节和自遮挡轮廓),以无标签方式获取密集部件级结构。进一步提出层次解耦的多模态框架,包含两个独立流进行模态特定学习,并通过轻量级早期融合分支捕获结构互补性。在SUSTech1K和CCPG数据集上的实验表明,SketchGait分别达到92.9%和93.1%的Rank-1准确率。

步态识别边缘检测无监督学习多模态融合计算机视觉生物特征识别
cs 03-09 00:00

JAWS:通过空间自适应雅可比正则化增强神经算子的长期推演稳定性

本研究提出了一种名为JAWS的概率正则化策略,旨在解决数据驱动代理模型在模拟连续动力系统时,自回归推演中存在的稳定性差和频谱爆炸问题。该方法将算子学习构建为具有空间异方差不确定性的最大后验估计,根据局部物理复杂度动态调整正则化强度。在平滑区域加强收缩以抑制噪声,在奇异特征附近放松约束以保留梯度,实现了类似数值激波捕捉方案的效果。实验表明,该空间自适应先验可作为有效的频谱预处理器,减轻基础算子处理高频不稳定的负担,从而使内存高效的短时域轨迹优化能够达到或超过长时域基线的长期精度。在1D粘性Burgers方程上的评估显示,该方法在提升长期稳定性、激波保真度和分布外泛化能力的同时,降低了训练计算成本。

神经算子正则化长期稳定性动力系统自适应学习频谱预处理
cs 03-09 00:00

VDCook:可配置视频数据操作系统,为MLLM定制训练数据

VDCook是一个自演化的视频数据操作系统,旨在为研究者和垂直领域团队提供可配置的视频数据构建平台。用户通过自然语言查询和可调参数(规模、检索-合成比例、质量阈值)发起数据请求。系统自动执行查询优化,并行运行真实视频检索和可控合成模块,最终生成带有完整来源和元数据的领域内数据包及可复现的Notebook。与传统静态数据集不同,VDCook基于MCP协议实现自动化数据摄取,支持数据集持续更新和领域扩展,将其转变为动态演化的开放生态系统。

视频数据构建多模态大模型数据操作系统可控合成元数据标注可复现研究
cs 03-09 00:00

语法约束解码新突破:注意力机制与可达性分析揭示结构等价性与效率边界

本研究深入探讨了基于上下文无关文法(CFG)的语法约束解码(GCD)问题,将其建模为自回归下一个词分布与下推系统可达性预言机的耦合。核心贡献包括:1)证明了预言机不变性定理——语言等价的文法在任何前缀下产生相同的可接受下一个词集合与对数掩码,但编译状态空间与在线歧义成本可证不同;2)针对典型 $a^n b^n$ 语言,精确计算了冗余非终结符委托下的控制状态爆炸数量,并引入左到右结构歧义成本(SAC)度量每个词元增量打包解析森林的增长;3)建立了与引擎无关的下界:任何可靠、检索高效、保持解析的在线掩码引擎在特定常数大小CFG族上必须为每个词元承担 $\Omega(t^2)$ 的工作量;4)定义了文法的解码成本等价类,并证明在有界重写族内存在最小SAC代表;5)通过Doob $h$-变换刻画真实条件采样器,推导出硬掩码解码在KL散度与总变差失真上的尖锐单步界限。研究结果与Transformer及专家混合架构集成,推导了基于词汇量、活跃状态集和束宽度的延迟包络,并将SAC与基于仪器的预测性能模型及自动化文法优化相联系。

语法约束解码结构等价性可达性分析上下文无关文法解码效率transformer
cs 03-09 00:00

AI时代人机数据交互的挑战与机遇:重塑可视化分析范式

本文探讨了AI(尤其是大语言模型和多模态模型)的快速发展如何深刻改变人机交互、人-数据交互与可视化分析领域。面对大规模、异构、非结构化数据以及AI模型引入的不确定性,现有交互系统在感知延迟、可扩展性、交互范式及AI结果可靠性等方面面临持续挑战。研究指出,必须超越传统的效率与规模指标,在整个人-数据交互栈中重新定义人机角色,并融入认知、感知与设计原则,以构建面向AI时代、以人为中心的交互式数据分析系统。

人机交互可视化分析大语言模型不确定性以人为中心ai数据分析
cs 03-09 00:00

数字孪生损失函数:提升城市交叉路口轨迹预测的合规性与安全性

本研究提出了一种基于数字孪生的V2X轨迹预测框架,用于处理信号灯交叉路口复杂的多智能体交互。模型采用Bi-LSTM生成器,并引入一种创新的结构化训练目标,该目标结合了标准均方误差(MSE)损失与新型的“孪生损失”。孪生损失编码了基础设施约束、碰撞规避、预测模式多样性以及从数字孪生中提取的基于规则的先验知识。在真实V2X数据上的实验表明,该训练方案在保持预测精度(ADE/FDE)和实时性能的同时,显著降低了交通规则违反率和预测碰撞等关键安全违规指标,凸显了数字孪生驱动多损失学习在智能交通系统中的潜力。

轨迹预测数字孪生v2x通信智能交通损失函数交叉路口
cs 03-09 00:00

XR与混合数据可视化空间:提升高维数据分析的新途径

面对日益复杂和高维的数据,以及理解AI分析结果的需求,本文提出利用扩展现实(XR)技术构建混合数据可视化空间。该方法将传统的2D数据展示无缝集成到3D虚拟环境中,结合人类对低维表示的高效理解能力与XR对高维空间的探索优势,旨在实现更直观、更有效的数据分析。文中通过三个案例研究展示了该混合可视化方法如何提升数据分析效率。

扩展现实数据可视化高维数据分析人机交互混合现实虚拟环境
cs 03-09 00:00

用户与专家共创:如何设计更符合直觉的注视手势

本研究提出了一种两阶段方法来开发更直观的注视手势。首先,通过与20名非专家用户进行共同设计工作坊,生成了102个初始手势概念。随后,由4名注视交互专家对这些概念进行评审和提炼,最终形成一套包含32个手势的集合。研究发现,非专家用户倾向于基于熟悉的隐喻来构思手势,并发展出一种组合语法(激活+动作),以明确意图并缓解“点石成金”问题。专家则更注重手势的人体工学合理性、与自然眼动的契合度以及可区分性。这套经过用户验证和专家优化的手势集及相关设计原则,为开发更直观的免提注视交互界面奠定了基础。

人机交互注视交互手势设计共同设计眼动追踪免提界面
cs 03-09 00:00

国际工具调用数据集:提升大语言模型跨文化工具使用能力

本文针对现有工具调用基准在API真实性、可复现性及文化多样性上的不足,提出了国际工具调用数据集。该数据集包含来自40个国家、20个类别的3571个真实API和17540个任务,支持多语言场景。实验表明,基于该数据集微调能显著提升模型(尤其是开源模型)在非英语查询、跨语言泛化及推理一致性方面的性能,为复杂国际场景下的LLM鲁棒性评估提供了新基准。

工具调用大语言模型多语言基准api交互跨文化泛化
cs 03-09 00:00

以人为本的感知技术:痴呆症照护自动化监测的现状与原则

本文通过范围综述,系统梳理了2015-2025年间用于痴呆症患者监测的可穿戴与环境感知技术。研究旨在为未来技术开发提供以人为中心的设计指导。综述提炼出五项关键实施原则:1)采用以人为本的设计,增强而非替代照护者;2)提供个性化、可适应的解决方案,支持患者自主性;3)与现有工作流程整合并提供充分培训;4)前瞻性地考虑隐私与知情同意;5)开发成本效益高、合乎伦理、可扩展且效果可量化的系统。这些原则为应对痴呆症照护的复杂挑战、平衡自动化与自主性指明了方向。

痴呆症照护可穿戴设备环境感知以人为本设计自动化监测医疗物联网
cs 03-09 00:00

数字生态系统如何通过信任框架实现跨域互信与互操作

本文提出了一种“生态系统信任框架”方法,使数字生态系统(包括数据空间)能够自主定义并“发布”其签发或信任的凭证。该方法通过收集特定生态系统按信任范围接受的所有(可验证)凭证和签发者,构建信任框架。研究探讨了如何利用不同生态系统的信任框架定义最小信任关系,并分析了其特性。为解决跨生态系统信任困境,文章提出了两种凭证等价性定义:一种需要额外的跨域治理协调,另一种则无需。后者在允许生态系统完全保留主权的同时,建立了跨域信任。一个脆弱性定理表明,若无额外的协调机制,仅凭信任框架建立的信任关系是不稳定的。研究进一步将方法扩展到数据空间,提出了跨数据空间互操作性的严格新定义,并证明两个数据空间之间的互操作程度完全取决于其各自信任框架的共性程度。

数字生态系统信任框架跨域互信数据空间凭证管理互操作性
cs 03-09 00:00

ProFocus:视觉语言导航中的主动感知与聚焦推理框架

本文提出ProFocus框架,旨在解决视觉语言导航(VLN)中感知冗余和推理不聚焦的问题。该框架无需额外训练,通过大语言模型(LLM)与视觉语言模型(VLM)的协作,实现主动感知与聚焦推理。主动感知将全景观测转化为结构化语义地图,并生成有针对性的视觉查询以获取关键信息。聚焦推理则通过分支多样性蒙特卡洛树搜索(BD-MCTS)从历史候选中筛选出高价值路径点,使决策代理仅聚焦于相关历史上下文进行推理。实验表明,ProFocus在R2R和REVERIE基准测试中取得了零样本方法的最优性能。

视觉语言导航主动感知聚焦推理大语言模型零样本学习蒙特卡洛树搜索
AI速览助手