今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-03-19 03-19 15:42

今日计算机科学领域研究呈现“AI应用深化与系统化”趋势,聚焦于大模型在垂直领域的可靠部署、多智能体协同优化及新型计算框架探索。

  • 研究问题:如何评估并提升大语言模型在特定专业领域(如医疗咨询)的可靠性与实用性?
  • 方法/发现:通过设计专业问题集并与专家回答进行多维度对比,研究发现不同模型在语义准确性、术语使用和可读性上各有优势,为资源匮乏地区的辅助应用提供了实证依据。
  • 研究问题:如何构建更高效、可解释或更符合物理/经济规律的多智能体系统?
  • 方法/发现:研究通过设计多智能体强化学习框架、端口哈密顿建模或微经济协调机制,在放射学报告生成、动态定价、电网优化等复杂任务中实现了性能、稳定性或公平性的提升,并揭示了系统内部的功能层次或能量结构。
  • 研究问题:如何解决AI系统(如对话代理、工具调用模型)在真实交互中的身份透明、结构稳定与跨语言适配问题?
  • 方法/发现:研究通过将身份披露设计为模型内在属性、或进行数据为中心的微调,实证评估了现有方案在对抗场景下的脆弱性,并显著提升了阿拉伯语函数调用的结构稳定性。
  • 研究问题:如何为序列建模、分布式计算等基础任务设计更高效或认知更准确的新框架?
  • 方法/发现:研究提出了无需分词的连续超球面序列建模框架以降低计算复杂度,并从时间认知的“范畴错误”角度重新审视了分布式系统的设计原则。
  • 研究问题:如何自动化评估生成内容(如可视化图表、语音伪造)的质量?
  • 方法/发现:研究提出了基于数据重建准确性的可视化评估代理,以及针对神经编解码器的层次化表示学习框架,这些方法减少了对昂贵人工标注的依赖,并有效捕捉了合成伪影。
  • 研究问题:用户在与AI交互(特别是涉及敏感信息时)有何实际担忧与行为模式?
  • 方法/发现:通过访谈发现,用户虽认识到隐私风险,但为换取实用价值仍会向生成式AI披露敏感健康信息,仅采取有限保护措施,凸显了设计专用安全功能的必要性。

2026-03-19 速览 · 计算机科学

2026-03-19 共 24 条抓取,按综合热度排序

← 返回日历
cs 03-19 00:00

AI能否替代医生?研究评估大语言模型在孕期健康咨询中的表现

针对印度农村地区医疗资源匮乏的现状,本研究评估了ChatGPT-4o、Perplexity AI和GeminiAI等大语言模型在提供孕期健康建议方面的可靠性。研究设计了17个孕期相关问题,将模型回答与专业医疗人员的回答进行对比,通过语义相似度、名词重叠率和可读性指标进行评估。结果显示,Perplexity AI在语义上与专家回答最接近,而ChatGPT-4o生成的文本更清晰易懂,医学术语使用更准确。随着农村互联网普及,大语言模型有望成为可扩展的孕产健康教育辅助工具,但需在准确性与清晰度之间取得平衡。

大语言模型孕产健康医疗咨询农村医疗人工智能评估健康传播
cs 03-19 00:00

基于数据重建的自动可视化质量评估方法

本文提出了一种无需依赖人工标注数据的自动化可视化质量评估方法。该方法的核心思想是将可视化图表视为一种数据编码,通过评估从可视化图表中重建原始底层数据的准确性来衡量其质量。具体而言,研究者引入了一种基于重建精度的度量标准,该标准将原始数据作为隐式“真实值”,通过计算重建数据与原数据之间的差异来量化可视化效果。这种方法为AI驱动的可视化生成工作流提供了一个自主、可扩展的评估代理,能够替代昂贵且难以规模化的人工评估,从而提升自动化可视化生成的效率和可靠性。

可视化评估数据重建自动度量人机交互人工智能
cs 03-19 00:00

对话AI身份透明性研究:通过设计实现可靠的身份披露机制

随着对话AI系统日益逼真,用户难以区分对话对象是人类还是AI,可能导致敏感信息泄露或过度信任AI建议。现有法规要求AI披露身份,但缺乏实时对话中的可靠执行方案。本研究提出“设计即披露”原则,主张AI在被直接询问时应明确告知其人工身份,并将此作为模型的内在行为属性,不依赖外部界面。研究首次对多模态(文本与语音)部署系统进行了基线、角色扮演和对抗场景下的披露行为评估,发现基线披露率虽高,但在角色扮演中显著下降,且易受对抗性提示抑制。不同提供商和模态间的披露率差异显著,揭示了当前披露行为的脆弱性。最后,研究提出了技术干预措施,帮助开发者将披露作为对话AI模型的基本属性嵌入系统。

对话ai身份透明ai伦理人机交互模型行为可信ai
cs 03-19 00:00

基于视频脚本的注意力引导:360度VR视频中的对象聚焦研究

本研究针对360度VR视频中缺乏有效注意力引导的问题,提出了一种结合Grounding DINO和Segment Anything (SAM)模型的方法。该方法利用视频脚本信息,自动识别并聚焦虚拟环境中的特定对象,从而引导观众视线。以雷丁大学校园VR导览视频为案例的实验表明,该方法能有效提升用户在VR导览中的体验,解决了全景视频中注意力分散的痛点。

虚拟现实注意力引导视频脚本对象检测图像分割人机交互
cs 03-19 00:00

MARL-Rad:多模态多智能体强化学习框架,优化放射学报告生成

本研究提出MARL-Rad,一种新颖的多模态多智能体强化学习框架,用于放射学报告生成。该框架协调多个区域特异性智能体和一个全局整合智能体,并通过临床可验证的奖励进行优化。与以往的单模型强化学习或对独立训练模型进行事后智能体化的方法不同,MARL-Rad联合训练多个智能体,并通过强化学习优化整个智能体系统。在MIMIC-CXR和IU X-ray数据集上的实验表明,MARL-Rad在RadGraph、CheXbert和GREEN等临床效能指标上持续提升,达到了最先进的临床效能表现。进一步分析证实,MARL-Rad增强了报告的侧向一致性,并生成了更准确、细节更丰富的报告。

多智能体强化学习放射学报告生成多模态学习临床可验证奖励医学影像分析
cs 03-19 00:00

首个皮肤电活动基础模型UME发布,基于公开数据集EDAMAME训练

研究团队整合了24个公开数据集,构建了包含634名用户、超过25,000小时记录的皮肤电活动(EDA)数据集EDAMAME。基于此,他们训练了首个专门针对EDA的基础模型UME。在十个评估场景中的八个,UME的表现优于基线模型,并与通用时序基础模型相当,同时计算资源消耗减少了20倍。该工作揭示了EDA建模的内在挑战,并开源了所有数据集、模型权重和代码以推动相关研究。

基础模型皮肤电活动生理信号时序数据公开数据集
cs 03-19 00:00

PowerModelsGAT-AI:融合物理信息的图注意力网络实现多电网潮流统一求解与持续学习

本文提出PowerModelsGAT-AI,一种融合物理信息的图注意力网络,用于实时求解交流潮流方程。模型通过母线类型感知掩码处理不同电网拓扑,并利用学习权重平衡包含功率失配惩罚在内的多目标损失。在14个基准系统(4至6470个节点)上评估,在N-2故障条件下训练的统一模型,电压幅值平均归一化绝对误差为0.89%,电压相角$R^2 > 0.99$。研究还展示了持续学习能力:当基础模型适应新系统时,标准微调会导致基础系统性能灾难性遗忘(误差增加超1000%),而采用经验回放与弹性权重巩固策略可将误差增长控制在2%以内,有时甚至能提升基础系统性能。可解释性分析表明,学习到的注意力权重与物理支路参数(电纳$r = 0.38$;热限值$r = 0.22$)相关,验证了模型对物理关系的捕捉。

图神经网络潮流计算持续学习物理信息神经网络电网运行可解释ai
cs 03-19 00:00

车辆-机械臂系统的端口哈密顿结构建模

本文为车辆-机械臂系统(VMS)提出了一种端口哈密顿公式,这类系统包括空中、水下、空间机器人及全向移动机械臂。与现有拉格朗日公式不同,该公式明确揭示了复杂机械系统的能量流动与守恒特性。研究基于哈密顿约化理论,从第一性原理推导出系统动力学,并给出了两种互补形式:直接暴露能量结构的标准形式,以及利用VMS构型空间主丛结构、特别适用于控制设计与数值仿真的惯性解耦形式。所采用的坐标无关几何方法避免了基座姿态局部参数化带来的奇异性,并严格证明了其与机器人学和几何力学文献中现有约化欧拉-拉格朗日方程及玻尔兹曼-哈梅尔方程的数学等价性。

端口哈密顿系统车辆-机械臂系统几何力学机器人建模能量守恒
cs 03-19 00:00

IMU手写识别新策略:子词切分应对书写者差异,拼接增强解决数据稀疏

本研究系统探讨了基于惯性测量单元(IMU)的在线手写识别中,应对字符分布不均和书写者间差异的两种策略。实验发现,在书写者独立场景下,Bigram子词切分通过结构抽象显著提升了对未见书写风格的泛化能力,将词错误率(WER)从15.40%降至12.99%。而在书写者依赖场景下,拼接式数据增强则成为更有效的正则化方法,将字符错误率降低了34.5%,词错误率降低了25.4%。结果表明,子词切分主要缓解书写者间的风格差异,而拼接增强则有效补偿了单个书写者内部的数据稀疏问题。

手写识别imu传感器子词切分数据增强书写者差异正则化
cs 03-19 00:00

多智能体强化学习在动态定价中的应用:平衡盈利、稳定与公平

本研究系统评估了多智能体强化学习(MARL)方法(MAPPO和MADDPG)在竞争性零售市场动态定价中的应用。基于真实零售数据构建的模拟市场环境,研究将这两种算法与独立DDPG基准进行比较,评估了盈利表现、随机种子下的稳定性、公平性和训练效率。结果表明,MAPPO在实现最高平均收益的同时保持了低方差,为竞争性定价优化提供了稳定且可复现的方案;而MADDPG虽盈利略低,但实现了智能体间最公平的利润分配。这证明MARL方法,特别是MAPPO,为动态零售定价提供了一种可扩展且稳定的独立学习替代方案。

多智能体强化学习动态定价竞争市场mappomaddpg利润分配
cs 03-19 00:00

基于评分标准引导的语音大模型微调,实现多维度、多评分者的二语朗读评估

本研究针对二语语音自动评估中模型与人类评分者差异的难题,提出了一种评分标准引导的推理框架。该框架明确编码了准确性、流利度和韵律性等多维度人类评估标准,并通过不确定性校准来捕捉评分的自然变异性。研究对Qwen2-Audio-7B-Instruct模型进行了微调,并开发了一种结合保形校准的不确定性校准回归方法,以获得可解释的置信区间。结果表明,该高斯不确定性建模与保形校准方法在评分一致性上表现最佳,尤其在流利度和韵律性评估上更为可靠,同时揭示了准确性评估的内在困难。

语音大模型二语评估不确定性校准多维度评分保形校准语音处理
cs 03-19 00:00

Amanous:通过分布切换实现超越人类极限的钢琴演奏密度

本文提出Amanous系统,为雅马哈Disklavier自动钢琴设计了一种硬件感知的作曲框架。该系统通过“分布切换”统一了南卡罗夫的节奏卡农、泽纳基斯的随机分布和L系统语法三种传统方法,使L系统符号能够选择完全不同的分布机制,而非仅在固定参数族内调整。核心贡献包括:1)四层架构(符号、参数、数值、物理)产生统计差异显著的乐段;2)硬件抽象层建模了速度相关的延迟和琴键复位约束,确保超人类演奏密度在设备可执行范围内;3)密度扫描揭示了在每秒24-30个音符处存在计算饱和转变点;4)收敛点演算将节奏卡农几何结构转化为控制界面。系统已在实体钢琴上部署,展示了算法自洽性和亚毫秒级软件精度。

自动钢琴算法作曲分布切换硬件感知l系统超人类密度
cs 03-19 00:00

发展中国家微电网市场博弈:如何通过价格管制提升可再生能源占比

针对发展中国家普遍存在的柴油微电网垄断、污染严重且监管薄弱的问题,本文构建了一个双层博弈论模型。该模型允许家庭光伏发电接入微电网,并明确考虑了垄断性柴油发电机公司(DGC)的市场势力。监管者通过设定电价上限和上网电价补贴上限来最大化家庭经济剩余(HES),而DGC则作为利润最大化主体控制接入和供电。基于黎巴嫩的高分辨率实证数据,研究发现:价格管制能显著提升HES并激励家庭光伏并网;更高的DGC预算或光伏普及率能带来更大的HES收益;在基准条件下,微电网中可再生能源占比可达60%,在预算或光伏普及率足够高时接近100%,而现状下则为0%。

微电网优化博弈论模型可再生能源市场势力价格管制发展中国家
cs 03-19 00:00

CPMM:为自主AI代理网络构建基于HTTP 402的微经济框架

本文提出能力定价微市场(CPMM)框架,旨在为去中心化AI代理网络提供稳健、可扩展且安全的经济协调机制。该框架整合了基于密码学验证的能力安全与发现(Project NANDA)、支持高效微支付的HTTP 402扩展协议(X402/H402),以及安全的代理能力协商与绑定协议(ACNBP)。研究将代理交互形式化为不完全信息下的重复双边博弈,理论上证明CPMM机制能收敛至约束Radner均衡,确保信息不对称下的有效结果。核心理论贡献是引入“需求隐私弹性”概念,量化代理信息披露与其服务市场价格之间的权衡。

ai代理经济微支付协议能力安全博弈论均衡去中心化协调http 402
cs 03-19 00:00

AISA-AR-FunctionCall:通过数据为中心的微调实现可靠的阿拉伯语结构化工具调用

针对现有函数调用语言模型在阿拉伯语应用中存在严重结构不稳定的问题,本研究提出了AISA-AR-FunctionCall框架。该框架基于270M参数的FunctionGemma骨干模型,通过系统性的数据集审计、模式修复、工具感知提示重构和全参数监督微调进行训练。在测试集上,微调将解析失败率从87%降至1%以下,函数名称准确率提升超过八倍,并显著增强了跨方言和领域的参数对齐。错误分析表明,问题已从结构崩溃转向语义错位,揭示了序列化稳定性和决策级推理是可分离的挑战。研究还探索了在工具调用前引入显式中间推理的推理增强LoRA变体。

阿拉伯语nlp函数调用结构化输出数据中心微调工具调用多语言ai
cs 03-19 00:00

分布式计算中的时间认知:从物理基础到工程实践的十五年思想演进

本文作为补充材料,系统梳理了“范畴错误”框架与“仅向前时间”分析方法的十五年思想发展脉络。研究始于2014年斯坦福大学关于计算中时间物理学的讲座,在2016年与Leslie Lamport就“happened-before”关系的讨论中深化,最终通过Open Atomic Ethernet的工程实践成熟。核心发现是Lamport的时序关系隐含了时间认知的范畴错误,这一洞见直接解释了iCloud等分布式系统的设计缺陷,为重新思考分布式计算基础提供了物理与逻辑交叉的新视角。

分布式计算时间物理学范畴错误工程实践思想史
cs 03-19 00:00

TerraLingua:多智能体生态中涌现的开放性与文化累积机制

本文提出 TerraLingua,一个用于研究多智能体生态中开放性与文化累积动态的持久性仿真平台。与以往静态或无后果的模拟不同,该平台为智能体设置了资源约束与有限寿命,促使其创造超越个体存在的持久性“人工制品”,从而塑造未来的互动与选择压力。通过引入“AI 人类学家”对智能体行为、群体结构与制品演化进行系统分析,实验揭示了合作规范、劳动分工、治理尝试以及符合文化累积过程的制品谱系分支的涌现。不同实验结果的差异可追溯至特定的创新与组织结构。该平台为理解人工群体中的社会机制提供了基础,有助于引导现实世界智能体群体走向有益的社会结果。

多智能体系统文化累积开放性演化社会仿真人工制品演化ai人类学
cs 03-19 00:00

AlphaEarth嵌入空间揭秘:功能层次结构与高效维度选择

本研究提出了一种功能可解释性框架,用于逆向工程分析谷歌AlphaEarth地理空间基础模型(GAEF)的嵌入维度。通过结合大规模实验与基于特征重要性模式和渐进消融的结构分析,研究发现64维嵌入空间存在显著冗余,仅需2至12个维度即可实现98%的基线土地覆盖分类性能。嵌入维度呈现出从“专家”(关联特定土地类型)到“低/中/高通才”(捕获类别间共享特征或更广泛环境梯度)的层次化功能谱系。这揭示了嵌入空间不仅具有物理信息性,还具有功能层次结构,为实际分类任务中的维度选择提供了实用指南,有望大幅降低计算成本。

地理空间基础模型可解释性嵌入分析维度选择土地覆盖分类功能层次
cs 03-19 00:00

基于量化器感知的层次化神经编解码建模用于语音深度伪造检测

本研究提出了一种针对神经音频编解码器(RVQ)的层次化表示学习框架,用于语音深度伪造检测。该方法通过可学习的全局权重建模不同量化器层级对伪造线索的贡献,其中早期量化器编码粗粒度结构,后期量化器捕捉揭示合成伪影的残差细节。在保持语音编码器主干冻结、仅更新4.4%额外参数的情况下,该方法在ASVspoof 2019和ASVspoof5数据集上分别实现了46.2%和13.9%的相对等错误率下降。

语音伪造检测神经音频编解码残差向量量化层次化表示轻量化微调
cs 03-19 00:00

非合作博弈中人类与AI代理的交互动态研究

本研究探讨了在战略环境中人工智能代理与人类决策者之间的非合作交互动态。与现有研究不同,该工作采用行为经济学中的前景理论来更真实地建模人类代理的偏好(包含参考依赖和损失厌恶等认知启发式),而AI代理则采用标准期望效用最大化模型。通过在多种经典矩阵博弈和特定示例中进行广泛的数值模拟,对比了纯AI、知情人类和学习型前景代理(代表人类的AI)等不同组合下的涌现行为。研究发现了一些有趣的现象,包括难以区分的行为、证实前景理论偏好异常的行为以及一些意外结果。

人机博弈前景理论非合作博弈行为建模智能体交互
cs 03-19 00:00

美国女性使用生成式AI寻求性健康信息时的隐私与安全担忧

研究通过访谈18位美国女性发现,在罗诉韦德案被推翻后,她们因感知到生成式AI的实用性、易用性和可访问性而使用其寻求性健康信息,但普遍披露了敏感个人数据。用户识别出过度数据收集、政府监控、模型训练和数据商品化等多重隐私风险,尤其涉及堕胎查询时安全担忧加剧。多数人为换取实用价值而接受风险,仅采取最小化披露或删除数据等有限保护措施。研究建议设计健康专用功能并加强审核以提升安全性。

生成式ai性健康信息隐私风险用户研究数据安全人工智能伦理
cs 03-19 00:00

金融报告问答系统新突破:重排序技术显著提升RAG性能

针对金融分析师从动辄上百页的10-K报告中提取信息的难题,本研究构建了一个检索增强生成(RAG)系统。该系统采用结合全文与语义检索的混合搜索,并引入交叉编码器模型进行神经重排序。在包含1500个查询的FinDER基准数据集上的评估显示,重排序显著提升了答案质量:得分8分及以上的正确答案比例从33.5%提升至49.0%,完全错误的答案比例从35.3%降至22.5%。研究强调了重排序在金融RAG系统中的关键作用。

检索增强生成金融问答神经重排序混合检索10-k报告交叉编码器
cs 03-19 00:00

联邦多智能体深度学习:无线网络分布式感知的统一框架

本文综述了多智能体深度学习(MADL)在无线网络分布式感知与通信中的最新进展(2021-2025)。MADL为无线系统中紧密耦合的感知、通信与计算提供了统一的决策与推理框架。文章构建了任务驱动的分类体系,涵盖学习范式(如马尔可夫博弈、Dec-POMDPs)、神经架构(如图神经网络资源管理、注意力策略)、先进技术(如联邦强化学习、空中聚合)及应用领域(如移动边缘计算卸载、无人机异构网络)。同时,文章对比了不同算法在时延、频谱效率、隐私等方面的权衡,并指出了面向6G感知-通信-计算-学习系统的开放性挑战,包括可扩展性、非平稳性、安全性与实时性。

多智能体学习联邦学习无线网络分布式感知图神经网络6g通信
cs 03-19 00:00

HoloByte:基于连续超球面蒸馏的无分词器序列建模框架

本文提出HoloByte,一种无需离散分词的序列建模新框架。它通过可逆正交旋转算子将字节序列块映射到连续有界的超球面流形上,使宏观Transformer能在压缩的连续表示上运算,将精确注意力时间复杂度从$\mathcal{O}(N^2D)$降至$\mathcal{O}\left( \frac{N^2}{W^2}D + ND^2 \right)$。理论推导了确保无误差离散恢复所需的最小嵌入维度$D = \Omega(W \ln |\mathcal{V}|)$。在严格匹配参数约束下,HoloByte系统性地超越了基于字节对编码(BPE)的基线模型,为词汇表无关的序列建模提供了数学严谨且计算可行的新基础。

无分词器建模连续表示超球面蒸馏序列建模计算复杂度transformer
AI速览助手