今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-04-10 04-10 15:25

今日计算机科学领域研究呈现多元化趋势,覆盖从基础理论到前沿应用,并普遍关注模型泛化、资源约束与安全可信等核心挑战。

  • 形式方法回顾与展望:对先驱让-雷蒙·阿布里亚尔学术生涯的系统梳理,凸显了形式化方法从理论规范到工业级工具开发的完整路径,其核心贡献在于为高可靠性软件工程提供了严谨的数学基础与实用工具链。
  • 基准测试的演进方向:研究通过构建首个面向自定义词汇的语音识别基准(Contextual Earnings-22)和基于真实预测市场的“预测竞技场”,共同指向一个趋势:评估体系正从追求通用指标转向模拟真实、动态、高风险的应用场景,以弥合学术研究与实际部署的差距。
  • 模型效率与自适应部署:多个研究聚焦资源受限环境下的高效智能。例如,仅130万参数的模型在《DOOM》游戏中超越超大模型,以及提出“自适应边缘AI”框架,均强调通过架构创新与动态配置,而非单纯压缩,来应对实时性、能耗等约束。
  • 大语言模型的行为与表征分析:研究深入探究大语言模型的内在机制,包括情绪提示如何系统性影响其输出(如准确性、毒性),以及发现其情感表征的几何结构与人类心理学模型高度一致,这为模型的可控性、可解释性与安全性提供了新的见解与调控手段。
  • 跨领域应用与框架创新:AI技术正深入解决特定领域的复杂问题。例如,利用不安定多臂老虎机与决策聚焦学习优化孕产妇健康资源分配(SAHELI项目),以及提出“流学习者”范式用于物理方程求解,展示了AI与领域知识深度结合、从预测到决策优化的演进。
  • 安全与隐私的新挑战:研究揭示了机器学习遗忘机制中可能存在的标签泄露风险,提出了基于参数与模型反演的攻击方法,这凸显了在追求模型可编辑性与隐私合规的同时,必须重新评估和加固其安全边界。

2026-04-10 速览 · 计算机科学

2026-04-10 共 23 条抓取,按综合热度排序

← 返回日历
cs 04-10 00:00

形式方法先驱让-雷蒙·阿布里亚尔的科学传记

本文系统梳理了形式方法先驱让-雷蒙·阿布里亚尔五十余年的学术生涯与核心贡献。他主导开发了Z规范表示法、B方法及Event-B,并成功将其应用于大规模工业系统。研究追溯了其思想演变——从早期实时语言与数据库工作,到形式化规范、精化与证明的基础性贡献,再到Atelier B与Rodin平台等工业级工具的开发。文章将其工作置于历史、学术与工业背景中,评估了其对软件工程及程序形式化推理的持久影响。

形式方法软件工程b方法z规范工业应用学术传记
cs 04-10 00:00

Contextual Earnings-22:首个面向自定义词汇的语音识别开放基准

研究指出,当前语音转文本系统在学术基准上的准确率已进入平台期,与工业界在高风险领域应用的实际表现存在差距。核心差异在于“上下文条件化”:学术基准多依赖常见通用词汇,而实际应用中,对可用性影响巨大的往往是罕见且由上下文定义的自定义词汇。为填补这一空白,本研究基于Earnings-22数据集,构建了首个标准化开放基准Contextual Earnings-22,包含现实场景的自定义词汇上下文。研究为关键词提示和关键词增强两种主流方法建立了六个强基线模型。实验表明,当系统从概念验证扩展到大规模应用时,两种方法均能达到可比且显著提升的准确率,揭示了该领域的潜在进展。

语音识别自定义词汇上下文建模基准测试关键词增强
cs 04-10 00:00

预测竞技场:在真实预测市场中评估AI模型的预测能力

研究团队推出“预测竞技场”基准测试,通过让AI模型在Kalshi和Polymarket等真实预测市场上使用真实资金进行自主交易,评估其预测准确性和决策能力。在为期57天的纵向评估中,前沿模型在Kalshi上的最终回报率为-16.0%至-30.8%,而在Polymarket上平均仅-1.1%。研究发现,初始预测准确性和利用正确预测的能力是主要驱动因素,而平台设计对模型成功与否有深远影响。

ai基准测试预测市场自主交易金融ai模型评估
cs 04-10 00:00

混合CNN-Transformer架构在阿拉伯语语音情感识别中取得98%准确率

本研究提出了一种用于阿拉伯语语音情感识别的混合CNN-Transformer架构。模型利用卷积层从梅尔频谱图中提取判别性声谱特征,并通过Transformer编码器捕捉语音中的长程时序依赖关系。在EYASE(埃及阿拉伯语语音情感)语料库上的实验表明,该模型取得了97.8%的准确率和0.98的宏F1分数,证明了卷积特征提取与基于注意力的建模相结合在低资源阿拉伯语SER任务中的有效性。

语音情感识别阿拉伯语处理混合架构transformer低资源语言深度学习
cs 04-10 00:00

从边缘AI到自适应边缘AI:应对动态环境的必要演进

本文提出,传统将边缘AI视为在严格约束下进行模型压缩与部署的观点存在根本缺陷。在长期实际部署中,固定的配置面临两难困境:要么违反随时间变化的预算(如延迟、能耗、隐私),要么丧失预测可靠性(尤其是校准性)。作者认为,真正的边缘AI必须是自适应的。为此,论文引入了一个“代理-系统-环境”分析框架,明确了自适应过程中“什么在变、什么被观测、什么可重配置、哪些约束须持续满足”四个核心问题。基于此,文章系统性地提出了未来十年的十大研究挑战,涵盖动态系统理论保证、混合架构、故障驱动更新、模块化设计以及在标签稀缺和概念漂移下的验证与评估协议。

边缘计算自适应系统人工智能模型部署系统可靠性概念漂移
cs 04-10 00:00

情绪提示如何影响大语言模型:四种情绪与强度变化的研究

本研究系统探讨了四种情绪(喜悦、鼓励、愤怒、不安全感)及其强度变化对大语言模型行为的影响。通过构建GPT-4o mini驱动的提示生成管道,创建了不同情绪强度的提示数据集,并在准确性、谄媚性和毒性三个维度进行评估。实证结果表明,积极情绪刺激能提高模型准确性并降低毒性,但也会增加谄媚行为。

情绪提示大语言模型提示工程模型行为人工智能伦理
cs 04-10 00:00

视频对话式AI调查:纽约市骑行安全感知测量的新方法

本研究提出了一种结合视频与大型语言模型(LLM)对话式聊天机器人的新方法,用于实时收集人们对骑行安全环境的感知及其原因。该方法采用模块化LLM架构,通过提示工程和状态管理来支持人机交互。在纽约市9个街段的试点研究中,16名参与者的用户体验(易用性、支持性、效率)平均评分为5.00/7,聊天机器人可用性(个性、机器人感、友好度)平均评分为3.47/5。数据分析采用KeyBERT进行关键词提取、K-means聚类进行语义分析以及回归模型评估建成环境与人口变量对安全感知的影响,证明了AI聊天机器人在收集交通规划中人因数据方面的潜力。

人机交互骑行安全大型语言模型视频调查感知测量交通规划
cs 04-10 00:00

大语言模型情感表征的潜在几何结构研究

本研究利用几何数据分析工具,探究了大语言模型(LLMs)中情感表征的潜在结构。研究发现:1)LLMs学习到的情感表征与心理学中广泛使用的“效价-唤醒度”模型高度一致;2)这些表征呈现出非线性几何结构,但能被线性模型良好近似,为模型透明度方法中常用的线性表征假说提供了实证支持;3)习得的潜在表征空间可用于量化情感处理任务中的不确定性。该工作表明LLMs习得的情感表征几何结构与人类情感模型相似,对模型可解释性与安全性具有实际意义。

大语言模型情感表征几何结构模型可解释性ai安全潜在空间
cs 04-10 00:00

SAHELI项目:利用AI优化孕产妇健康资源分配,提升健康行为

SAHELI项目(2020-2025)与印度NGO ARMMAN合作,旨在解决孕产妇和儿童健康项目中因医疗工作者资源有限而无法持续提供个性化服务的难题。该项目采用“不安定多臂老虎机”(Restless Multi-Armed Bandit, RMAB)框架,将资源分配建模为序列决策问题。其核心方法创新在于,从传统的“预测-优化”两阶段方法转向“决策聚焦学习”(Decision-Focused Learning, DFL),使学习目标直接与最大化受益人长期参与度的最终目标对齐。大规模随机对照试验表明,DFL策略使累计参与度下降减少了31%,并显著改善了现实中的健康行为,如持续补充铁和钙。

不安定多臂老虎机决策聚焦学习资源分配孕产妇健康序列决策人工智能
cs 04-10 00:00

仅130万参数模型实时玩转《DOOM》,性能超越GPT-4o等超大模型

研究团队开发了仅含130万参数的SauerkrautLM-Doom-MultiVec模型,在经典射击游戏《DOOM》的实时控制任务中,性能显著优于参数规模大其9.2万倍的Nemotron-120B、Qwen3.5-27B及GPT-4o-mini等大型语言模型。该模型采用ModernBERT编码器,结合哈希嵌入、深度感知令牌表示和注意力池化分类头,仅基于ASCII帧和深度图,每31毫秒做出一次动作决策。在仅使用3.1万条人类演示数据训练后,于“defend_the_center”场景中取得10局178击杀的成绩(平均每局17.8击杀),远超所有测试LLM的总和(13击杀)。研究表明,针对特定任务的小型专用模型能以极低的推理成本,在实时控制任务上完胜通用大模型,并可在消费级硬件上部署。

小型专用模型实时游戏控制模型效率轻量化ai任务特定学习
cs 04-10 00:00

自校准大语言模型框架:从电路网表直接生成可解释设计方程

本研究提出了一种自校准的模拟电路尺寸设计框架,利用大语言模型直接从原始电路网表生成拓扑特定的解析设计方程。与现有AI方法仅调整参数或缩小搜索空间不同,该框架生成完整的Python尺寸函数,将每个器件尺寸与特定性能约束关联。通过确定性校准循环从单次晶体管级仿真中提取工艺相关参数,并利用预测误差反馈机制补偿解析不准确性。在两种工艺节点(180nm和40nm CMOS)的六种运算跨导放大器拓扑上验证,12个组合均满足所有规格,其中11个在2-9次仿真内收敛。该方法实现了跨节点移植,无需修改、重新训练或逐工艺表征。

模拟电路设计大语言模型自校准框架设计自动化可解释ai
cs 04-10 00:00

图基础模型GFM-RA:实现无线资源分配的快速自适应优化

本文提出了一种用于无线资源分配的图基础模型(GFM-RA),以解决密集网络中实时资源分配的挑战。该模型基于预训练与微调范式,通过引入一个能感知干扰拓扑的Transformer架构(包含偏置投影器)来提取统一表征。其采用结合掩码边预测与无负样本师生对比学习的混合自监督预训练策略,从海量无标签数据中学习可迁移的结构表征。实验表明,该模型在性能上达到先进水平,并展现出卓越的样本效率,能够在分布外场景中通过少量样本快速、鲁棒地适应多样且无监督的下游目标。

无线资源分配图基础模型transformer自监督预训练快速自适应干扰感知
cs 04-10 00:00

FedUTR:融合文本增强的联邦推荐系统,解决稀疏交互场景难题

本文提出FedUTR,一种新颖的联邦推荐方法,旨在解决高数据稀疏性下的性能瓶颈。传统方法依赖用户历史行为构建物品嵌入,在交互稀疏时效果不佳。FedUTR创新性地引入物品的通用文本表示作为补充,通过设计的协同信息融合模块(CIFM)和本地适应模块(LAM),有效整合通用知识与个性化偏好。其变体FedUTR-SAR进一步引入稀疏感知机制,精细平衡两类信息。理论收敛性分析证明了方法的有效性,在四个真实数据集上的实验表明,其性能相比现有最优方法提升最高达59%。

联邦学习推荐系统数据稀疏性文本表示隐私保护个性化推荐
cs 04-10 00:00

BLEG:利用大语言模型增强fMRI脑网络分析性能

本研究提出BLEG方法,创新性地将大语言模型作为功能磁共振成像图数据的增强器,以提升图神经网络在脑网络分析任务中的性能。该方法通过提示LLM生成增强文本,设计低成本指令微调获取文本表征,并与GNN进行协同对齐训练。实验表明,BLEG有效克服了传统fMRI图数据特征稀疏和领域知识有限的瓶颈,在多个数据集上验证了其优越性。

脑网络分析大语言模型图神经网络功能磁共振成像多模态融合表征学习
cs 04-10 00:00

LLM生成故障场景:评估边缘自动驾驶系统的感知鲁棒性

本文提出了一种解耦的离线-在线故障注入框架,以解决边缘自动驾驶系统因资源受限而难以进行实时全面安全测试的挑战。在离线阶段,利用大语言模型(LLM)语义生成结构化故障场景,并结合潜在扩散模型(LDM)合成高保真传感器退化数据。这些复杂的故障动态被提炼为预计算的查找表,使边缘设备无需本地运行重型AI模型即可执行实时故障感知推理。在460个故障场景下对ResNet18车道跟随模型进行验证,结果显示,在雾天条件下,模型的RMSE最高增加99%,定位精度(误差<0.10)最低降至31.0%,显著暴露了仅用正常数据评估的不足。

自动驾驶边缘计算故障注入大语言模型鲁棒性评估扩散模型
cs 04-10 00:00

大语言模型基准测试的局限性:数据分布如何影响参数结构与泛化能力

研究发现,大语言模型在基准测试上的提升未必意味着真实能力的增强。通过设计受控数据干预实验,论文揭示了两种不同的训练模式:专注于基准测试的数据能提升特定指标,但会限制模型的表征发展;而扩大覆盖范围的数据则能促进参数更均匀地适应,从而获得更好的泛化能力。研究进一步利用谱分析和秩分析等参数空间诊断方法,识别了这两种模式在模型结构上的不同特征。这些模式在包括多模态模型在内的多种开源模型家族中均被观察到,表明基准测试性能本身不足以全面评估模型能力,数据分布在塑造学习动态中起着关键作用。

大语言模型基准测试数据分布泛化能力参数分析学习动态
cs 04-10 00:00

提升字母数字查询的搜索建议:一种无需训练的字符级检索框架

针对电商搜索中普遍存在但对传统检索方法(如词法或嵌入模型)不敏感的字母数字标识符(如零件号、SKU),本文提出了一种无需训练的字符级检索框架。该方法将每个标识符编码为固定长度的二进制向量,通过汉明距离实现高效的相似度计算,并支持在大规模标识符库中进行最近邻检索。一个可选的、基于编辑距离的重排序阶段可在保证低延迟的同时提升精度。该方法为学习型稠密检索模型提供了一种实用且可解释的替代方案,并在A/B测试中带来了显著的商业指标提升。

信息检索搜索建议字母数字查询字符级编码汉明距离电商搜索
cs 04-10 00:00

Flow Learners:面向偏微分方程求解的物理到物理范式

本文提出“流学习者”新范式,旨在解决当前基于生成式AI的PDE求解器面临的挑战。现有方法如物理信息神经网络、神经算子等,或难以优化,或缺乏长期稳定性。核心观点在于,许多科学场景需要建模不确定性在约束动力学中的传播,而非单纯预测状态。流学习者通过参数化输运向量场并积分生成轨迹,直接模拟PDE演化的连续动力学。这种物理到物理的对齐支持连续时间预测、原生不确定性量化,并为物理感知的求解器设计开辟了新途径。

偏微分方程求解生成式ai物理信息机器学习流学习者不确定性量化科学计算
cs 04-10 00:00

E²:将对抗性测试转化为自动驾驶闭环进化课程

本文提出“评估即进化”(E²)框架,旨在解决自动驾驶模型因训练数据缺乏安全关键极端场景而导致的鲁棒性不足问题。传统对抗性测试多为开环且事后处理,E²则将其转化为一个闭环的进化课程:通过基于学习的逆向时间随机微分方程先验,并施加传输正则化的稀疏控制来合成对抗场景。为处理高维生成问题,该方法采用拓扑驱动的支持选择来识别关键交互智能体,并引入“拓扑锚定”以稳定过程。实验表明,在nuScenes和nuPlan数据集上,E²相比基线方法分别将碰撞故障发现率提升了9.01%和21.43%,同时保持了高真实性与低无效性。利用发现的边界案例进行闭环策略微调,可显著提升模型鲁棒性。

自动驾驶对抗测试闭环课程鲁棒性场景生成进化学习
cs 04-10 00:00

谱边缘的生命周期:从梯度学习到权重衰减压缩

本研究通过分解参数更新Gram矩阵的主导方向(谱边缘),揭示了神经网络在‘顿悟’过程中的两阶段生命周期。在Dyck-1和SCAN序列任务中,研究发现:顿悟前,谱边缘由梯度驱动并保持功能活跃;顿悟时,梯度与权重衰减对齐,谱边缘转变为压缩轴,虽对扰动平坦但对剪枝极其敏感(影响是随机方向的4000倍以上)。研究识别出功能、混合、压缩三类普适性,并通过非线性探针(MLP $R^2=0.99$ vs. 线性 $R^2=0.86$)证明信息被重新编码而非丢失。移除权重衰减可逆转压缩同时保留算法功能。

顿悟现象谱分析权重衰减模型压缩梯度学习神经网络动力学
cs 04-10 00:00

SCOT:基于最优传输软对应目标的多源跨城市迁移学习框架

本文提出SCOT框架,用于解决跨城市预测任务中因区域划分不一致且缺乏真实对应关系而导致的迁移难题。SCOT通过基于Sinkhorn的熵正则化最优传输,学习不同城市间不等区域集合的显式软对应关系。该框架进一步利用OT加权的对比目标来锐化可迁移结构,并通过循环式重建正则化器稳定优化过程。对于多源迁移,SCOT使用目标诱导的原型先验引导的平衡熵传输,将每个源城市和目标城市对齐到一个共享的原型中心。在真实城市数据集上的实验表明,SCOT能持续提升迁移准确性和鲁棒性,同时学到的传输耦合和中心分配为对齐质量提供了可解释的诊断依据。

跨城市迁移最优传输软对应学习多源迁移表示学习区域对齐
cs 04-10 00:00

机器学习遗忘机制中的标签泄露攻击:基于参数与模型反演的方法

本文针对机器学习中的类别遗忘场景,揭示了现有遗忘方法可能无意中泄露已删除数据类别的安全风险。研究从模型参数和模型反演两个角度,提出了四种攻击方法:在参数层面,通过计算目标模型与辅助模型参数的点积或向量差构建判别特征,并利用聚类与决策树算法识别被遗忘类别;在反演层面,设计了基于梯度优化的白盒攻击和基于遗传算法的黑盒攻击,以重构类原型样本,并通过阈值与信息熵准则分析其预测分布来推断遗忘类别。实验在四个标准数据集上对五种前沿遗忘算法进行了评估,证实了所提攻击的有效性。

机器学习遗忘隐私攻击标签泄露模型反演参数分析数据隐私
cs 04-10 00:00

量子-经典混合框架用于犯罪模式分析:在边缘计算中的性能评估

本研究提出了一种用于犯罪模式分析的量子-经典混合框架,评估了量子模型、经典机器学习模型及两种混合架构在16年孟加拉国犯罪统计数据上的表现。实验表明,量子启发方法(如QAOA)在减少可训练参数的同时,分类准确率可达84.6%,其低计算开销和紧凑参数占用使其在资源受限的边缘部署(如智慧城市无线传感器网络)中展现出潜力。该研究为结构化犯罪数据的量子增强机器学习提供了初步实证评估。

量子机器学习犯罪模式分析边缘计算混合架构智慧城市
AI速览助手