今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-03-25 03-25 15:41

今日计算机科学领域研究呈现“模型高效化、能力多模态、应用垂直化”的鲜明趋势,重点关注大模型能力的扩展、效率提升及在专业领域的可靠应用。

  • 开源模型多模态能力演化:一项大规模谱系分析发现,开源大语言模型的多模态能力主要通过罕见的“奠基者事件”引入,随后在其后代中快速扩散,揭示了开源生态中能力传播的非线性路径。
  • 提升模型效率与稳定性的新方法:研究聚焦于降低模型计算与训练成本,例如通过稀疏特征注意力(SFA)降低Transformer长上下文计算开销,以及通过基于信息势能的奖励塑形(TIPS)提升搜索增强大模型训练的稳定性。
  • 轻量化与免训练技术成为热点:多个研究探索无需微调或仅需极少数据的方法,如在知识追踪(MERIT)、幻觉检测(基于最优传输)和不确定性估计(层间一致性)等任务中,旨在降低部署门槛并提升可解释性。
  • 专业领域应用的可靠性与适配性评估:研究深入评估大模型在金融决策、低资源语言(尼泊尔语)性健康咨询等垂直领域的表现,强调超越准确性的多维度评估(如文化适宜性、安全性),并构建专用基准(如CN-Buzz2Portfolio)以推动可靠应用。
  • 合成数据策略挑战传统认知:针对低资源语言构建文本嵌入模型的研究表明,小规模但经过精心设计的噪声合成数据,其效果可媲美传统的大规模高质量数据,为数据获取困难的场景提供了新思路。
  • 科学计算与工程问题的AI求解进展:AI方法被应用于求解偏微分方程(UniFluids框架)、提升台风预报精度(BaguanCyclone框架)以及优化城市交通信号控制(基于决策变换器),显示出解决复杂科学与工程问题的潜力。

2026-03-25 速览 · 计算机科学

2026-03-25 共 24 条抓取,按综合热度排序

← 返回日历
cs 03-25 00:00

开源大语言模型家族中多模态能力的演化:奠基者效应主导

本研究基于Hugging Face上超过180万个模型的元数据,量化分析了开源大语言模型家族中多模态能力的演化动态。研究发现,跨模态任务在2023年及2024年大部分时间内仍属罕见,但在2024-2025年间急剧增加,并以图像-文本视觉语言任务为主。多模态能力主要通过罕见的“奠基者事件”进入模型家族,随后在其后代谱系中快速扩张。谱系分析显示,从纯文本生成父模型微调出视觉语言模型的概率仅为0.218%,而94.5%的VLM子模型源自VLM父模型,表明跨类型能力转移微弱,多模态能力主要在现有VLM谱系内自我强化和多样化。

大语言模型多模态ai模型演化奠基者效应视觉语言模型开源生态
cs 03-25 00:00

大语言模型图表问答中提示策略的系统评估

本研究系统评估了四种主流提示策略(零样本、少样本、零样本思维链、少样本思维链)在GPT系列模型上进行图表问答的性能。实验基于ChartQA数据集,在1200个多样样本上发现:少样本思维链提示在推理密集型问题上表现最佳,准确率最高达78.2%;少样本提示有助于提升输出格式的规范性;而零样本策略仅在简单任务上对高性能模型有效。该研究为结构化数据推理任务中的提示策略选择提供了实用指导。

大语言模型提示工程图表问答思维链结构化数据模型评估
cs 03-25 00:00

MERIT:无需训练的知识追踪框架,结合大语言模型与结构化记忆提升可解释性

本文提出MERIT框架,旨在解决知识追踪任务中传统深度学习模型缺乏可解释性、大语言模型存在幻觉且微调成本高的问题。该框架无需训练,通过将学生交互日志转化为结构化记忆库,并利用语义去噪将学生归类到潜在认知模式。推理时,通过分层路由机制检索相关上下文,并应用逻辑增强模块进行语义约束校准。实验表明,MERIT在真实数据集上达到了最先进的性能,同时降低了计算成本并支持动态知识更新,提升了教育诊断的可访问性和透明度。

知识追踪大语言模型可解释ai教育技术记忆增强推理框架
cs 03-25 00:00

小规模噪声合成数据如何为低资源语言构建高效文本嵌入模型

本研究挑战了为低资源语言构建高质量文本嵌入模型需要大规模、高质量数据的传统假设。以亚美尼亚语为例,研究者仅使用开源自重模型翻译的1万条带噪声的英文Reddit标题-正文对作为合成数据,对多语言编码器mE5进行微调。实验发现,这种“少即是多”的策略在基准测试中带来了平均11-12%的性能提升,检索性能相对提升超过20%,其效果与使用约100万条数据训练的模型相当。研究进一步表明,增加数据规模、使用更先进的LLM提升翻译质量或增加数据多样性,均未带来显著超越此最小基线的收益。该发现表明,低资源语言的语义对齐性能会早期饱和,且对噪声具有高度鲁棒性,为资源受限社区创建高性能嵌入模型提供了新路径。

低资源语言文本嵌入噪声合成数据语义对齐多语言模型模型微调
cs 03-25 00:00

离线强化学习安全新方法:预算约束可达性分析

本文提出了一种新的离线安全强化学习方法,通过定义“安全条件可达集”来解耦奖励最大化与累积安全成本约束。该方法避免了传统方法中不稳定的极小极大对抗优化或拉格朗日优化,能够仅从固定数据集中学习安全策略,无需与环境交互。在标准离线安全RL基准和真实世界海上导航任务上的实验表明,该方法在保持安全性的同时,性能达到或超越了现有先进基线。

离线强化学习安全约束可达性分析累积成本无交互学习决策优化
cs 03-25 00:00

TIPS:基于信息势能的回合级奖励塑形提升搜索增强大模型训练稳定性

本文提出TIPS框架,通过基于势能的奖励塑形技术,为搜索增强大语言模型在开放域问答任务中的多轮推理和工具调用过程提供密集的回合级奖励。该方法利用教师模型计算正确答案的似然增量作为信息势能,解决了传统强化学习中稀疏奖励和信用分配困难的问题。在七个问答基准测试中,TIPS显著提升了训练稳定性与模型性能,例如在Qwen-2.5 7B模型上,其Exact Match和F1分数分别比PPO基线提高了11.8%和13.6%。

奖励塑形搜索增强llm强化学习开放域问答多轮推理训练稳定性
cs 03-25 00:00

基于嵌入空间的合成数据生成方法提升小模型推理性能

本研究提出了一种基于嵌入空间分析的合成数据生成方法,用于提升小型语言模型在复杂推理任务上的性能。研究发现,嵌入空间中特定邻域内的样本密度与模型在该区域预测准确率存在强相关性。基于此,作者设计了针对性的嵌入采样流程,通过优化生成数据的多样性和分布,在多个基准测试中实现了性能的稳定提升。该方法为高效利用大模型生成高质量训练数据提供了新思路。

合成数据生成嵌入空间大语言模型模型微调数据多样性
cs 03-25 00:00

大语言模型如何理解情感?机制可解释性揭示情感接收与分类的双重机制

本研究首次采用临床心理学中的情境性刺激(不含情感关键词),结合线性探测、因果激活修补、敲除实验和表征几何学四种机制可解释性方法,对六个大语言模型(Llama-3.2-1B, Llama-3-8B, Gemma-2-9B及其指令变体)的情感处理机制进行了检验。研究发现模型存在两种可分离的机制:情感接收(检测情感显著性内容)在所有模型中均表现出近乎完美的准确性(AUROC 1.000),且与早期层饱和一致;而情感分类(将情感映射到特定标签)则部分依赖于关键词,在无关键词时准确率下降1-7%,并随模型规模扩大而改善。因果激活修补证实,含关键词与不含关键词的刺激共享表征空间,传递的是情感显著性而非具体类别身份。

机制可解释性情感计算大语言模型临床心理学ai安全评估
cs 03-25 00:00

大语言模型不确定性估计新方法:利用层间一致性模式进行轻量级评估

本文提出了一种轻量级的大语言模型不确定性估计方法,通过单次前向传播分析模型内部表征的跨层一致性模式来评分。该方法在分布内评估中与复杂探测方法性能相当(AUPRC差异≤-1.8%,Brier分数差异≤+4.9),在跨数据集迁移和4位权重量化场景下表现更优,分别获得最高+2.86 AUPRC和+21.02 Brier分数提升。研究还通过分析特定层间交互揭示了不同模型编码不确定性的差异。

不确定性估计大语言模型层间一致性模型可解释性轻量级方法
cs 03-25 00:00

Sparse Feature Attention:通过特征稀疏化实现Transformer高效扩展

本文提出了一种名为稀疏特征注意力(SFA)的新方法,通过将查询和键表示为$k$-稀疏编码,将自注意力的计算成本从$\Theta(n^2 d)$降低到$\Theta(n^2 k^2/d)$,从而解决了Transformer扩展到超长上下文时面临的$O(n^2 d)$计算瓶颈。该方法在GPT-2和Qwen3预训练中,在保持与密集基线相同精度的同时,将速度提升高达2.5倍,并减少了近50%的FLOPs和KV缓存。实验表明,SFA在长上下文任务中保持了检索准确性和鲁棒性,为高效注意力机制开辟了新的探索方向。

注意力机制特征稀疏化transformer扩展高效计算长上下文建模
cs 03-25 00:00

大语言模型的潜在语义流形:几何视角下的离散化代价

本研究为大语言模型(LLMs)的内部表示提供了一个几何框架,将其视为黎曼子流形上的点,其中词汇标记对应流形的Voronoi区域。研究定义了“表达能力间隙”来衡量词汇离散化带来的语义失真,并证明了两条定理:任何有限词汇表下失真的率失真下界,以及通过余面积公式得出的表达能力间隙的线性体积缩放定律。在六个Transformer架构(1.24亿至15亿参数)上的验证,确认了普适的沙漏形内在维度剖面、平滑的曲率结构,以及斜率为0.87-1.12的线性间隙缩放(R² > 0.985)。边界附近表示的“硬核”揭示了困惑度的几何分解。

大语言模型几何表示黎曼流形表达能力间隙模型缩放内在维度
cs 03-25 00:00

基于K-means算法的学生特质聚类与职业发展路径适配研究

本研究利用K-means聚类算法,对超过3000名大学生的四级成绩、GPA、性格特质及学生干部经历等数据进行分析,将学生划分为四个主要群体。算法通过最小化簇内平方误差$\sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2$,确保同一簇内学生特质高度相似,不同簇间差异最大化。基于聚类结果,为每个群体提供针对性的职业指导建议。研究表明,不同特质组合的学生适配于不同的职业方向,为个性化就业指导提供了科学依据,有效提升了学生的就业成功率。

k-means聚类职业指导个性化教育学生特质分析机器学习应用
cs 03-25 00:00

基于最优传输的免训练幻觉检测器:通过分布复杂度评估大语言模型可信度

本文提出了一种无需训练的幻觉检测方法,通过分析大语言模型(LLM)在给定提示下生成响应的分布复杂度来判断其真实性。核心思想是将LLM的响应视为离散分布,并计算成对样本间词嵌入的最优传输(Wasserstein)距离,形成距离矩阵。基于该矩阵,提取两个互补信号:平均传输成本(AvgWD)和成本复杂度(EigenWD),用以量化分布的复杂程度。实验表明,该方法与强不确定性基线性能相当,且在不同模型和数据集上表现出互补性,为评估LLM可信度提供了有效的新信号。

幻觉检测最优传输大语言模型免训练方法分布复杂度wasserstein距离
cs 03-25 00:00

CN-Buzz2Portfolio:基于每日热门新闻的宏观与行业资产配置中文数据集与基准

本文提出了CN-Buzz2Portfolio,一个面向中国市场的可复现基准数据集,旨在评估大语言模型(LLM)作为金融决策代理的能力。该数据集将2024年至2025年中的每日热门财经新闻流映射到宏观及行业层面的资产配置任务,要求模型从高曝光度的市场叙事中提炼投资逻辑,而非基于预筛选的个股新闻。研究设计了一个包含压缩、感知和分配的三阶段代理工作流程,并专注于评估LLM在交易所交易基金(ETF)等广泛资产类别上的配置表现,以降低特质性波动。对九个LLM的广泛实验揭示了模型在将宏观叙事转化为投资组合权重方面存在显著差异,为通用推理与金融决策的对齐研究提供了新见解。

大语言模型资产配置金融数据集市场叙事投资决策中文市场
cs 03-25 00:00

UniFluids:基于条件流匹配的统一神经算子学习框架

本文提出UniFluids,一个基于条件流匹配的统一神经算子学习框架,用于求解不同维度与物理变量的偏微分方程。该框架利用扩散Transformer的可扩展性,通过统一的四维时空表示对异构PDE数据集进行联合训练与条件编码。研究发现PDE数据集的有效维度远低于其补丁维度,因此采用$x$-预测方法进行流匹配算子学习,显著提升了预测精度。实验表明,UniFluids在多个1D、2D和3D空间维度的PDE数据集上实现了高精度预测,并展现出良好的可扩展性与跨场景泛化能力。

神经算子偏微分方程流匹配统一学习扩散模型科学计算
cs 03-25 00:00

效率衰减现象:对思维语言假说的计算挑战

本研究通过多智能体强化学习实验,提出了“效率衰减现象”:当两个AI智能体通过协作演化出一种高效但难以理解的通信协议时,若强制其改用人类可理解的符号语言,协作效率会显著下降。在部分可观测的协作导航任务中,使用涌现协议的智能体效率比使用预设符号协议的智能体高出50.5%。这一结果表明,最优的协作认知可能并非由符号结构中介,而是与亚符号计算自然耦合,对经典的“思维语言假说”构成了计算层面的挑战。

思维语言假说多智能体强化学习涌现通信认知架构人工智能伦理符号与亚符号
cs 03-25 00:00

多模态CNN-LSTM框架结合多头注意力与Focal Loss实现实时老人跌倒检测

本文提出了一种名为MultiModalFallDetector的新型多模态深度学习框架,用于通过可穿戴传感器实现实时老人跌倒检测。该框架融合了多尺度CNN特征提取器、三轴加速度计、陀螺仪及四通道生理信号,并引入了多头自注意力机制进行动态时间加权。为解决严重的类别不平衡问题,采用了Focal Loss,并引入辅助活动分类任务进行正则化。在包含60-85岁老年人真实模拟跌倒试验的SisFall数据集上,该模型取得了F1分数98.7、召回率98.9和AUC-ROC 99.4的优异性能,显著优于传统机器学习及标准深度学习方法,且在边缘设备上保持低于50ms的推理延迟,适合在老年护理环境中实时部署。

跌倒检测多模态学习深度学习可穿戴传感器实时监测健康监护
cs 03-25 00:00

AI台风预报新突破:BaguanCyclone框架提升路径与强度预测精度

针对AI台风预报中因使用粗分辨率数据导致的路径离散化误差和强度平滑问题,本研究提出BaguanCyclone统一框架。该框架包含两个核心创新:1)概率中心细化模块,对台风中心连续空间分布建模,提升路径精度;2)区域感知强度预报模块,在台风核心动态定义的子网格区域利用高分辨率内部表征,以更好捕捉极端强度。在全球六大台风盆地的评估中,该系统在路径和强度预报上均优于多数数值天气预报模型和AI基线,尤其在台风再增强、急转弯、双台风等复杂气象事件中表现优异。

台风预报人工智能偏差校正气象预测深度学习
cs 03-25 00:00

基于决策变换器的应急车辆信号优先控制:无需在线探索的离线优化框架

本研究提出了一种基于决策变换器(DT)的离线强化学习框架,用于优化应急车辆(EV)的通行走廊。该方法将信号优先控制建模为离线、回报条件化的序列生成问题,无需在策略学习过程中与环境进行在线交互。通过单一的目标回报标量,即可实现对派遣级别紧急程度的灵活控制。在LightSim仿真平台上,该方法在4x4路网中将EV平均行程时间降低了37.7%(88.6秒 vs. 142.3秒),同时实现了最低的民用车辆延误(11.3秒/辆)和最少的EV停车次数(1.2次)。研究还扩展了多智能体决策变换器(MADT),利用图注意力机制进行空间协调,在8x8路网上进一步将行程时间降低了45.2%。

应急交通离线强化学习决策变换器信号优先多智能体协调序列建模
cs 03-25 00:00

ST-GDance++:可扩展的时空扩散模型,实现长时多人舞蹈生成

本研究提出ST-GDance++,一个用于从音乐生成多人长时编舞的可扩展框架。针对现有方法因双向注意力依赖导致计算复杂度高、难以部署的问题,该模型通过解耦时空依赖进行优化:空间上采用轻量级距离感知图卷积捕捉舞者间关系;时间上结合扩散噪声调度策略与高效的时间对齐注意力掩码,支持流式生成长序列动作。在AIOZ-GDance数据集上的实验表明,该方法在保持生成质量的同时显著降低了延迟。

舞蹈生成时空建模扩散模型图卷积网络可扩展ai
cs 03-25 00:00

评估大语言模型对尼泊尔语性健康咨询的回应质量

本研究针对大语言模型在敏感领域(如性健康)及低资源语言(尼泊尔语)中的应用,提出了一个名为LEAF的综合评估框架。该框架超越了传统的准确性评估,从准确性、语言、可用性(相关性、充分性、文化适宜性)和安全性(安全、敏感、保密)四个维度进行考量。通过对超过9000名用户提交的14000条尼泊尔语性健康查询的模型回应进行专家人工标注,研究发现仅有35.1%的回应是“恰当的”。研究还揭示了不同版本ChatGPT在准确率相近的情况下,其可用性与安全性表现存在差异。该框架为评估和改进模型在敏感话题上的表现提供了通用路径。

大语言模型评估性健康咨询低资源语言安全性评估文化适宜性尼泊尔语
cs 03-25 00:00

渐进量化:解决向量量化中过早离散化问题的新方法

向量量化(VQ)是多模态大语言模型和扩散合成中标记化的基石,但现有方法存在过早离散化问题,即在编码器充分捕获数据流形前就强制离散化。本文提出渐进量化(ProVQ),将量化硬度动态作为VQ训练中一个被忽视但根本的维度,将量化视为从连续潜在空间平滑退火到离散空间的课程,有效引导码本朝向充分展开的流形。实验表明,ProVQ在ImageNet-1K和ImageNet-100基准上提升了重建和生成性能,并在蛋白质结构标记化任务中创下新纪录。

向量量化渐进量化多模态模型标记化生成模型蛋白质结构
cs 03-25 00:00

Memory Bear AI:基于记忆科学的多模态情感智能引擎技术报告

本文提出了Memory Bear AI记忆科学引擎,一个以记忆为中心的多模态情感智能框架。该框架将情感信息建模为记忆系统中结构化且持续演化的变量,而非瞬态输出标签。其核心是将多模态信号转换为结构化情感记忆单元,通过记忆形成、聚合、巩固、检索、融合校准与持续更新等过程,使情感信息能在交互过程中被保存、激活与修正。实验表明,该框架在基准和实际业务场景中均优于对比系统,尤其在噪声或模态缺失条件下表现出更强的准确性与鲁棒性。

多模态情感识别记忆科学情感计算人工智能鲁棒性
cs 03-25 00:00

基于条件扩散模型的全波形反演方法:利用密度信息提升地下结构成像精度

本研究提出了一种基于条件扩散模型正则化的全波形反演方法,以解决传统方法因高度非线性而陷入局部最优的问题。通过改进扩散模型的骨干网络结构,将二维密度信息作为条件输入引入U-Net网络,从而利用速度与密度等物理属性间的固有耦合关系来约束反演过程。实验结果表明,该方法显著提升了反演结果的分辨率和结构保真度,在处理复杂情况时表现出更强的稳定性和鲁棒性,具有良好的实际应用价值。

全波形反演扩散模型深度学习地球物理成像条件生成
AI速览助手