今日速览 · Fortune Health

cs 04-06 00:00

Holos：面向Agentic Web的Web级LLM多智能体系统

本文提出Holos，一个为长期生态持久性设计的Web级LLM多智能体系统，旨在解决开放世界中智能体系统的扩展摩擦、协调崩溃和价值耗散问题。其核心采用五层架构，包含高效智能体生成与托管引擎Nuwa、市场驱动的弹性协调器Orchestrator，以及实现激励相容的内生价值循环。该系统通过弥合微观协作与宏观涌现之间的鸿沟，为下一代自组织、持续演化的Agentic Web奠定了基础。

多智能体系统大语言模型agentic web自组织协调机制价值循环

cs 04-06 00:00

基于卷积神经网络的3D裂隙介质等效渗透率张量快速升尺度方法

本研究提出了一种用于三维裂隙结晶岩介质中地下水流动模拟的卷积代理模型。该模型旨在替代计算昂贵的精细尺度离散裂隙-基质模拟，通过3D卷积神经网络结合前馈层，从表征基质和裂隙渗透率张量随机场的体素化3D域中，直接预测等效水力传导率张量 $\mathbf{K}_{\text{eq}}$。模型在由不同裂隙-基质导水率比生成的DFM模拟数据上进行训练，在广泛的裂隙网络参数和基质场相关长度范围内，归一化均方根误差低于0.22。实际应用表明，该代理模型在保持精度的同时，将计算成本降低了超过100倍，为多级蒙特卡洛框架中的数值均质化提供了高效替代方案。

裂隙介质模拟深度学习代理模型数值均质化地下水流动3d卷积神经网络计算加速

cs 04-06 00:00

LiME：轻量级专家混合模型，高效实现多模态多任务学习

本文提出LiME（轻量级专家混合模型），解决了传统MoE-PEFT方法中专家数量增加导致可训练参数线性增长的问题。LiME通过单一共享的PEFT模块和轻量级专家向量进行调制，而非为每个专家复制适配器，从而大幅减少参数。其创新点包括零参数路由（利用现有冻结和适配的表征）、n-gram窗口路由以及基于路由置信度的自适应专家选择（Auto Top-K）。理论证明，更多专家能保留更多任务相关信息，且调制方法能以有界误差逼近完整的专家特定PEFT。在包含47个跨文本、图像和视频任务的MMT-47基准测试中，LiME在性能相当或更优的同时，可训练参数减少高达4倍，训练速度提升高达29%。

专家混合模型参数高效微调多模态学习多任务学习轻量级调制零参数路由

cs 04-06 00:00

SIEVE：仅需三个示例的自然语言参数学习新方法

SIEVE 提出了一种从自然语言上下文（如指令、知识或反馈）中进行样本高效参数学习的新方法，仅需三个查询示例。其核心是 SIEVE-GEN 合成数据生成流程，基于“上下文可分解”的洞见，通过将合成查询仅与相关上下文配对，而非全部上下文，来生成更高质量的推演数据，再通过上下文蒸馏将上下文内化到模型权重中。在需要上下文的推理任务（如自定义领域、RuleArena 和单书机器翻译）中，SIEVE 仅用三个示例就超越了先前的上下文蒸馏方法，实现了高效的参数适应。

样本高效学习参数学习上下文蒸馏自然语言处理合成数据生成模型适应

cs 04-06 00:00

扩散模型采样加速新策略：差异化调度不同去噪步骤的模型规模

本文针对掩码扩散语言模型采样成本高的问题，提出了一种模型调度方法。研究发现，在扩散去噪过程中，早期和后期步骤对模型规模缩减的鲁棒性更强，而中间步骤最为敏感。通过使用更小的模型替换部分步骤中的大模型，可以在生成困惑度仅有轻微下降的情况下，实现高达17%的FLOPs减少。该研究通过损失分析和KL散度验证了步骤重要性差异，为加速扩散模型采样提供了一种简单且与架构无关的实用方案。

扩散模型模型调度采样加速语言模型计算效率

cs 04-06 00:00

PROGRS：利用过程奖励提升大语言模型数学推理能力

本研究提出PROGRS框架，旨在解决大语言模型数学推理中过程奖励模型与最终答案正确性不一致的问题。传统方法仅优化最终结果，对多步推理的中间错误指导有限。PROGRS将过程奖励视为同一问题下不同答案轨迹间的相对偏好，而非绝对目标，并引入结果条件中心化技术，消除错误轨迹的系统性偏差。该方法结合冻结的分位数回归过程奖励模型与多尺度一致性评估器，无需额外可训练组件，在MATH-500等多个数学推理基准测试中显著提升了Pass@1性能。

大语言模型数学推理强化学习过程奖励结果条件中心化相对偏好优化

cs 04-06 00:00

仅用10比特实现模型能力迁移：交互式压缩解锁LLM知识高效传输

本研究探索了基于大语言模型（LLM）的文本压缩技术，在无损与有损压缩两个方向上取得突破。在无损压缩方面，通过领域适配的LoRA适配器，可将基于LLM的算术编码压缩效率提升2倍。在有损压缩方面，提出“问答式压缩”（QA）协议，受“二十个问题”游戏启发，让小模型通过向大模型提出是/否问题（每次传输仅1比特）来迭代优化自身响应。在8个涵盖数学、科学和代码的基准测试中，仅10个二进制问题就能恢复小模型与大模型之间23%至72%的能力差距，压缩比低至$0.0006$至$0.004$，比现有LLM压缩方法小100倍以上，证明交互式协议能极大提升知识传输效率。

大语言模型压缩交互式协议知识迁移算术编码有损压缩lora适配器

cs 04-06 00:00

WebGPU在LLM推理中的调度开销：跨四家GPU厂商、三种后端与浏览器的系统评测

本研究系统评测了WebGPU在批大小为1的LLM推理中的调度开销，覆盖NVIDIA、AMD、Apple、Intel四家GPU厂商、Dawn/wgpu-native两种原生实现、Chrome/Safari/Firefox三种浏览器及两种模型规模。核心贡献在于提出了一种顺序调度方法，揭示出简单的单操作基准测试会高估约20倍的调度成本。真实WebGPU API开销在Vulkan上为24-36μs，Metal上为32-71μs，包含Python成本的总操作开销约为95μs，这对优化至关重要。在Vulkan上，内核融合使吞吐量提升53%，而CUDA融合无收益，证实了每操作开销是主要差异点。研究构建了基于PrivateUse1的PyTorch后端torch-webgpu和FX-to-WebGPU编译器，在参考平台上达到CUDA性能的11-12%。结论指出，在当前调度密集的流水线下，无论内核质量如何，每操作开销都占主导地位。所有代码、基准测试和原始数据均已开源。

webgpullm推理调度开销gpu性能内核融合跨平台评测

cs 04-06 00:00

UI-Oceanus：通过合成环境动态扩展GUI智能体，突破数据瓶颈

本文提出UI-Oceanus框架，旨在解决通用GUI智能体扩展中的数据瓶颈和“蒸馏天花板”问题。其核心创新在于将学习重点从模仿高级轨迹转向通过真实环境反馈掌握交互物理。研究发现，前向动力学（即对未来界面状态的生成式预测）是扩展性的主要驱动力，显著优于逆向推理。该方法将低成本自主探索转化为高密度生成式监督，构建鲁棒的世界模型。实验表明，基于合成动态持续预训练的模型在离线基准测试中平均成功率提升7%，在真实在线导航中增益达16.8%，且性能随合成数据量扩展，为GUI自动化提供了具有跨域适应性和组合泛化能力的可扩展路径。

gui智能体前向动力学合成数据自主探索世界模型可扩展ai

cs 04-06 00:00

DrugPlayGround：评估大语言模型在药物发现中的性能基准框架

本文针对大语言模型在药物发现领域应用缺乏客观评估的问题，提出了一个名为DrugPlayGround的基准测试框架。该框架旨在系统评估LLMs在生成药物理化特性、药物协同作用、药物-蛋白质相互作用以及药物分子扰动生理反应等文本描述方面的性能。其核心贡献在于不仅测试模型的预测能力，还通过与领域专家协作，要求模型为预测提供详细解释，从而评估其化学与生物学推理能力，以推动LLMs在药物发现全流程中的更广泛应用。

药物发现大语言模型基准测试生物医学推理人工智能

cs 04-06 00:00

OPRIDE：通过数据集内探索提升离线偏好强化学习查询效率

本研究针对离线偏好强化学习（PbRL）中人类反馈获取成本高、查询效率低的问题，提出了OPRIDE算法。该算法通过设计一种最大化查询信息量的探索策略，以及一个旨在缓解奖励函数过拟合的折扣调度机制，有效解决了低效探索和奖励过优化两大瓶颈。理论分析和在运动、操控、导航等多种任务上的实验表明，OPRIDE能以显著更少的查询次数，超越现有方法，实现更强的性能。

离线强化学习偏好学习查询效率探索策略奖励函数机器人学习

cs 04-06 00:00

可微分符号规划：一种用于约束推理的神经架构，通过学习可行性实现

本文提出了一种名为可微分符号规划（DSP）的新型神经架构，旨在解决神经网络在约束推理方面的短板。DSP通过维护一个跟踪节点约束满足证据的可行性通道（$\phi$），将其聚合成全局可行性信号（$\Phi$），并利用稀疏最大注意力机制实现精确的离散规则选择。该架构被集成到通用认知内核（UCK）中，结合了图注意力与迭代约束传播。在三个约束推理基准测试（图可达性、布尔可满足性、规划可行性）上的评估表明，UCK+DSP在4倍规模泛化的规划任务上达到97.4%的准确率，显著优于基线模型（59.7%），并在正负样本上均保持平衡性能。消融研究揭示了全局$\phi$聚合的关键作用。

可微分推理符号规划约束满足神经符号ai图注意力网络

cs 04-06 00:00

对比提示调优：让大语言模型生成更节能的代码

本研究探索了如何优化大语言模型（LLM），使其生成更节能的代码，以支持绿色软件开发。研究者采用了一种名为对比提示调优（CPT）的参数高效微调方法。该方法结合了对比学习（帮助模型区分高效与低效代码）和提示调优，成本远低于传统微调。在Python、Java和C++三种语言的编码问题上对三个模型进行评估，结果显示CPT能稳定提升其中两个模型的代码准确性，但节能效果的提升因模型、编程语言和任务复杂度而异，表明其改进并非在所有情况下都可靠。

绿色计算大语言模型代码生成能效优化对比学习提示调优

cs 04-06 00:00

PRISM：通过可解释策略映射实现强化学习策略复用

PRISM框架将强化学习智能体的决策过程解耦为离散、可因果验证的“概念”，并以此作为不同算法训练出的智能体之间进行零样本知识迁移的接口。该方法通过K-means聚类将编码器特征映射为K个概念，并通过因果干预验证了概念对行为的直接驱动作用（干预后动作改变率达69.4%）。研究发现概念使用频率与重要性解耦，并证明通过对齐概念可实现策略的零样本迁移，在Go 7×7任务中，迁移后智能体胜率从基准的3.5%提升至最高76.4%。

强化学习策略迁移可解释ai因果干预概念对齐

cs 04-06 00:00

熵引导优化：通过不确定性分配提升文本到图像生成稳定性

本研究通过熵分析揭示了思维链（CoT）与强化学习（RL）在文本到图像生成中的交互机制：CoT扩展探索空间，RL收缩至高奖励区域，且图像质量与文本CoT的熵呈负相关。基于此，作者提出了熵引导的组相对策略优化（EG-GRPO），该策略根据令牌的不确定性重新分配优化预算：低熵令牌免于奖励更新以保持稳定，高熵令牌则获得熵奖励以鼓励结构化探索。在标准基准测试中，EG-GRPO实现了最先进的性能。

文本到图像生成强化学习思维链熵分析稳定性优化生成模型

cs 04-06 00:00

MLFCIL：面向低轨卫星联邦类增量学习的多级遗忘缓解框架

针对低轨卫星在严格内存与通信约束下进行协同增量学习的挑战，本研究提出MLFCIL框架。该框架将灾难性遗忘分解为三个来源，并分别在不同层级进行缓解：使用类别重加权损失减少本地偏差；结合特征回放与原型引导漂移补偿的知识蒸馏来保留跨任务知识；采用类别感知聚合以减轻联邦过程中的遗忘。此外，设计了结合轮级自适应损失平衡与步级梯度投影的双粒度协调策略，以优化稳定性与可塑性间的权衡。在NWPU-RESISC45数据集上的实验表明，MLFCIL在精度和遗忘缓解方面显著优于基线方法，且资源开销极小。

联邦学习类增量学习低轨卫星灾难性遗忘知识蒸馏资源约束

cs 04-06 00:00

动态掩码增强多无人机部署算法提升城市车联网连通性

针对城市车联网(VANET)链路频繁中断和子网碎片化问题，本研究提出基于动态动作掩码增强的QMIX算法(Q-SDAM)，通过动态部署多无人机作为通信中继，在最大化车辆连通性的同时最小化无人机能耗。算法采用评分机制动态约束智能体动作空间，加速学习过程并提升优化性能。基于真实数据集的实验表明，相比现有算法，Q-SDAM将连通性提升18.2%，能耗降低66.6%。

车联网无人机部署强化学习动态掩码能耗优化连通性增强

cs 04-06 00:00

LLM作为裁判：推进精神病患者对话模型安全性的临床验证评估

针对大语言模型（LLM）在心理健康支持中可能加剧精神病患者妄想与幻觉的风险，本研究提出了一种可扩展的临床验证安全评估框架。方法包括：制定七项临床安全标准、构建人类共识数据集，并测试使用单个LLM作为裁判（LLM-as-a-Judge）或多个LLM多数投票作为陪审团（LLM-as-a-Jury）的自动化评估。结果显示，最佳LLM裁判与人类共识高度一致（Cohen's $\kappa_{\text{human} \times \text{gemini}} = 0.75$），且略优于陪审团方法（$\kappa_{\text{human} \times \text{jury}} = 0.74$）。这为心理健康领域的LLM安全性评估提供了兼具临床依据与可扩展性的新路径。

大语言模型安全心理健康评估临床验证自动化评估精神病学可扩展性

cs 04-06 00:00

AI-Sinkhole：基于AI代理的DNS框架，在考试期间动态阻断LLM服务

本文针对大型语言模型（LLM）在教育评估中可能导致的认知卸载和学术诚信问题，提出了“AI-Sinkhole”框架。该框架利用AI代理（基于量化模型如LLaMA 3、DeepSeek-R1）动态发现、语义分类新兴的LLM聊天机器人服务，并通过Pi-Hole在网络层面实施临时DNS阻断。实验表明，该分类器在跨语言任务中表现稳健（F1分数 > 0.83），为在享受AI教育益处的同时维护学术严谨性提供了可解释的技术方案。

学术诚信dns阻断ai代理大型语言模型教育评估可解释ai

cs 04-06 00:00

基于30万患者数据，自回归模型生成临床反事实时间线

本研究提出了一种基于自回归生成模型的方法，利用来自超过30万名患者、总计4亿条时间线条目的真实世界数据进行训练，能够生成临床可信的反事实患者轨迹。作为验证，研究将该模型应用于2023年因COVID-19住院的患者，通过修改年龄、血清C反应蛋白（CRP）和血清肌酐等变量，模拟了7天内的临床结局。反事实模拟结果显示，年龄增长、CRP升高和血清肌酐升高与院内死亡率增加相关；瑞德西韦的处方在CRP值较高的模拟中增加，而在肾功能受损的模拟中减少。这些生成的轨迹成功复现了已知的临床模式，表明基于真实世界数据以自监督方式训练的自回归生成模型，可为反事实临床模拟奠定基础。

反事实模拟自回归模型真实世界数据临床决策生成式ai个性化医疗

cs 04-06 00:00

基于同质性感知的监督对比反事实增强公平图神经网络

本研究提出了一种改进的公平图神经网络训练框架，通过两阶段训练策略解决图结构中的偏见问题。第一阶段编辑图结构，提高类别标签的同质性比率，同时降低敏感属性的同质性比率；第二阶段结合改进的监督对比损失和环境损失进行优化，使模型在提升节点分类准确率的同时增强公平性。在五个真实数据集上的实验表明，该方法在分类准确率和公平性指标上均优于现有方法。

图神经网络算法公平性反事实增强监督对比学习图结构编辑同质性

cs 04-06 00:00

FTimeXer：融合外生变量的频率感知时序Transformer，实现稳健的电网碳足迹预测

本文提出FTimeXer模型，旨在解决电网碳强度预测中因数据非平稳性、周期性模式复杂及外生变量（如缺失、错位数据）干扰导致的难题。模型核心创新在于：1）引入基于快速傅里叶变换（FFT）的频率分支与门控时频融合机制，有效捕捉多尺度周期性；2）采用随机外生变量掩码与一致性正则化训练方案，提升模型对不规则输入的鲁棒性。在三个真实数据集上的实验表明，该模型显著优于现有基线方法，为产品碳足迹核算与脱碳决策提供了更可靠的预测支持。

碳足迹预测时序transformer频率感知外生变量鲁棒训练电网碳强度

cs 04-06 00:00

强化学习迈向情境智能：提出情境分类新框架与三大研究方向

本文指出，尽管强化学习在游戏、机器人等领域取得显著成果，但其策略往往难以泛化到训练分布之外。为突破此局限，研究提出“情境智能”概念，并构建了一个新颖的情境分类法，将情境分为环境强加的“异源因素”与智能体驱动的“自源因素”。为实现真正的情境智能，论文明确了三大核心研究方向：1）利用异质性情境进行学习，使智能体能够推理情境对世界的影响；2）建立多时间尺度模型，以区分演化速度不同的情境变量；3）整合抽象的高层情境（如角色、资源制度等）。研究旨在将情境作为核心建模要素，推动新一代能安全、高效部署于现实世界的上下文感知智能体的发展。

强化学习情境智能泛化能力多时间尺度智能体推理零样本迁移

cs 04-06 00:00

部署可靠性建模与控制：应对时序分布漂移的多目标优化框架

本文提出了一种以部署为中心的机器学习可靠性控制框架，将可靠性建模为由区分度与校准度构成的动态状态。该框架通过评估该状态在连续时间窗口中的轨迹，定义了可测量的“波动性”概念，从而将部署适应问题形式化为一个平衡可靠性稳定性与累积干预成本的多目标控制问题。研究定义了一系列依赖于状态的干预策略，并在一个大规模时序信用风险数据集（135万笔贷款，2007-2018）上进行了实证。结果表明，与持续滚动再训练相比，选择性、由漂移触发的干预策略能以显著降低的运营成本，实现更平滑的可靠性轨迹。

时序分布漂移部署可靠性多目标控制模型校准干预策略信用风险

24 小时跨学科精选

计算机科学

2026-04-06 速览 · 计算机科学

Holos：面向Agentic Web的Web级LLM多智能体系统

基于卷积神经网络的3D裂隙介质等效渗透率张量快速升尺度方法

LiME：轻量级专家混合模型，高效实现多模态多任务学习

SIEVE：仅需三个示例的自然语言参数学习新方法

扩散模型采样加速新策略：差异化调度不同去噪步骤的模型规模

PROGRS：利用过程奖励提升大语言模型数学推理能力

仅用10比特实现模型能力迁移：交互式压缩解锁LLM知识高效传输

WebGPU在LLM推理中的调度开销：跨四家GPU厂商、三种后端与浏览器的系统评测

UI-Oceanus：通过合成环境动态扩展GUI智能体，突破数据瓶颈

DrugPlayGround：评估大语言模型在药物发现中的性能基准框架

OPRIDE：通过数据集内探索提升离线偏好强化学习查询效率

可微分符号规划：一种用于约束推理的神经架构，通过学习可行性实现

对比提示调优：让大语言模型生成更节能的代码

PRISM：通过可解释策略映射实现强化学习策略复用

熵引导优化：通过不确定性分配提升文本到图像生成稳定性

MLFCIL：面向低轨卫星联邦类增量学习的多级遗忘缓解框架

动态掩码增强多无人机部署算法提升城市车联网连通性

LLM作为裁判：推进精神病患者对话模型安全性的临床验证评估

AI-Sinkhole：基于AI代理的DNS框架，在考试期间动态阻断LLM服务

基于30万患者数据，自回归模型生成临床反事实时间线

基于同质性感知的监督对比反事实增强公平图神经网络

FTimeXer：融合外生变量的频率感知时序Transformer，实现稳健的电网碳足迹预测

强化学习迈向情境智能：提出情境分类新框架与三大研究方向

部署可靠性建模与控制：应对时序分布漂移的多目标优化框架