cs
03-10 00:00
本文提出了一种基于双时间尺度神经动力学对偶框架的新方法,用于求解分布鲁棒几何联合机会约束优化问题。该方法针对行向量概率分布未知且属于特定不确定性集合的情形,研究了三种不确定性集合。核心贡献在于设计了一种基于三个投影方程的神经动力学对偶网络,能够在概率意义下收敛到全局最优解,而无需依赖传统的求解器。数值实验表明,该方法可有效应用于形状优化和通信网络设计等多个实际问题。
分布鲁棒优化机会约束神经动力学全局优化不确定性建模对偶方法
cs
03-10 00:00
本文提出了一种“设计即伦理”的控制架构,旨在将后果论、义务论和美德伦理学的推理嵌入到AI生命周期的各个阶段。该框架在每个阶段(数据收集、模型训练、部署、监控)设置了三重门控机制:度量门(性能与安全阈值)、治理门(法律与合规性)和生态门(碳/水预算与可持续性约束)。它明确了可测量的触发条件、升级路径、审计工件,并能与现有MLOps和CI/CD流程集成。通过大型语言模型管道的示例,展示了门控机制如何在发布前和运行时识别并约束技术、社会及环境风险。该框架还附带预注册的评估协议,为跨组织、跨司法管辖区的可操作AI治理提供了实践基础。
人工智能伦理治理框架生命周期管理风险控制可持续ai合规性
cs
03-10 00:00
本文提出FuzzingRL方法,通过结合模糊测试与强化学习微调,自动生成能诱导视觉语言模型(VLM)出错的对抗性问题,以揭示模型脆弱性。该方法首先通过视觉与语言模糊化将单一查询扩展为多样变体,再基于测试结果对问题生成器进行对抗性强化微调,迭代产生更具挑战性的查询。实验表明,该方法能显著降低目标VLM的准确率(如Qwen2.5-VL-32B准确率从86.58%降至65.53%),且针对单一模型训练的模糊策略可迁移至其他VLM,有效泛化揭示多模型缺陷。
视觉语言模型模糊测试强化学习对抗性攻击模型可靠性ai安全
cs
03-10 00:00
针对传统基于质心的聚类方法(如k-Means)在数据摘要中常产生冗余原型的问题,本文提出了Khatri-Rao聚类范式。该范式假设数据集的质心由两个或多个更简洁的“原型质心”集合通过Khatri-Rao积交互产生,从而在保持摘要准确性的同时,显著减少摘要的大小。研究将这一范式应用于k-Means和深度聚类,提出了Khatri-Rao k-Means算法和Khatri-Rao深度聚类框架。大量实验表明,新方法在数据摘要的简洁性与准确性之间取得了更优的权衡。
数据摘要聚类分析khatri-rao积降维表示学习深度学习
cs
03-10 00:00
研究发现,在预训练阶段的数据重复会损害模型泛化能力,但“重复”的定义随模型规模而变化。对于能力更强的大型模型,语义等价的文档(如不同语言的翻译)在训练中产生的梯度方向会高度对齐,其行为越来越像精确的表面重复。研究通过分析近2亿份文档的嵌入相似度发现,当语料库规模达到数千亿token时,语义碰撞会急剧加速。实验表明,有限的数据唯一性对小模型影响轻微,但对大模型会造成迅速增长的损失惩罚,打破了简单的规模外推假设。研究推导了明确的缩放定律,帮助从业者估算因预训练语料库语义唯一性有限而导致的预期缩放偏差。
数据重复模型缩放预训练语义相似性梯度对齐缩放定律
cs
03-10 00:00
本文针对大语言模型在关键决策中缺乏可靠不确定性度量的问题,提出了一种基于输出锚定标记概率的归一化置信度评分方法。该方法通过分类标签(结构化任务)或自我评估响应(开放生成)直接检测错误与幻觉,无需外部验证。理论分析表明,监督微调通过极大似然估计能产生良好校准的置信度,而强化学习方法(如PPO、GRPO、DPO)会因奖励利用导致过度自信。实验在7个基准任务和5个不同架构的LLM上验证了该框架的有效性,并提出后强化学习监督微调与自蒸馏方法以恢复RL训练模型的置信度可靠性。
大语言模型置信度校准错误检测强化学习监督微调不确定性度量
cs
03-10 00:00
本研究针对蜂窝车联网(C-V2X)中的无线资源分配问题,提出了一种系统性的多智能体深度强化学习(MARL)评估框架。通过设计一系列复杂度递增的多智能体干扰博弈任务,将非平稳性、协调困难、大规模动作空间、部分可观测性以及鲁棒性与泛化性不足等核心挑战进行解耦和独立评估。研究利用SUMO生成的大规模、多样化高速公路轨迹数据集进行训练和测试,并对代表性MARL算法进行了广泛基准测试。结果表明,策略在不同车辆拓扑结构间的鲁棒性和泛化能力是C-V2X资源分配中的主要挑战,其中表现最佳的Actor-Critic方法在最复杂任务上比基于价值的方法性能高出42%。
车联网多智能体强化学习资源分配基准测试鲁棒性泛化能力
cs
03-10 00:00
研究团队推出“Two-Bridge Map Suite”,旨在填补星际争霸II完整游戏与迷你游戏之间的复杂度鸿沟。该基准测试通过禁用资源收集、基地建造和战争迷雾等经济机制,专注于长距离导航与微操战斗两项核心战术技能。实验表明,智能体能在无需承担完整游戏巨大计算成本的情况下,学习到连贯的机动与交战行为。该环境以轻量级、兼容Gym的封装形式发布,所有地图、封装器及参考脚本均已开源,旨在推动其成为强化学习研究的标准基准。
强化学习星际争霸ii基准测试策略游戏开源工具ai研究
cs
03-10 00:00
本文提出了一种名为DeepScope的新型水安全检测方法,通过深度学习直接分析未培养水样的显微图像,无需传统耗时的病原体培养步骤。该方法利用创新的数据增强技术,从单张图像生成海量训练数据,并采用迁移学习和正则化训练了多个卷积神经网络模型。在包含10万张真实世界水样图像的现场测试数据集上,模型准确率达到93%,精确率90%,召回率超过94%。DeepScope将单次检测成本降至约0.44美元,时间缩短98%以上,并已部署为Web服务及移动应用,可实现秒级检测。
水安全检测深度学习显微图像快速检测卷积神经网络移动应用
cs
03-10 00:00
研究表明,在数学、代码等可验证领域有效的推理计算扩展方法(如Pass@k)无法提升大语言模型在真实性任务上的表现。即使将推理成本提升25倍,基于投票的聚合策略也无法带来稳定的准确性提升,反而可能放大模型间的共同错误认知。研究发现,模型更擅长预测其他模型的输出,而非识别真相,且模型错误之间存在强相关性。即使在随机字符串条件下,不同模型的输出也呈现相关性。自报告的置信度无法可靠区分答案正误,因此基于置信度的加权也无济于事。这揭示了推理时扩展的边界:在可验证领域,更多样本为验证器提供了筛选候选;在不可验证领域,更多样本仅会强化共享误解。
大语言模型真实性评估群体智慧推理扩展错误相关性置信度校准
cs
03-10 00:00
本文提出OptiRoulette,一种随机元优化器,它在训练过程中动态选择更新规则,而非固定使用单一优化器。该方法结合了预热锁定、从活跃优化器池中随机采样、优化器切换时的兼容性感知学习率缩放以及故障感知池替换等技术。在CIFAR-100、Tiny ImageNet等五个图像分类基准测试中,相比AdamW基线,OptiRoulette将平均测试准确率提升了0.89至9.74个百分点。其主要优势在于高目标下的收敛可靠性:在10次运行中均能达到预设验证准确率目标,而基线优化器均未能在预算内达成。在共享目标下,OptiRoulette还显著减少了达到目标所需的训练轮数(例如,在Caltech-256上达到0.59准确率仅需25.7轮,而基线需要77.0轮)。
元优化器动态优化深度学习收敛加速随机采样图像分类
cs
03-10 00:00
本文对扩散模型和流匹配等生成模型进行了统一的理论分析。研究首先提出了一种基于两个简单线性方程的统一表示框架。理论分析表明,在现有模型中,噪声数据与预测目标之间的相关性有时较弱,这可能会对模型学习过程这一核心环节产生不利影响,揭示了潜在的性能瓶颈。
生成模型扩散模型流匹配相关性分析理论分析机器学习
cs
03-10 00:00
本文提出退火协同生成框架,用于解决科学应用中多变量协同生成的计算负担和数据不平衡问题。该方法摒弃高维扩散模型,转而采用低维扩散模型,通过组合成对变量生成实现多变量协同生成。核心在于将因果变量解耦为成对关系进行无条件训练,在推理时通过共享变量耦合这些成对模型以恢复联合分布。通过共识、加热、冷却三阶段退火过程,确保共享变量一致性并将成对数据分布约束在可学习流形上。在流场补全和抗体生成任务上验证了其灵活性与有效性。
协同生成扩散模型变量解耦成对建模退火算法科学计算
cs
03-10 00:00
本文提出RACER方法,将多模型系统中的LLM路由问题形式化为 $\alpha$-VOR 问题,旨在最小化预期模型集大小的同时控制误路由风险。该方法通过增强评分构建嵌套模型集,并利用有限样本集中界限校准阈值,从而实现可变集大小和弃权机制。理论证明RACER能以事后、模型无关的方式对未见测试数据实现严格的分布无关风险控制。大量实验验证了其理论保证,并表明RACER能持续提升多种基准测试的下游任务准确率。
大语言模型模型路由风险控制集合选择校准方法多模型系统
cs
03-10 00:00
本文提出Evo模型,将自回归(AR)与扩散生成统一为连续演化框架。模型将文本生成视为潜在流:每个词元嵌入随语义成熟度变量$t_i \in [0, 1]$演化,低$t_i$值对应AR式精炼,高值触发扩散式规划,实现自适应平衡。理论证明AR与扩散模型共享概率流离散化形式,训练目标源自统一变分ELBO。Evo 8B在15个基准测试(包括推理、代码生成与语言理解)中达到SOTA或高度竞争力,同时保持高效推理速度。
大语言模型自回归模型扩散模型文本生成概率流演化框架
cs
03-10 00:00
本研究提出了一种针对多重生物网络(MBNs)的零样本交互预测新框架,解决了现有方法难以建模多重交互类型、整合结构与序列信息、以及预测无先验邻域信息新实体的难题。该框架利用领域基础模型生成丰富嵌入,引入拓扑感知图分词器捕获多重性与高阶连通性,并通过对比学习对齐多模态嵌入。采用师生蒸馏策略实现了鲁棒的零样本泛化。实验表明,该方法在MBNs交互预测任务上优于现有先进方法,为探索复杂生物相互作用和推进个性化治疗提供了有力工具。
多重生物网络零样本预测知识蒸馏图神经网络对比学习生物信息学
cs
03-10 00:00
本文提出NAT框架,通过仅选取生成序列中的部分token进行策略梯度更新,显著降低长思维链轨迹下强化学习的计算与内存开销。核心是利用Horvitz-Thompson重加权构建无偏的局部token策略梯度估计器,确保在子采样下仍能保持统计正确的梯度。实验表明,在数学推理基准上,NAT仅使用50%的token即可达到全token GRPO的性能,为Qwen3-8B模型节省了18%的峰值GPU内存和29%的前后向训练时间。
强化学习计算效率策略梯度大语言模型思维链训练优化
cs
03-10 00:00
本文提出了一种名为PerContrast的令牌级个性化建模方法,以解决大语言模型(LLMs)个性化输出中的核心挑战。该方法通过因果干预技术,量化评估输出中每个令牌对用户特定信息的依赖程度(个性化程度)。基于此,研究者设计了PerCE损失函数,在训练过程中通过自举程序自适应地提升高个性化程度令牌的权重,使模型能够在估计和优化这些关键令牌之间交替进行。实验表明,该方法能以极低的额外成本显著提升LLMs的个性化性能,在LongLaMP数据集上平均提升超过10%,最高可达68.04%,并展现出强大的跨任务和跨场景迁移能力。
大语言模型个性化建模令牌级优化因果干预自举训练
cs
03-10 00:00
本研究评估了撒哈拉以南非洲移民对AI驱动欺骗(如针对性诈骗)的脆弱性。通过对31名专业人士和移民的调查数据,采用结构方程模型和多元线性回归分析发现,先前遭遇过针对性攻击是预测脆弱性的最强指标。而识别AI内容的能力信心,以及高验证努力的行为特征,则是显著的保护性因素,能有效降低受骗风险。跨国背景(如海外时长、国际汇款)对脆弱性的影响则较小且不显著。
ai诈骗移民脆弱性ai素养结构方程模型数字安全
cs
03-10 00:00
本文提出SWAN(Switchable Activation Networks)框架,为每个神经元单元配备一个确定性的、输入依赖的二进制门控机制,使网络能够学习单元何时应被激活或停用。这种动态控制机制自适应地分配计算资源,在保持精度的同时减少冗余。与传统的剪枝方法不同,SWAN并非在训练后简单地压缩网络,而是学习结构化的、上下文相关的激活模式,同时支持高效的动态推理和转换为紧凑的密集模型进行部署。通过将效率问题重新定义为学习激活控制,SWAN将稀疏性、剪枝和自适应推理的优势统一在单一范式中。
神经网络效率动态推理自适应计算模型压缩可切换激活
cs
03-10 00:00
针对电子健康记录(EHR)这类不规则、异步的多变量时间序列,本研究提出了一种结构感知集合变换器(STAR-Set Transformer)。该模型通过引入参数高效的软注意力偏置,恢复了传统点集标记化方法所丢失的时间局部性和变量间关联性先验。具体包括一个带可学习时间尺度 $\tau$ 的时间局部性惩罚项 $-|\Delta t|/\tau$,以及一个从可学习特征兼容性矩阵中得到的变量类型亲和力 $B_{s_i, s_j}$。在三个ICU预测任务上的实验表明,该模型在CPR、死亡率和血管加压药使用预测上均优于常规网格、事件时间网格及先前的集合基线模型,其学习到的 $\tau$ 和 $B$ 矩阵还能提供对时间上下文和变量交互的可解释性总结。
时间序列分析电子健康记录注意力机制变换器模型医疗预测
cs
03-10 00:00
本文提出LegoNet,一种无需重新训练或微调的神经网络压缩技术。该方法将整个模型的权重(无论层类型)组织成块(如4x4块),并对这些块进行聚类。在ResNet-50(Cifar-10/ImageNet)上的实验表明,仅使用32个4x4块即可实现超过64倍的内存压缩,且无精度损失。进一步,使用16个块可实现128倍压缩,精度损失低于3%。
模型压缩权重聚类内存优化神经网络嵌入式设备
cs
03-10 00:00
本文提出了一种结合条件随机化检验(CRT)与表格概率基础模型(TabPFN)的实用方法,用于解决黑盒预测模型难以提供有效特征级假设检验的问题。该方法能在非线性、特征相关的复杂场景下,为条件特征相关性生成有限样本有效的p值,无需重新训练模型或依赖参数假设,为表格数据的可解释性推断提供了统计保障。
特征推断条件随机化检验表格基础模型假设检验可解释性
cs
03-10 00:00
本研究提出CapTrack框架,系统评估大语言模型(LLM)在微调后产生的“遗忘”现象。研究指出,遗忘不仅是参数或事实知识的丢失,更表现为系统性的模型漂移,会损害模型的鲁棒性和默认行为。通过对不同微调算法、领域和高达800亿参数模型的实证分析发现,指令微调引发的相对漂移最强,而偏好优化则更为保守,甚至能部分恢复已丧失的能力。不同模型家族间的差异持续存在,目前尚无通用的缓解方案。
大语言模型模型遗忘微调评估能力漂移后训练