cs
01-26 00:00
本文提出了首个用于评估大语言模型在真实社区语境下中英混合生成能力的基准ChiEngMixBench。该基准将语码混合视为认知对齐问题,通过“自发性”和“自然性”两个互补信号来衡量模型切换行为是否符合语境和人类习惯。实验表明,其评估指标能系统区分不同模型的混合能力。研究还揭示了大语言模型隐含的“术语分层策略”,这与人类语码混合的“主体语言框架”理论一致,表明模型与人类沟通存在结构化认知对齐。
语码混合大语言模型评估认知对齐中英混合基准测试
cs
01-26 00:00
本文介绍了M3Kang,首个基于全球最大数学竞赛——袋鼠数学竞赛构建的大规模多语言多模态数学推理数据集。该数据集包含1,747道按年级难度组织的选择题,并翻译成108种语言,部分题目包含解题必需的图表。研究对开源及闭源的先进视觉语言模型进行了广泛评测,发现模型在基础数学和基于图表的推理上仍存在困难,其表现与语言覆盖度和模型规模相关,但与年级难度无关。研究还表明,多语言技术可有效扩展至多模态场景,显著提升基线方法性能。数据集包含超过68,000名学生的表现数据,支持与人类表现进行直接对比。
多模态推理数学数据集视觉语言模型多语言评估数学竞赛
cs
01-26 00:00
本研究提出一种离线响应式知识蒸馏方法,旨在资源受限条件下提升大语言模型在特定领域的准确性。通过对比三种数据策略(通用领域适应、非结构化知识注入、上下文感知合成数据),发现由教师模型生成的500条上下文感知数据,在优化后的Qwen-2.5-7B学生模型上实现了96.7%的高准确率与强拒绝能力,验证了数据质量与结构对齐比数量更关键。该方法利用Unsloth库将GPU内存需求从40GB降至16GB,显著降低了计算成本。
知识蒸馏低资源学习领域适应大语言模型模型优化数据质量
cs
01-26 00:00
本文提出神经流扩散模型(NFDM),一种适用于离散状态空间(如文本)的连续扩散模型扩展。该方法通过学习数据驱动的多元前向过程,使前向过程和生成轨迹更适配语言建模任务。实验表明,NFDM在保持与先前潜在扩散模型相当采样质量的同时,显著缩小了与同规模自回归模型之间的似然差距,旨在提升文本生成的采样速度与连贯性。
扩散模型文本生成神经流语言模型离散状态空间
cs
01-26 00:00
本研究系统性地探索了针对集成音频、视频和语言的三模态基础模型的纯音频对抗攻击。研究者分析了六种互补的攻击目标,针对多模态处理的不同阶段(如音频编码器表征、跨模态注意力、隐藏状态和输出似然)进行扰动。实验表明,仅对音频施加微小扰动即可在多模态任务中引发严重失败,攻击成功率最高可达96%。攻击在低感知失真下依然有效,且优化时长比数据规模更能提升攻击效果。研究揭示了多模态系统中一个被忽视的单模态攻击面,并强调了加强跨模态一致性的防御必要性。
对抗攻击多模态模型音频安全模型鲁棒性人工智能安全
cs
01-26 00:00
本研究提出政策嵌入图扩展(PEGE)框架,用于在逐步揭示的疾病网络上进行序列化HIV检测。PEGE将图扩展的生成分布直接嵌入决策策略,而非依赖不切实际的拓扑重建假设。团队进一步设计了适用于数据有限、森林结构自然出现的真实转诊场景的扩散驱动分支(DDB)模型。在真实HIV传播网络上的实验表明,PEGE+DDB组合方法显著优于现有基线,例如在检测25%人口时,折现奖励提升13%,HIV检出率增加9%。
hiv检测序列决策图神经网络扩散模型网络采样公共卫生
cs
01-26 00:00
本文提出一种在推理过程中实时优化说话人嵌入的新方法,以提升个性化语音增强(PSE)的性能。核心是引入一种新颖的对比知识蒸馏方法,训练一个仅含15万参数的轻量级说话人编码器,使其能从复杂的预训练嵌入中学习。该方法允许嵌入根据推理时目标语音的变化进行动态调整,实验表明其在保持低计算负载的同时,显著提高了PSE系统的性能。
语音增强知识蒸馏说话人嵌入对比学习轻量化模型
cs
01-26 00:00
本文提出了一种基于顶点排序的定量方法,用于比较任意一对图中心性度量。该方法概念简洁、数学优雅,能够将许多先前难以形式化的猜想进行定量重述,并为网络科学家提供了一个实用的近似方案。研究探索了该方法的应用,并提出了具有独立意义的新猜想。
网络中心性图论量化比较顶点排序近似方法
cs
01-26 00:00
本研究针对混合动机多智能体环境中普遍存在的搭便车问题,扩展了战略竞合的计算基础。基于对相互依赖性和信任动态的形式化工作,团队提出了由忠诚度调节的效用函数,包含福利内化与贡献满足的忠诚收益,以及降低努力负担的成本容忍两大机制。该框架通过依赖加权的团队凝聚力整合了i*结构依赖,将成员激励与团队层面定位相连接。在3125种配置下的实验验证表明,忠诚度效应显著(中位努力差异达15.04倍),所有六个行为目标均达到阈值。对Apache HTTP Server(1995-2023)的实证案例研究复现了其在形成、成长、成熟和治理各阶段的贡献模式,统计显著性得到确认(p<0.001,Cohen's d=0.71)。
战略竞合集体行动忠诚度机制多智能体系统计算博弈论团队动力学
cs
01-26 00:00
VibeTensor是一个开源的深度学习系统软件栈,其独特之处在于其代码完全由LLM驱动的编码智能体在高层人类指导下生成和验证。该系统实现了类似PyTorch的eager tensor库,包含C++20核心、Python绑定及实验性TypeScript接口,并内置了完整的张量存储系统、自动微分、CUDA运行时及内存分配器等核心组件。研究团队将其视为AI辅助软件工程的重要里程碑,展示了智能体能够生成并验证一个从语言绑定到CUDA内存管理的、连贯的深度学习运行时系统。论文还评估了其性能,包括与PyTorch SDPA/FlashAttention的融合注意力对比,以及在H100和Blackwell GPU上的端到端训练验证。
ai生成软件深度学习系统编码智能体ai辅助工程张量库cuda运行时
cs
01-26 00:00
本研究提出了一种名为Tru-RM的可信呼吸监测新范式,旨在解决基于雷达的非接触式呼吸监测中用户敏感身份信息(USI)的隐私泄露风险。该方法通过变分模态分解(VMD)和基于对抗损失的加密技术,将原始雷达信号分解为通用呼吸成分、个人差异成分及其他无关成分,并利用相位噪声算法消除个人差异成分中的身份信息,实现身份加密。同时,所设计的扰动容忍网络(PTN)能够在波形显著变化时仍保持高精度的呼吸检测。实验表明,该方法在多种距离、呼吸模式和时长下,均能实现强身份匿名性和高检测精度。
隐私保护呼吸监测雷达信号身份匿名变分模态分解对抗学习
cs
01-26 00:00
本文证明了对于任意有限群上的任意维群元胞自动机,其拓扑传递性是可判定的。拓扑传递性是拓扑动力学中的基本概念,是全局动力学复杂性的核心指标。此前,一般元胞自动机的拓扑传递性已被证明是不可判定的,而一维阿贝尔群元胞自动机的判定问题已获解决,但高维与非阿贝尔群情形一直悬而未决。本研究通过结合群元胞自动机的分解技术(将问题简化为对更简单组件的分析)与对一维情形现有结果的扩展,彻底解决了这一开放问题。作为推论,利用群元胞自动机中动力学性质的已知等价关系,还获得了完全传递性、拓扑混合、弱混合、强弱遍历混合及遍历性等一系列相关概念的可判定性。
群元胞自动机拓扑传递性可判定性拓扑动力学计算理论
cs
01-26 00:00
本文提出了一种新的因果发现方法,将原本用于连续数据的得分匹配框架扩展到离散数据领域。该方法通过引入基于离散得分函数的新叶节点判别准则,首先从观测数据中识别底层有向无环图(DAG)的拓扑顺序,再进行边剪枝以恢复完整因果图。模拟和真实世界实验表明,该理论能够从观测到的离散数据中准确推断真实的因果顺序,并且所识别的顺序能显著提升现有因果发现基线方法在几乎所有设置下的准确性。
因果发现得分匹配离散数据拓扑排序图学习
cs
01-26 00:00
本技术报告介绍了CMU-AIST团队为ICME 2025音频编码器挑战赛提交的系统。该系统以基于掩码语音标记预测的音频编码器BEATs为基础,使用来自语音、音乐和声音的7.4万小时数据进行扩展训练,并将模型参数规模提升至3亿。团队研究了不同领域数据(语音为主与平衡混合)对最终性能的影响,并提交了一个由12亿参数的Dasheng模型与两个定制扩展BEATs模型组成的集成系统。报告还提出了一种简单的集成技术,该技术保留了各组成模型的最佳能力,性能超越了基线及Dasheng 12亿模型。为促进开放科学,训练好的模型检查点已在Hugging Face平台公开。
音频编码beats模型模型集成预训练多模态数据icme挑战赛
cs
01-26 00:00
本文提出GameTalk框架,旨在解决大语言模型在多智能体环境中进行长期战略决策的挑战。与以往关注单轮决策或静态预测的研究不同,该方法通过微调技术(如GRPO、DPO、STaR)训练模型,使其能够在完整的多轮对话中优化全局目标。研究在一系列复杂度递增的博弈环境中评估了该框架,结果表明,经过GameTalk训练的模型在推理、协调和对手建模方面显著优于未经训练的基线模型,其中DPO方法表现最为突出。
大语言模型战略对话多智能体决策强化学习微调长期目标优化
cs
01-26 00:00
本研究探讨了将大语言模型(LLMs)作为“教师”生成合成数据,以训练更小、更高效的“学生”模型。通过在11种语言和4个分类任务上生成合成数据集,并用于微调或指令调优小型模型,实验表明,即使少量合成数据也能使小型模型在低资源语言任务上超越生成数据的大型模型本身。这为在标注数据稀缺的场景下,利用LLMs进行知识蒸馏、构建高效多语言模型提供了新范式。
大语言模型合成数据低资源学习多语言分类知识蒸馏模型训练
cs
01-26 00:00
本研究提出了一种从大规模科学文献语料库中自动合成科学理论(包含定性和定量定律)的系统。该方法利用13.7万篇源论文生成了2900个理论,并对比了基于文献知识库与基于参数化LLM知识库、以及追求准确性目标与追求新颖性目标对生成理论特性的影响。实验表明,与仅依赖LLM参数化记忆生成相比,文献支持的方法生成的理论在匹配现有证据和预测未来结果(基于4.6万篇后续论文验证)方面表现显著更优。
科学理论生成文献挖掘大语言模型自动化科学发现知识合成
cs
01-26 00:00
本研究提出了BESTOpt框架,旨在解决现代建筑与能源系统互联带来的复杂建模与控制挑战。该框架采用模块化设计,将物理先验知识嵌入数据驱动模块,通过“集群-域-系统/建筑-组件”的层次结构和标准化的状态-动作-扰动-观测数据类型,提升了模型在未知条件下的准确性和物理一致性。案例研究表明,BESTOpt能够支持从单体建筑到集群的多级集中与分散控制,为构建智能、韧性与低碳的建筑生态系统提供了一个开放、可扩展的研究平台。
建筑能源系统物理信息机器学习建模与控制优化模块化框架低碳建筑
cs
01-26 00:00
本研究探索了一种轻量级替代方案,通过解码时在logit空间注入n-gram风格先验来引导冻结的大型语言模型。方法基于风格化语料库(如《堂吉诃德》、新闻标题)训练n-gram模型,构建1-3元语法先验,并通过控制参数$\lambda \in [0, 1]$加权调整下一个token的概率。实验发现,仅在$\lambda=0.1$的狭窄区间内,风格困惑度改善24.7%,基础模型困惑度改善51.4%;而超出此范围或用于多作者语料时,即使很小的$\lambda$值也会导致风格和流畅性恶化,较大值则引发文本崩溃。该方法虽轻量可调,但脆弱且整体表现不及提示工程和LoRA微调。
风格控制n-gram模型logit注入轻量级引导语言模型困惑度分析
cs
01-26 00:00
本文探讨了利用数字对象标识符(DOI)为算法建立唯一身份标识的框架。该框架旨在应对AI(特别是大语言模型与多模态模型)广泛应用带来的问责、伦理与透明度挑战。通过DOI追踪算法起源、支持审计、防止偏见并促进研究可复现性。文章还讨论了该标识系统的维护挑战、在API安全中的应用,并提出了一种加密认证协议。
算法治理数字身份可审计性人工智能伦理doi标识研究可复现
cs
01-26 00:00
本文提出了一种将动态测试与静态证明相结合的软件验证新视角。该方法基于Eiffel语言的契约式设计,并利用基于“可满足性模理论”的现代程序证明工具的反例生成功能。通过将反例生成应用于不正确程序,可实现自动测试生成;向正确程序引入故障,则可生成具有完全覆盖率的自动回归测试套件。此外,该机制还能辅助生成有正确性保证的程序修复。这些应用有望应对程序测试、软件维护和自动程序修复中的挑战。
软件验证契约式设计反例生成自动测试程序修复eiffel语言
cs
01-26 00:00
本文提出了一种新颖、可扩展的旋量理论多体综合框架,用于对具有任意数量三维柔性连杆的串联机器人进行基于偏微分方程的动力学建模。该方法系统地为单个柔性连杆构建旋量理论PDE模型,并通过相互作用力严格强制执行完整关节约束。每个连杆的动力学均使用一组在体固定坐标系中表示的对偶旋量来表述,分别描述体固定坐标系相对于惯性系的运动、体固定坐标系与未变形构型的关系,以及捕获弹性变形。通过表达系统能量并应用变分原理,以统一方式推导出每个连杆的控制动力学。综合各连杆模型,得到一个能够捕获局部(子系统级)和全局(系统级)动力学的无限可扩展多体表示。该框架显式地恢复了所有动态状态,包括每个体固定坐标系的运动和柔性连杆的分布变形场。为了计算可处理性和数学严谨性,最终的控制方程被表述为一个半显式指数-1微分代数系统。此外,通过应用变量分离,将PDE模型重新表述为一个抽象柯西问题,并建立了所得系统的适定性。
旋量理论柔性多体动力学偏微分方程建模机器人控制微分代数系统可扩展建模
cs
01-26 00:00
本文提出GR3EN方法,解决了大规模室内三维场景重光照的难题。传统方法依赖求解病态逆渲染问题,难以处理复杂真实场景。GR3EN创新性地将视频到视频重光照扩散模型的输出“蒸馏”到三维重建中,绕过了复杂的逆渲染过程,实现了对复杂真实场景三维重建结果的可控重光照。该方法在合成与真实数据集上均验证了其在新光照条件下生成高质量新视角图像的能力。
三维重光照生成式模型扩散模型逆渲染场景重建计算机视觉
cs
01-26 00:00
本文针对企业自动化中基于大语言模型的多智能体系统,提出了一个全面的工具调用可靠性诊断框架。该框架建立了一个包含12类错误的分类法,涵盖工具初始化、参数处理、执行和结果解释等环节的故障模式。通过对1980个确定性测试实例的系统评估(涵盖Qwen2.5系列、Functionary、GPT-4、Claude 3.5/3.7等模型),研究发现:工具初始化失败是较小模型的主要瓶颈,而Qwen2.5:32B模型能达到与GPT-4.1相当的无差错性能。中型模型(如Qwen2.5:14B)在商用硬件上实现了精度与效率的平衡(成功率96.6%,延迟7.3秒),为资源受限组织提供了可行的部署方案。
多智能体系统工具调用可靠性错误分类法大语言模型评估企业自动化