视频生成模型展现推理能力,在棋类、迷宫等任务中成功率超60%
研究表明,以Sora-2为代表的视频生成模型已具备初步推理能力。在象棋、迷宫、数独、心理旋转及瑞文推理测验等任务中,领先模型的成功率可达60%。研究团队建立了以“任务对”为核心的稳健实验范式,并发布了包含39个模型的代码框架VMEvalKit,支持便捷扩展模型与任务。该自动化评估与人类判断高度一致,为未来通过强化学习提升视频模型的推理能力奠定了基础。
今日速览 · AI 导读
自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。
AI 导读
今日看点(自动摘要):cs: 视频生成模型展现推理能力,在棋类、迷宫等任务中成功率超60%;cs: 面向智能制造的特征选择多目标优化框架;cs: AI助力大规模民主文本协作:基于LLM的联盟形成与妥协方案生成
数据源:arXiv 官方 RSS(physics / math / cs / q-bio / econ / astro-ph 等)。
标题与摘要由 DeepSeek 进行中文润色,便于快速浏览;外链跳转至原文。
AI 速览助手:点击卡片“速览全文”可拉取 arXiv HTML,生成全文要点并缓存;右下角悬浮按钮可随时展开/收起速览。
自动抓取:每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。
往期回顾:点击上方“往期回顾”进入日历页,按月查看每日抓取总数,并跳转到对应日期速览。
2025-12-09 共 24 条抓取,按综合热度排序
研究表明,以Sora-2为代表的视频生成模型已具备初步推理能力。在象棋、迷宫、数独、心理旋转及瑞文推理测验等任务中,领先模型的成功率可达60%。研究团队建立了以“任务对”为核心的稳健实验范式,并发布了包含39个模型的代码框架VMEvalKit,支持便捷扩展模型与任务。该自动化评估与人类判断高度一致,为未来通过强化学习提升视频模型的推理能力奠定了基础。
本研究提出一种基于支配关系的多目标进化算法混合框架,用于智能制造(文中称为“Gentelligent系统”)中的特征选择与故障检测。该框架能在单次运行中探索帕累托最优解,同步优化特征选择与分类性能,以监控多种制造工序并协同最小化多个冲突目标。通过在两个不同工业领域的真实数据集上进行验证,结果证明了该方法的泛化能力和有效性,有助于制造商提升产品质量、增加良率并降低生产成本。
本研究针对联盟形成过程中寻找各方都能接受的妥协方案这一核心难题,提出了一个包含智能体有限理性和不确定性的综合模型。研究聚焦于协作撰写文本(如共同起草社区章程)这一具体领域,创新性地应用NLP技术和大型语言模型构建文本语义度量空间,并开发算法来生成合适的妥协提案。通过模拟多种联盟形成过程,验证了所提算法的有效性,展示了AI在促进大规模民主文本编辑方面的潜力。
本文提出了一种新颖的自适应数据集量化方法,旨在解决资源受限边缘设备上大规模数据集的存储和通信成本问题。该方法通过减少样本内部的冗余信息来压缩每个图像,而非传统方法关注的样本间冗余。核心是引入自适应量化分配算法,为不同精度需求的样本分配不同的量化比率,在保持总压缩比恒定的同时,有效保留关键特征。在CIFAR-10、CIFAR-100和ImageNet-1K上的实验表明,该方法在显著压缩数据集的同时,能维持模型训练性能,并在相同压缩比下优于传统量化和数据集剪枝基线。
VG3T提出了一种新颖的多视角前馈网络,直接从多视角图像联合预测一组带有语义属性的3D高斯表示,从而构建统一的3D语义占据场。该方法克服了传统逐视角处理导致的碎片化和不一致性问题,并通过引入基于网格的采样和位置细化组件,缓解了像素对齐高斯初始化方法中常见的距离依赖密度偏差。在nuScenes基准测试中,VG3T以比先前最优方法少46%的基元数量,实现了mIoU指标1.7%的显著提升,展现了其卓越的效率和性能。
本研究利用自驱动实验室,结合自动化与机器学习,加速溶液加工电致变色薄膜的优化。系统通过自动数据采集、图像处理、光谱分析和贝叶斯优化,高效探索旋涂工艺参数,不仅提高了研发通量,还能精准搜索最优条件。该方法可推广至多种溶液加工材料,展现了自驱动实验室在材料发现与工艺优化中的巨大潜力。
本文提出“记忆摊销推理”理论框架,利用代数拓扑统一学习与记忆过程。核心是“同调奇偶性原理”:偶数维同调对应稳定的内容结构,奇数维同调对应动态的上下文流。该框架将高复杂度的递归搜索转化为低复杂度的查找,揭示了从慢速推理到快速直觉的涌现机制,并为后图灵计算架构提供了蓝图。
针对现有通用病理基础模型在神经病理领域存在的数据域不匹配问题,本研究开发了首个专门针对脑组织的领域专用基础模型NeuroFM。该模型在包含多种神经退行性病变的脑组织全切片图像上训练,在混合性痴呆分类、海马区分割及小脑性共济失调亚型识别等任务上,性能显著优于通用模型。研究表明,针对特定领域形态学特征定制的基础模型,能更准确地捕捉神经病理特异性模式,为脑疾病诊断与研究提供了更可靠的AI分析工具。
本研究提出FishDetector-R1,一个基于多模态大模型的统一框架,用于解决水下鱼类图像分析中因视觉退化与标注成本高昂带来的难题。该框架在弱监督条件下,实现了鱼类的检测、分割与计数。其核心创新在于引入了确保空间一致性的“检测到计数”提示,以及利用稀疏点标签的可验证奖励强化学习范式。在DeepFish数据集上,该模型在平均精度、平均交并比等关键指标上显著超越基线模型,并展现出良好的跨域鲁棒性。
本研究探索了一种新颖的LLM评估方法,通过构建虚构的预测市场,让LLM使用“LLMCoin”对同行模型的答案正确性进行下注预测。实验发现,相比简单的二元预测,激励条件下的预测准确率略有提升(81.5% vs 79.1%),且模型学习速度显著加快。最关键的是,下注金额大小与预测置信度高度相关:大额下注(>4万币)的准确率高达99%,而小额下注准确率仅为74%。这表明,简单的金融框架能将LLM转化为风险感知的预测器,使其内部信念变得可见可用,为未来元评估系统和LLM间预测市场奠定了基础。
本文提出了一种名为POrTAL的新型轻量级概率规划算法,旨在解决机器人在部分可观测环境中高效规划的问题。该方法融合了FF-Replan和POMCP两种基线算法的优势,通过案例研究表明,POrTAL能以更少的计算步骤快速找到解决方案,并在不同时间约束下保持稳定性能,为资源受限的机器人系统提供了更优的规划选择。
研究提出一种AI智能体框架,用于自动化生物医学影像工具适配的“最后一公里”编码工作。通过系统评估框架对三个生产级影像流程进行测试,发现简单的智能体架构生成的适配代码性能优于人类专家解决方案。分析表明,复杂智能体架构并非普遍有益,为实际应用提供了设计路线图。该方法已部署至生产管道,验证了其现实影响力。
本文提出Vision Action Transformer (VAT),一种从ViT扩展而来的新架构,旨在解决机器人学习中仅使用ViT最后一层特征导致信息丢失的问题。VAT通过在所有Transformer层中处理专门的动作令牌与视觉特征,实现了感知与动作生成的深度渐进式融合。在LIBERO基准测试的四个模拟操作任务中,VAT取得了98.15%的平均成功率,超越了OpenVLA-OFT等先前方法,创造了新的性能记录。这项工作不仅为模仿学习提供了一个强大的模型,更证明了利用视觉模型完整的“表征轨迹”对于推进机器人策略至关重要。
本研究提出了一种无需额外训练的方法,利用前沿的视觉语言模型(VLM)作为“现成”工具,仅凭单张目标图像即可估计机器人手臂的关节角度。通过在合成和真实世界图像数据上进行评估,该研究为当前基础模型在此任务上的性能建立了基准。实证结果表明,单独增加测试规模或模型参数规模并不能有效提升关节角度预测的准确性。该方法有望为机器人应用提供更便捷的姿态验证方案。
本研究将学习分析应用于药学临床培训,通过分析323名学生在AI虚拟病人对话中的5万余条交互数据,结合认知网络分析与序列模式挖掘,揭示了高绩效学生与低绩效学生在问诊模式上的关键差异。高绩效学生能策略性地识别临床相关信息,并整合关系建立与结构化组织,而低绩效学生则易陷入常规的提问-验证循环。研究还发现语言背景、工作经验和机构环境等人口因素显著影响问诊模式,为健康专业教育的评估和自适应AI系统设计提供了方法学依据。
本研究提出PrefGen,一个多模态框架,旨在解决个性化图像生成中难以精确捕捉和编码用户审美偏好的问题。该方法利用多模态大语言模型(MLLM)通过偏好导向的视觉问答任务提取丰富的用户表征,并设计了跨用户与用户内判别任务来分离偏好相关特征。通过引入基于最大平均差异的对齐损失,弥合了MLLM与扩散模型文本编码器之间的模态鸿沟,确保生成的图像既能忠实于文本提示,又能贴合用户偏好。实验表明,该方法在图像质量和偏好对齐方面显著优于现有基线。
本文提出DreamFoley,一种创新的自回归音频生成架构,利用大视觉语言模型联合建模视频、音频和文本模态的序列交互。其核心创新包括:双视觉编码器模块,分别捕获音频对齐和文本对齐的视觉特征;采用延迟模式生成方案的残差向量量化音频分词器,平衡训练效率与音质;将无分类器引导策略引入VLM以提升生成音频质量。研究还建立了高效的数据生产流程以扩展音-视-文三元组数据收集。实验表明,该模型在主流基准测试中取得了优异性能。
本文针对黑猩猩优化算法(ChOA)收敛慢、易早熟的问题,提出了SEB-ChOA算法。该算法引入了六种螺旋函数并构建了两种新型混合螺旋函数,以增强其开发能力。研究在23个标准基准函数、IEEE CEC-2005的20个测试集、IEEE CEC06-2019的10个案例以及IEEE CEC-2020的12个实际工程问题上进行了广泛评估。结果表明,SEB-ChOA在几乎所有基准测试中均取得顶级排名,其性能显著优于PSO、GA、SMA等经典及近期优化器,并与CEC06-2019竞赛的优胜算法jDE100和DISHchain1e+12表现相当。
本文提出EmoDiffTalk,一种基于3D高斯泼溅的可编辑3D说话头生成框架。其核心创新在于情感感知高斯扩散模型,通过动作单元提示扩散过程实现细粒度面部动画,并结合精准的文本-动作单元情感控制器,支持基于文本输入进行连续、多模态的动态情感编辑。在公开数据集上的实验表明,该方法在情感表达的细腻度、唇形同步保真度及可控性方面均优于现有工作。
本文构建了一个诊断协调失败的统一博弈论框架,揭示了劳动力市场与AI治理面临相同的结构性悲剧。框架包含五个充要条件,并引入悲剧指数量化协调难度。研究发现,AI治理的协调难度比气候变化或核武器高出数量级;同时,企业间竞争导致生产率提升无法转化为工人福利,即使在欧洲的有利条件下,这种脱钩依然存在。分析聚焦于诊断结构性障碍,而非提供解决方案。
本研究提出了一种对胶囊网络(CapsNets)中初级胶囊进行剪枝的方法,旨在解决其计算资源消耗大、训练和推理速度慢的问题。通过在MNIST、Fashion-MNIST、CIFAR-10和SVHN数据集上的实验,该方法在移除高达95%的胶囊后,仍能保持模型精度,同时使推理速度提升最高达9.9倍,并在动态路由阶段节省超过95.36%的浮点运算量。研究还分析了不同数据集对剪枝效果的响应差异。
本研究提出了一种新型可认证鲁棒的语义分割网络,通过内置Lipschitz约束实现高效训练,在Cityscapes等数据集上达到有竞争力的像素精度。该框架首次实现了实时兼容的可认证鲁棒语义分割,并能计算在ℓ₂攻击半径ε下的最坏情况性能。认证过程比随机平滑方法快约600倍,为语义分割任务提供了灵活且计算高效的鲁棒性证明。
本研究针对选择性激光熔化(SLM)增材制造中粉末形态对零件质量的关键影响,开发了一套高通量、自动化的机器学习框架。该框架结合高速成像、形状提取与聚类算法,对约12.6万张粉末颗粒图像进行大规模形态分析。通过评估三种聚类流程,研究发现基于傅里叶描述符与k-means的流程在内部有效性指标上表现最优,同时能在标准工作站上实现每个颗粒亚毫秒级的处理速度。该无监督学习框架为快速评估粉末形态、追踪粉末循环使用中的形状演变以及实现SLM工作流的实时原料监控提供了有效路径。
本研究对CXR-Foundation (ELIXR v2.0)和MedImageInsight两大胸部X光基础模型在MIMIC-CXR和NIH ChestX-ray14公开数据集上进行了系统性基准测试。通过统一的预处理流程和下游分类器评估,MedImageInsight在多数任务上表现略优,而CXR-Foundation则展现出更强的跨数据集稳定性。无监督聚类分析进一步验证了MedImageInsight嵌入具有与疾病一致的清晰结构。该工作为医学基础模型的标准化评估提供了可复现的基线。