今日速览 · Fortune Health

cs 03-13 00:00

智能混合交叉熵算法：通过软快乐着色最大化网络同质性

本文针对NP难的软快乐着色问题，提出了一种新颖的智能混合算法CE+LS。该算法将交叉熵方法的自适应概率学习与快速、结构感知的局部搜索机制相结合，旨在最大化网络中“快乐顶点”（即至少有一定比例邻居与其同色的顶点）的数量。通过在28,000个随机生成图（以随机块模型为基准）上的全面实验评估，证明CE+LS在最大化网络同质性方面，其可扩展性和解的质量均优于现有的启发式和模因算法，即使在最具挑战性的“紧致区域”问题实例中也能保持高效。

网络同质性软快乐着色交叉熵方法混合算法np难问题图着色

cs 03-13 00:00

OpenSanctions Pairs：基于LLM的大规模实体匹配基准与性能分析

本文发布了OpenSanctions Pairs，一个源自真实国际制裁数据聚合与分析师去重工作的大规模实体匹配基准数据集。该数据集包含755,540个标注实体对，覆盖31个国家、293个异构数据源，具有多语言、跨文字、属性噪声与缺失等典型合规工作流特征。研究对比了生产级规则匹配器与多种开源/闭源大语言模型（LLM）在零样本和少样本设置下的性能。现成的LLM显著超越了基于规则的基线（F1分数91.33%），其中GPT-4o达到98.95%的F1分数，而本地可部署的开源模型DeepSeek-R1-Distill-Qwen-14B也达到了98.23%。DSPy MIPROv2提示优化带来一致但有限的提升，添加上下文示例则收益甚微甚至可能损害性能。错误分析揭示了互补的失败模式：规则系统倾向于过度匹配（高假阳性），而LLM主要在跨文字音译及细微标识符/日期不一致上出错。结果表明，在此场景下成对匹配性能已接近实用天花板，未来工作应转向分块、聚类及不确定性感知审查等流水线组件。

实体匹配大语言模型基准数据集制裁合规自然语言处理

cs 03-13 00:00

结构感知不确定性量化：提升神经算子PDE代理模型的可靠性

本文针对神经算子（NOs）在求解偏微分方程（PDE）时，因数据有限、优化不完美或分布偏移而产生的认知不确定性，提出了一种结构感知的量化方案。该方法利用现代NOs的模块化结构（提升-传播-恢复），仅对“提升”模块注入随机性进行蒙特卡洛采样，而将学习到的求解器动力学（传播与恢复）视为确定性过程。通过两种轻量级的提升层扰动（通道乘性特征丢弃与方差匹配的高斯特征扰动）及标准校准，构建不确定性带。在具有挑战性的PDE基准测试（包括不连续系数的达西流和几何偏移的3D汽车CFD代理模型）中，该方法相比常见基线，能提供更可靠的覆盖、更紧的置信带以及更好的残差-不确定性对齐，同时保持运行效率。

不确定性量化神经算子偏微分方程科学计算结构感知蒙特卡洛采样

cs 03-13 00:00

推测解码缩放定律：简化推理吞吐量优化

本研究提出了推测解码缩放定律（SDSL），为基于推测解码的推理系统提供了一种理论优化框架。该理论通过分析预训练大语言模型（LLM）的关键超参数（如模型大小、层数、注意力头数），建立了它们与下游推理系统吞吐量效率之间的解析关系。这使得在模型预训练之前，即可预测并选择能使整个推理管道吞吐量最优的超参数组合，避免了传统实验性优化方法所需的高昂训练成本。

推测解码推理加速缩放定律大语言模型吞吐量优化

cs 03-13 00:00

在线社交网络信任量化建模综述：方法、数据与应用

本文对在线社交网络中的信任量化建模研究进行了系统性综述。研究首先从心理学理论出发，探讨了影响在线信任形成与演化的关键因素。随后，基于算法基础对现有先进信任模型进行了分类，并深入剖析了每类模型的建模机制及其在量化信任方面的独特贡献。文章还提供了一个以实施为中心的建模手册，汇总了可用数据集、信任相关特征、有前景的建模技术及可行的应用场景。最后，总结了文献综述的主要发现，并讨论了尚未解决的挑战。

信任建模社交网络量化分析算法分类数据特征应用场景

cs 03-13 00:00

基于AIS数据的广域GNSS欺骗与干扰检测框架

本研究提出了一种基于船舶自动识别系统（AIS）数据的三阶段框架，用于广域检测全球导航卫星系统（GNSS）的欺骗与干扰攻击。该框架首先通过规则诊断过滤通信层缺陷（如重复MMSI、时间戳错误等），然后利用交互多模型滤波器和传输间隔分析提取运动学一致性与连续性异常，最后应用时空DBSCAN算法根据多船一致性和时间持续性对异常进行聚类与分类。在约9.66亿条韩国沿海AIS数据上的测试表明，该方法检测到17个欺骗集群和343个干扰集群，并将误报率降低了98.6%。

gnss安全ais数据异常检测时空聚类欺骗干扰海事导航

cs 03-13 00:00

社交媒体虚假信息流行度估计中的不确定性量化研究

本研究提出了一种量化社交媒体虚假信息流行度估计中不确定性的方法。研究基于专业事实核查员标注的多平台、多语言数据集，利用置信区间、模拟方法和自助法，分别量化了样本不确定性、标注不确定性（源于人工分歧和误分类）以及基于关键词的数据检索不确定性。最终，通过结合标注者行为的多项式模拟与关键词/帖子重采样，该方法能捕捉测量不确定性对流行度估计的联合影响。实证结果表明，基于关键词的数据检索可能导致置信区间显著扩大，强调了不确定性感知估计对稳健分析的重要性。

虚假信息不确定性量化社交媒体分析置信区间数据检索事实核查

cs 03-13 00:00

基于曲率重加权的社区发现：随机块模型中的均匀曲率集中与有限时域追踪

本文研究在平衡双块随机块模型中，利用曲率驱动的边重加权进行社区恢复。给定初始权重为邻接矩阵的图G，我们使用Lin-Lu-Yau Ricci曲率迭代更新边权重，而所有运输成本均在未加权图度量中计算。在中等密度区域，我们证明了边曲率的均匀集中性，并表明单次Ricci重加权步骤会产生两级权重，从而放大块内相对于块间的连通性。其结果是，重加权图上的谱聚类具有严格更大的总体特征间隙，我们获得了相应的非渐近扰动界和Davis-Kahan误聚类保证。我们进一步分析了有限次迭代重加权，其中随机迭代在时间范围内均匀地追踪一个确定性的双权重递归。这为典型随机图模型中的社区检测提供了一个有原则的有限时域曲率流解释。

社区发现随机块模型ricci曲率谱聚类图重加权曲率流

cs 03-13 00:00

ARACH：无需训练的推理时插件，通过全局注意力重分配增强大语言模型

本文提出ARACH，一种无需训练、无需更新模型参数的推理时插件。它通过一个自适应上下文枢纽来聚合上下文信息并重新分配模型的注意力，从而提升大语言模型（LLMs）的性能。实验表明，该方法在多种语言建模任务上能带来稳定提升，且推理开销可控。注意力分析进一步揭示，ARACH能有效缓解注意力“沉没”现象，为不依赖提示工程或模型微调的推理时优化提供了新思路。

大语言模型推理优化注意力机制训练免费上下文聚合模型增强

cs 03-13 00:00

TinyNav：在微控制器上实现实时自主导航的端到端TinyML系统

本文提出了TinyNav，一个在ESP32微控制器上运行的端到端TinyML系统，用于实现实时自主导航。该系统采用一个经过定制训练和量化的2D卷积神经网络，通过处理20帧深度数据的滑动窗口来预测转向和油门指令。通过避免使用3D卷积和循环层，该模型仅包含23k参数，推理延迟低至30毫秒。相关分析和Grad-CAM验证表明，系统具备一致的空间感知和避障行为。TinyNav证明了响应式自主控制可以直接部署在资源高度受限的边缘设备上，减少对外部计算资源的依赖。

tinyml自主导航微控制器边缘计算卷积神经网络模型量化

cs 03-13 00:00

OA-NBV：移动机器人主动感知的遮挡感知最优视点规划

本文提出了一种遮挡感知的最优视点规划方法OA-NBV，旨在解决移动机器人在杂乱环境中因遮挡而难以有效观察人的问题。该方法通过一个以目标为中心的可见性模型，综合考虑遮挡、目标尺度和完整性，从机器人可达的候选姿态中评分并选择最优视点，以获取更完整的人体观测。在仿真和真实世界实验中，OA-NBV成功率超过90%，相比基线方法，其归一化目标观测面积至少提升81%，关键点可见性至少提升58%。

最优视点规划遮挡感知移动机器人主动感知人机交互

cs 03-13 00:00

DRAFTO：机器人轨迹优化的解耦降维自适应修复算法

本文提出了一种新的机器人轨迹优化算法DRAFTO。它将优化问题解耦为两个部分：在降维空间中使用带非单调策略的高斯-牛顿法进行主迭代，以提升效率；同时使用约束二次规划进行初始化和终端可行性修复，以处理关节极限等约束。算法采用铰链平方罚函数处理不等式约束，确保全局收敛性。基准测试表明，DRAFTO在多种场景和任务中，相比CHOMP、TrajOpt等优化型规划器以及RRT*等采样型规划器，均表现出更高的效率和可靠性。

轨迹优化机器人操作解耦优化可行性修复高斯-牛顿法约束处理

cs 03-13 00:00

VeriHGN：基于异构图统一逻辑与物理布局表示的电路拥塞预测框架

针对超大规模集成电路设计中布局验证耗时耗力的挑战，本研究提出VeriHGN框架。该框架通过增强的异构图，将电路网表连接与物理布局网格统一为单一关系表示，从而更准确地建模逻辑意图与物理实现之间的相互作用。在ISPD2015等工业基准测试上的实验表明，该方法在预测精度和相关性指标上均优于现有先进方法，有助于实现早期拥塞预测并减少布线迭代。

电路拥塞预测异构图神经网络电子设计自动化布局验证vlsi设计

cs 03-13 00:00

DIVE：通过证据驱动的任务合成方法提升智能体工具使用的泛化能力

针对现有方法合成的智能体任务多样性不足、导致工具使用泛化能力弱的问题，本文提出了DIVE方法。该方法反转了任务合成流程，先执行多样化的真实工具，再严格根据执行轨迹反向推导出任务，从而在构建时即获得可靠的依据。DIVE通过控制工具池覆盖度和单任务工具集多样性两个维度来扩展结构多样性，并通过“证据收集-任务推导”循环，在5个领域的373个工具上诱导出丰富的多步骤工具使用模式。在Qwen3-8B模型上使用DIVE数据（48k SFT + 3.2k RL）进行训练，在9个分布外基准测试中平均提升22个百分点，并显著优于最强的8B基线模型。分析表明，多样性扩展对泛化能力的提升效果持续优于数据量扩展。

智能体任务合成工具使用泛化证据驱动方法多样性扩展大语言模型

cs 03-13 00:00

TATIC：通过物理校正实现人机协作中的人类意图推断

本文提出TATIC框架，用于解决人机协作中从物理校正推断人类意图的难题。该框架结合基于扭矩的接触力估计和任务感知时序卷积网络，能够从短暂的物理交互中同时推断离散的任务级意图和估计连续的运动级参数。通过任务对齐的特征规范化，实现了对不同布局的鲁棒泛化。实验在意图识别上取得了0.904的宏F1分数，并在协作拆卸任务中成功进行了硬件验证。

人机协作意图推断物理校正时序卷积网络任务感知

cs 03-13 00:00

CR-Bench：评估AI代码审查代理在真实世界中的效用

本文针对前沿大语言模型驱动的代码审查代理，提出了CR-Bench基准数据集和CR-Evaluator细粒度评估框架。研究发现，旨在识别所有隐藏问题的代理可能产生较低的“信噪比”，仅用解决率衡量会掩盖真实进展并影响开发者效率。分析揭示了问题解决与误报之间的权衡，为代码审查代理从受控基准转向真实软件工程工作流的研究与开发提供了基础。

代码审查ai代理基准测试大语言模型软件工程评估方法

cs 03-13 00:00

QoT：质量驱动的LLM辅助软件设计推理框架，通过时序自问链提升系统质量

本文提出了Questions-of-Thoughts（QoT）框架，一种在推理时使用的轻量级脚手架，旨在提升大语言模型（LLM）辅助软件设计的质量。QoT将用户目标转化为有序的工程步骤序列，并通过逐步自我提问来验证约束、减少遗漏错误，同时维护一个轻量级的推理记录以稳定后续设计决策。研究在API设计、数据通信和文件系统三个后端工程领域进行了评估，使用受ISO/IEC启发的质量评估标准（衡量可扩展性、完整性、模块化和安全性）对生成产物进行评分。结果表明，QoT能为更大模型和更复杂领域带来一致的质量提升。

大语言模型软件设计质量驱动推理框架时序自问链

cs 03-13 00:00

概率析取范式：连接逻辑、概率与函数分析的新框架

本文提出概率析取范式（PDNFs），为逻辑系统中的不确定性表示与推理提供新框架。PDNFs为变量分配实值权重，编码其存在、缺失或否定的概率信息。研究构建了PDNFs的向量空间，支持代数证据组合，并将其解释为时序逻辑构造上的概率分布或分区区间上的可积函数。该双重视角启用了巴拿赫空间结构及泛函分析工具。研究表明，在指数参数化下，PDNF加法与贝叶斯证据融合一致，并推导了从随机样本进行结果识别的边界。

概率逻辑时序逻辑不确定性推理函数分析证据融合

cs 03-13 00:00

字符串数据异常检测算法比较：基于编辑距离与正则表达式的方法

本文针对机器学习中研究较少的字符串数据异常检测问题，比较了两种算法。第一种是基于局部离群因子（LOF）的变体，通过Levenshtein编辑距离计算数据密度，并引入考虑字符类别层次结构的加权编辑距离以适应特定数据集。第二种是基于分层左正则表达式学习器的新算法，通过推断数据的正则表达式模式来识别异常。实验表明，基于正则表达式的方法在异常值与正常值结构差异明显时表现优异，而基于LOF的方法则在异常值与正常数据的编辑距离分布差异显著时更有效。

异常检测字符串数据编辑距离正则表达式局部离群因子数据清洗

cs 03-13 00:00

GeNeX框架：通过遗传网络专家缓解验证集过拟合问题

针对模型开发中过度依赖验证集性能导致的验证集过拟合（VO）问题，本文提出GeNeX框架。该框架在模型生成阶段结合梯度训练与遗传进化，通过父网络交叉产生结构多样、权重再生的子网络，不依赖验证反馈构建候选池。在集成阶段，依据预测行为聚类并筛选鲁棒性强的专家模型，进行权重级融合形成原型网络，最终通过序列二次规划优化集成输出。研究还引入了VO感知评估协议，模拟训练与测试分布差异的真实部署场景。

验证集过拟合集成学习遗传算法模型鲁棒性分布偏移

cs 03-13 00:00

伊朗数字话语跨平台分析：Telegram与Reddit的话题、情感与事件验证

本研究对伊朗相关数字话语进行了跨平台分析，比较了Telegram（7,567条国际新闻频道消息）与Reddit（23,909条伊朗相关社区帖子）的结构差异。通过可复现的单一流程，应用NMF主题建模、VADER情感评分及关键词捆绑升级指数，量化了军事、核能与外交叙事。通过同日与滞后相关性分析，发现线上话语动态与线下抗议及地缘政治事件时间线的最强关联出现在非零滞后，表明话语具有预期性或反应性框架，而非即时镜像。2026年2月的实时数据进一步显示，升级相关叙事与地缘政治发展同步增加。

数字话语分析跨平台比较主题建模情感分析地缘政治社交媒体

cs 03-13 00:00

跨群体干扰下如何选择干预对象以最大化因果效应

本文针对网络系统中干预措施通过跨群体干扰路径影响其他群体的普遍现象，提出了“核心到群体因果效应”这一因果估计量，用于量化对候选源群体子集进行干预与否对目标群体结果的影响差异。研究证明了该估计量在标准因果假设下可从观测数据中识别，并开发了基于图神经网络的估计器来捕捉跨群体干扰模式。为解决候选子集的组合搜索难题，作者提出了CauMax框架，包含基于蒙特卡洛Dropout置信下界的贪婪搜索算法和基于Gumbel-Softmax松弛的可微梯度优化算法。在两个真实社交网络上的实验表明，CauMax相比基线方法将遗憾值降低了一个数量级，且适度的不确定性惩罚能持续提升子集选择质量。

因果推断跨群体干扰图神经网络干预优化网络效应

cs 03-13 00:00

实践中的氛围编程：代码生成工具在生产环境下的经验报告

本文是一份来自小型全栈团队的经验报告，探讨了在生产约束下应用“氛围编程”（即基于对话的代码生成）的实践。团队通过结合上下文提示和明确的架构约束，成功构建了一个支持多项目隔离的智能体学习平台和一个具备引用、访问控制与评估跟踪的学术RAG系统。研究发现，氛围编程显著加速了项目脚手架搭建和集成过程，但在多租户、访问控制、内存策略和异步处理等关键架构方面，若未明确定义约束，生成的代码往往存在不足。这导致工程重心从样板代码实现转向了约束规范制定与合规性审计。

代码生成氛围编程经验报告生产约束架构设计rag系统

cs 03-13 00:00

SELF-VLA：融合显式技能的智能体框架，提升机器人复杂拆解能力

针对电子废弃物拆解自动化中任务多变、接触密集的挑战，本研究提出了SELF-VLA框架。该框架将显式的拆解技能库与视觉-语言-动作大模型相结合，以增强机器人处理长周期、高精度序列操作的能力。实验表明，在两项接触密集的拆解任务中，SELF-VLA的性能显著优于现有的端到端VLA模型，为解决工业场景中的泛化与不确定性难题提供了新思路。

机器人拆解视觉语言动作模型技能增强工业自动化接触式操作

24 小时跨学科精选

计算机科学

今日速览 · 计算机科学

智能混合交叉熵算法：通过软快乐着色最大化网络同质性

OpenSanctions Pairs：基于LLM的大规模实体匹配基准与性能分析

结构感知不确定性量化：提升神经算子PDE代理模型的可靠性

推测解码缩放定律：简化推理吞吐量优化

在线社交网络信任量化建模综述：方法、数据与应用

基于AIS数据的广域GNSS欺骗与干扰检测框架

社交媒体虚假信息流行度估计中的不确定性量化研究

基于曲率重加权的社区发现：随机块模型中的均匀曲率集中与有限时域追踪

ARACH：无需训练的推理时插件，通过全局注意力重分配增强大语言模型

TinyNav：在微控制器上实现实时自主导航的端到端TinyML系统

OA-NBV：移动机器人主动感知的遮挡感知最优视点规划

DRAFTO：机器人轨迹优化的解耦降维自适应修复算法

VeriHGN：基于异构图统一逻辑与物理布局表示的电路拥塞预测框架

DIVE：通过证据驱动的任务合成方法提升智能体工具使用的泛化能力

TATIC：通过物理校正实现人机协作中的人类意图推断

CR-Bench：评估AI代码审查代理在真实世界中的效用

QoT：质量驱动的LLM辅助软件设计推理框架，通过时序自问链提升系统质量

概率析取范式：连接逻辑、概率与函数分析的新框架

字符串数据异常检测算法比较：基于编辑距离与正则表达式的方法

GeNeX框架：通过遗传网络专家缓解验证集过拟合问题

伊朗数字话语跨平台分析：Telegram与Reddit的话题、情感与事件验证

跨群体干扰下如何选择干预对象以最大化因果效应

实践中的氛围编程：代码生成工具在生产环境下的经验报告

SELF-VLA：融合显式技能的智能体框架，提升机器人复杂拆解能力