今日速览 · Fortune Health

cs 04-23 00:00

大语言模型为何过度依赖外部工具？研究揭示知识幻觉与奖励机制缺陷

研究发现大语言模型普遍存在“工具过度使用”现象，即在不必要时调用外部工具。研究从两个关键视角揭示了其机制：一是模型存在“知识认知幻觉”，错误判断自身知识边界；通过提出的知识感知边界对齐策略，可将工具使用减少82.8%并提升准确性。二是训练中“仅结果奖励”机制无意中鼓励了低效工具调用；通过平衡奖励信号，可在不牺牲准确性的前提下，将不必要的工具调用减少60%以上。研究为优化LLM工具使用效率提供了理论与方法依据。

大语言模型工具过度使用知识边界奖励机制偏好优化模型效率

cs 04-23 00:00

视觉反馈解锁可靠GUI代码生成与调试：VF-Coder系统新突破

本研究针对大语言模型在图形用户界面（GUI）代码生成与调试中的视觉信息缺失难题，提出VF-Coder视觉反馈多智能体系统。该系统通过感知程序界面视觉信息并直接模拟用户交互，能够以类人方式识别逻辑与布局问题。在包含984个真实桌面GUI任务的InteractGUI基准测试中，VF-Coder将Gemini-3-Flash的成功率从21.68%提升至28.29%，视觉评分从0.4284提高至0.5584，验证了视觉反馈在GUI调试中的有效性。

gui代码生成视觉反馈多智能体系统交互式调试软件工程

cs 04-23 00:00

AI to Learn 2.0：面向学习密集型领域的可交付成果治理框架与成熟度评估

本文针对生成式AI在学习密集型领域（如研究、教育）中应用过快而治理框架缺失的问题，提出了“AI to Learn 2.0”治理框架。其核心是解决“代理失效”问题，即AI生成的精美成果无法证明人类的理解、判断或迁移能力。该框架以最终可交付成果为核心，区分“成果残余”与“能力残余”，并通过包含五部分的可交付成果包、七维成熟度评估量表、关键维度门槛阈值及配套的能力证据阶梯来具体实施。它允许在探索、草拟等环节使用不透明的AI，但要求最终发布的成果必须在不依赖原始大语言模型或云API的情况下，具备可用性、可审计性、可迁移性和可解释性。在学习情境中，还要求提供可归因于人类的、与情境相适应的解释或迁移证据。通过多个对比案例的评分演示，该框架能有效区分纯粹的替代性工作流与有边界、可审计、可交接的AI辅助工作流。

ai治理学习评估可交付成果成熟度模型能力证据教育技术

cs 04-23 00:00

多智能体系统安全治理新框架：用软标签评估风险分布

本文提出SWARM框架，用于评估多智能体系统中的涌现风险。传统方法依赖二元分类（好/坏），而SWARM引入软概率标签 $p = P(v{=}+1) \in [0,1]$，支持连续的风险收益计算、毒性测量和治理干预。框架包含可配置的治理杠杆（交易税、熔断机制、声誉衰减、随机审计），并通过期望毒性 $\mathbb{E}[1{-}p \mid \text{accepted}]$ 和质量差距 $\mathbb{E}[p \mid \text{accepted}] - \mathbb{E}[p \mid \text{rejected}]$ 等概率指标量化其效果。实验表明，严格的治理可能使系统福利降低40%以上却未提升安全性，而过度内部化外部性则会导致总福利从+262降至-67。软指标能检测到通过传统二元评估的代理博弈行为。该框架可直接应用于现存的LLM智能体。

多智能体系统安全治理软标签风险度量涌现风险代理评估

cs 04-23 00:00

ZeroFolio：基于文本嵌入的零领域知识算法选择方法

本研究提出了一种名为ZeroFolio的特征无关算法选择方法，无需手工设计特征或领域知识。其核心流程为：将问题实例文件作为纯文本读取，使用预训练文本嵌入模型将其转换为向量表示，最后通过加权k近邻算法选择最佳求解器。该方法的关键在于，预训练嵌入模型生成的表示能够有效区分不同问题实例。实验在涵盖SAT、MaxSAT、QBF等7个领域的11个ASlib场景中进行，结果表明，单一固定配置下，该方法在10个场景中优于基于手工特征的随机森林模型；采用双种子投票策略时，在所有11个场景中均表现更优，且优势显著。消融实验表明，逆距离加权、行随机化和曼哈顿距离是关键设计选择。

算法选择文本嵌入零领域知识特征无关预训练模型加权k近邻

cs 04-23 00:00

基于Transformer的AI科学解释评分：数据增强策略有效解决类别不平衡问题

本研究针对NGSS课堂中学生科学解释的自动化评分任务，探索了多种数据增强策略以解决评分标准中高级推理类别样本稀少的严重不平衡问题。在包含1,466条高中生物理科学回答的数据集上，以SciBERT为基线模型，对比了GPT-4生成合成回答、EASE词级提取过滤和ALP短语级提取三种增强方法。结果显示，数据增强显著提升了模型性能，其中GPT-4数据同时提高了精确率和召回率，而ALP方法在样本最稀缺的类别（5、6、7、9）上实现了完美的精确率、召回率和F1分数。与传统过采样方法SMOTE相比，这些策略在避免过拟合的同时，更好地保留了与学习进程对齐所需的新手水平数据。

教育人工智能文本分类数据增强类别不平衡科学教育transformer模型

cs 04-23 00:00

可解释反洗钱警报分诊：基于证据检索与反事实检查的大语言模型框架

本研究提出一个用于反洗钱（AML）交易监控警报分诊的可解释框架，旨在解决大语言模型（LLMs）在受监管工作流中因幻觉、溯源薄弱和解释不忠实带来的风险。该方法将分诊视为证据约束的决策过程，结合了（i）从政策指南、客户背景、警报触发器和交易子图中进行检索增强的证据捆绑，（ii）要求明确引用并区分支持、矛盾或缺失证据的结构化LLM输出契约，以及（iii）反事实检查，验证最小、合理的扰动是否会导致分诊建议及其理由的连贯变化。在公开合成AML基准测试中，该方法在分诊性能（PR-AUC 0.75）、可审计性（引用有效性0.98）和解释忠实度（反事实忠实度0.76）方面均表现优异。

反洗钱大语言模型可解释人工智能证据检索反事实检查金融合规

cs 04-23 00:00

WorkflowGen：基于轨迹经验的自适应工作流生成框架

针对大语言模型（LLM）代理在复杂任务中推理开销大、令牌消耗高、执行不稳定且无法复用经验的问题，本文提出 WorkflowGen 框架。该框架通过捕获完整执行轨迹，在节点和工作流两个层面提取可复用知识（如错误指纹、最优工具映射、参数模式等），并采用闭环机制，仅对可变节点进行轻量级生成。其三层自适应路由策略能根据查询语义相似度，动态选择直接复用、基于轨迹重写的生成或完全初始化。实验表明，相比实时规划方法，WorkflowGen 可减少超过 40% 的令牌消耗，并在中等相似度查询上通过主动错误规避和自适应回退将成功率提升 20%。

工作流生成轨迹经验大语言模型自适应路由知识复用效率优化

cs 04-23 00:00

透明评估框架：量化大语言模型推理与训练的环境影响

本文提出一个透明评估框架，用于在有限可观测性下估算当前大语言模型的推理与训练环境影响。该框架将自然语言应用描述转化为有界的环境影响估计，并支持对当前市场模型的在线比较观测。其核心贡献在于提供了一种可审计、来源可追溯的代理方法，旨在提升模型间环境影响的可比性、透明度和可复现性，而非直接测量不透明的专有服务。

大语言模型环境影响评估透明框架可持续ai模型推理代理方法

cs 04-23 00:00

ThermoQA：评估大语言模型热力学推理能力的三层基准

研究团队提出了ThermoQA基准，包含293个开放式工程热力学问题，分为属性查找、组件分析和完整循环分析三个层级。基准利用CoolProp 7.2.0计算真实答案，覆盖水、R-134a和变比热空气等工质。对六个前沿大语言模型的评估显示，Claude Opus 4.6以94.1%的准确率领先，GPT-5.4和Gemini 3.1 Pro紧随其后。研究发现，模型在跨层级任务上性能下降显著（2.8至32.5个百分点），表明属性记忆不等于热力学推理。超临界水、R-134a制冷剂和联合循环燃气轮机分析成为区分模型能力的关键任务，性能差异高达40-60个百分点。

大语言模型评估热力学推理工程基准科学问答ai能力测试

cs 04-23 00:00

基于多模态特征工程与LightGBM的临床试验给药错误自动检测系统

本研究提出了一种自动化系统，用于从未结构化的临床试验叙述文本中检测给药错误。该系统采用梯度提升模型LightGBM，并结合了全面的多模态特征工程，共提取了3451个特征，涵盖传统NLP特征（如TF-IDF）、密集语义嵌入（all-MiniLM-L6v2）、领域特定医学模式以及基于Transformer的模型（BiomedBERT, DeBERTa-v3）的预测分数。在类别严重不平衡（阳性率4.9%）的CT-DEB基准数据集上，通过5折集成平均，模型在测试集上取得了0.8725的ROC-AUC。系统的消融研究表明，句子嵌入特征对性能至关重要，移除会导致性能下降2.39%。特征效率分析进一步揭示，通过选择最优的500-1000个特征进行降噪，模型性能（AUC 0.886-0.887）可超越使用全部特征集（AUC 0.879）。

临床试验给药错误检测多模态特征工程lightgbm自然语言处理医学文本分类

cs 04-23 00:00

推理余量比：约束条件下推理稳定性的诊断与控制框架

本文提出了推理余量比（IHR），这是一个用于评估约束决策系统推理稳定性的无量纲诊断指标。IHR 形式化地描述了系统有效推理能力 $C$ 与由运行环境施加的联合不确定性和约束负载 $U + K$ 之间的关系，旨在捕捉系统距离推理稳定性边界的接近程度，而非输出层面的性能。通过三个受控实验，研究表明 IHR 可作为：1）一个可量化的风险指标，其与系统崩溃概率的关系遵循一条拟合良好的逻辑曲线，估计临界阈值 $IHR^* \approx 1.19$；2）在环境噪声下，对接近推理稳定性边界的敏感指示器；3）一个可行的控制变量，其主动调节在 300 次蒙特卡洛模拟中将系统崩溃率从 79.4% 降至 58.7%，并将 IHR 方差降低了 70.4%。这些结果表明，IHR 可作为标准性能、漂移和不确定性指标的前瞻性、系统级补充，用于估计在分布偏移和约束下运行的 AI 系统在发生明显故障前的剩余推理裕度。

推理稳定性系统诊断约束决策风险评估ai系统控制

cs 04-23 00:00

EvoForest：通过计算图开放式演化实现的新型机器学习范式

本文提出EvoForest，一种混合神经符号系统，旨在突破传统“选择模型-优化权重”的单一范式。它通过开放式演化，在共享有向无环图中联合演化可重用的计算结构、可调用函数族以及可训练的低维连续组件。系统利用轻量级Ridge回归评估每个图配置在非可微交叉验证目标上的表现，并生成结构化反馈来指导基于大语言模型的后续突变。在2025年ADIA实验室结构突变挑战赛中，EvoForest在600步演化后达到了94.13%的ROC-AUC，超过了公开报告的最佳成绩90.14%。

机器学习演化计算神经符号系统计算图结构化预测开放式演化

cs 04-23 00:00

定位大语言模型中的刻板印象：GPT-2与Llama 3.2的内部机制研究

本研究旨在定位大型语言模型（LLM）中刻板印象偏见的内部表征。通过对GPT-2 Small和Llama 3.2的内部机制进行分析，研究者探索了两种主要方法：一是识别编码刻板印象的个体对比神经元激活；二是检测对偏见输出贡献显著的注意力头。实验旨在绘制这些“偏见指纹”，为从模型内部机制层面理解和缓解有害的社会偏见提供初步见解。

大语言模型刻板印象偏见定位神经元激活注意力机制模型可解释性

cs 04-23 00:00

幻觉神经元无法跨领域泛化：大语言模型幻觉机制具有领域特异性

近期研究发现，大语言模型中存在一组稀疏的“幻觉神经元”，能预测模型何时会产生幻觉。本研究通过跨6个知识领域（通用问答、法律、金融、科学、道德推理、代码漏洞）和5个开源模型的系统实验，探究这些神经元是否具有跨领域泛化能力。结果表明，幻觉并非单一机制：在一个领域训练的幻觉神经元分类器（域内AUROC为0.783）迁移到其他领域时性能显著下降（AUROC仅0.563，$\Delta = 0.220, p < 0.001$）。这意味着幻觉涉及领域特定的神经元群体，对开发神经元级幻觉检测器具有直接启示：需按领域校准，而非通用部署。

大语言模型幻觉检测神经元分析领域泛化可解释ai

cs 04-23 00:00

OThink-SRR1：基于强化学习的搜索-精炼-推理框架提升大模型多跳问答能力

针对检索增强生成（RAG）在处理复杂多跳问题时面临检索噪声干扰和计算成本高昂的挑战，本研究提出了OThink-SRR1框架。该框架通过强化学习训练模型执行迭代的“搜索-精炼-推理”过程，其核心创新在于“精炼”阶段，能在推理前将检索到的文档提炼为简洁、相关的事实。研究者还设计了GRPO-IR端到端强化学习算法，奖励模型准确识别证据，同时惩罚过度检索，从而训练出既专注又高效的模型。在四个多跳问答基准测试中，该方法在减少检索步骤和计算量的同时，取得了优于现有基线模型的准确率。

检索增强生成多跳问答强化学习大语言模型文档精炼高效推理

cs 04-23 00:00

PayPal商业智能体推理加速：基于EAGLE3推测解码的实证研究

本研究评估了EAGLE3推测解码技术对PayPal商业智能体（基于微调Llama3.1-Nemotron-8B模型）的推理优化效果。在2×H100硬件上，通过vLLM与NVIDIA NIM对比40种配置（推测令牌数γ=3/5、并发数1-32、温度0/0.5）。关键发现：γ=3在零硬件成本下实现22-49%吞吐提升与18-33%延迟降低，接受率稳定在35.5%；LLM-as-Judge评估确认输出质量无损；单H100推测解码性能可匹配双H100的NIM，实现50%GPU成本节约。

推测解码推理加速大语言模型商业智能体成本优化实证研究

cs 04-23 00:00

量化大语言模型中的认知-修辞错位：一个可自动化的检测框架

本研究提出一个量化框架，用于检测大语言模型（LLM）生成文本中存在的系统性“认知-修辞错位”问题，即修辞强度与认知基础不成比例。该框架设计了一个三元认知-修辞标记（ERM）分类法，并通过形式-意义分歧度（FMD）、真实-表现认知比率（GPR）和修辞手段分布熵（RDDE）等复合指标进行量化。在分析约60万词符的225篇论证文本（涵盖专家、非专家和LLM生成）后发现，LLM文本的FMD显著高于人类文本（$p < 0.001, \Delta = 0.68$），且修辞手段分布更均匀。该框架可自动化部署，作为AI生成内容中认知错位的轻量级筛查工具。

大语言模型认知错位修辞分析文本检测可解释ai计算语言学

cs 04-23 00:00

TTKV：受人类记忆启发的分层KV缓存，提升长上下文LLM推理效率

本文提出TTKV，一种受人类记忆系统启发的KV缓存管理框架，以解决大语言模型长上下文推理中的内存瓶颈。传统KV缓存内存占用随上下文长度线性增长，且对所有历史信息一视同仁。TTKV将KV缓存划分为具有异构容量和精度的“时间分层”，将近期、更相关的KV状态分配到更快、更高精度的层级（如HBM），而将远期状态存入较慢层级（如DRAM）。通过块级流式注意力机制重叠通信与计算，实验表明在128K上下文任务中，TTKV将跨层流量降低5.94倍，延迟最高减少76%，吞吐量提升2倍。

大语言模型kv缓存长上下文推理内存优化分层存储高效推理

cs 04-23 00:00

日本建筑许可文件自动化审查：混合多阶段页面匹配与多层差异检测算法

本研究提出了一种用于自动化比较日本建筑许可文档集的混合多阶段页面匹配算法。该算法结合了最长公共子序列结构对齐、七阶段共识匹配流程和动态规划最优对齐阶段，能够在页面顺序、编号或内容发生重大变化时，稳健地跨修订版本配对页面。随后，一个包含文本级、表格级和像素级视觉差异检测的多层差异引擎可生成高亮差异报告。在实际许可文档集上的评估显示，其在手动标注基准上达到了F1=0.80和精确度=1.00，且匹配对零误报。

文档自动化页面匹配差异检测建筑许可计算机视觉自然语言处理

cs 04-23 00:00

Cognis：为对话AI构建上下文感知记忆系统

本文提出Lyzr Cognis，一种用于对话AI代理的统一记忆架构，旨在解决LLM代理因缺乏持久记忆而导致会话重置、无法实现个性化的问题。该系统采用多阶段检索流程，后端结合OpenSearch BM25关键词匹配与Matryoshka向量相似性搜索，并通过互惠排名融合进行结果融合。其上下文感知的摄取流程在提取新记忆前会检索现有记忆，实现了智能版本跟踪，在保持存储一致性的同时保留了完整的记忆历史。系统还引入了时间增强机制以优化时效性查询，并使用BGE-2交叉编码器重排序器提升最终结果质量。在LoCoMo和LongMemEval两个独立基准测试中，Cognis在八个答案生成模型上均表现出最先进的性能。该系统已开源并部署于生产环境。

对话ai记忆架构多阶段检索向量搜索智能版本跟踪开源系统

cs 04-23 00:00

CoAuthorAI：人机协同系统实现AI辅助科学书籍写作

针对大语言模型在撰写长篇科学书籍时存在结构不一致、引用不可靠的问题，本研究提出了CoAuthorAI人机协同写作系统。该系统结合了检索增强生成、专家设计的层次化大纲和自动参考文献链接技术，允许专家在句子级别迭代精炼文本，确保内容的连贯性与准确性。在500个多领域文献综述章节的评估中，系统实现了最高98%的软标题召回率；在100篇文章的人工评估中，生成内容满意度达82%。基于该系统与LUFFA AI模型合作完成的《岩石动力学人工智能》一书已由Springer Nature出版，证明了系统性人机协作可将LLM能力从文章扩展到整本书籍，实现更快速、可靠的科学出版。

人机协同科学写作检索增强生成大语言模型书籍生成智能出版

cs 04-23 00:00

PR-CAD：基于大语言模型的可控、忠实文本到CAD生成与编辑统一框架

本文提出PR-CAD框架，通过渐进式精炼统一了文本到CAD模型的生成与编辑任务。核心贡献包括：1）构建了一个覆盖CAD全生命周期的高保真交互数据集，包含多种CAD表示及定性与定量描述；2）设计了一个强化学习增强的推理框架，将意图理解、参数估计和精确编辑定位集成于单一智能体中，实现“一体化”设计与精炼。实验表明，生成与编辑任务相互促进，PR-CAD在公共基准测试中实现了最先进的可控性与忠实度，显著提升了CAD建模效率。

文本到cad生成大语言模型渐进式精炼可控生成cad建模强化学习

cs 04-23 00:00

《伏尼契手稿》发现分层位置与方向约束，暗示密码结构

研究对《伏尼契手稿》的字符序列进行系统分析，揭示了两个互补的结构层：单词内部存在从右到左的字符级优化，而单词边界则表现出从左到右的依赖关系。这种方向性分离在对比的四种语言（英语、法语、希伯来语、阿拉伯语）中均未观察到。研究进一步评估了两种结构化生成器（参数化槽位生成器和实现Rugg（2004）胡言乱语假说的卡丹格栅），发现它们在其完整的测试参数空间中，都无法同时复现所有四个结构特征。这些结果为未来任何关于手稿的生成或密码分析模型提供了首个定量基准，表明手稿表现出类似密码的结构约束，难以仅通过简单的位置或频率机制重现。

伏尼契手稿密码分析字符序列结构约束生成模型语言学

24 小时跨学科精选

计算机科学

2026-04-23 速览 · 计算机科学

大语言模型为何过度依赖外部工具？研究揭示知识幻觉与奖励机制缺陷

视觉反馈解锁可靠GUI代码生成与调试：VF-Coder系统新突破

AI to Learn 2.0：面向学习密集型领域的可交付成果治理框架与成熟度评估

多智能体系统安全治理新框架：用软标签评估风险分布

ZeroFolio：基于文本嵌入的零领域知识算法选择方法

基于Transformer的AI科学解释评分：数据增强策略有效解决类别不平衡问题

可解释反洗钱警报分诊：基于证据检索与反事实检查的大语言模型框架

WorkflowGen：基于轨迹经验的自适应工作流生成框架

透明评估框架：量化大语言模型推理与训练的环境影响

ThermoQA：评估大语言模型热力学推理能力的三层基准

基于多模态特征工程与LightGBM的临床试验给药错误自动检测系统

推理余量比：约束条件下推理稳定性的诊断与控制框架

EvoForest：通过计算图开放式演化实现的新型机器学习范式

定位大语言模型中的刻板印象：GPT-2与Llama 3.2的内部机制研究

幻觉神经元无法跨领域泛化：大语言模型幻觉机制具有领域特异性

OThink-SRR1：基于强化学习的搜索-精炼-推理框架提升大模型多跳问答能力

PayPal商业智能体推理加速：基于EAGLE3推测解码的实证研究

量化大语言模型中的认知-修辞错位：一个可自动化的检测框架

TTKV：受人类记忆启发的分层KV缓存，提升长上下文LLM推理效率

日本建筑许可文件自动化审查：混合多阶段页面匹配与多层差异检测算法

Cognis：为对话AI构建上下文感知记忆系统

CoAuthorAI：人机协同系统实现AI辅助科学书籍写作

PR-CAD：基于大语言模型的可控、忠实文本到CAD生成与编辑统一框架

《伏尼契手稿》发现分层位置与方向约束，暗示密码结构