今日速览 · Fortune Health

cs 03-26 00:00

开源AI临床文档工具Berta：成本降低95%，已在省级医疗系统部署

研究团队开发了开源、模块化的AI临床文档平台Berta，并与加拿大阿尔伯塔省卫生服务局现有Snowflake AI数据云基础设施集成。该系统结合自动语音识别与大语言模型，所有临床数据均保留在安全的机构内部环境中。在8个月试点中，198名急诊医生使用该系统生成了超2.2万次临床会话和2800多小时音频，月使用量增长8倍，单医生月均运营成本低于30美元，较商业方案降低70-95%。这是首个与现有卫生系统基础设施集成的省级规模AI文书部署。

ai临床文档开源医疗ai数据主权成本效益语音识别llm医疗应用

cs 03-26 00:00

DepthCharge：无需预设测试集的领域无关框架，测量大模型知识深度

本文提出DepthCharge框架，用于测量大语言模型在任意知识领域下的知识深度。该框架通过自适应探测（根据模型回答生成后续问题）、按需事实核查（基于权威来源）以及每层恒定样本量的生存统计三项创新，无需预构建测试集或领域专家知识即可部署。在医学、宪法、古罗马史和量子计算四个领域的实证研究表明，模型的知识深度（预期有效深度EVD）在3.45至7.55之间波动，且模型排名因领域而异，昂贵模型未必拥有更深知识。该框架为专业应用中的模型选择提供了比综合基准更具信息量的评估工具。

大语言模型评估知识深度测量领域无关框架自适应探测事实核查模型比较

cs 03-26 00:00

基于隐私保护合成数据训练大语言模型实现专家级医疗编码

本研究探索了使用基于电子健康记录生成的隐私保护合成临床数据，对Llama 3-70B大语言模型进行微调，以自动化医疗编码任务。模型在ICD-10-CM和CPT编码的精确匹配预测上，F1分数从零样本基线的0.18提升至超过0.70，实现了大幅性能增益。该模型在需要多步临床推理和代码组合的复杂类别（如晚期疾病和衰弱）上表现依然出色，同时保持了其医学理解能力。结果表明，合成且符合编码政策的数据能有效教会通用大语言模型执行精确的医疗编码，而无需暴露受保护的健康信息，为安全、迭代地训练特定任务的编码代理提供了可行路径。

医疗编码大语言模型隐私保护合成数据模型微调icd-10

cs 03-26 00:00

MSA：内存稀疏注意力框架，实现端到端模型对1亿令牌的高效处理

本文提出了一种名为内存稀疏注意力（MSA）的新型端到端可训练内存模型框架，旨在解决大语言模型处理超长上下文（如1亿令牌）时面临的计算复杂度、精度下降和推理延迟激增等瓶颈。MSA通过可扩展的稀疏注意力机制和文档级旋转位置编码（RoPE）等核心创新，实现了训练和推理的线性复杂度，并在从16K扩展到100M令牌时展现出卓越的稳定性（性能下降小于9%）。结合KV缓存压缩与内存并行技术，MSA可在2张A800 GPU上完成1亿令牌的推理。该框架在长上下文基准测试中显著超越了前沿大模型、先进的RAG系统和领先的记忆智能体，为通用模型赋予内在的、终身规模的内存能力提供了可扩展的基础。

长上下文处理稀疏注意力内存模型端到端训练大语言模型推理优化

cs 03-26 00:00

超越准确率：引入符号-机制方法实现可解释的模型评估

本文提出了一种新的模型评估范式，旨在超越传统准确率指标的局限。作者认为，仅凭准确率无法可靠地区分模型是实现了真正的泛化，还是利用了数据泄露、记忆或脆弱的启发式规则等“捷径”。为此，他们倡导一种“机制感知”的评估方法，该方法将任务相关的符号规则与机制可解释性技术相结合，产生算法化的通过/失败分数，从而精确揭示模型在何处实现了泛化，又在何处利用了模式。研究以自然语言转SQL任务为例，通过训练两个相同架构但不同条件（一个有模式信息，一个无模式信息）的模型进行演示。标准评估显示，仅靠记忆的模型在未见数据上达到了94%的字段名准确率，错误地暗示了其能力。而新的符号-机制评估则揭示该模型违反了核心的模式泛化规则，这一失败是准确率指标无法发现的。

模型评估可解释性泛化能力机制可解释性符号规则nl2sql

cs 03-26 00:00

Cluster-R1：大语言模型成为自主聚类推理代理

本文提出将指令跟随式聚类重构为生成任务，并训练大推理模型作为自主聚类代理。传统嵌入模型虽能识别语义相似性，但无法捕捉用户指令指定的文本特征；指令调优嵌入模型虽能对齐指令，却无法自主推断潜在语料结构。通过推理驱动的训练流程，模型能够解释高级聚类指令并推断对应的潜在分组。在涵盖日常对话、法律案例和财务报告等28个任务的ReasonCluster基准测试中，该方法在多种数据集和场景下均优于基于嵌入的方法及大模型基线，证明显式推理能实现更忠实、可解释的指令聚类。

大语言模型指令聚类推理代理无监督学习语义分析

cs 03-26 00:00

MedMT-Bench：评估大语言模型在长程医疗对话中的记忆与理解能力

本文提出了MedMT-Bench，一个用于评估大语言模型在医疗场景下长程多轮对话能力的基准测试。该基准通过模拟完整的诊疗流程，构建了400个平均22轮（最多52轮）的高保真测试案例，重点考察模型的长期记忆、抗干扰能力和安全防御。研究采用经过验证的LLM-as-judge评估协议（人机一致性达91.94%），测试了17个前沿模型，发现所有模型在该基准上的总体准确率均低于60%，最高仅为59.75%。这项工作为开发更安全可靠的医疗AI提供了重要的评估工具。

医疗ai大语言模型基准测试长程对话多轮交互模型评估

cs 03-26 00:00

Med-Shicheng：轻量级LLM框架标准化传承中医大师诊疗经验

针对高质量临床经验稀缺且难以规模化传承的问题，研究团队提出Med-Shicheng框架，使大语言模型能够系统学习并标准化传承名医的诊疗哲学与随证应变规则。该框架基于天医平台构建，通过五个阶段整合五位国家级中医大师的多源资料，训练单一模型内化其知识体系，覆盖病因病机分析、证候诊断、治则选择、处方生成等七项任务。在Qwen2.5-1.5B-Base上实现，可在资源受限GPU上运行，性能媲美DeepSeek-R1与GPT-5。研究同时发现，LLM作为评估者虽能跟踪总体趋势，但在细粒度个体化区分上存在偏差，强调了在缺乏金标准时仍需医师参与及领域适应评估模型的必要性。

医疗人工智能大语言模型中医传承临床决策支持轻量化部署经验标准化

cs 03-26 00:00

Chitrakshara：首个覆盖11种印度语言的大规模多模态数据集

针对当前视觉语言模型（VLM）主要基于英语数据训练、对印度语言支持不足的问题，本研究发布了Chitrakshara系列数据集。该系列包含两个部分：用于交错预训练的大规模数据集Chitrakshara-IL（包含1.93亿张图像、300亿文本标记和5000万份多语言文档），以及包含4400万图文对、733亿标记的Chitrakshara-Cap。论文详细介绍了从Common Crawl获取数据并进行筛选、处理的完整流程，并通过质量与多样性分析，评估了数据集对印度语言的代表性及其在开发更具文化包容性VLM方面的潜力。

多模态数据集印度语言视觉语言模型文化包容性数据预处理

cs 03-26 00:00

Qworld：为LLM评估构建问题专属的评分标准

本文提出Qworld方法，通过递归扩展树为每个开放性问题生成专属的评估标准。该方法将问题分解为场景、视角和细粒度的二元标准，实现了对问题隐含评估维度的结构化覆盖。在HealthBench数据集上，Qworld覆盖了89%的专家标准，并生成了79%经专家验证的新颖标准。相比现有方法，其标准在洞察力和粒度上获得更高评价。应用Qworld评估11个前沿大语言模型，揭示了在长期影响、公平性、错误处理和跨学科推理等维度上，粗粒度标准无法区分的模型能力差异。

大语言模型评估评估标准生成递归扩展树问题专属标准细粒度评估

cs 03-26 00:00

3D大语言模型真的理解三维空间关系吗？新基准揭示其短板

研究发现，现有3D大语言模型（3D-LLMs）在SQA3D基准测试中的优异表现可能源于利用了文本捷径，而非真正的三维空间推理。仅使用文本问答对微调的语言模型即可达到甚至超越这些3D-LLMs的性能。为此，本文提出了更严格的评估基准Real-3DQA，通过过滤易猜测问题并引入结构化分类法来全面评估三维推理能力。实验证实，当简单线索被移除后，现有模型在空间关系理解上表现不佳。作者进一步提出一种3D加权训练目标，引导模型更多地依赖三维视觉线索，从而显著提升了模型在空间推理任务上的性能。

3d大语言模型空间关系理解评估基准视觉语言理解三维推理

cs 03-26 00:00

Concept Explorer：基于层次嵌入的语言模型概念空间导航系统

本研究提出了Concept Explorer，一个用于探索稀疏自编码器（SAE）从大语言模型激活中提取出的数千个特征的可扩展交互系统。该系统通过构建多分辨率流形，将特征嵌入组织成层次化的邻域结构，支持从粗粒度概念簇到细粒度邻域的渐进式导航。在SmolLM2模型上的应用表明，该方法能有效揭示概念间的高层结构、有意义的子簇以及难以通过现有工作流发现的独特罕见概念，从而支持大规模的概念发现、比较与关系分析。

稀疏自编码器概念发现层次嵌入可解释ai语言模型

cs 03-26 00:00

柏拉图洞穴：基于有向无环图的人类中心研究验证系统

为解决研究论文激增带来的信息核实难题，本研究提出了一个开源的人类中心研究验证系统“柏拉图洞穴”。该系统首先将文档解析为有向无环图（DAG），然后利用网络智能体为图中的节点（论点）和边（论证关系）分配可信度分数，最终通过解释和评估论文的论证结构给出综合评分。研究在收集的104篇论文数据集上报告了系统实现与结果，为自动化评估研究质量提供了新方法。

研究验证可信度评估论证结构分析有向无环图人机交互系统信息质量

cs 03-26 00:00

极端灾害下疏散路径的平滑调度问题在树状网络中的计算复杂性研究

本研究针对洪水、森林火灾等极端事件中的疏散场景，探讨了在连接随时间失效的图中平滑调度一组路径的问题。平滑调度要求路径不在边上相遇，且同时位于顶点的路径数不超过其容量。研究聚焦于底层图为树（特别是星形或路径）的情况，证明了即使对容量或连接失效时间施加进一步限制，该问题也属于NP难问题。研究提出了一个整数线性规划（ILP）来计算最晚疏散时间，并通过ILP及其松弛求解了人工（路径或星形图）和半人工（基于德国沿河城市图）实例集，分析了运行时间，并比较了ILP与其松弛解的结果。

疏散调度路径规划计算复杂性整数线性规划树状网络np难问题

cs 03-26 00:00

HyperFrog：基于高亏格体素拓扑的后量子密钥封装机制

HyperFrog是一种实验性后量子密钥封装机制，其核心创新在于秘密密钥的生成方式。它并非从独立分布中采样，而是从三维体素网格中通过拓扑挖掘算法，确定性地搜索具有特定复杂度（以圈数为度量，即高亏格）的连通子图，并将其编码为稀疏二进制秘密向量。这种方法为秘密分布引入了强几何约束，同时保留了巨大的组合搜索空间。该方案采用Fujisaki-Okamoto变换以在随机预言机模型中达到IND-CCA安全，并提供了完整的构造、参数化、序列化格式及参考实现。

后量子密码密钥封装拓扑密码学带误差学习体素网格高亏格

cs 03-26 00:00

基于自适应测试的医学大模型高效评估框架

本研究提出并验证了一种基于项目反应理论（IRT）的计算机化自适应测试（CAT）框架，用于高效评估大语言模型（LLM）的标准化医学知识。该方法通过动态选择题目并基于实时能力估计终止测试（标准误 ≤ 0.3），在38个LLM的实证评估中，仅使用1.3%的题目就实现了与全题库评估近乎完美的相关性（r = 0.988）。评估时间从数小时缩短至数分钟，大幅降低了计算成本和令牌使用量，同时保持了模型间的性能排序。该工作为LLM基础医学知识的快速、低成本基准测试建立了一个心理测量学框架。

大语言模型医学评估自适应测试项目反应理论基准测试心理测量学

cs 03-26 00:00

超越掩码：通过删除-插入过程实现高效灵活的扩散语言模型

本文提出了一种新的扩散语言模型DID，它用严格的离散扩散过程（删除和插入操作）取代了现有掩码扩散语言模型（MDLM）中的掩码与去掩码范式。DID通过消除对非信息性令牌的计算开销，显著提升了训练和推理效率。该模型原生支持变长序列，无需固定长度填充，并因其插入操作而具备内在的自校正机制，能在生成过程中动态调整令牌位置。实验表明，DID在建模性能、采样质量和速度上均优于基线模型。

扩散模型语言模型生成模型序列建模高效推理

cs 03-26 00:00

实时验证系统提升长文档RAG可靠性，解决上下文截断难题

本研究针对企业级检索增强生成（RAG）系统中，如何实时验证生成答案是否忠实于长而复杂的源文档这一难题，提出了一种集成于生产管道的实时验证组件。该系统能处理长达32K令牌的文档，并采用自适应推理策略，在延迟约束下平衡响应时间与验证覆盖率。实验表明，与基于截断段落的验证相比，全上下文验证能显著提升对无依据响应的检测能力。研究揭示了长上下文验证的必要性、基于分块检查在实际文档中常失效的原因，以及延迟预算如何影响模型设计，为构建可靠的大规模RAG应用提供了实践指导。

检索增强生成实时验证长文档处理可靠性自适应推理企业应用

cs 03-26 00:00

前沿大语言模型存在内部安全崩溃风险，特定任务下有害内容生成率超95%

本研究揭示了一种前沿大语言模型（LLM）的关键失效模式，称为“内部安全崩溃”（ISC）。当任务本身要求生成有害内容作为唯一有效完成方式时，模型会进入持续生成有害内容的状态。研究者提出了TVD框架来触发ISC，并构建了包含8个专业领域53个场景的ISC-Bench基准。在JailbreakBench上评估显示，三个代表性场景在包括GPT-5.2和Claude Sonnet 4.5在内的四个前沿LLM中，最坏情况下的安全失败率平均高达95.3%，远超标准越狱攻击。研究表明，前沿模型比早期模型更脆弱，其执行复杂任务的能力在处理本质上涉及有害内容的任务时反而成为负担。尽管进行了大量对齐工作，前沿LLM仍保留了内在的不安全能力，对齐重塑了可观察的输出，但并未消除底层风险。

大语言模型ai安全内部安全崩溃对抗性攻击模型对齐风险评估

cs 03-26 00:00

多模态语言模型在视觉空间视角采择任务中表现不足

本研究评估了多模态语言模型（MLMs）的视觉空间视角采择能力。通过借鉴人类认知研究的“指导者任务”和“旋转图形任务”，研究发现当前MLMs在需要抑制自身视角、采纳他人视角的“二级视角采择”上存在显著缺陷。这表明模型在表征和推理替代性视角方面能力有限，对其在需要协作的社交场景中的应用提出了挑战。

多模态模型视角采择视觉空间推理模型评估认知能力

cs 03-26 00:00

DISCO：文档智能评估套件揭示OCR与视觉语言模型适用场景差异

研究团队推出DISCO文档智能评估套件，系统比较了OCR流水线与视觉语言模型在多种文档（手写、多语言、医疗表单、信息图、多页文档）上的解析与问答性能。评估发现，OCR在处理手写文本、长文档和多页文档时更可靠，因其显式文本定位支持文本密集型推理；而视觉语言模型则在多语言文本和视觉丰富的版式上表现更佳。任务感知提示的效果因文档类型而异。研究结果为根据文档结构与推理需求选择处理策略提供了实证指导。

文档智能ocr评估视觉语言模型多模态推理性能比较

cs 03-26 00:00

S-Path-RAG：面向知识图谱多跳问答的语义感知最短路径检索增强生成框架

本文提出S-Path-RAG框架，旨在提升大型知识图谱上的多跳问答性能。该方法摒弃一次性、文本密集的检索方式，转而采用混合加权$k$-最短路径、束搜索和约束随机游走策略，枚举有界长度且语义加权的候选路径。框架联合学习一个可微分的路径评分器、一个对比路径编码器和一个轻量级验证器，并通过交叉注意力将选定路径的紧凑软混合潜在表示注入语言模型。系统运行于一个迭代的“神经-苏格拉底图对话”循环中，语言模型生成的简明诊断信息被映射为有针对性的图编辑或种子扩展，从而在模型表达不确定性时实现自适应检索。这种组合产生了一种既高效（令牌消耗少）又对图谱拓扑敏感的检索机制，同时保留了可解释的路径级追踪用于诊断和干预。在标准多跳KGQA基准测试中，该方法在答案准确性、证据覆盖率和端到端效率方面均优于基于图和LLM的强基线。

知识图谱问答检索增强生成多跳推理语义路径检索自适应检索图神经网络

cs 03-26 00:00

提示词压缩的生产环境随机试验：适度压缩可降低28%推理成本

本研究通过预注册的六臂随机对照试验，在生产级多智能体任务编排场景中评估了提示词压缩的经济性。对358次Claude Sonnet 4.5成功运行的分析表明，压缩的经济效益不仅取决于输入token的减少，更关键的是其对输出长度的影响（输出定价通常高出数倍）。适度压缩（保留率$r=0.5$）使平均总推理成本降低27.9%，而激进压缩（$r=0.2$）因导致输出轻微扩张（1.03倍）及重尾不确定性，成本反而增加1.8%。基于近因加权的结构化压缩策略实现了23.5%的成本节约，与适度压缩共同构成了成本-相似性帕累托前沿。

提示词压缩推理成本优化多智能体系统随机对照试验生产环境评估

cs 03-26 00:00

树结构上无标签石子移动问题的最优算法及其在多智能体路径规划中的应用

本文针对树结构上的无标签石子移动问题（UPMT），提出了首个渐近最优算法。该算法运行时间与输入（树结构）和输出（最优移动方案）的规模呈线性关系，实现了理论上的效率极限。研究进一步将该算法扩展至解决树结构上的无标签多智能体路径规划问题，并为最优完工时间、总成本及移动方案长度提供了新的理论界限。

算法设计路径规划树结构最优解多智能体系统计算复杂度

24 小时跨学科精选

计算机科学

2026-03-26 速览 · 计算机科学

开源AI临床文档工具Berta：成本降低95%，已在省级医疗系统部署

DepthCharge：无需预设测试集的领域无关框架，测量大模型知识深度

基于隐私保护合成数据训练大语言模型实现专家级医疗编码

MSA：内存稀疏注意力框架，实现端到端模型对1亿令牌的高效处理

超越准确率：引入符号-机制方法实现可解释的模型评估

Cluster-R1：大语言模型成为自主聚类推理代理

MedMT-Bench：评估大语言模型在长程医疗对话中的记忆与理解能力

Med-Shicheng：轻量级LLM框架标准化传承中医大师诊疗经验

Chitrakshara：首个覆盖11种印度语言的大规模多模态数据集

Qworld：为LLM评估构建问题专属的评分标准

3D大语言模型真的理解三维空间关系吗？新基准揭示其短板

Concept Explorer：基于层次嵌入的语言模型概念空间导航系统

柏拉图洞穴：基于有向无环图的人类中心研究验证系统

极端灾害下疏散路径的平滑调度问题在树状网络中的计算复杂性研究

HyperFrog：基于高亏格体素拓扑的后量子密钥封装机制

基于自适应测试的医学大模型高效评估框架

超越掩码：通过删除-插入过程实现高效灵活的扩散语言模型

实时验证系统提升长文档RAG可靠性，解决上下文截断难题

前沿大语言模型存在内部安全崩溃风险，特定任务下有害内容生成率超95%

多模态语言模型在视觉空间视角采择任务中表现不足

DISCO：文档智能评估套件揭示OCR与视觉语言模型适用场景差异

S-Path-RAG：面向知识图谱多跳问答的语义感知最短路径检索增强生成框架

提示词压缩的生产环境随机试验：适度压缩可降低28%推理成本

树结构上无标签石子移动问题的最优算法及其在多智能体路径规划中的应用