大语言模型处方审核能力评估:部分任务已超越临床药师
研究团队开发了处方审核综合基准RxBench,包含涵盖14类常见处方错误的2300余项任务。对18个前沿大语言模型的评估显示,Gemini-2.5-pro等模型在准确性和鲁棒性上形成第一梯队。与持证药师对比表明,领先模型在部分任务上已达到或超越人类水平。基于基准洞察对中游模型进行微调,可使其在简答题任务上媲美顶尖通用模型。该研究为构建更可靠的临床辅助工具提供了标准化评估框架和基础资源。
今日速览 · AI 导读
自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。
AI 导读
今日看点(自动摘要):cs: 大语言模型处方审核能力评估:部分任务已超越临床药师;cs: VoxCap:基于药效团体素网格的分子生成新方法;cs: 深度研究系统综述:大语言模型如何成为复杂任务的研究代理
数据源:arXiv 官方 RSS(physics / math / cs / q-bio / econ / astro-ph 等)。
标题与摘要由 DeepSeek 进行中文润色,便于快速浏览;外链跳转至原文。
AI 速览助手:点击卡片“速览全文”可拉取 arXiv HTML,生成全文要点并缓存;右下角悬浮按钮可随时展开/收起速览。
自动抓取:每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。
往期回顾:点击上方“往期回顾”进入日历页,按月查看每日抓取总数,并跳转到对应日期速览。
2025-12-03 共 24 条抓取,按综合热度排序
研究团队开发了处方审核综合基准RxBench,包含涵盖14类常见处方错误的2300余项任务。对18个前沿大语言模型的评估显示,Gemini-2.5-pro等模型在准确性和鲁棒性上形成第一梯队。与持证药师对比表明,领先模型在部分任务上已达到或超越人类水平。基于基准洞察对中游模型进行微调,可使其在简答题任务上媲美顶尖通用模型。该研究为构建更可靠的临床辅助工具提供了标准化评估框架和基础资源。
本研究提出VoxCap,一种基于药效团和体素网格的生成模型,用于解决传统基于药效团的虚拟筛选方法在计算扩展性和分子新颖性方面的局限。该方法通过体素标注技术从三维分子表示中生成SMILES字符串,实现了高效的从头设计和快速搜索。实验表明,VoxCap在生成多样性分子方面显著优于现有方法,并能将计算时间降低数个数量级,从而实现对大规模化合物库的高效探索。
本文系统综述了“深度研究”这一新兴范式,旨在将大语言模型的推理能力与搜索引擎等外部工具结合,以完成需要批判性思维、多源信息与可验证输出的复杂开放任务。文章贡献包括:形式化三阶段路线图、区分相关范式;剖析查询规划、信息获取、记忆管理与答案生成四大核心组件;总结提示工程、监督微调、智能体强化学习等优化技术;并整合评估标准与开放挑战,为领域未来发展提供指引。
本文系统分析了欧盟、美国及亚太地区对AI训练数据的监管现状,指出当前框架多为被动应对,在执法机制上存在关键漏洞,威胁创作者权益与AI发展的可持续性。研究揭示了训练前数据过滤面临的两大根本挑战:大规模版权管理的不可行性,以及验证过滤有效性的工具缺失。为此,作者提出了一种结合访问控制、内容验证、机器学习分类器和持续数据库交叉引用的多层过滤管道,旨在将版权保护重心从训练后侵权检测前移至训练前的主动预防,为平衡创作者权利与AI创新提供了可行路径。
本文分析了欧盟、美国及亚太地区AI训练数据治理的监管框架,指出当前机制以事后应对为主,存在关键执行缺口。研究揭示预训练阶段面临两大根本挑战:大规模版权许可收集与过滤的不可行性,以及验证过滤有效性的工具缺失。作者提出一个结合访问控制、内容验证、机器学习分类器和持续数据库交叉引用的多层过滤管道,旨在将版权保护从训练后检测转向训练前预防,为平衡创作者权益与AI创新提供可行路径。
一项针对92家企业的定量调查显示,AI通过加速数据分析、减少人为错误,显著提升了管理决策的速度与清晰度。研究发现,成功应用AI的关键在于理解算法机制与变革管理,而非编程技能。员工适应、高成本和监管模糊是主要障碍,组织因素比技术限制更为关键。研究强调,结合人类判断、适应性领导与透明流程,AI能有效增强组织敏捷性与决策绩效。
本研究针对全球洪水灾害监测,对ESA-IBM联合开发的TerraMind地理空间基础模型进行微调。利用包含全球85次洪水事件、融合哨兵1号雷达与哨兵2号光学影像的FloodsNet数据集,团队测试了多种模型配置。结果显示,经过微调的基础模型在精度、召回率和计算成本间取得了最佳平衡,其召回率优于仅使用Sen1Floods11数据集训练的模型。研究表明,结合多模态数据微调基础模型,能有效提升洪水淹没范围近实时测绘能力,为气候适应与防灾减灾提供了新的技术路径。
本研究提出了一种基于对称和辛微分方程启发的可逆大语言模型架构。其核心创新在于利用时间可逆动力学在反向传播过程中重构隐藏状态,从而无需存储所有中间激活值。这实现了内存消耗的显著降低,允许在同等内存下处理更大批次,提升训练吞吐量。同时,研究还提出了一种将现有非可逆模型高效转换为可逆架构的微调方法,使其能利用现有预训练模型。实验表明,该方法在多个数据集和基准测试上取得了相当或更优的性能,为降低LLM从头训练和微调的内存与计算成本提供了一条可扩展的路径。
针对工业AI应用面临的数据稀缺与模型“黑箱”两大瓶颈,本研究提出一个融合物理知识与专家经验的可解释、少样本AI工程框架。在仅32个航空K439B高温合金铸件补焊实验样本基础上,通过物理约束数据增强与嵌套优化策略,发现了一个可解释的本构方程,能以88%的准确率预测热裂纹倾向。该方程不仅提供定量预测,更揭示了热、几何及冶金机制的耦合作用,为工程师提供了明确的物理认知。此外,该方程还可用于工艺优化与高保真虚拟数据生成,提升其他数据驱动模型的精度。
本研究在孟加拉国等低资源环境下,定量比较了人类与八个LLM生成的社会角色(如男性、女性、穆斯林、政治支持者)对文化特定问题的回答。结果显示,人类在所有回答和角色感知维度上均显著优于LLM,尤其在共情力和可信度方面差距巨大。LLM生成内容还表现出系统性的“波丽安娜”乐观偏见,积极情绪得分显著更高。这表明LLM角色未能准确反映资源匮乏环境中真实人群的体验,在社会科学研究中部署前需用真实人类数据进行验证。
本文提出Ada-MoGE模型,用于解决多元时间序列预测中因数据频谱分布变化导致的频率覆盖失衡问题。传统固定专家数量的MoE模型难以适应频谱变化,易造成信息丢失或引入噪声。Ada-MoGE通过分析频谱强度和频率响应,自适应确定专家数量,并采用高斯带通滤波平滑分解频域特征。实验表明,该模型仅用20万参数即在六个公开基准上达到最优性能。
本研究提出了一种名为“超像素攻击”的新型黑盒对抗攻击方法。该方法摒弃了传统攻击中使用的简单矩形扰动区域,转而采用能更好平衡颜色差异与区域紧凑性的超像素分割。结合新提出的“通用搜索”策略,该方法在多个已具备一定鲁棒性的模型上,将攻击成功率平均提升了2.10%,对评估和提升深度学习模型的安全性具有重要意义。
本文提出LLMBugScanner,一个基于大语言模型的智能合约漏洞检测框架。针对单一模型在不同漏洞类型和合约结构上表现不一致的挑战,该框架结合领域知识适应与集成推理。通过在不同数据集上微调多个LLM,并采用基于共识的冲突解决策略进行集成,提升了检测的鲁棒性和泛化能力。实验表明,相比单个预训练或微调模型,LLMBugScanner实现了更一致且显著的准确率提升。
本文提出DPWMixer,一种用于长时序预测的高效双路径架构。针对现有方法在捕捉非线性局部动态和避免信息损失方面的不足,该模型采用无损Haar小波金字塔替代传统池化,以正交分解无损失地分离趋势与局部波动。其核心的双路径趋势混合器,结合了用于宏观趋势锚定的全局线性映射和用于微观动态演化的基于分块的MLP混合器。最后通过自适应多尺度融合模块优化预测合成。在八个公开基准测试上的实验表明,该方法性能优于现有先进基线。
本文提出了一种新颖的图对比学习框架HTG-GCL,旨在解决现有方法难以识别任务相关拓扑结构及适应不同下游任务对拓扑粒度需求的问题。该框架通过生成基于环的多尺度胞腔复形来构建体现拓扑粒度的多样化图视图,并引入基于不确定性估计的多粒度解耦对比与加权机制,以过滤可能包含误导性语义的粒度。在多个基准测试上的实验验证了其有效性,表明其能通过分层拓扑信息捕获更有意义的图表示。
本研究将内存高效微调(MEFT)方法应用于通用预训练语音模型,以解决方言识别任务中计算成本高的问题。通过微调Whisper模型识别六种汉语方言,实验表明MEFT方法可将GPU内存使用降低高达73.25%,训练速度提升2.1倍,同时保持与全参数微调相当的准确率。
本研究针对多模态数据回归中的特征提取问题,提出了一种任务驱动的监督式多模态联邦特征提取方法。该方法旨在解决现实场景中的三大核心挑战:数据有限且非独立同分布、多模态信息的有效提取与融合,以及模型学习易受灾难性遗忘影响。通过集成多模态信息提取与对比学习机制,并构建多约束学习框架,该方法在保证回归精度的同时,实现了任务相关信息的保留、多模态特征的提取融合与对齐,并缓解了非独立同分布场景下的表征漂移和灾难性遗忘。仿真和真实数据分析的实验结果表明,与经典特征提取技术相比,该方法在下游回归任务上取得了更显著的性能提升。
传统数据库架构常以丢弃信息为代价确保局部一致性。本文提出函子-范畴数据库(FCDB),将数据操作建模为分层函子范畴中的态射,并建立了一个跨越内容不变性、能力和所有权的“完全保全族”投影集。该框架识别出一个最小核心,能在保全信息的同时,将非交换性操作坍缩至授权/撤销的伦理边界。通过伴随提升和纤维化结构,操作对在范畴极限下可交换,同时保持所有权完整性与能力约束。该框架通过投影解释连接信息几何学,支持在不丢弃语义、时间或关系熵的情况下进行实证验证。
本研究针对非结构化环境中复杂操作任务,提出将力与触觉感知融入强化学习框架,以提升机器人的安全性与可靠性。传统手工编码方法效果有限,而纯强化学习策略的稳定性难以保证。实验表明,基于力感知的强化学习方法能更好地适应环境变化,在物体推动任务中,其模拟到现实的迁移表现更安全、高效,为广泛的机器人应用提供了新思路。
本研究利用2015年BRFSS健康调查数据(约25万条记录),通过SMOTE和Tomek Links处理数据不平衡问题,评估了多种监督学习模型。随机森林、XGBoost等单一模型ROC-AUC达0.96,而XGBoost与KNN的堆叠集成模型表现最佳,准确率达94.82%,ROC-AUC为0.989,实现了召回率与精确度的良好平衡。研究还开发了基于React Native和Python Flask的应用程序,为临床决策和用户健康监测提供支持。
本文针对大语言模型(LLM)快速迭代背景下模型选择日益复杂的问题,提出应从定性和定量两个维度进行考量。研究聚焦于定量评估维度,通过分析现有模型排行榜和基准测试,并以医疗领域为案例,展示了量化评估的演变、现状及实际意义。最终,作者提出了一种系统性的模型选择方法论(MSM),旨在指导用户根据特定用例导航、排序并选择最匹配的模型。
针对现有扩散语言模型推理方法依赖局部置信度指标、易导致采样轨迹不一致的问题,本研究提出连贯上下文解码框架。该框架包含轨迹校正与自适应采样两大创新:前者利用历史上下文增强序列连贯性,并基于条件互信息理论建模步骤间一致性;后者根据一致性度量动态调整每步解码预算,替代传统固定分配。在Dream和LLaDA基准测试中,该方法在推理速度上实现最高3.48倍加速,同时性能提升达3.91%。
本研究提出PIBNet,一种基于学习的物理启发式方法,旨在加速边界元法(BEM)中求解多重散射问题的核心瓶颈步骤——边界解迹的计算。该方法利用图结构高效建模障碍物及其长程相互作用,并引入新颖的多尺度图神经网络架构。在构建的多个数据集基准测试中,PIBNet不仅超越了现有基于学习的方法,且在障碍物数量增加时展现出更优的泛化能力。
本研究提出了一种名为SFL Transformer的新型深度学习模型,通过将辅助结构特征直接集成到预训练Transformer的自注意力机制中,实现了对歌词内容分类的特征融合创新。该模型采用上下文门控机制,在BERT编码器堆栈的中间层调制隐藏状态序列,而非在最终输出层融合特征。实验表明,该方法在基于UMAP降维歌词嵌入的二元分类任务中取得了0.9910的准确率和宏F1分数,显著超越了先前SFL模型的性能,同时保持了极低的预期校准误差和Log Loss,验证了在模型中间层注入辅助上下文是结合结构与语义信息的最有效方式。