cs
04-13 00:00
本文介绍了VerifAI,一个用于生物医学问答的开源专家系统。其核心创新在于将检索增强生成(RAG)与一种新颖的事后声明验证机制相结合,以确保事实一致性。系统首先将生成的答案分解为原子声明,然后利用微调的自然语言推理(NLI)引擎,根据检索到的证据对这些声明进行验证。评估显示,VerifAI在HealthVer基准测试中优于GPT-4,显著减少了幻觉引用,并为每个声明提供了透明、可验证的来源追溯。
生物医学问答检索增强生成事实核查开源系统自然语言推理
cs
04-13 00:00
虚假订单通过人为操纵交互(如刷单、无关替换、序列扰动)误导序列推荐系统,旨在扰乱用户偏好并操纵特定商品曝光率。本文提出DITaR方法,核心在于识别并非所有虚假订单都有害,部分甚至具有数据增强效果。该方法从协同和语义双视图获取差异化表征以精确检测,并筛选出真正有害的样本,通过梯度上升进行针对性校正,在移除误导信息的同时保留有用信息,避免偏差残留。实验表明,DITaR在推荐质量、计算效率和系统鲁棒性上均优于现有方法。
序列推荐虚假订单无偏校正对抗攻击推荐安全双视图检测
cs
04-13 00:00
本文探讨了“自主权智能体”这一新兴概念,即能够通过经济手段自我维持并扩展其运行,而无需人类持续参与的AI系统。研究指出,大语言模型与智能体框架的进步已大幅提升了智能体的实际能力,预示着AI可能从开发者控制的工具向更自主的数字行动者转变。文章分析了实现此类部署尚存的技术障碍,并讨论了若此类系统变得可行,可能引发的安全、社会与治理挑战。
自主权智能体ai自主性ai治理大语言模型智能体框架ai安全
cs
04-13 00:00
针对生物医学领域遗留元数据不完整、不符合标准的问题,本研究提出了一种基于大语言模型(LLM)的智能体系统。该系统创新性地在生成过程中实时查询权威生物医学术语服务(如Ontology Lookup Service),动态获取规范术语,而非依赖静态提示。在HuBMAP项目的839条遗留元数据记录上评估显示,相比仅使用LLM,结合实时工具访问的方法在受本体约束和非约束字段上的预测准确率均获得一致提升,为大规模、自动化实现FAIR(可发现、可互操作、可重用)数据标准提供了一种实用且可扩展的解决方案。
元数据标准化大语言模型智能体生物医学本体fair数据自动化处理
cs
04-13 00:00
本文提出GNN-as-Judge框架,旨在解决大语言模型在低资源文本属性图学习中的两大挑战:伪标签生成与选择困难,以及伪标签噪声问题。该框架通过引入图神经网络的归纳偏置,设计了一种协作式伪标签策略,利用LLM与GNN预测的一致性与分歧模式来筛选可靠标签,并开发了一种弱监督微调算法以蒸馏知识并抑制噪声。实验表明,该方法在多个数据集上,尤其在标注数据稀缺的低资源场景下,显著优于现有方法。
图神经网络大语言模型半监督学习伪标签低资源学习图学习
cs
04-13 00:00
本文提出了一个精确可解的数学模型,用于分析LLM生成文本进入公共语料库并被后续模型学习的递归过程。研究分离了作用于语料库的两种力量:一是“漂移”,即无过滤的重用会逐步消除罕见形式,导致语料库在无限极限下收敛于稳定分布;二是“选择”,即通过发布、排名和验证进行过滤。研究发现,若发布仅反映统计现状,语料库将收敛于“浅层”状态,进一步的前瞻性学习无益。若发布是规范性的(奖励质量、正确性或新颖性),则深层结构得以维持,并建立了由此产生的与浅层均衡偏离的最优上界。该框架为理解递归发布何时压缩公共文本、选择性过滤何时维持丰富结构提供了理论依据,对AI训练语料库的设计具有启示意义。
大语言模型文本生态语料库演化递归学习数学建模ai训练
cs
04-13 00:00
本研究以指数移动平均(EMA)作为最简单的循环上下文模型,探究固定系数累积在序列建模中的能力边界。研究发现:多时间尺度EMA架构在无监督语法角色分配任务中达到监督BiGRU模型96%的性能,表明其能有效编码时间结构;但EMA对词元身份信息造成不可逆损失——仅使用EMA上下文的1.3亿参数语言模型在C4数据集上困惑度达260(GPT-2的8倍)。通过数据处理不等式证明,这种与数据无关的压缩方式导致的信息稀释,只能通过基于输入的学习选择机制解决。
序列建模指数移动平均信息损失循环神经网络语言模型
cs
04-13 00:00
研究发现,基于扩散的语言模型(dLLMs)的安全对齐依赖于一个脆弱假设:去噪过程是单调的,已确定的标记不会被重新评估。安全对齐的dLLMs通常在64步去噪的前8-16步就“承诺”拒绝生成有害内容。通过一个简单的两步干预——重新掩码这些已承诺的拒绝标记,并注入一个12个标记的肯定性前缀——即可在无需梯度计算或对抗搜索的情况下,成功攻击模型。在HarmBench测试集上,对LLaDA-8B-Instruct的攻击成功率(ASR)达76.1%,对Dream-7B-Instruct达81.8%。研究进一步发现,使用基于梯度的优化扰动反而会降低攻击成功率(例如从76.1%降至41.5%),这证实了漏洞是结构性的而非需要复杂利用。该发现揭示了dLLM的安全性缺乏对抗鲁棒性,其安全机制在架构层面是浅层的,仅因去噪计划未被违反而暂时成立。
扩散语言模型安全对齐对抗攻击模型安全去噪过程
cs
04-13 00:00
本文提出WAND框架,通过将注意力机制分离为对条件标记的持久全局注意力与对生成标记的局部滑动窗口注意力,将预训练自回归TTS模型的计算与内存复杂度从序列长度的二次方降低至常数级。采用课程学习策略逐步收紧注意力窗口以稳定微调,并利用全注意力教师模型进行知识蒸馏,高效恢复高保真合成质量。在三个现代AR-TTS模型上的评估表明,WAND在保持原始质量的同时,实现了高达66.2%的KV缓存内存减少和长度无关、近乎恒定的单步延迟。
文本转语音自回归模型注意力机制知识蒸馏模型压缩高效推理
cs
04-13 00:00
本文系统综述了大语言模型(LLMs)在医疗推理领域的研究。基于临床推理的认知理论,将医疗推理概念化为一个包含溯因、演绎和归纳的迭代过程,并将现有方法归纳为基于训练和无训练两大类的七种技术路线。研究在统一实验设置下对代表性模型进行了跨基准评估,并引入了源自真实医院数据的MR-Bench基准。评估结果显示,模型在考试式任务上的表现与在真实临床决策任务上的准确性之间存在显著差距,突显了当前模型性能与真实世界临床推理需求之间的关键缺口。
大语言模型医疗推理临床决策基准测试模型评估人工智能
cs
04-13 00:00
本文针对开放集文本分类任务,提出了一种不确定性估计方法,旨在识别系统何时可能出错。该方法将整体不确定性估计(HolUE)适配到文本领域,分别处理由查询表述不清引起的文本不确定性和由数据分布模糊性引起的库不确定性。通过在作者归属、意图和主题分类等多个数据集上的实验表明,该方法在预测拒绝率指标上相比基线方法有显著提升,最高可达365%。
不确定性估计开放集分类文本分类鲁棒性预测拒绝
cs
04-13 00:00
本研究通过分析BERT和Llama2等基础模型在去偏前后的嵌入空间变化,评估了偏见缓解方法的有效性。研究发现,去偏处理显著降低了性别与职业术语之间的关联性差异,使模型内部表征更加中立和平衡。这种表征层面的变化在编码器和解码器模型中表现一致,表明公平性改进可体现为可解释的几何变换。研究还发布了WinoDec数据集(包含4000个含性别与职业术语的序列),以促进对解码器模型的评估。
基础模型偏见缓解嵌入空间分析公平性评估表征学习
cs
04-13 00:00
本研究针对文本转语音(TTS)系统质量评估中依赖昂贵、缓慢且易受偏见影响的人工主观评测(如MOS和SBS)的挑战,提出了一套新颖的神经网络模型。在相对评估(SBS)方面,提出的HuBERT模型NeuralSBS在SOMOS数据集上达到73.7%的准确率。在绝对评估(MOS)方面,通过改进MOSNet(使用自定义序列长度批处理)以及提出结合Whisper音频特征与BERT文本嵌入的多模态集成模型WhisperBert,将预测的均方根误差(RMSE)降至约0.40,显著优于人类评估者间0.62的RMSE基线。消融研究表明,简单的跨注意力文本融合会降低性能,而基于集成的堆叠方法更有效。研究还报告了基于SpeechLM架构和零样本大语言模型评估器的负面结果,强调了专用度量学习框架的必要性。
语音合成评估神经网络模型多模态集成度量学习主观评测替代
cs
04-13 00:00
本研究系统评估了扩展推理大语言模型在不同采样温度(0.0, 0.4, 0.7, 1.0)下,零样本提示与思维链提示在复杂数学问题上的性能。使用Grok-4.1模型在AMO-Bench(国际数学奥林匹克级别)的39个问题上进行测试。研究发现,零样本提示在中等温度(T=0.4和0.7)下达到峰值准确率59%,而思维链提示在温度极端值(T=0.0和1.0)表现最佳。扩展推理的收益从T=0.0时的6倍提升至T=1.0时的14.3倍。结果表明,温度应与提示策略联合优化,而非默认使用T=0进行推理任务。
大语言模型推理能力温度采样提示工程数学问题求解性能评估
cs
04-13 00:00
本文针对扩散语言模型(dLLMs)解码效率与质量的问题,从对数似然最大化的理论角度出发,证明了按注意力矩阵列和降序解码可近似达到最优序列似然。基于此,作者提出了无需训练的Attn-Sampler解码算法,并引入块注意力近似与动态阈值技术进行加速。实验表明,该方法在多个基准测试中均能提升生成质量,同时增强了解码的并行能力。
扩散语言模型注意力机制解码算法并行解码语言生成
cs
04-13 00:00
本研究提出用稀疏、树状结构的前馈层替代Transformer中计算密集的MLP块,通过硬分层路由实现条件计算,无需额外路由网络。该方法首次成功应用于自回归语言建模及下游问答任务(包括零样本和少样本),并验证了其在超过10亿参数模型上的可扩展性。尽管每个token仅激活不到5%的单元,模型在受控训练和微调下仍能匹配密集基线的性能。研究还发现了一种“自剪枝”效应:硬路由与不对称非线性的交互会逐步停用未使用的路径,将部分动态路由转化为静态结构稀疏。
稀疏计算条件计算transformer树状结构自回归语言模型模型压缩
cs
04-13 00:00
本研究以2023年加沙战争为案例,分析了不同AI模型对冲突相关媒体话语的情感解读差异。基于10,990条阿拉伯语新闻标题,研究比较了三种大语言模型与六种微调阿拉伯语BERT模型。研究采用认识论方法,将情感分类视为模型架构产生的解释性行为,并使用信息论和分布度量(如香农熵、Jensen-Shannon距离)量化模型间的系统性差异。结果显示,模型间存在显著且非随机的分歧:微调BERT模型(尤其是MARBERT)强烈偏向中性分类,而LLM则持续放大负面情绪(如LLaMA-3.1-8B几乎完全陷入负面)。框架条件分析进一步表明,GPT-4.1会根据叙事框架(如人道主义、法律、安全)调整情感判断,而其他LLM的上下文调节能力有限。这些发现表明,模型选择等同于选择了一个解释视角,塑造了冲突叙事如何被算法框定和情感评估。
情感分析大语言模型阿拉伯语nlp媒体话语模型比较计算社会科学
cs
04-13 00:00
本研究首次系统性地探讨了多用户大语言模型代理的决策问题。研究将多用户交互形式化为一个多主体决策问题,并设计了统一的交互协议和三个压力测试场景,以评估当前LLM在指令遵循、隐私保护和协调方面的能力。实验结果表明,前沿LLM在用户目标冲突时难以保持稳定的优先级排序,在多轮交互中隐私泄露风险增加,且在需要迭代信息收集的协调任务中存在效率瓶颈。
大语言模型多用户代理决策问题隐私保护协调机制人机交互
cs
04-13 00:00
本研究通过分析ACL Anthology论文库,考察了从机器翻译到大语言模型(LLM)的写作辅助工具演变如何影响学术写作的“语言指纹”。研究者构建了一个半自动化标注数据集,并微调分类器来识别作者母语背景的痕迹。分析发现,随着技术发展,母语识别(NLI)性能呈持续下降趋势。有趣的是,在后LLM时代,中文和法文论文显示出意外的抵抗性或分化趋势,而日文和韩文论文的母语信号衰减则比预期更为显著。
大语言模型学术写作母语识别语言同质化计算语言学
cs
04-13 00:00
研究团队提出了QuanBench+基准测试,旨在统一评估大语言模型在多框架(Qiskit、PennyLane、Cirq)下的量子代码生成能力。该基准包含42个对齐任务,覆盖量子算法、门分解和态制备。评估采用可执行功能测试,报告Pass@1和Pass@5,并对概率性输出使用基于KL散度的接受标准。结果显示,单次生成的最佳准确率在Qiskit、Cirq、PennyLane中分别为59.5%、54.8%、42.9%;引入基于反馈的代码修复后,准确率可分别提升至83.3%、76.2%、66.7%。这表明当前模型在量子代码生成上虽有进展,但其可靠性和性能仍高度依赖对特定框架的熟悉程度。
量子计算代码生成基准测试大语言模型多框架评估
cs
04-13 00:00
研究提出一个包含14种扰动技术的评估管道,用于测试大语言模型(LLM)数学推理的鲁棒性。在AIME 2024数据集上的测试表明,前沿闭源模型表现坚韧,而开源推理模型在扰动下出现灾难性崩溃,平均准确率下降高达55%,某些情况下甚至达100%。研究进一步通过强制模型在单一上下文窗口中连续解决多个未扰动问题,隔离其工作记忆容量,发现从7B到120B参数的开源模型及Claude Opus均出现后续问题准确率衰减。这表明标准的密集注意力机制会被中间推理步骤永久“污染”。为实现可靠推理,未来架构需在思维链中整合显式的上下文重置机制。
大语言模型推理鲁棒性扰动测试注意力机制数学推理工作记忆
cs
04-13 00:00
本文针对现有后处理分布外检测方法在不同数据集和模型上表现不稳定的问题,提出了一种无需超参数调优的新方法Ranked Activation Shift。该方法通过用固定的分布内参考配置文件替换排序后的激活幅度,解决了基于缩放的方法在倒数第二层激活未修正时的失效问题。实验表明,该方法在各种数据集和架构上均表现出强大且一致的性能,同时保持了分布内分类精度。分析显示,抑制和激发激活偏移均能独立地改善分布外判别能力。
分布外检测后处理方法激活分布模型鲁棒性无超参数调优
cs
04-13 00:00
本研究提出了SynDocDis框架,旨在解决因隐私限制而难以获取真实医生间病例讨论数据的问题。该框架结合结构化提示技术与去识别化的病例元数据,利用大语言模型生成高质量、临床准确的医生间对话。在肿瘤学和肝病学场景的评估中,生成的对话在沟通有效性(平均4.4/5)和医学内容质量(平均4.1/5)上均获高分,临床相关性达91%,同时保持了医生与患者的隐私。该框架为医学AI研究、医学教育和临床决策支持提供了合规的合成数据来源。
合成数据大语言模型医学对话生成隐私保护临床决策支持医学教育
cs
04-13 00:00
针对高维、预算有限的交通仿真与数字孪生校准问题,本文提出了一种记忆引导的信任域贝叶斯优化方法(MG-TuRBO)。该方法通过引入记忆机制,在经典的TuRBO框架上优化了高维空间的探索过程。在包含14维和84维决策变量的真实交通场景测试中,MG-TuRBO,尤其是结合了新型自适应采集策略后,在高维(84D)问题上展现出显著优势,其收敛速度与最终校准质量均优于传统的遗传算法(GA)及其他贝叶斯优化方法。研究表明,该方法对于一般性的高维优化问题也具有潜力。
贝叶斯优化高维优化仿真校准信任域方法交通数字孪生