cs
04-17 00:00
本研究提出一种无需人工参考转录本的医疗语音转录不确定性评估方法。通过集成8个异构ASR系统对医疗音频进行转录,并量化其输出在词元级别的一致性。研究发现,模型间可靠性较低(ICC[2,1] = 0.131),表明各系统存在异质性错误。在76398个评估词元中,2.5%处于高风险区间(0-3个模型一致),且高风险区域中内容性错误的比例从53.9%上升至73.9%。跨模型分歧可作为稀疏、可定位的信号,优先引导人工复核,有望减轻临床文档记录负担。
语音识别医疗ai不确定性评估模型集成临床文档无监督学习
cs
04-17 00:00
针对现有大语言模型长期记忆评估方法局限于静态检索和短上下文推理的不足,本研究提出了MemGround评估套件。该框架将评估原生地建立在丰富的游戏化交互场景中,并引入一个三层分级评估体系,分别评估表面状态记忆、时序关联记忆和基于推理的记忆。此外,研究还提出了一套多维量化指标,包括问答得分、解锁记忆片段、正确顺序记忆片段和探索轨迹图,以全面衡量记忆利用和行为轨迹。实验表明,当前最先进的LLM和记忆智能体在交互环境中,对持续动态状态追踪、时序事件关联以及基于长期累积证据的复杂推理方面仍面临显著挑战。
大语言模型长期记忆评估交互式基准游戏化场景记忆智能体时序推理
cs
04-17 00:00
本文提出HUOZIIME,一种基于设备端大语言模型的个性化输入法。它通过在后训练阶段使用合成的个性化数据赋予模型初始的类人预测能力,并设计了分层记忆机制来持续捕获和利用用户特定的输入历史。针对移动设备部署进行了系统性优化,确保在资源受限环境下的高效、实时响应。实验表明,该系统能实现高效的设备端执行和高保真的记忆驱动个性化。
设备端大模型个性化输入法分层记忆机制移动ai隐私保护实时生成
cs
04-17 00:00
本研究探讨了大语言模型(LLMs)作为独立分析代理,检测已发表机器学习研究中方法学缺陷(特别是数据泄露)的能力。通过分析一篇基于深度学习、在小规模人本数据集上报告接近完美准确率的手势识别论文,研究者首先确认其评估协议存在因训练集与测试集非独立划分而导致的主体级数据泄露。随后,六种前沿LLMs在无先验知识、使用相同提示词分析原文的情况下,均一致识别出该缺陷,并将报告的高性能归因于非独立数据划分,其判断依据包括重叠的学习曲线、极小的泛化差距以及接近完美的分类结果。这些发现表明,LLMs仅基于已发表内容即可检测常见方法问题,虽非决定性工具,但其一致性凸显了其作为提高研究可重复性和支持科学审计的补充工具的潜力。
大语言模型方法学缺陷数据泄露可重复性科学审计手势识别
cs
04-17 00:00
本研究分析了ICLR 2021-2025超过3万份投稿,发现基于评审分数的录用预测模型准确率高达91%,而基于评语文本的模型(即使使用大语言模型)仅81%。研究表明,评语中存在普遍的“礼貌原则”:即使被拒稿的论文,其评语中积极情感词仍多于消极词,这掩盖了真实的拒稿信号,导致作者难以仅从文本判断结果。此外,分数分布的高峰度与负偏态表明,个别低分对拒稿具有决定性影响。
同行评审礼貌原则情感分析机器学习学术出版预测模型
cs
04-17 00:00
本文提出SeaAlert框架,利用大语言模型(LLM)从嘈杂的海上甚高频(VHF)遇险通信中稳健提取关键信息。为应对真实标注数据稀缺的挑战,研究构建了一个合成数据生成流程:首先由LLM生成多样化的、符合现实场景的遇险文本(包括省略标准求救代码或使用模糊表达等复杂情况),然后合成为语音,叠加模拟的VHF信道噪声,再经自动语音识别(ASR)系统转录,最终得到贴近真实噪声环境的训练数据。该方法旨在克服实际通信中因格式不规范、语音简短、噪声干扰及说话人紧张导致的ASR错误等难题,提升对船舶身份、位置、遇险性质和所需援助等核心要素的自动分析能力。
大语言模型海上安全信息提取合成数据语音识别遇险通信
cs
04-17 00:00
本研究针对汉语作文自动评分中的修辞识别任务,提出了一种结合大语言模型(LLMs)的解决方案。通过采用低秩自适应(LoRA)微调与上下文学习(in-context learning)技术,将修辞知识有效整合进模型。研究将输出格式化为JSON以获得结构化结果,并将关键信息翻译为中文。为进一步提升性能,还探索了多种模型集成方法。该方法在CCL 2025汉语作文修辞识别评测的所有三个赛道中均取得最佳成绩,荣获一等奖。
修辞识别大语言模型lora微调上下文学习模型集成教育ai
cs
04-17 00:00
SAGEA发布新一代通用模型SAGE Celer 2.6,提供5B、10B和27B三种参数规模。模型通过逆向推理(IR)管道进行原生训练,验证自身逻辑路径以减少复杂推理中的级联错误和幻觉。它集成了端到端视觉编码器,实现原生多模态功能,避免了基于适配器方法的常见缺陷。在数学、编程和通用智能基准(ACUMEN)上表现优异,且延迟较低。特别针对南亚语言(如尼泊尔语和印地语)进行了优化,配备了天城文字符的自定义分词器,且未牺牲英语推理能力。
大语言模型逆向推理多模态模型南亚语言模型优化推理能力
cs
04-17 00:00
本研究提出了一种状态化证据驱动的检索增强生成框架,将问答过程建模为渐进式证据积累。该框架将检索到的文档转化为带有明确相关性和置信度信号的结构化推理单元,并维护在一个持久证据池中,同时记录支持性与非支持性信息。通过证据驱动的缺陷分析识别信息缺口与冲突,并迭代优化查询以指导后续检索。实验表明,该方法在多个问答基准上优于标准检索增强生成及多步基线模型,能有效积累高质量证据,并在显著检索噪声下保持稳定性能。
检索增强生成迭代推理证据积累问答系统大语言模型状态化检索
cs
04-17 00:00
本研究首次对罗马化尼泊尔语(拉丁字母书写的尼泊尔语)在三种开源大语言模型中的适应性进行了系统基准测试。研究使用包含1万条双语指令的定制数据集,在零样本和微调设置下评估了Llama-3.1-8B、Mistral-7B-v0.1和Qwen3-8B的性能。采用QLoRA与rsLoRA技术,仅微调模型约1%的参数(总训练时间<27 GPU小时)。结果显示:零样本下所有模型均无法生成罗马化尼泊尔语;微调后,模型在BERTScore(约0.75)和chrF++(>23)等指标上显著提升。综合评估表明Qwen3-8B整体表现最佳,而Llama-3.1-8B在微调后提升幅度最大(困惑度降低49.77,BERTScore提升0.3287),适合低资源迭代开发。
大语言模型罗马化尼泊尔语基准测试参数高效微调多语言nlp低资源语言
cs
04-17 00:00
针对网络安全漏洞分析中,因漏洞信息频繁更新导致大语言模型知识过时、产生幻觉的问题,本文提出CRVA-TGRAG框架。该框架采用两阶段方法:检索阶段结合父文档分割与语义/倒排索引的集成检索,提升文档召回精度;生成阶段利用教师引导的偏好优化技术微调LLM。实验表明,该方法在检索最新CVE信息上比外部知识库更准确,有效缓解了知识冲突与不一致性。
漏洞分析检索增强生成知识冲突大语言模型偏好优化网络安全
cs
04-17 00:00
研究发现,经过对齐调优的语言模型在处理政治敏感话题时,其输出的对数概率(log-probabilities)会受到抑制,尽管相关知识仍存在于模型的隐藏表示中。本文提出一种仅含78.6万参数(约为基础模型的0.02%)的后置Transformer适配器,该适配器在冻结的隐藏状态上进行训练,成功修正了Qwen3系列模型(4B、8B、14B)在31个意识形态相关事实上的概率抑制。适配器不仅记住了全部15个训练事实,还能在5个随机划分的测试集上,对16个未见事实中的11%至39%实现泛化,且通过锚定训练避免了知识退化。实验表明,仅对当前预测位置(last-position-only)应用适配器,可生成连贯且审查更少的文本,而全位置应用或在对数空间操作则会导致输出不连贯。研究还发现并修复了Apple MLX框架中一个导致梯度静默归零的Bug,这对基于MLX的适配器研究具有重要启示。
语言模型对齐概率抑制后置适配器知识修正mlx框架敏感话题
cs
04-17 00:00
本研究针对ArchEHR-QA共享任务,提出统一系统处理临床答案生成与证据句子对齐。在答案生成任务中,采用两阶段量化低秩适应(QLoRA)微调Qwen3-4B模型:先在emrQA-MedSQuAD语料库的3万样本上建立临床领域能力,再在20个标注开发案例上学习任务特定输出风格,最终在官方测试集上获得32.87的综合得分。在证据对齐任务中,开发了BM25、TF-IDF和微调交叉编码器的加权集成方法,在100例测试集上取得67.16的微平均F1分数。实验表明,两个子任务共同揭示了标注数据不足的核心挑战,指向数据增强为未来关键方向。
临床问答qlora微调证据对齐大语言模型医学信息检索
cs
04-17 00:00
本文针对广义类别发现(GCD)任务中联合优化有监督和无监督目标时存在的梯度纠缠问题进行了定量分析。该问题会扭曲有监督梯度并导致已知类与未知类表征子空间重叠,从而限制模型性能。为解决此问题,作者提出了一个即插即用的能量感知梯度协调器(EAGC),它包含基于锚点的梯度对齐(AGA)和能量感知弹性投影(EEP)两个组件。AGA通过引入参考模型锚定有标签样本的梯度方向,EEP则根据无标签样本与已知子空间的对齐程度,自适应地将其梯度投影到已知子空间的补空间上。实验表明,EAGC能持续提升现有方法性能,并取得了新的最优结果。
广义类别发现梯度纠缠优化干扰表征学习半监督学习
cs
04-17 00:00
本研究针对真实教学场景,提出了生成兼具可操作性、难度适配性和鼓励性的“学习者友好型教学反馈”这一新任务。我们构建了首个口语教学反馈生成数据集SPFG,基于Speak & Improve Challenge 2025语料,将流利度导向的转写文本与语法纠错目标及人工验证的教师风格反馈配对。研究评估了三种指令微调大语言模型在口语语法纠错任务上的表现,比较了监督微调与基于偏好的对齐方法。结果表明,监督微调带来了最一致的改进,而DPO/KTO方法收益较小或结果不一,且纠错质量与反馈质量关联性较弱。
口语语法纠错教学反馈生成大语言模型偏好学习教育技术
cs
04-17 00:00
本文提出了一种心跳驱动的自主思考活动调度机制,旨在解决现有LLM智能体控制流程僵化、反应式决策的局限。该系统模仿人类认知节律,通过周期性“心跳”信号动态协调规划、批判、回忆、想象等多种认知模块,而非依赖固定流程或事后纠错。调度器能根据时间模式和历史上下文,自主决定何时启动特定思考活动(如回忆记忆、总结经验、战略规划)。同时引入元学习策略,使调度策略能利用历史交互日志持续优化。该方法支持认知模块的动态增删,无需重构系统架构。
大语言模型认知调度自主智能体元学习自适应系统
cs
04-17 00:00
本研究对2022年至2026年间发表的12项研究进行了范围综述,探讨大语言模型(LLMs)在罕见病患者教育与沟通中的应用现状。综述发现,当前研究高度集中于使用通用模型(如ChatGPT)进行患者问答,但普遍缺乏真实世界数据、纵向沟通场景的探索,以及对可读性、同理心等以患者为中心维度的评估。该领域仍处于早期阶段,未来研究需优先考虑患者中心设计、领域适应方法及真实世界部署,以支持罕见病领域安全、自适应且有效的沟通。
罕见病大语言模型患者教育健康沟通范围综述人工智能
cs
04-17 00:00
研究训练了一个3.18亿参数的纯古典中文Transformer模型,并对其进行了系统性测试。研究发现,模型内部能有效区分已知与未知信息:对于虚构历史事件,其困惑度是真实事件的2.39倍($p = 8.9 \times 10^{-11}$),表明其编码了真实事实而非仅语法模式。然而,模型在外部生成文本时,却无法表达不确定性:面对未知问题时,古典中文认知标记(如“盖”、“殆”)的出现率(3.5%)反而低于已知问题(8.3%,$p = 0.023$),这反映了训练数据的修辞惯例,而非真正的元认知。该发现在英、日、中三种语言及八个不同规模的模型上均得到复现。研究表明,仅通过语言建模无法自发产生“说‘我不知道’”的元认知表达能力,需要如RLHF等显式训练信号。
大语言模型古典中文不确定性表达元认知分布外泛化事实编码
cs
04-17 00:00
本文提出了一种统一的压缩感知引导框架,用于大语言模型的动态执行。该框架将LLM推理重新表述为一个测量与恢复问题,通过随机测量算子探测模型的潜在使用模式,并利用稀疏恢复技术估计任务条件和令牌自适应的支持集。这些恢复出的支持集随后被编译成硬件高效的稀疏执行路径,作用于模型块、注意力头、通道和前馈子结构。该方法的关键贡献包括:任务条件测量、令牌自适应恢复、在受限等距性或互不相干性假设下的形式化样本复杂度界限、面向GPU高效结构的编译约束,以及一个将提示压缩与模型缩减统一起来的联合目标。
模型压缩动态推理压缩感知稀疏恢复大语言模型硬件加速
cs
04-17 00:00
本研究提出NuHF Claw框架,旨在解决核电站主控室数字化带来的复杂软控制行为与认知风险。该框架的核心方法创新在于引入一个风险约束的代理运行时环境,将认知状态推断与概率安全评估紧密结合,以实时调节自主系统行为。通过整合基于认知的工作负荷、情境意识估计与动态人因失误概率预测,它将传统的离线可靠性分析转变为嵌入工作流程的主动干预机制。实验验证表明,该框架能预测界面引发的认知退化,动态约束不安全的自主建议,并在保留人类决策权的同时提供风险感知的导航指导。
核电站安全人机交互认知风险自主代理人因可靠性风险约束
cs
04-17 00:00
研究发现,使用更强模型(教师)生成的合成数据进行监督微调(SFT)时,常因师生模型输出风格差异导致学生模型性能下降。本文提出师生协作数据合成框架TESSY,通过交替生成风格与非风格标记,使合成数据既继承教师的推理能力,又保持与学生模型分布的风格一致性。在代码生成任务中,使用GPT-OSS-120B为教师微调Qwen3-8B,TESSY在LiveCodeBench-Pro和OJBench上分别提升11.25%和6.68%,而传统方法则导致性能下降。
大语言模型监督微调数据合成风格一致性推理模型代码生成
cs
04-17 00:00
本文提出了EviSearch系统,旨在自动化从临床试验PDF文件中提取并构建符合本体的临床证据表,以加速系统综述工作流。该系统采用多智能体架构:一个PDF查询代理负责保留原始布局与图表,一个检索引导的搜索代理进行信息提取,并配备一个协调模块在智能体结果不一致时强制进行页面级人工验证。该方法在肿瘤学试验论文基准测试中,相比基于解析文本的基线模型显著提升了提取准确性,同时为所有提取单元提供了完整的来源追溯。系统通过记录协调决策和审阅者编辑,生成结构化的偏好与监督信号,以迭代改进模型。EviSearch旨在减少人工整理负担,并为将基于大语言模型的提取技术安全、可审计地整合到证据合成流程中提供路径。
临床证据提取系统综述多智能体系统人机协同可审计性医学信息学
cs
04-17 00:00
本文提出H-TechniqueRAG,一种新颖的分层检索增强生成框架,用于将网络威胁情报文本映射到MITRE ATT&CK攻击技术ID。该方法创新性地引入ATT&CK框架固有的战术-技术分类法作为强归纳偏置,采用两阶段分层检索机制:先识别宏观战术(对手目标),再在对应战术下检索具体技术,将候选搜索空间减少77.5%。此外,设计了战术感知重排序模块和层次约束的上下文组织策略,以弥合检索与生成间的差距。在三个CTI数据集上的实验表明,该框架在F1分数上超越现有最佳方法3.8%,推理延迟降低62.4%,大语言模型API调用减少60%,并展现出优异的跨域泛化能力和可解释性。
网络威胁情报检索增强生成mitre att&ck分层检索威胁标注大语言模型
cs
04-17 00:00
本研究针对大型建设项目中决策记录(如会议纪要)随时间演变、相互覆盖,导致人工追溯决策历史耗时且易错的问题,提出了一种基于检索增强生成(RAG)的对话式解决方案。该方法将语义搜索与大语言模型结合,允许专业人员通过自然语言提问,获取语义相关且带有明确时间标注的答案,从而清晰追踪决策的演变过程。研究使用比利时某大型公司已完工项目的匿名会议纪要数据集进行验证,并开源了数据集与实现代码,以促进时序项目文档对话式访问的进一步研究。
检索增强生成建设项目管理时序知识检索对话式访问会议纪要分析rag框架