今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-01-16 01-16 15:26

今日计算机科学领域聚焦于大语言模型(LLM)的深度应用、优化与评估,研究呈现出从基础模型构建、效率提升到跨领域可靠应用与伦理考量的完整脉络。

  1. 领域专用LLM的构建与优化:研究探讨如何高效构建面向统计、医疗等垂直领域的专用模型(如StatLLaMA),并提出了提升训练效率与稳定性的新归一化方法(BHyT),同时关注通过闭环数据工程(OpenDataArena)构建更优训练数据集的新范式。

  2. LLM在医疗健康领域的可靠应用:研究重点是利用LLM处理临床文本,以补充结构化数据中缺失的社会决定因素编码,并对在线医疗对话进行隐私风险分级(SALP-CG)。同时,通过构建不确定性感知的动态知识图谱,旨在提升高风险领域问答的可靠性与可解释性。

  3. 长上下文与复杂推理的评估与挑战:新基准SagaScale揭示多数模型处理超长文本(>25万token)仍存困难。研究将模型在上下文中的“遗忘”现象重新阐释为一种类似人类的高效认知机制,并提出了通过图约束多跳推理(SciNets)或参数化阶段标记(STIG)来改善复杂科学推理与文本生成的方法。

  4. 模型安全、伦理与对齐的深度审视:研究揭示了LLM在儿科咨询等场景下面临对抗性压力时的安全性“规模悖论”,并系统审计了模型伦理决策因语法框架不同而出现的脆弱性。此外,研究也开始关注多语言嵌入模型的语义对齐能力,发现训练目标比模型规模更为关键。

2026-01-16 速览 · 计算机科学

2026-01-16 共 24 条抓取,按综合热度排序

← 返回日历
cs 01-16 00:00

基于推理模型的健康社会决定因素ICD-9编码预测研究

本研究针对健康社会决定因素(SDoH)在结构化数据中缺失的问题,提出利用推理模型和传统大语言模型,从MIMIC-III数据集的长文本临床记录中预测ICD-9编码。模型在入院记录的多标签分类任务中取得了89%的F1分数,并识别出139份入院记录中缺失的SDoH编码,为补充诊断系统提供了患者社会背景信息。

健康社会决定因素icd-9编码预测临床文本挖掘多标签分类推理模型mimic-iii
cs 01-16 00:00

多流程LLM系统评估AI生成研究计划的新颖性

本研究探讨了多步骤智能体工作流能否生成更具原创性的AI研究计划。通过对比反思迭代、进化算法、多智能体框架、递归分解和长上下文管道五种架构,发现基于分解和长上下文的流程平均新颖性评分达4.17/5,显著高于反思方法(2.33/5)。结果表明,精心设计的多阶段工作流能在保持可行性的同时提升研究构思的创造力。

ai研究构思多智能体工作流新颖性评估llm应用科学创造力
cs 01-16 00:00

Axlerod:面向独立保险代理的LLM智能助手设计与评估

本文介绍了Axlerod,一款基于大语言模型(LLM)的智能对话系统,旨在提升独立保险代理人的工作效率。该系统融合了自然语言处理(NLP)、检索增强生成(RAG)与领域知识,能够准确解析用户意图、访问结构化保单数据库并提供实时、上下文相关的响应。实证评估表明,Axlerod在保单检索任务中实现了93.18%的总体准确率,并将平均搜索时间缩短了2.42秒。该研究为企业级AI在保险科技(Insurtech)中的应用,特别是面向代理人的辅助架构,提供了实践参考。

保险科技智能助手检索增强生成大语言模型对话系统企业ai
cs 01-16 00:00

SALP-CG:基于大语言模型的在线医疗对话隐私风险分类与分级系统

本研究提出SALP-CG,一个基于大语言模型的标准化提取流程,用于对海量在线医疗对话数据进行隐私风险分类与分级。该方法遵循GB/T 39725-2020标准,结合少样本提示、JSON Schema约束解码和确定性高风险规则,实现了与后端LLM无关的强健数据提取。在MedDialog-CN基准测试中,系统展现出高实体召回率、强模式合规性和准确的敏感度分级,最优模型在最高级别预测上达到微平均F1分数 $F1_{micro}=0.900$。分析显示,2-3级风险项占主导,组合后可导致身份再识别;4-5级风险项虽少但危害巨大。该系统为医疗数据治理提供了实用工具。

医疗数据隐私大语言模型风险分级信息提取数据治理标准化流程
cs 01-16 00:00

StatLLaMA:基于多阶段训练框架构建领域优化的统计语言模型

本研究探讨了如何高效构建面向统计学的领域专用大语言模型。研究以轻量级LLaMA-3.2-3B为基础模型,系统比较了三种多阶段训练流程。结果表明,从具备通用指令跟随能力的模型(如LLaMA-3.2-3B-Instruct)出发,才能实现有效的领域专业化。研究揭示了监督微调(SFT)在领域专业性与通用推理能力间的权衡,并证明直接偏好优化(DPO)能提供稳定有效的RLHF对齐。最终模型StatLLaMA在数学推理、常识推理和统计专业知识的基准测试中取得了均衡且强大的性能,为开发资源高效的统计LLM提供了实用蓝图。

大语言模型领域适应统计学习指令微调偏好对齐多阶段训练
cs 01-16 00:00

BHyT:用有界双曲正切替代层归一化,提升大语言模型训练效率与稳定性

本文提出Bounded Hyperbolic Tanh (BHyT)方法,旨在替代大语言模型中广泛使用的层前归一化(Pre-LN)。Pre-LN虽能稳定训练,但存在计算效率低和“深度诅咒”问题。BHyT通过结合双曲正切非线性与数据驱动的输入边界控制,将激活值限制在非饱和区间,从理论上保证了训练的稳定性。在效率上,BHyT每个模块仅计算一次精确统计量,并用轻量级方差近似替代二次归一化。实验表明,相比RMSNorm,BHyT在预训练中平均提速15.8%,token生成吞吐量提升4.2%,同时在多项语言理解与推理基准测试中保持或超越了原有性能。

大语言模型层归一化训练稳定性计算效率激活函数深度学习
cs 01-16 00:00

不确定性感知动态知识图谱:提升高风险领域问答可靠性

本文提出了一种不确定性感知动态知识图谱框架,旨在解决传统问答系统因证据不完整、噪声或不确定而导致的可靠性问题。该框架结合了动态构建演化知识图谱、置信度评分与不确定性感知检索,以及用于可靠且可解释问答的交互式界面。通过在医疗健康领域的实例化(从电子健康记录构建个性化知识图谱),系统展示了不确定性建模如何使问答更稳健和透明,用户可探索动态图谱、检查带置信度标注的三元组,并比较基线答案与置信度感知答案。

知识图谱问答系统不确定性建模动态图谱医疗健康可解释ai
cs 01-16 00:00

儿科咨询中大型语言模型安全性评估:对抗性压力下的表现与规模悖论

本研究评估了在儿科咨询场景下,大型语言模型(LLMs)面对焦虑家长施加的对抗性压力时的安全性。研究使用包含300个查询(150个真实,150个对抗性)的PediatricAnxietyBench基准,测试了Llama-3.3-70B、Llama-3.1-8B和Mistral-7B三个模型。结果显示,模型安全性更依赖于对齐和架构而非规模,较小的模型(如Llama-3.1-8B)表现优于更大的模型(Llama-3.3-70B)。模型在对抗性条件下表现出“积极效应”,但仍有漏洞(如33%的癫痫查询给出不当诊断),且均不适合用于分诊。研究强调了对抗性测试的重要性,并为医疗AI安全提供了开放基准。

医疗ai安全大型语言模型儿科咨询对抗性评估模型鲁棒性基准测试
cs 01-16 00:00

ADMEDTAGGER:基于多语言大模型的波兰语医疗文本标注框架

本研究提出了ADMEDTAGGER标注框架,利用多语言大模型Llama3.1作为“教师模型”,为缺乏标注资源的波兰语医疗文本(涵盖放射学、肿瘤学等五个临床类别)生成初始标签。经人工部分验证后,这些数据用于训练三种基于BERT架构的分类器(DistilBERT、BioBERT、HerBERT)。其中,蒸馏后的DistilBERT模型表现最佳,在各类别上F1分数均>0.80,部分高达>0.93,且模型尺寸比大模型小近500倍,GPU显存消耗降低300倍,推理速度快数百倍,为资源受限场景提供了高效替代方案。

知识蒸馏医疗文本标注多语言大模型波兰语nlp轻量级分类器
cs 01-16 00:00

SagaScale:基于完整长篇小说的长上下文基准测试,挑战LLM极限

本文提出了SagaScale,一个基于完整长篇小说构建的现实、可扩展且高质量的长上下文基准测试。它通过自动化流程(利用维基百科等外部资源)构建问答对,平均上下文长度超过25万(英文)和32万(中文)token。评估12个前沿大语言模型和三种方法(原生RAG、智能体RAG、长上下文)后发现:直接提供完整上下文效果最佳;多数模型仍难以处理超长文本,Gemini-2.5-Pro表现突出;智能体RAG能有效解决原生RAG的检索瓶颈。

长上下文基准大语言模型评估rag方法小说数据集自动化构建
cs 01-16 00:00

大语言模型伦理决策的语法框架脆弱性:一项鲁棒性审计研究

本研究提出“语法框架脆弱性”(SFF)评估框架,通过逻辑极性归一化(LPN)技术,考察大语言模型(LLM)在逻辑等价但语法不同的提示下(如否定和条件结构)伦理决策的一致性。审计23个中美前沿模型在14个伦理场景下的近4万次决策,发现普遍存在显著的决策不一致性:仅因语法极性变化,许多模型便会反转伦理判断,开源模型的脆弱性是商业模型的两倍以上。研究还发现极端否定敏感性,并证明链式思维推理可有效缓解此问题。结果表明,语法一致性是伦理鲁棒性的关键维度,SFF式审计应成为LLM安全评估的标准环节。

大语言模型伦理决策鲁棒性审计语法脆弱性否定敏感性安全评估
cs 01-16 00:00

遗忘作为功能:大语言模型与人类认知的对齐研究

研究重新审视大语言模型在上下文推理中系统遗忘过去信息的现象,提出这并非缺陷,而是类似人类记忆的功能性认知机制。通过建立受指数衰减控制的概率记忆过程模型,并引入评估时间推理、概念漂移适应和联想回忆的基准套件,研究发现LLMs的遗忘率与人类记忆在稳定性与适应性间的效率权衡类似。基于此提出的概率记忆提示策略,通过模拟人类记忆衰减来塑造证据整合,提升了长程推理性能。

大语言模型认知对齐记忆机制概率推理上下文学习模型评估
cs 01-16 00:00

SciNets:基于图约束多跳推理的科学文献综合方法

本文提出SciNets框架,将跨领域科学文献的机理综合问题建模为基于概念图的图约束多跳推理任务。该方法首先构建有向概念图,然后通过识别连接罕见共现概念的多跳推理路径来合成机理解释。研究系统比较了最短路径推理、带多样性约束的k-最短路径、随机游走以及检索增强语言模型基线。通过引入行为评估框架(衡量符号推理深度、机理多样性和基础稳定性),在机器学习、生物学和气候科学任务上的实验揭示了图约束方法的优势与权衡:更深入、更多样的符号推理会增加基础不稳定性,而最短路径推理则保持高度稳定但结构保守。

科学文献综合图约束推理多跳推理概念图机理解释行为评估
cs 01-16 00:00

STIG:通过参数化阶段标记消除引言生成的代理工作流

针对现有基于代理工作流的大语言模型在生成研究引言时存在的推理链长、错误累积和文本连贯性差等问题,本文提出了一种新方法STIG。该方法摒弃了外部代理工作流,通过引入“阶段标记”将工作流的逻辑结构直接参数化到模型中,使模型能在单次推理中生成完整的引言。实验表明,STIG在语义相似度和句子结构合理性指标上均优于传统代理工作流及其他基线方法。

大语言模型文本生成参数化学习引言生成工作流优化
cs 01-16 00:00

混合摘要框架提升财报分析效率:结合抽取与生成技术

本研究提出一个混合摘要框架,用于从冗长的财报电话会议记录中自动生成简洁、事实可靠的摘要。该框架采用两阶段流程:首先使用LexRank算法抽取关键句子,随后利用在资源受限环境下微调的BART和PEGASUS模型进行抽象概括。同时,研究还微调了Longformer Encoder-Decoder模型以直接捕获金融文档中的长距离上下文依赖。评估结合了ROUGE、METEOR、MoverScore、BERTScore等通用指标,以及SciBERTScore、FinBERTScore等领域特定指标。结果表明,长上下文模型整体性能最强,而混合框架在计算受限条件下实现了有竞争力的结果,并提升了事实一致性。

文本摘要金融科技自然语言处理混合模型财报分析
cs 01-16 00:00

临床文档元数据提取研究综述:方法演进与应用前景

本文对2011年至2025年间临床文档元数据提取研究进行了范围综述。研究发现,提取方法已从依赖大量特征工程的规则和传统机器学习,演进至基于Transformer架构、特征工程需求更少的模型。大型语言模型的出现促进了任务与数据集间泛化能力的探索。尽管公开标注数据仍较稀缺(除文档结构数据集外),但研究正朝着更丰富的元数据表示及与临床工作流的深度整合方向发展。

临床文档元数据提取自然语言处理医学信息学范围综述transformer
cs 01-16 00:00

OpenDataArena:用闭环数据工程构建更优LLM训练数据集

本研究提出从启发式数据收集转向闭环数据工程的新范式,利用OpenDataArena框架,通过价值锚定排名和多维分析,将基准测试结果转化为指导数据集构建的反馈信号。该方法实例化为两个新数据集:ODA-Math-460k(采用两阶段难度感知流程,在AIME等数学推理基准上达到SOTA)和ODA-Mixture(通过“锚定-修补”策略构建的多领域指令数据集,性能显著优于规模更大的开源基线)。实证表明,ODA驱动的数据集在提升领域特定推理和通用能力的同时,实现了更优的数据效率,验证了以透明评估为核心引擎、构建高质量训练数据的数据中心化AI路径。

数据集工程大语言模型监督微调闭环优化数学推理数据效率
cs 01-16 00:00

欧洲与荷兰法律视角下的行为定向追踪与数据保护合规

本文探讨了欧洲及荷兰法律在行为定向追踪领域的最新发展。研究表明,欧洲数据保护法(隐私法)在多数情况下适用于行为定向追踪,荷兰法律更是明确推定其适用性。这意味着相关企业必须遵守数据保护法的公平信息原则,例如禁止秘密或过度收集数据。这些法律原则或可为未来W3C(万维网联盟)项目提供灵感,推动技术设计本身促进公平的信息处理。

数据保护法行为定向追踪隐私合规公平信息原则欧洲法律
cs 01-16 00:00

欧洲法律视角下的行为定向广告:隐私保护与监管挑战

本文从欧洲法律视角探讨了行为定向广告(在线画像)这一热点议题。尽管研究表明多数用户不希望接收基于行为的定向广告,但互联网上大量个人信息的收集与此密切相关。文章分析了世界万维网联盟正在讨论的“禁止追踪”标准,并梳理了全球监管机构面临的应对困境,重点评述了欧洲相关法律及近期的政策发展动态。

行为定向隐私保护欧洲法律在线画像监管政策数据收集
cs 01-16 00:00

ProUtt:基于LLM驱动的偏好数据合成方法,用于主动预测人机对话中的下一轮用户话语

本文提出ProUtt方法,旨在解决人机对话中主动预测用户下一轮话语的难题。现有方法存在隐私风险或计算成本高昂,且缺乏对用户意图推理的显式建模。ProUtt的核心创新在于将对话历史转换为意图树,并分别从利用和探索两个视角预测可能的意图推理路径。通过在不同未来轮次扰动或修正意图树路径,该方法能构建偏好与非偏好的推理过程,从而合成高质量的训练数据。实验表明,ProUtt在四个基准数据集上均优于现有数据合成方法、用户模拟器及商用LLM API。

人机对话主动预测意图推理数据合成大语言模型偏好学习
cs 01-16 00:00

塞内加尔低资源语言NLP现状:机遇、挑战与社会科学应用

本文首次系统综述了塞内加尔六种官方语言(沃洛夫语、普拉尔语等)的自然语言处理进展与挑战。研究综合了影响其数字化准备的语言、社会技术和基础设施因素,指出了数据、工具和基准方面的差距。文章分析了文本规范化、机器翻译和语音处理等领域的现有工作,并建立了一个集中化的GitHub仓库以整合公开资源。特别探讨了NLP在社会科学研究中的应用潜力,如多语言转录、翻译和检索流程可显著提升田野研究的效率与包容性。最后,论文提出了构建可持续、以社区为中心的塞内加尔语言NLP生态系统的路线图。

低资源语言自然语言处理非洲语言多语言技术社会科学研究资源建设
cs 01-16 00:00

提升英语-马拉地语机器翻译的标点鲁棒性:Virām基准与优化策略

本研究针对低中资源语言马拉地语,首次构建了用于评估标点鲁棒性的诊断性基准Virām,包含54个人工标注的标点歧义实例。论文评估了两种提升翻译可靠性的策略:基于管道的“恢复-翻译”方法和直接在标点变化数据上微调的模型。结果表明,专用微调模型和管道系统在Virām基准上的翻译质量显著优于标准基线。定性分析显示,原始模型可能导致错误翻译和误解,而微调模型显著提升了整体可靠性。此外,研究发现当前大语言模型在保留标点歧义文本含义方面落后于这些任务专用方法。

机器翻译标点鲁棒性低资源语言模型微调诊断基准马拉地语
cs 01-16 00:00

多语言嵌入的语义几何模式:PHATE流形分析揭示模型局限

本研究引入了一个多层级分析框架,利用PHATE流形学习技术,通过可视化工具Semanscope系统性地探究了多语言嵌入空间的语义几何结构。分析覆盖了从亚字符组件、字母系统、语义域到数字概念等多个层面。研究发现:在亚字符层面,纯结构元素(如汉字部首)出现几何坍缩,表明模型未能区分语义与结构组件;不同书写系统在字符层面展现出独特的几何特征;在词语层面,英语、中文和德语的实词在20个语义域中形成了聚类-分支模式;而阿拉伯数字则呈现出螺旋轨迹而非聚类,这违背了标准分布语义假设。这些发现确立了PHATE流形学习作为分析嵌入空间语义几何结构及验证模型有效性的重要工具。

多语言嵌入语义几何phate流形可视化分析自然语言处理
cs 01-16 00:00

多语言嵌入模型语义对齐能力评测:训练目标比模型规模更重要

本研究针对数百种多语言嵌入模型缺乏语义对齐能力评估标准的问题,提出了“语义亲和度”(SA)这一有界度量指标(0-1),用于量化模型跨语言与语言内语义分布的比率。通过对13个模型在4个数据集上的52项实验进行基准测试,发现模型可分为三个梯队:1)基于翻译对监督训练的BERT模型(如LaBSE,SA=0.70)对齐能力最强;2)大语言模型(LLM)嵌入无论规模大小(0.6B至8B),SA均稳定在0.55-0.61;3)仅使用掩码语言建模(MLM)目标的BERT模型(如mBERT、XLM-R,SA<0.50)对齐能力不足。研究表明,决定跨语言语义对齐的关键是训练目标(如翻译监督),而非模型架构或规模。

多语言嵌入语义对齐基准评测跨语言语义嵌入模型评估训练目标
AI速览助手