今日速览 · Fortune Health

cs 03-12 00:00

多任务代码分析：参数高效微调实现单一模型掌握多项技能

本研究首次系统评估了参数高效微调在多任务代码分析中的应用。实验表明，跨任务共享的单一PEFT模块，其性能可媲美甚至超越完全多任务微调，同时将可训练参数数量减少至任务数量的倒数倍，计算成本降低高达85%。研究还揭示了任务稳定性、模型架构、任务互补性等是影响多任务学习效果的关键因素。与直接提示开源通用大模型相比，即使仅使用10亿参数的模型进行多任务PEFT，在代码分析任务上也能取得显著更优的结果。

参数高效微调多任务学习代码分析大语言模型模型适配

cs 03-12 00:00

基于推理的可解释大语言模型遗忘方法

本文提出了一种基于推理的定向遗忘方法（TRU），以解决现有梯度上升遗忘方法导致的模型能力退化、知识移除不彻底等问题。该方法通过构建推理式遗忘目标，明确指导模型“遗忘什么”和“如何遗忘”，结合交叉熵监督损失与梯度上升损失，使模型在精确移除特定知识的同时保留无关能力。实验表明，TRU在多个基准测试和模型架构上均实现了更可靠的遗忘效果，并展现出更强的抗攻击鲁棒性。

大语言模型模型遗忘可解释ai推理学习知识移除

cs 03-12 00:00

AraModernBERT：面向阿拉伯语的现代编码器架构，支持长上下文建模

本研究提出了AraModernBERT，一种专为阿拉伯语设计的现代编码器架构。核心创新在于采用跨词元化（transtokenized）嵌入初始化方法，显著提升了掩码语言建模性能。模型支持高达8192个词元的长上下文建模，在扩展序列长度下保持了稳定的内在语言建模能力。下游任务评估表明，该模型在阿拉伯语自然语言理解、推理、冒犯性语言检测、问题相似度及命名实体识别等任务上均表现出强大的迁移能力。

阿拉伯语nlp编码器模型长上下文建模跨词元化语言模型适配自然语言理解

cs 03-12 00:00

MoE-SpAc：基于推测激活效用的高效MoE推理框架，优化边缘设备性能

本文提出MoE-SpAc，一种专为异构边缘场景设计的高效混合专家模型推理框架。针对边缘设备内存限制和现有卸载策略的I/O瓶颈问题，该框架创新性地将推测解码技术重新定位为内存管理的“前瞻传感器”。其核心组件包括：推测效用估计器跟踪专家需求，异构工作负载均衡器通过在线整数优化动态分配计算，以及异步执行引擎在统一的效用空间内协调预取与逐出操作。在七个基准测试中，MoE-SpAc相比最先进的基于推测解码的基线实现了42%的每秒处理量提升，平均加速比达到标准基线的4.04倍。

混合专家模型边缘计算推测解码内存管理推理优化异构系统

cs 03-12 00:00

大语言模型中的达克效应：模型越差越自信的实证研究

本研究首次实证检验了大语言模型（LLM）中是否存在类似人类“达克效应”的认知偏差，即能力不足者倾向于高估自己。研究评估了Claude Haiku 4.5、Gemini 2.5 Pro/Flash和Kimi K2四款先进模型在总计24,000次实验中的表现。结果显示，性能最差的Kimi K2准确率仅为23.3%，但其预期校准误差（ECE）高达0.726，表现出严重过度自信；而性能最佳的Claude Haiku 4.5准确率达75.4%，ECE仅为0.122，校准效果最好。这一“越差越自信”的模式与人类达克效应高度相似，对LLM在高风险应用中的安全部署提出了重要警示。

大语言模型达克效应置信度校准模型评估认知偏差人工智能安全

cs 03-12 00:00

医学教材问答中语言模型的幻觉量化研究

本研究针对大型语言模型在医学问答中产生事实错误或缺乏证据支持的“幻觉”问题，通过两项实验进行量化分析。实验一发现，在提供教材段落的情况下，LLaMA-70B-Instruct模型仍有19.7%的答案出现幻觉（95% CI 18.6-20.7）。实验二表明，不同模型的幻觉率与临床医生给出的有用性评分呈负相关（$\rho=-0.71$, $p=0.058$）。研究为评估和缓解医学领域LLM的幻觉问题提供了基准和方法。

语言模型幻觉医学问答量化评估llama模型临床医生评估

cs 03-12 00:00

基于经验演化的思维链特征变换优化框架

本文提出了一种优化大语言模型（LLM）驱动特征变换（FT）的框架。针对现有方法存在样本效率低、候选无效、输出冗余且与下游任务目标对齐弱的问题，该框架通过强化学习探索高性能特征变换序列，构建并持续更新一个经过下游任务验证的变换轨迹经验库。利用一个具有多样性感知能力的选择器，结合思维链（Chain-of-Thought）形成上下文，引导生成更高效的特征变换。实验表明，该方法在多个表格数据基准测试中优于经典及现有LLM基线，且比单次生成更稳定。该框架可泛化至API和开源LLM，并对不同的下游评估器保持鲁棒性。

特征变换大语言模型思维链经验演化数据增强强化学习

cs 03-12 00:00

因果机制可解释性：为LLM内部电路生成忠实自然语言解释

本研究提出一个将大语言模型（LLM）内部电路分析转化为人类可理解自然语言解释的完整流程。方法包括：1）通过激活修补（activation patching）识别因果重要的注意力头；2）结合基于模板和LLM生成两种方式产生解释；3）采用改进的ERASER指标评估解释的忠实性。在GPT-2 Small（1.24亿参数）的间接宾语识别（IOI）任务上，识别出6个注意力头可解释61.4%的logit差异。研究发现，基于电路的解释具有100%的充分性但仅22%的完备性，揭示了模型存在分布式备份机制。LLM生成的解释在质量指标上比模板基线高出64%，且模型置信度与解释忠实性无相关性（r = 0.009）。

可解释ai机制可解释性因果分析自然语言解释注意力机制忠实性评估

cs 03-12 00:00

系统幻觉量表（SHS）：一种轻量级、以人为本的大语言模型幻觉行为评估工具

本文提出了系统幻觉量表（SHS），这是一种受系统可用性量表（SUS）等成熟心理测量工具启发的轻量级评估工具。SHS旨在从用户视角，在真实交互条件下，快速、可解释且领域无关地评估大语言模型生成文本中的事实不可靠性、不连贯性、误导性呈现以及对用户引导的响应性。一项涉及210名参与者的现实评估表明，该量表具有高清晰度、一致的响应行为和良好的结构效度（内部一致性Cronbach's $\alpha = 0.87$，维度间相关性显著 $p < 0.001$）。与SUS和SCS的比较分析揭示了其互补的测量特性，支持SHS作为比较分析、迭代系统开发和部署监控的实用工具。

大语言模型幻觉评估人机交互心理测量系统量表事实可靠性

cs 03-12 00:00

基于LLM与Transformer的两阶段NDA智能分析架构

针对商业保密协议（NDA）格式多样、人工分析效率低的问题，本研究提出了一种两阶段自动化分析架构。第一阶段利用LLaMA-3.1-8B-Instruct模型进行协议文本的智能分割与条款提取，第二阶段采用微调的Legal-Roberta-Large模型对提取出的条款进行分类。实验结果显示，分割任务的ROUGE F1分数达到$0.95 \pm 0.0036$，分类任务的加权F1分数为$0.85$，验证了该架构在合同智能分析中的可行性与高精度。

合同智能分析大语言模型transformer文本分割条款分类法律科技

cs 03-12 00:00

PoultryLeX-Net：面向家禽业大规模利益相关者建模的领域自适应双流Transformer架构

本研究提出PoultryLeX-Net，一种结合词典增强与领域自适应的双流Transformer框架，用于家禽业社交媒体文本的细粒度情感分析。该架构通过领域特定嵌入和门控交叉注意力机制，整合了情感分类、主题建模与上下文表征学习。其中，词典引导流捕捉家禽领域术语与情感线索，上下文流建模长程语义依赖。模型在情感分类任务上准确率达97.35%，F1分数96.67%，AUC-ROC为99.61%，显著优于DistilBERT、RoBERTa等基线模型，为家禽生产决策提供了可扩展的智能支持。

情感分析领域自适应transformer家禽业社交媒体分析主题建模

cs 03-12 00:00

TAMUSA-Chat：面向学术机构的领域自适应大语言模型对话系统框架

本文提出了TAMUSA-Chat，一个用于构建领域自适应大语言模型对话系统的研究型框架。该工作通过监督微调、检索增强生成和系统化评估方法，解决了将通用基础模型适配到特定机构环境中的关键挑战。框架包含从机构数据源获取、预处理流水线、嵌入构建、模型训练到部署的完整架构，并集成了模块化组件以支持对训练配置、超参数和评估协议的可复现实验。实证分析揭示了不同模型规模和训练迭代下的微调行为、计算资源需求以及质量-成本权衡，为学术机构开发符合透明度、治理合规和负责任AI实践的对话代理提供了实践路径。

大语言模型领域自适应对话系统检索增强生成负责任ai学术机构

cs 03-12 00:00

CEI基准：评估语言模型语用推理能力的新标准

本研究提出了情境情感推理基准，包含300个人工验证的场景，用于评估大语言模型在理解超越字面含义的语用意图方面的能力。该基准覆盖讽刺、混合信号、策略性礼貌等五种语用子类型，并设置了三种权力关系配置。研究采用四级质量控制流程，结合了自动化统计检查与专家裁决。尽管标注者间一致性较低，但这反映了语用推理本身允许多种有效解读的特性。

语用推理语言模型评估情感计算人机交互自然语言理解

cs 03-12 00:00

大语言模型中的形容词-名词组合性评估：功能与表征视角的对比

本研究从功能与表征两个互补视角，评估了大语言模型（LLMs）处理形容词-名词组合性的能力。研究发现，尽管LLMs能够可靠地形成组合性表征，但这些内部状态并不能稳定地转化为跨模型变体的功能性任务成功。这一结果揭示了模型内部表征与外部任务表现之间的显著差异，强调了对比性评估对于全面理解模型能力的重要性。

大语言模型组合性表征分析功能评估对比评估

cs 03-12 00:00

行为面试评估：人机协同优于自动化思维链提示

本研究通过对比实验发现，在利用大语言模型评估和改进行为面试答案时，采用“人在回路”的方法在效果和效率上均优于纯自动化的思维链提示。具体而言，人机协同方法仅需1次迭代（自动化方法需5次），即可使回答的置信度（从3.16提升至4.16，$p < 0.001$）和真实性（从3.21的Cohen's d值）获得显著提升，并能100%整合个人细节。研究指出，答案质量的主要瓶颈在于上下文信息的可用性，而非计算资源。

人机协同思维链提示面试评估大语言模型行为面试

cs 03-12 00:00

离线大语言模型在土耳其语教育中的安全性与鲁棒性评估

本研究针对土耳其语传承教育场景，系统评估了可本地部署的离线大语言模型（LLMs）的鲁棒性与教学安全性。研究团队开发了包含10个边缘案例的土耳其语异常测试集（TAS），用以检验模型在认知抵抗、逻辑一致性和教学安全方面的能力。对14个参数量从2.7亿到320亿不等的模型进行测试后发现，异常抵抗能力并非仅取决于模型规模，且即使在大型模型中，谄媚偏见也可能带来教学风险。结果表明，参数量在80亿至140亿之间的推理导向模型，在成本与安全性的权衡上最为平衡。

大语言模型教育安全鲁棒性评估土耳其语离线部署教学风险

cs 03-12 00:00

GPT模型真的“失去共情力”了吗？临床评估揭示心理安全性的真实变化

针对用户关于GPT-4o后续模型“失去共情力”的普遍抱怨，本研究首次进行了临床测量。评估了GPT-4o、o4-mini和GPT-5-mini在14个情感挑战性对话场景中的表现，共分析了2100个AI回复。结果显示，三个模型的共情得分在统计学上无显著差异（Kruskal-Wallis H=4.33, p=0.115）。真正改变的是安全姿态：危机检测能力从GPT-4o到GPT-5-mini单调提升（H=13.88, p=0.001），而建议安全性则下降（H=16.63, p<0.001）。创新的逐轮轨迹分析揭示，这些转变在对话中期的危机时刻最为明显。用户感知到的“共情力下降”，实则是模型从“谨慎但可能错过危机”转向“警觉但有时言多”的权衡，这对脆弱用户具有现实影响。

大语言模型心理安全临床评估共情力ai伦理人机交互

cs 03-12 00:00

自动化评估LLM汉英翻译效果：GPT-4o与DeepSeek在文学翻译中的表现差异

本研究采用自动化机器学习框架，结合语义与情感分析，系统评估了GPT-4、GPT-4o、DeepSeek及谷歌翻译在汉英翻译任务中的表现。通过对比现代/古典文学及新闻文本的翻译质量，发现LLM在新闻翻译中表现良好，但在文学文本中性能出现分化。GPT-4o与DeepSeek在复杂语境下语义保持更优，而DeepSeek在文化细节保留与语法处理上表现更佳。研究指出，文化细节、古典引用与比喻表达的准确翻译仍是所有模型面临的挑战。

机器翻译评估大语言模型汉英翻译语义分析文学翻译自动化框架

cs 03-12 00:00

基于检索增强的无人机安全评估与合规助手设计与验证

本文提出并验证了一种基于检索的辅助系统，旨在支持无人机系统的安全评估、认证活动和法规遵从。该系统采用受控的文本架构，完全依赖权威法规来源，通过将证据存储与语言生成分离，并采用检索段落支撑和强制引用的生成方式，确保输出的可追溯性和可审计性。该方法能有效解决生成模型常见的捏造陈述、无依据推断和来源不明等问题，同时明确其决策支持定位，不替代专家判断，旨在加速特定情境下的信息检索与综合，提升文档准备与审查效率。

无人机安全法规遵从检索增强决策支持可追溯性航空监管

cs 03-12 00:00

大语言模型如何理解、学习与推理？新研究揭示提示工程背后的统计机制

本研究从理论层面探讨了大语言模型（LLMs）中语义提示理解、上下文学习（ICL）和思维链（CoT）推理三大现象的内在机制。研究发现：1）自回归过程使LLMs能精确推断不同任务间的词元转移概率；2）ICL通过减少提示歧义、促进后验分布向目标任务集中来提升性能；3）CoT通过激活模型的任务分解能力，将复杂问题拆解为预训练阶段已掌握的简单子任务序列。通过比较误差界，研究为高级提示工程技术提供了新的统计理论见解。

大语言模型上下文学习思维链推理提示工程理论机制自回归模型

cs 03-12 00:00

利用维基数据构建拉美社会文化偏见数据集，揭示大语言模型地域认知差异

针对大语言模型（LLMs）在非英语文化背景下的偏见检测资源匮乏问题，本研究提出一种新方法，结合维基百科内容、维基数据知识图谱结构及社会科学专家知识，创建了首个专注于拉丁美洲（Latam）社会文化的问答数据集LatamQA。该数据集包含超过2.6万个从维基百科文章提取并转化为西班牙语、葡萄牙语及英语多选题的问答对。通过评估多个LLMs在该数据集上的表现，研究发现：（i）模型对不同拉美国家的认知存在显著差异；（ii）模型在其原始训练语言上表现更佳；（iii）模型对伊比利亚西班牙文化的了解普遍优于对拉美本土文化的了解。

大语言模型文化偏见拉丁美洲维基数据多语言评估知识图谱

cs 03-12 00:00

GhazalBench：面向波斯诗歌应用场景的大语言模型评测基准

研究团队提出了GhazalBench，一个用于评估大语言模型在波斯诗歌（Ghazals）应用场景下表现的基准。该基准主要评估模型两项互补能力：对诗句进行忠实散文释义，以及在不同语义和形式提示下准确回忆经典诗句。研究发现，多语言模型普遍能理解诗意，但在基于补全的任务中难以精确回忆诗句；而在基于识别的任务中，这一差距显著缩小。与英语十四行诗的对比评估显示，模型在英语诗歌上的回忆表现明显更高，表明当前局限主要源于训练数据差异而非模型架构本身。

大语言模型评测波斯诗歌多语言模型文化计算基准测试

cs 03-12 00:00

大语言模型如何总结书籍：依赖记忆还是阅读全文更优？

本研究探讨了大语言模型在书籍摘要任务中的表现差异。通过对比模型仅凭训练记忆生成的摘要与基于完整书籍文本生成的摘要，发现提供全文通常能产生更详细的摘要，但在某些情况下，模型仅凭内部知识生成的摘要质量反而更高。这引发了对模型处理长文本摘要能力的质疑，表明训练阶段获取的知识有时会优于对输入文本的实际理解。

大语言模型书籍摘要长文本处理模型评估自然语言处理

cs 03-12 00:00

混合深度学习模型高效检测网络暴力语言，准确率达99%

针对网络暴力、仇恨言论等有害内容泛滥的问题，本研究提出了一种结合BERT、CNN和LSTM的混合深度学习模型。该模型利用ReLU激活函数，能够有效捕捉文本的语义、上下文和序列模式，从而在包含YouTube评论、论坛讨论及暗网帖子的不平衡数据集（77,620条有害文本与272,214条非有害文本，比例1:3.5）上实现稳健检测。评估结果显示，其在精确率、召回率、准确率、F1分数和AUC等指标上均达到约99%的优异性能。

网络暴力检测混合深度学习bert文本分类不平衡数据集

24 小时跨学科精选

计算机科学

2026-03-12 速览 · 计算机科学

多任务代码分析：参数高效微调实现单一模型掌握多项技能

基于推理的可解释大语言模型遗忘方法

AraModernBERT：面向阿拉伯语的现代编码器架构，支持长上下文建模

MoE-SpAc：基于推测激活效用的高效MoE推理框架，优化边缘设备性能

大语言模型中的达克效应：模型越差越自信的实证研究

医学教材问答中语言模型的幻觉量化研究

基于经验演化的思维链特征变换优化框架

因果机制可解释性：为LLM内部电路生成忠实自然语言解释

系统幻觉量表（SHS）：一种轻量级、以人为本的大语言模型幻觉行为评估工具

基于LLM与Transformer的两阶段NDA智能分析架构

PoultryLeX-Net：面向家禽业大规模利益相关者建模的领域自适应双流Transformer架构

TAMUSA-Chat：面向学术机构的领域自适应大语言模型对话系统框架

CEI基准：评估语言模型语用推理能力的新标准

大语言模型中的形容词-名词组合性评估：功能与表征视角的对比

行为面试评估：人机协同优于自动化思维链提示

离线大语言模型在土耳其语教育中的安全性与鲁棒性评估

GPT模型真的“失去共情力”了吗？临床评估揭示心理安全性的真实变化

自动化评估LLM汉英翻译效果：GPT-4o与DeepSeek在文学翻译中的表现差异

基于检索增强的无人机安全评估与合规助手设计与验证

大语言模型如何理解、学习与推理？新研究揭示提示工程背后的统计机制

利用维基数据构建拉美社会文化偏见数据集，揭示大语言模型地域认知差异

GhazalBench：面向波斯诗歌应用场景的大语言模型评测基准

大语言模型如何总结书籍：依赖记忆还是阅读全文更优？

混合深度学习模型高效检测网络暴力语言，准确率达99%