cs
04-02 00:00
本文提出了一种优化器感知的在线数据选择与重加权框架,用于大语言模型(LLM)的序列化微调。核心思想是将在线选择视为在优化器状态下塑造下一个目标导向的更新,并将其建模为一个优化器感知的更新匹配问题。研究揭示了子集级构造必须考虑样本间的交互与冗余,并据此开发了“先过滤后加权”的两阶段算法。为适应LLM,引入了因子化外积梯度表示和针对长上下文数据的优化矩阵计算。实验表明,在相同数据预算下,该方法能持续提升收敛速度与下游任务性能。
大语言模型在线微调数据选择优化器感知梯度匹配两阶段算法
cs
04-02 00:00
研究者提出了嗅觉感知基准测试,包含1010个问题,涵盖气味分类、强度判断等8类任务,用于评估大语言模型对嗅觉的推理能力。测试发现,使用化合物名称提示的模型表现显著优于使用SMILES分子式提示的模型(平均提升约7个百分点),表明当前模型主要通过词汇关联而非分子结构推理来获取嗅觉知识。最佳模型总体准确率为64.4%,表明其在嗅觉推理方面既有初步能力也存在明显不足。跨21种语言的测试还发现,聚合多语言预测能进一步提升性能。
大语言模型嗅觉感知基准测试分子表示多语言模型人工智能评估
cs
04-02 00:00
本研究评估了从学术课程注册PDF中提取信息的三种策略:纯LLM、混合确定性-LLM(正则+LLM)以及基于Camelot解析并辅以LLM兜底的流程。实验在140份文档(LLM测试)和860份文档(Camelot流程测试)上进行,覆盖了四个不同表格和元数据格式的学习项目。研究在无GPU的消费级CPU上,使用Ollama本地运行了三个12-14B参数的LLM模型(Gemma 3、Phi 4、Qwen 2.5)。评估采用精确匹配(EM)和Levenshtein相似度(LS,阈值0.7)指标。结果表明,尽管不适用于所有模型,但混合方法相比纯LLM能提升效率,尤其对于确定性元数据。基于Camelot的流程结合LLM兜底,在准确率(EM和LS高达0.99-1.00)和计算效率(多数情况下每PDF处理时间少于1秒)上取得了最佳平衡。Qwen 2.5:14b模型在所有场景中表现最稳定。这些发现证实,在计算资源受限的环境中,整合确定性与LLM方法进行基于文本的学术文档信息提取,正变得日益可靠和高效。
信息提取大语言模型混合方法pdf解析学术文档可靠性评估
cs
04-02 00:00
本研究提出LinearARD,一种用于恢复扩展上下文窗口后模型性能的自蒸馏方法。针对RoPE位置编码扩展后模型在短文本任务上的性能退化问题,该方法通过冻结的原生RoPE教师模型,监督学生模型的自注意力结构一致性。其核心创新在于直接对齐$Q/Q$、$K/K$、$V/V$自关系矩阵的行分布,而非不透明的隐藏状态。为克服$n \times n$关系图的二次方内存瓶颈,引入线性内存核,利用每令牌的log-sum-exp统计量,并将logit重计算融合到反向传播中,以精确计算KL散度和梯度。在LLaMA2-7B从4K扩展到32K的实验中,仅用4.25M训练令牌,即可恢复SOTA基线98.3%的短文本性能,并在长上下文基准上超越它们。
注意力蒸馏位置编码长上下文模型压缩自监督学习大语言模型
cs
04-02 00:00
本研究提出E-STEER框架,将情感作为结构化、可干预的变量嵌入大语言模型(LLMs)和智能体的隐藏状态中,从表征层面探究情感对任务处理的机制性影响。实验表明,情感对模型的客观推理、主观生成、安全性和多步智能体行为均产生显著影响,其关系符合心理学中的非单调性理论。特定情感不仅能提升LLM的能力,还能增强其安全性,并系统性地塑造智能体的多步决策行为。
情感计算大语言模型智能体机制可解释性行为塑造
cs
04-02 00:00
本研究提出了一种基于大语言模型(LLM)的方法,用于从招聘需求中识别并优先排序职位特定的个人能力。该方法整合了动态少样本提示、基于反思的自我改进、相似性过滤和多阶段验证。在项目经理招聘需求数据集上的应用表明,该方法能正确识别最高优先级的特定能力,平均准确率达0.76,接近人类专家评分者间信度,且范围外率保持在0.07的低水平。
大语言模型招聘自动化能力识别自然语言处理人力资源管理
cs
04-02 00:00
本文提出了Dynin-Omni,首个基于掩码扩散的统一全模态基础模型。它在一个单一架构内,统一了文本、图像、语音的理解与生成以及视频理解。与需要序列化异质模态的自回归模型或需要外部解码器协调的组合模型不同,Dynin-Omni将全模态建模原生地表述为在共享离散标记空间上的掩码扩散过程,支持在双向上下文下的迭代优化。模型采用多阶段训练策略,结合基于模型合并的模态扩展和全模态对齐。在涵盖语言推理、图像生成与编辑、视频理解、语音识别与合成等19个多模态基准测试中,Dynin-Omni表现优异,例如在GSM8K上达到87.6分,在LibriSpeech test-clean上词错误率低至2.1%,持续超越现有开源统一模型,并与强大的特定模态专家系统保持竞争力。这些结果表明,掩码扩散作为一种统一范式,为实现任意模态间的建模提供了灵活的基础,为实时全模态系统、统一的跨模态检索与生成以及具身多模态智能体开辟了道路。
全模态模型掩码扩散多模态统一基础模型迭代生成
cs
04-02 00:00
本研究探讨了在定性研究中使用LLM-as-Judge框架自动评估模型解释性输出的可靠性。研究使用712段K-12数学教师访谈摘录,通过5个主流推理模型生成解释性回应,并对比了AWS Bedrock的LLM自动评估与人类专家在准确性、细微差别保留和连贯性上的评分。结果显示,自动评分能捕捉模型层面的宏观趋势,但在具体摘录层面,尤其在处理非字面或微妙解释时,其“忠实性”和“正确性”指标与人类判断存在系统性偏差。研究表明,LLM-as-Judge更适合用于筛选表现不佳的模型,而非完全替代人类判断。
大语言模型定性研究自动评估模型选择解释性分析人机对齐
cs
04-02 00:00
本文提出了Eyla的设计理念,这是一个旨在实现身份一致性的LLM架构,集成了生物启发的子系统,如HiPPO初始化的状态空间模型和情景记忆检索。研究引入了身份一致性评分(ICS)作为评估LLM该特性的新基准。作者以非程序员身份,尝试使用AI编码助手(Claude Code, Cursor)实现该架构,经历了一次成本超过1000美元的失败,最终模型仅产生不到2%的有效输出。文章分析了AI辅助开发新型架构时的五种系统性失败模式,并提供了具体建议。
大语言模型ai辅助开发身份一致性失败分析生物启发ai软件工程
cs
04-02 00:00
本研究通过68个任务和四个模型系列的实验,系统评估了LLMs对自身任务耗时的感知能力。研究发现,模型在任务前的耗时估计普遍高估4-7倍($p < 0.001$),常将秒级任务预测为分钟级。在需要相对排序的任务对中,模型表现接近或低于随机水平(GPT-5在反直觉任务对上准确率仅18%,$p = 0.033$)。事后回忆的估计值与实际耗时也相差一个数量级。这种缺陷在多步骤智能体场景中持续存在,误差达5-10倍。研究表明,模型虽具备关于持续时间的命题知识,但缺乏对其自身推理时间的经验基础,这对智能体调度、规划和时效性场景具有实际影响。
大语言模型时间感知任务耗时估计智能体规划模型局限性实证研究
cs
04-02 00:00
研究量化了大型语言模型在招聘决策中的性别偏见。实验发现,对于相同简历,LLM更倾向于雇佣女性候选人并认为其更合格,但仍建议比男性候选人更低的薪酬。研究同时探讨了提示工程作为减轻偏见的潜在技术。
性别偏见大语言模型招聘决策公平性评估提示工程
cs
04-02 00:00
研究发现,大语言模型(LLM)在针对特定任务(如推理)进行后训练后,性能提升常伴随安全性的显著下降。本文揭示,这种安全降级并非因为安全机制被移除,而是被后训练获得的新能力所“掩盖”。基于此,作者提出了一种轻量级、低成本的解决方案 SafeReAct,该方法仅需在少数层使用 LoRA 适配器进行对齐,即可有效恢复模型被抑制的安全行为。实验表明,该方法能在不损害模型推理性能的前提下,显著提升其在有害提示上的安全性,并在医疗等领域的专用模型上验证了其通用性。
大语言模型模型安全后训练安全机制lora
cs
04-02 00:00
本文提出MSA-Thinker框架,旨在解决多模态情感分析中模型可解释性差与强化学习训练效率低的问题。该方法首先利用教师模型合成的高质量思维链数据进行监督微调,使模型掌握“宏观判别-细粒度校准”的结构化推理范式。在此基础上,创新性地提出Hint-GRPO算法,将推理中的判别阶段作为可验证锚点,为困难样本提供方向性提示,有效缓解了强化学习中的奖励稀疏问题。实验表明,该方法在细粒度情感回归任务上取得了更高精度,生成了高质量结构化推理链,并在跨域评估中展现出优越的泛化能力,为构建可信、高效的情感分析系统提供了新范式。
多模态情感分析强化学习可解释ai思维链推理模型泛化
cs
04-02 00:00
研究引入UTCO框架(用户、主题、上下文、语气),将用户查询分解为四个可控元素,用于系统性地压力测试心理健康问答LLM。通过对2075个生成提示的评估,发现Llama 3.3的响应中幻觉发生率为6.5%,遗漏率为13.2%,其中遗漏尤其集中在危机和自杀意念类提示中。回归分析、元素匹配和相似性比较表明,失败最一致地与上下文和语气元素相关,而用户背景指标在平衡后未显示出系统性差异。研究支持将遗漏作为主要安全结果进行评估,并建议超越静态基准问题集。
心理健康问答大语言模型安全幻觉检测遗漏评估压力测试框架临床信息学
cs
04-02 00:00
在线行为研究的有效性依赖于参与者是人类而非机器。过去可通过简单挑战来检测机器,但基于大语言模型(LLM)的通用智能体已能解决许多此类挑战。本研究提出一种新思路:利用机器“解决得太好”的任务来检测人类性。具体而言,我们探测一个已知的人类认知约束——有限的工作记忆容量。研究表明,即使在LLM被明确指令模仿人类工作记忆限制的情况下,通过标准序列回忆任务的认知建模,仍能有效区分在线参与者与LLM。这证明了利用成熟认知现象来区分LLM与人类是可行的。
大语言模型检测人类认知约束工作记忆在线行为研究人工智能安全
cs
04-02 00:00
本文提出了一种基于熵引导的解码框架,通过引入标记级别的自适应性来增强大语言模型的推理能力。该方法的核心在于:在每个生成步骤中,模型计算标记分布的信息熵,识别高不确定性的位置,并选择性地在这些“脆弱点”进行分支探索。系统维护并扩展一个动态的部分推理路径池,将计算资源集中在不确定性最高的区域,避免在置信度高的区域进行不必要的探索。此外,作者还提出了一种“后验熵”停止准则,在完整的推理轨迹完成后进行熵评估,而非在每一步增量计算,从而实现了高效的终止。在GSM8K、AMC2023及其扰动变体上的实验表明,该方法能持续获得强大的准确性,尤其在较小的LLM上,其性能可与GPT-5媲美,而计算成本仅为后者的一小部分。
大语言模型解码策略熵引导推理增强不确定性采样自适应生成
cs
04-02 00:00
本文提出了一个可配置的流水线,利用维基百科和维基数据,生成具有指定领域、地理位置和流行度特征的多语言实体数据集。该方法旨在评估大模型在长文本生成中的事实性,以补充基于短问答数据集的评估。研究团队发布了RiDiC数据集作为示例,包含来自河流、自然灾害和汽车模型三个领域的3000个实体,覆盖不同流行度层级。使用第三方事实性检查器对三个大模型生成的内容进行评估,结果显示即使是前沿模型也会对数据集中的实体产生幻觉。代码、数据及评估脚本均已开源。
大模型评估事实性检测数据集生成长文本生成多语言评估
cs
04-02 00:00
本研究通过超过600次多智能体模拟,探究了四种大语言模型(Llama 3.3 70B、GPT-4o mini、Qwen3-Next-80B-A3B、Sonnet 4.5)对伦理指令的内部处理机制。研究提出了三个新指标——审议深度(DD)、跨困境价值一致性(VCAD)和他人识别指数(ORI),并据此识别出四种伦理处理类型:输出过滤器型(GPT)、防御性重复型(Llama)、批判性内化型(Qwen)和原则一致性型(Sonnet)。核心发现是处理能力与指令格式之间存在交互作用:在低审议深度模型中,指令格式不影响内部处理;在高审议深度模型中,理性规范与美德框架会产生相反效果。研究还发现,对伦理指令的词汇遵从性与任何处理指标均无显著相关($r = -0.161$ 至 $+0.256$,所有 $p > .22$),表明安全性、遵从性与伦理处理在很大程度上是可分离的。
语言模型伦理对齐多智能体模拟指令处理人工智能安全模型评估
cs
04-02 00:00
本研究通过中国大型婚恋平台的实证分析,检验了基于多维度量表的对话AI评估标准(采用LLM-as-Judge方法)与下游商业转化结果之间的关联效度。研究发现,在七个评估维度中,需求挖掘(D1)与节奏策略(D3)与商业转化显著相关(D1: $\rho=0.368$, $p=0.004$;D3: $\rho=0.354$, $p=0.006$),而上下文记忆(D5)则无显著关联。等权重综合评分($\rho=0.272$)因维度异质性存在“综合稀释效应”,经转化数据重新加权后可提升至$\rho=0.351$。研究还揭示了早期混合人机对话样本中存在的“评估-结果悖论”实为代理类型混淆所致,并基于信任漏斗框架提出三层评估架构。
对话ai评估标准效度商业转化llm即评委维度异质性信任漏斗
cs
04-02 00:00
研究团队推出首个专注于女性健康的AI评估基准WHBench,包含10个主题的47个专家设计场景,用于系统性评估大语言模型在临床准确性、安全性、公平性等23个维度的表现。对22个主流模型的3100条回答分析显示,所有模型平均分均低于75%,最佳模型仅获72.1分。模型普遍存在指南过时、剂量错误、安全疏漏和公平性盲区等风险,凸显了临床部署中专家监督的必要性。
大语言模型评估女性健康医疗ai安全临床基准公平性检测
cs
04-02 00:00
本研究发布了ASCAT(阿拉伯语科学语料库),这是一个专为科学翻译评估设计的高质量英阿平行基准语料库。它通过多引擎翻译(生成式AI、Transformer模型、商业API)与人工验证流程构建,包含来自物理、数学、计算机科学等五个领域的完整科学摘要(平均长度:英文141.7词,阿拉伯文111.78词)。语料库包含超过6.7万英文词元和6万阿拉伯文词元,阿拉伯语词汇达17,604个,反映了语言的形态丰富性。研究在ASCAT上评估了GPT-4o-mini(BLEU: 37.07)、Gemini-3.0-Flash-Preview(BLEU: 30.44)等先进大语言模型,证明了其作为评估基准的区分能力。ASCAT填补了阿拉伯语科学机器翻译资源的空白,旨在支持科学翻译质量的严格评估和领域专用翻译模型的训练。
机器翻译阿拉伯语科学语料库评估基准平行语料多引擎翻译
cs
04-02 00:00
本研究运用分布语义学方法,分析了俄语心理学概念在学术与大众媒体话语中的语义迁移。研究者构建了两个语料库:一个包含约300篇学术论文(约76.7万词),另一个来自在线心理学平台(约119.9万词)。通过频率分析、聚类和语义关联识别发现,学术文本强调方法论和临床术语,而大众科普文本则聚焦日常经验和治疗实践。例如,“倦怠”和“抑郁”在学术语境中与心理资源、症状学和诊断结构关联,在大众语境中则与个人叙事、情感和日常情境关联。这证实了分布语义学方法在识别跨语境概念语义转化上的有效性。
分布语义学语义迁移心理学概念俄语语料库学术话语大众媒体
cs
04-02 00:00
本文提出了一种时序情感聚合框架,用于检测用户反馈中的异常模式。该方法首先利用预训练的RoBERTa模型从单条评论中提取情感信号,然后将其聚合为时间窗口级别的分数。通过监测这些聚合分数的显著下降,可以识别出潜在的异常事件,如恶意评论活动或用户满意度骤降。在真实社交媒体数据上的实验表明,该方法能有效揭示有意义的趋势,并成功识别出与连贯投诉模式相对应的统计显著情感下降,为反馈异常监控提供了一个有效且可解释的解决方案。
情感分析异常检测时序分析用户反馈自然语言处理
cs
04-02 00:00
本研究结合基于规则的词源剔除与机器学习分类器,检测苏拉威西南岛语系基本词汇中的非主流词汇层。通过对6种语言的1357个词汇进行分析,识别出438个候选底层词汇(占26.5%)。XGBoost分类器基于26个语音特征(如词长、辅音簇、喉塞音频率)进行区分,AUC达0.763。跨方法共识确定了266个高置信度非主流候选词,但聚类分析未发现统一的词族(轮廓系数=0.114),不支持存在单一的前南岛语底层。该方法扩展至16种语言后,揭示了地理模式:苏拉威西语言的非主流词汇预测比例(平均$P_{sub}=0.606$)显著高于西印尼语言(0.393)。研究表明,语音机器学习可作为传统比较方法的补充工具,用于检测词汇中的非主流层次,同时警示不应将语音不规则性简单解释为共享底层语言的证据。
计算语言学历史语言学机器学习语音特征底层词汇南岛语系