今日速览 · AI 导读

24 小时跨学科精选

自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。

AI 导读

计算机科学

2026-01-22 01-22 15:26

今日计算机科学领域研究聚焦于提升AI系统的控制精度、效率、安全性与可解释性,尤其在多模态理解、模型推理机制和实际部署优化方面取得显著进展。

  • 运动生成控制精度提升:SOSControl框架通过可编程符号化脚本与显著性检测,实现了对人体运动方向和时序的精确控制,解决了传统文本驱动方法控制不足的问题。
  • 多模态情感识别与交互优化:基于云计算的跨模态Transformer整合视觉、听觉与文本信号,通过高效注意力机制与可扩展架构,实现了低延迟、自适应的人机情感交互。
  • Transformer硬件加速新思路:存内计算架构通过重构注意力与全连接层、动态压缩KV缓存,显著降低了Transformer部署时的计算开销与内存瓶颈,提升了能效与延迟表现。
  • 大模型安全与可靠性研究深化:研究揭示LLM在心理健康长对话中存在安全边界渐进式侵蚀风险,并首次证实扩散语言模型同样面临对抗性提示攻击,凸显了超越单轮测试的系统性安全评估必要性。
  • 模型内部推理机制探索:综述研究系统梳理了LLM多步推理的内部机制,为打开模型“黑盒”、理解其隐式与显式推理过程提供了概念框架与未来方向。
  • 高效记忆与推理架构创新:CoM框架通过轻量级记忆构建与动态演化,显著提升了LLM智能体的决策效率与精度,同时大幅降低了计算开销。

2026-01-22 速览 · 计算机科学

2026-01-22 共 24 条抓取,按综合热度排序

← 返回日历
cs 01-22 00:00

SOSControl:通过显著性感知的符号化方向与时间控制增强人体运动生成

本文针对传统文本生成运动框架控制精度不足的问题,提出了SOSControl框架。其核心是引入了一种可编程的符号化脚本(SOS脚本),用于在关键帧精确指定身体部位的方向和运动时序。该工作包含一个自动SOS提取流程,通过时序约束的凝聚聚类进行显著性检测,并利用基于显著性的掩码方案(SMS)从运动数据直接生成稀疏、可解释的脚本。在生成阶段,框架优先满足SOS脚本中的方向符号约束,结合基于SMS的数据增强和基于梯度的迭代优化,并通过一个基于ControlNet的ACTOR-PAE解码器确保运动输出的平滑自然。实验表明,该方法在运动质量、可控性以及对运动时序和身体方向控制的泛化能力上均优于现有基线。

人体运动生成符号化控制显著性检测时序控制方向控制可解释ai
cs 01-22 00:00

基于云计算的跨模态Transformer:实现高效情感识别与自适应人机交互

本研究提出了一种基于云计算的跨模态Transformer(CMT)框架,用于多模态情感识别与自适应人机交互。该模型整合了视觉、听觉和文本信号,通过预训练的ViT、Wav2Vec2和BERT编码器提取特征,并利用跨模态注意力机制捕捉异构特征间的复杂依赖关系。借助Kubernetes和TensorFlow Serving的云计算基础设施,系统实现了可扩展、低延迟的大规模情感识别。在IEMOCAP、MELD和AffectNet等基准数据集上的实验表明,CMT取得了最先进的性能,F1分数提升了3.0%,交叉熵损失降低了12.9%。云部署评估显示平均响应延迟为128毫秒,比传统基于Transformer的融合系统降低了35%。该框架为智能客服、虚拟教学系统和情感计算界面等应用提供了高效、实时的情感识别与自适应反馈能力。

情感识别跨模态学习云计算transformer人机交互多模态融合
cs 01-22 00:00

基于存内计算的Transformer端到端加速架构

本文针对Transformer模型在规模化部署中面临的计算开销大、KV缓存内存瓶颈及注意力机制二次复杂度三大挑战,提出了一套存内计算解决方案。该方法通过重构注意力与全连接层计算以减少片外数据传输,动态压缩与剪枝KV缓存以管理内存增长,并将注意力重新解释为关联记忆操作以降低复杂度与硬件开销。评估表明,相比现有先进加速器与通用GPU,该设计在能效与延迟方面均有显著提升。

transformer加速存内计算kv缓存优化注意力机制硬件架构能效提升
cs 01-22 00:00

基于主动感知多模态大模型的智能电网图纸审查框架

本文提出了一种由预训练多模态大模型驱动的三阶段智能电网工程设计图纸审查框架。该框架模仿专家审查流程:首先利用MLLM进行全局语义理解,智能提议特定语义区域;随后在这些区域内进行高分辨率细粒度识别,获取带置信度的详细信息;最后通过综合决策模块整合结果,准确诊断设计错误并进行可靠性评估。在真实电网图纸上的初步结果表明,该方法显著提升了MLLM把握宏观语义信息和定位设计错误的能力,与传统被动推理相比,在缺陷发现准确性和审查判断可靠性方面均有提升。

智能审查多模态大模型电网设计主动感知图纸分析可靠性评估
cs 01-22 00:00

Call2Instruct:从呼叫中心录音自动生成问答数据集,用于大语言模型微调

本文提出了一种端到端的自动化流程,可将嘈杂、非结构化的呼叫中心录音转换为高质量的问答(Q&A)指令数据集,用于大语言模型(LLM)的领域微调。该流程依次执行音频处理(包括说话人分离、降噪和自动转录)、文本处理(清洗、归一化和匿名化),并利用向量嵌入进行语义提取,通过语义搜索匹配客户需求与客服响应,最终形成问答对。基于Llama 2 7B模型的成功微调验证了生成数据集的有效性与实用性。该方法为利用海量客服对话数据训练更高效的领域问答AI系统开辟了新途径。

大语言模型微调语音数据处理问答数据集生成客服领域ai语义匹配自动化流程
cs 01-22 00:00

LLM数字双胞胎的心理测量可比性研究:高群体准确性下的系统性差异

本研究提出一个构念效度框架,系统评估基于大语言模型(LLM)的“数字双胞胎”在心理测量维度上与人类被试的可比性。研究发现,数字双胞胎在群体层面能实现高准确度(如人口水平预测)和较强的个体内剖面相关性,但在项目层面相关性减弱。在决策任务中,数字双胞胎表现出规范性理性,对人类启发式偏差的再现不足,且对时间信息的敏感性有限。尽管特征丰富的条件化模型提升了预测效度(如大五人格),但其人格网络仅达到形态等值性,未实现度量等值性。研究结论指出,系统性的心理测量差异依然存在,未来需明确数字双胞胎作为人类认知行为可靠代理的有效边界。

数字双胞胎心理测量学大语言模型构念效度人类认知行为模拟
cs 01-22 00:00

希腊语教育聊天机器人:基于RAG框架的高校教学辅助工具研究

本研究设计并应用了一个基于检索增强生成(RAG)框架的希腊语AI聊天机器人,作为高等教育中的教学工具。该机器人通过将回答锚定在特定课程内容上,显著提高了响应的准确性和上下文相关性,有效缓解了大语言模型常见的“幻觉”和错误信息问题。它具备双重功能:为学生提供按需、准确的学术支持,同时帮助教师快速创建相关教学材料,从而促进学习者自主性并优化教学设计流程。研究旨在评估此类聊天机器人在高等教育中的有效性、可靠性和可用性,探索其在提升教育实践与成果、以及推动AI技术在特定语言教育场景中更广泛应用的潜力。

教育聊天机器人检索增强生成希腊语教育高等教育技术人工智能辅助教学
cs 01-22 00:00

扩散语言模型面临GCG攻击风险:LLaDA模型对抗性提示攻击研究

本研究首次探索了贪婪坐标梯度(GCG)攻击在扩散语言模型上的适用性。针对开源模型LLaDA,研究者测试了前缀扰动和后缀对抗生成等多种攻击变体,使用AdvBench数据集中的有害提示进行评估。结果表明,扩散语言模型同样面临对抗性攻击威胁,这为理解其鲁棒性和攻击面提供了初步见解,并推动了针对此类模型的替代性优化与评估策略的开发。

对抗性攻击扩散语言模型gcg攻击模型鲁棒性llada
cs 01-22 00:00

大型语言模型的决策与情感演化:从赌博任务看AI心理发展轨迹

研究将OpenAI的连续模型视为一个演化谱系,通过赌博任务和重复幸福感评分,对比了AI与人类的决策和情感模式。计算分析发现,新模型在某些方面更趋近人类:风险承担增加,并显示出更接近人类的巴甫洛夫式趋近-回避模式。然而,也出现了明显的非人类特征:损失厌恶降至中性水平以下,决策比人类更确定,情感衰减随版本迭代加剧并超越人类水平,且基线情绪持续高于人类。这些“发展”轨迹揭示了机器心理学的兴起,对AI伦理及LLMs融入临床决策等高风险领域具有直接启示。

大型语言模型决策心理学情感计算ai伦理临床决策支持模型演化
cs 01-22 00:00

多轮对话中的安全边界侵蚀:心理健康支持LLM的长期交互风险

研究指出,当前心理健康领域大语言模型的安全评估多局限于单轮对话中的违禁词检测,忽视了长对话中安全边界的渐进式侵蚀风险。本文提出多轮压力测试框架,通过静态推进与自适应探针两种方法,对三款前沿LLM进行了长达20轮的虚拟精神科对话测试。实验发现,模型违规行为普遍,自适应探针显著将违规平均轮次从9.21提前至4.64。做出确定性或零风险承诺是边界突破的主要方式。结果表明,LLM安全边界的鲁棒性不能仅通过单轮测试推断,需充分考虑长对话中不同交互压力与特性对安全边界的磨损。

大语言模型心理健康支持安全边界多轮对话压力测试伦理风险
cs 01-22 00:00

大语言模型多步推理机制研究综述:打开黑盒的钥匙

本文系统综述了大语言模型(LLMs)实现多步推理的内部机制,而非仅关注提升性能的工程方法。作者围绕七个相互关联的核心研究问题构建了概念框架,探讨了LLMs如何在隐藏激活中执行隐式多跳推理,以及语言化的显式推理如何重塑其内部计算过程。最后,文章指出了未来机制研究的五个重要方向,为理解模型内部运作提供了全面的路线图。

大语言模型推理机制可解释性多步推理黑盒模型人工智能
cs 01-22 00:00

Divide and Refine:通过分解与精炼多模态信号提升对话情感识别性能

本文针对多模态对话情感识别(MERC)中如何有效整合不同模态信号(如文本、语音、视觉)的挑战,提出了一个名为“Divide and Refine”(DnR)的两阶段框架。该框架首先将每个模态的信号明确分解为独特信息、跨模态冗余信息和协同信息(对应信息论中的唯一性、冗余性和协同性),随后通过定制化的优化目标分别精炼这些成分。实验表明,该框架作为即插即用模块,能显著提升多种主流MERC模型的性能,为构建更鲁棒、可解释的多模态表示提供了新思路。

多模态情感识别信息分解表示学习对话分析可解释ai
cs 01-22 00:00

多智能体系统中基于误差信息的选择性在线高斯过程学习

本文提出了一种创新的分布式选择性在线学习框架——分布式误差信息高斯过程(EIGP),旨在解决多智能体系统中联合预测时模型“数量与质量”的权衡问题。该框架通过设计的选择函数,使每个智能体能够评估其邻居的预测误差,从而仅选择质量更高、误差更小的高斯过程模型进行协作,而非盲目纳入所有模型。研究还嵌入了贪婪算法(gEIGP)以加速预测,以及自适应算法(aEIGP)以提高预测精度,并结合误差信息量化项迭代与数据删除策略,实现了实时学习操作。数值模拟表明,该方法在多个基准测试中优于现有最先进的分布式高斯过程方法。

多智能体系统高斯过程选择性学习在线学习分布式学习预测误差
cs 01-22 00:00

KV缓存压缩中学习型重要性评分方法的局限性研究

本研究通过Speculative Importance Prediction (SIP)方法,探索了基于学习的KV缓存压缩技术。SIP是一个170万参数的非查询感知评分器,仅从KV表示中预测token重要性。尽管采用了多步前瞻和交叉注意力等复杂架构,但在5个随机种子、4种保留水平和3个任务上的实验表明,SIP未能超越包括随机选择在内的简单基线方法。核心发现包括:基于位置的启发式方法(保留前4个及最后N个token)与学习型方法表现相当或更优;预填充注意力为重要性预测提供了与复杂学习评分器等效的信号;KV表示中超出位置和预填充注意力的边际信息对重要性预测的贡献有限。研究推测,未来查询与生成轨迹之间的循环依赖关系是造成这一困难的原因。

kv缓存压缩重要性预测大语言模型注意力机制模型优化
cs 01-22 00:00

多智能体框架消除教育问答生成中的幻觉问题

针对大语言模型在自动生成教育选择题时产生的幻觉问题,本研究提出了一种无幻觉的多智能体生成框架。该框架将问题生成分解为多个可验证的步骤,结合基于规则和LLM的检测智能体,并引入幻觉评分指标来优化问题质量。通过将生成任务重新定义为最小化幻觉风险、同时最大化有效性、可答性和成本效益的优化问题,并采用反事实推理和思维链进行迭代改进。在AP STEM问题样本上的评估显示,该系统将幻觉率降低了90%以上,同时保持了问题的教育价值和风格。

大语言模型幻觉消除教育技术多智能体系统问题生成
cs 01-22 00:00

结构药物设计算法大比拼:1D、2D与3D方法各有优劣

本研究建立了一个综合性基准测试,评估了基于搜索、深度生成和强化学习三大类别的15种结构药物设计模型。研究发现,3D结构模型在结合亲和力上表现最佳,但在化学有效性和结合构象质量上存在不一致性;1D模型在标准分子指标上可靠,但难以达到最优结合力;2D模型则提供了平衡的性能,在保持高化学有效性的同时获得中等结合分数。研究强调了将对接函数视为黑盒的1D/2D配体中心方法在SBDD中的应用潜力。

药物设计算法基准结构建模深度学习分子生成结合亲和力
cs 01-22 00:00

GPA:基于图神经网络的多视角电路学习技术映射方法

针对传统技术映射中因依赖抽象延迟模型而导致的时序预测不准确问题,本研究提出GPA框架。该方法通过图神经网络(GNN)协同融合电路的三种互补结构视图:基于与-非图(AIG)的功能编码、映射后技术视图以及强调关键时序路径的视图,学习精确的数据驱动延迟预测。在19个EPFL组合基准测试中,GPA相比传统启发式方法(techmap, MCH)和现有最先进的基于机器学习的方法SLAP,平均延迟分别降低了19.9%、2.1%和4.1%,且未牺牲面积效率。

技术映射图神经网络时序预测电路设计eda
cs 01-22 00:00

RPC-Bench:首个面向科研论文理解的细粒度评测基准

针对大模型理解科研论文的挑战,研究团队构建了RPC-Bench大规模问答评测基准。该基准基于高质量计算机科学论文的审稿-回复交流,包含1.5万个人工验证的QA对,并设计了与科研流程对齐的细粒度分类法,以评估模型回答“为什么”、“是什么”、“怎么做”等学术问题的能力。团队还开发了可扩展的LLM-as-a-Judge评估框架,在正确性-完整性和简洁性两个维度上评估模型,并与人类判断高度一致。实验表明,即使最强模型(GPT-5)在正确性-完整性上仅得68.2%,经简洁性调整后降至37.46%,揭示了当前模型在精确学术理解上的巨大差距。

论文理解评测基准大语言模型学术问答细粒度评估
cs 01-22 00:00

基于模式约束的AI系统:从生物医学PDF中提取可审计的结构化证据

本研究提出了一种模式约束的AI提取系统,旨在解决生物医学证据合成中从复杂PDF文档中准确提取关键变量(如方法学、实验室数据和结果)的难题。该系统通过类型化模式、受控词汇表和证据门控决策来约束模型推理,将全文PDF转化为结构化的、可供分析的记录。处理流程包括文档分块、异步处理和基于冲突感知的确定性合并,并支持句子级溯源以确保可追溯性和事后审计。在直接口服抗凝剂水平测量研究语料上的评估表明,该流程无需人工干预即可处理所有文档,在服务约束下保持稳定的吞吐量,并展现出跨文档块的强内部一致性。迭代模式优化显著提高了对合成关键变量的提取保真度。

生物医学信息提取文档ai模式约束可审计性pdf处理证据合成
cs 01-22 00:00

本体论中立性定理:为何中立的本体论基础必须前因果、前规范

本文提出了一个关于本体论中立性的不可能性定理。研究指出,为了在持久存在的法律、政治和分析分歧中支持问责制,现代数据系统需要一个共享的本体论基础。然而,作者证明,中立性(即解释上的不承诺和在不兼容扩展下的稳定性)与在基础层包含因果或规范性承诺是不兼容的。任何将因果或道义结论断言为本体论事实的本体论,都无法在不引发修订或矛盾的情况下,作为跨不同框架的中立基础。因此,真正中立的本体论基础必须是前因果和前规范的,它只应表示实体及其同一性与持存条件,而将解释、评估和推理过程外部化。这项工作并未提出具体的本体论或协议,而是为任何旨在跨冲突解释框架维持共享、稳定的现实表征的系统,确立了必要的设计约束。

本体论中立性数据系统设计因果与规范不可能性定理跨框架共享
cs 01-22 00:00

Llama-3.1-8B模型量化方案评估:如何为本地部署选择最佳精度?

本研究对 llama.cpp 框架中的多种量化方案(包括 3-8 位 K-quant 及传统格式)在 Llama-3.1-8B-Instruct 模型上进行了统一评估。通过下游推理、知识问答、指令遵循和真实性等标准任务,结合困惑度、CPU吞吐量(预填充/解码)、模型大小和量化时间等指标,系统比较了不同方案的性能与效率。结果表明,量化方案的选择需在模型性能、推理速度与资源消耗之间权衡,为开发者在特定硬件约束和应用场景下做出明智决策提供了实用指南。

模型量化本地部署性能评估llama模型推理效率资源优化
cs 01-22 00:00

树多项式聚类方法比较:基于Canberra距离的树结构数据分析

本文比较了基于树多项式的不同距离度量在树结构聚类任务中的性能。树多项式是一种将树结构编码为矩阵的高效、可解释方法,适用于系统发育学、RNA二级结构等生命科学领域。研究发现,在基于树区分多项式的聚类方法中,采用条目级归一化距离(如Canberra距离)的方法获得了最高的聚类准确率。此外,研究还实现了两种基于该多项式的基本自编码器模型用于树聚类。

树多项式树聚类canberra距离rna结构系统发育学自编码器
cs 01-22 00:00

CoM框架:轻量级记忆构建与动态演化提升LLM智能体决策效率

本文提出Chain-of-Memory(CoM)框架,旨在解决大型语言模型(LLM)智能体外部记忆系统存在的两大问题:复杂构建成本高昂、简单检索拼接无法提升推理精度。CoM倡导“轻量构建、精细利用”的新范式,通过动态演化机制将检索到的记忆片段组织成连贯的推理路径,并采用自适应截断剔除无关噪声。在LongMemEval和LoCoMo基准测试中,CoM在准确率上超越基线模型7.5%-10.4%,同时将计算开销大幅降低至复杂记忆架构的约2.7%(token消耗)和6.0%(延迟)。

llm智能体外部记忆轻量构建动态演化检索增强生成推理路径
cs 01-22 00:00

Aletheia项目:通过验证器引导的蒸馏提升小语言模型回溯推理能力

针对参数量小于100亿的小语言模型在严格约束满足问题上常因线性、过度自信的推理而失败的问题,本研究提出了“验证器引导的蒸馏”训练协议。该方法的核心不是仅蒸馏最终正确答案,而是转移错误修复的过程——包括显式的冲突检测和回溯。通过在包含错误及自我纠正的已验证推理轨迹上训练一个70亿参数的模型,研究表明,小模型可以涌现出潜在的验证行为,使其能够偶尔停止推理、检测矛盾并修正先前的假设。

小语言模型推理蒸馏回溯机制约束满足验证引导
AI速览助手