cs
01-23 00:00
本文提出了一种新颖的多智能体框架,用于在交互场景中实现真实、可解释的人类用户模拟。该框架通过角色控制和任务状态追踪来模拟目标导向对话中的人类认知过程。系统包含三个专门智能体:用户代理、状态追踪代理和消息属性生成代理。通过在餐厅点餐等复杂场景中进行评估,实验表明,相比单一LLM基线,该完整多智能体系统在角色一致性、任务完成准确性、可解释性和真实性方面均取得显著提升,为模拟具有认知合理性的人类用户提供了强大环境。
用户模拟多智能体系统角色控制任务状态追踪对话ai认知建模
cs
01-23 00:00
本研究通过混合方法,结合统计分析、机器学习与半结构化访谈,探讨了爱丁堡视障老年人在使用公共交通时面临的挑战。研究发现,城市交通系统高度集中,出行信息缺乏可用格式,而参与者普遍依赖记忆导航,并已不同程度地使用导航技术,且对采用人工智能持开放态度。分析强调了满足感官与认知需求的动态工具对于提升独立出行能力的重要性。
人机交互智慧城市公共交通视障辅助老年群体空间分析
cs
01-23 00:00
本研究针对印度尼西亚日益严峻的糖尿病问题,开发了一款Android移动应用前端,旨在解决AI健康应用“黑箱”预测的透明度难题。应用采用瀑布开发模型,核心功能是将SHAP等可解释AI(XAI)技术输出的复杂结果,通过用户偏好的条形图、饼图等可视化形式,以及集成GPT-4o生成的个性化文本叙述,直观展示各风险因素的贡献度。评估显示,该设计显著提升了非专业用户的理解(平均分4.31/5)并促进了预防行动,技术功能测试通过率达100%。
可解释人工智能移动健康应用糖尿病风险评估shap可视化人机交互gpt-4集成
cs
01-23 00:00
本研究通过实证方法,探讨了残疾大学生对机器人支持的感知。研究比较了两种交互角色(信息导向的“路标”角色与倾诉导向的“倾听板”角色)和两种实体化类型(实体机器人/无实体的语音代理)。参与者从五个维度评估了这些系统:感知理解度、社交精力消耗、信息获取/清晰度、任务难度和数据隐私担忧。主要发现表明,实体机器人被认为比纯语音代理更具理解力,其“实体化”特性显著影响了用户对其社交性、生动性和隐私的感知。研究还分析了不同残疾类型间的差异,为利用社交机器人缓解高等教育中的无障碍障碍提供了关键见解,并强调了相关的伦理、社会与技术挑战。
社交机器人无障碍教育人机交互实证研究残疾学生
cs
01-23 00:00
KnowTeX是一款独立的用户友好工具,旨在弥合非正式数学文本与形式化证明系统之间的鸿沟。它扩展了Lean Blueprints的理念,允许用户通过在LaTeX源码中使用简单的“uses”命令来标注语句间的依赖关系,并自动生成可预览的DOT和TikZ格式依赖图。这种依赖图可视化方法揭示了数学结果、定义和证明之间的结构,有助于阐明核心结论、辅助数学教育与形式化工作,并为对齐非正式与形式化数学表示提供了资源。作者主张依赖图应成为数学写作的标准特性,以同时惠及人类读者与自动化系统。
数学可视化依赖图latex工具形式化数学数学教育
cs
01-23 00:00
本研究提出了Elsewise,一个用于创作基于生成式AI的交互式叙事(IN)的作者工具。它引入了“捆绑故事线”的新概念,通过可视化叙事可能性空间,帮助作者探索不同玩家路径在用户可配置叙事维度上的异同。一项用户研究(n=12)表明,该方法能有效提升作者对玩家体验叙事的预判能力,从而实现对叙事可能性空间更有效的控制和探索,弥合了作者意图与玩家实际体验之间的差距。
交互式叙事生成式ai作者工具可能性空间叙事可视化人机交互
cs
01-23 00:00
本文提出Entropy-Tree,一种新型的树状解码方法,旨在解决现有解码策略在探索时存在的盲目性或冗余性问题。该方法的核心是利用模型预测的熵作为分支决策信号,仅在模型表现出真正不确定性的位置扩展搜索树,从而实现高效的结构化探索。实验表明,在多项推理任务中,Entropy-Tree在多个模型和数据集上均取得了优于Multi-chain的pass@k性能,并且其预测熵在不确定性校准方面(AUROC)也优于多种传统指标。该方法将高效的探索与可靠的置信度估计统一在单一解码流程中。
大语言模型解码策略不确定性估计树搜索推理任务熵引导
cs
01-23 00:00
本研究提出一个数据工程框架,解决嵌入向量改造技术因知识图谱质量不佳而失效的问题。分析发现,真实语料中的标签标注会虚增图谱密度,产生虚假边,导致所有改造方法均出现显著性能下降(-3.5%至-5.2%,$p<0.05$)。经预处理后,EWMA改造方法实现了+6.2%的改进($p=0.0348$),尤其在定量综合问题上提升显著(平均+33.8%)。结果表明,预处理质量(影响幅度超10%)比算法选择(差异约3%)更能决定改造的成败。
检索增强生成嵌入向量改造知识图谱数据预处理自然语言处理
cs
01-23 00:00
本文提出了一种创新的多智能体大语言模型主题建模框架(MALTopic),旨在克服传统方法(如LDA和BERTopic)在分析复杂调查数据时的局限。传统方法通常仅处理自由文本,且生成的主题抽象难懂。MALTopic将任务分解,由三个专门的LLM智能体协作完成:一个利用结构化数据增强文本响应的“丰富智能体”,一个提取潜在主题的“主题建模智能体”,以及一个优化结果的“去重智能体”。在真实调查数据集上的比较分析表明,MALTopic在主题连贯性、多样性和可解释性方面均显著优于基线方法,生成了更具上下文相关性、易于人类理解的主题,为复杂调查数据分析提供了更有效的解决方案。
主题建模多智能体系统大语言模型调查数据分析文本挖掘
cs
01-23 00:00
本研究系统评估了当前主流LLM文本检测器的可靠性,发现无论是无监督方法还是监督学习方法,在面对分布偏移、未知生成模型或简单风格扰动时均表现脆弱。为提升鲁棒性,论文提出了一种基于监督对比学习(SCL)的框架,旨在学习更具判别力的文本风格嵌入。实验表明,监督方法在域内表现优异,但域外性能急剧下降;而无监督方法则高度依赖代理模型的选择。研究结果揭示了构建领域无关检测器所面临的根本性挑战。
ai文本检测大语言模型分布偏移监督对比学习鲁棒性评估生成式ai
cs
01-23 00:00
针对现有AI生成科学综述评估基准仅关注结构、引用等表面质量,而无法衡量其深层“学术价值”的问题,本研究提出了DeepSurvey-Bench。该基准首次构建了一套涵盖信息价值、学术交流价值与研究指导价值的综合评估标准,并据此构建了带有学术价值标注的可靠数据集。实验表明,该基准在评估生成综述的学术价值方面与人类评估具有高度一致性,为自动化综述生成技术的质量评估提供了更全面、深刻的衡量工具。
ai生成综述学术评估基准自然语言处理科学计量人工智能评估文献综述
cs
01-23 00:00
扩展现实(XR)面临3D内容创作成本高、交互方式不直观两大挑战,限制了其广泛应用。本文探讨了生成式AI(GenAI)如何通过视觉语言模型和扩散生成技术,为XR提供解决方案:它能理解模糊指令和物理场景,自动生成或操控3D内容,实现语言驱动的自然交互。论文通过三个具体用例展示了该融合如何解决可扩展性和交互自然性的关键障碍,并指出了推动更广泛应用所需解决的技术挑战。
生成式ai扩展现实人机交互3d内容生成自然语言交互视觉语言模型
cs
01-23 00:00
本研究通过系统综述39项相关研究,总结了社交机器人作为健康行为干预工具的设计与评估现状。研究识别出四大核心行为改变策略:指导策略、咨询策略、社会影响策略和增强说服力策略,这些策略凸显了社交机器人作为干预手段的独特优势,并为设计提供了启发。同时,综述分析了当前评估实践的关键特征,包括研究设计、场景、持续时间和结果测量,并在此基础上为未来人机交互研究提出了方向。
社交机器人健康行为改变人机交互系统综述行为干预评估方法
cs
01-23 00:00
本研究通过两个经典经济博弈实验(独裁者博弈与最后通牒博弈),探究人们对于大语言模型(LLM)代其决策时的社会规范期望是否与人类决策者不同。两项预注册实验(N=2,658)发现:1)在无需对方接受的情况下(如独裁者博弈),由机器提出的分配方案被认为社会适宜性更低;2)在需要对方接受的情况下(如最后通牒博弈),人们拒绝机器方案比拒绝人类方案更“适宜”;3)收到来自机器的拒绝与收到来自人类的拒绝,其社会适宜性无差异。结果表明,人们对机器如何分配资源适用了不同的规范,但并不反对机器来执行规范。
大语言模型社会规范经济博弈人机交互委托决策行为实验
cs
01-23 00:00
本文系统综述了大视觉语言模型(LVLMs)引发的多模态假新闻检测范式转变。早期方法依赖浅层融合技术,难以理解高级语义和复杂跨模态交互。LVLMs通过强大的联合表征学习,实现了端到端的视觉-语言统一建模,显著提升了检测图文结合虚假信息的能力。文章梳理了从传统检测流程到基础模型驱动范式的演进历程,建立了涵盖模型架构、数据集和性能基准的结构化分类体系,并分析了可解释性、时序推理和领域泛化等现存挑战,为未来研究指明了方向。
多模态假新闻检测大视觉语言模型跨模态学习范式转变表征学习虚假信息
cs
01-23 00:00
本文针对金融领域部署的LLM代理在监管审计中难以复现相同决策的问题,提出了确定性-忠实性保障框架(DFAH)。该框架用于衡量工具调用型代理的轨迹确定性和基于证据的忠实性。研究发现,在非代理基准测试中,7-200亿参数模型可达100%确定性,而1200亿以上参数模型需要3.7倍验证样本才能达到同等统计可靠性。与可靠性-能力权衡假设相反,确定性($r = 0.45, p < 0.01$)与忠实性呈正相关。研究提供了三个金融基准测试及开源压力测试工具,表明采用模式优先架构的一级模型能达到审计回放要求的确定性水平。
llm代理金融审计确定性保障工具调用模型评估可复现性
cs
01-23 00:00
研究团队发布了首个专注于非洲经济分析的基准数据集AfriEconQA。该数据集基于236份世界银行报告,包含8,937个高质量问答实例,要求模型进行高精度数值推理和时间消歧。实验表明,零样本大模型(如GPT-5 Mini)在超过90%的查询上失败,即使最先进的检索增强生成(RAG)系统也难以实现高精度,凸显了当前模型在专业领域知识上的严重不足。该数据集为下一代领域特定信息检索和RAG系统提供了重要挑战。
基准数据集非洲经济信息检索rag系统数值推理领域分析
cs
01-23 00:00
研究发现,大语言模型在处理接近特定关键阈值的上下文时,即使信息相关,也会出现灾难性的性能退化(任务性能下降超30%)。本文通过三项贡献揭示了这一现象:首先,采用无截断/填充的自然长度分布分析,为“退化源于上下文长度本身”提供了更强因果证据。其次,在混合数据集上通过五折交叉验证,确定了Qwen2.5-7B模型的关键阈值在其最大上下文长度的40-50%处,此时F1分数从0.55-0.56骤降至0.3。最后,提出了“浅层长上下文适应”的统一框架来解释退化模式,为缓解策略奠定了基础。
大语言模型长上下文性能退化关键阈值自然长度分布
cs
01-23 00:00
本文提出了一种名为Gated Sparse Attention(GSA)的新型注意力机制,旨在同时解决长上下文语言模型中的计算效率与训练稳定性两大挑战。GSA通过结合带Sigmoid激活的门控闪电索引器(产生有界、可解释的选择分数)、基于局部不确定性自适应调节注意力令牌数量的稀疏控制器,以及在值和输出阶段的双重门控设计,实现了稀疏注意力的效率与门控注意力的质量优势。理论分析证明了其复杂度、表达能力和收敛性。在1.7B参数模型上的实验表明,GSA在128K上下文长度下实现了12-16倍的速度提升,困惑度从6.03降至5.70,RULER分数近乎翻倍,同时将注意力向首令牌的集中(注意力沉没现象)从47%降至4%以下,训练稳定性显著提升,损失尖峰减少98%。
注意力机制长上下文模型计算效率训练稳定性稀疏注意力门控机制
cs
01-23 00:00
本研究通过32个患者层面的代理变量(以正负修饰词对表示),评估了大型语言模型在急诊分诊场景中的偏见。利用公开及受限临床数据集(MIMIC-IV-ED等)测试发现,LLM存在通过代理变量介导的歧视行为,且当输入上下文中出现特定词汇时,模型会系统性地改变对患者严重程度的判断,无论该词汇以正面或负面形式呈现。这表明AI系统仍基于嘈杂、有时非因果的信号进行训练,未能可靠反映真实病情。研究呼吁需加强AI在临床环境中安全、负责任的应用。
医疗ai偏见急诊分诊大型语言模型代理变量临床决策公平性评估
cs
01-23 00:00
针对大语言模型在长程交互中面临的计算成本高、上下文扩展导致推理能力下降(“迷失于中部”现象)以及现有向量检索方法(“扁平RAG”)无法捕捉层次化、时序性记忆结构(导致“向量迷雾”)等问题,本文提出了Aeon——一个神经符号认知操作系统。它将内存重新定义为可管理的操作系统资源,通过“记忆宫殿”(基于SIMD加速的Page-Clustered Vector Index实现的空间索引)和“轨迹”(神经符号情景图)来结构化记忆,并引入语义后备缓冲器(SLB)预测缓存机制,利用对话局部性实现亚毫秒级检索延迟。基准测试表明,Aeon在对话工作负载上实现了<1ms的检索延迟,并通过零拷贝C++/Python桥确保状态一致性,为自主智能体提供了持久、结构化的内存支持。
大语言模型内存管理神经符号系统向量检索自主智能体高性能计算
cs
01-23 00:00
本文针对核心为空的合作博弈,提出寻找其最近平衡博弈(即核心非空)的方法。通过计算博弈在平衡博弈多面体上的正交投影,定义了一个新的解概念——最小二乘核心。作者开发了一种避免指数复杂度的快速算法,可处理多达20名玩家的博弈。研究证明,随着玩家数量增加,最近平衡博弈的核心为单点集的概率趋近于1,这为新的点解方案提供了数学依据。
合作博弈平衡博弈核心解正交投影算法优化
cs
01-23 00:00
本研究提出Prometheus Mind系统,无需修改模型权重,仅通过添加11个模块化适配器(530MB,7%开销)即可为冻结的Qwen3-4B模型赋予记忆能力,且完全可逆。其核心贡献在于解决了四个关键问题:1)提出无需标注数据的对比方向发现(CDD)方法进行语义提取;2)采用分阶段代理任务训练适配器;3)利用现成的lm_head.weight行实现知识注入,无需额外训练;4)通过训练投影层解决Transformer隐藏状态坍缩问题(相似度从0.98降至0.09)。在PrometheusExtract-132测试集上,系统在规范输入上的检索准确率达94.4%,但在包含省略、填充词等非规范输入时降至19.4%,主要瓶颈在于关系分类任务(准确率47.3%)。
大语言模型记忆模块参数高效微调语义提取可逆适配器知识注入
cs
01-23 00:00
本文提出了一种改进的MLP增强非负张量分解模型(MLP-NTD),用于动态社区检测。传统基于非负张量RESCAL分解的方法要求分解秩等于社区数量,限制了模型灵活性。新模型在RESCAL分解后引入多层感知机(MLP)进行社区映射,从而解耦了分解秩与社区数量。通过重构损失函数优化模型参数,该框架在保持捕捉动态社区演化能力的同时,显著提升了社区划分的准确性与鲁棒性。在多个真实动态网络数据集上的实验表明,MLP-NTD在模块度等指标上优于现有先进方法。
动态社区检测非负张量分解多层感知机复杂网络rescal分解网络演化