AI伪装队友如何影响协作学习中的论证与知识建构
本研究探讨了生成式AI作为“卧底队友”在协作学习中的作用。研究将AI设计为支持型或反对型人格,并基于论证性知识建构的四维框架,分析了212名人类与64个AI参与者在问题解决任务中的对话。研究发现,AI能维持平衡的参与度,但显著重组了认知与社会过程:支持型AI促进概念整合与共识导向推理,而反对型AI则激发批判性阐述与冲突驱动协商。个体学习收益与论证的认知充分性相关,而非发言量,表明智能体AI的教育价值在于提升推理质量与协调性。
今日速览 · AI 导读
自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。
AI 导读
今日看点(自动摘要):cs: AI伪装队友如何影响协作学习中的论证与知识建构;cs: Motion2Meaning:帕金森病步态分析的可争议AI框架,提升临床透明度;cs: 基于剧本生成的大语言模型多智能体实验设计框架
数据源:arXiv 官方 RSS(physics / math / cs / q-bio / econ / astro-ph 等)。
标题与摘要由 DeepSeek 进行中文润色,便于快速浏览;外链跳转至原文。
AI 速览助手:点击卡片“速览全文”可拉取 arXiv HTML,生成全文要点并缓存;右下角悬浮按钮可随时展开/收起速览。
自动抓取:每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。
往期回顾:点击上方“往期回顾”进入日历页,按月查看每日抓取总数,并跳转到对应日期速览。
2025-12-11 共 24 条抓取,按综合热度排序
本研究探讨了生成式AI作为“卧底队友”在协作学习中的作用。研究将AI设计为支持型或反对型人格,并基于论证性知识建构的四维框架,分析了212名人类与64个AI参与者在问题解决任务中的对话。研究发现,AI能维持平衡的参与度,但显著重组了认知与社会过程:支持型AI促进概念整合与共识导向推理,而反对型AI则激发批判性阐述与冲突驱动协商。个体学习收益与论证的认知充分性相关,而非发言量,表明智能体AI的教育价值在于提升推理质量与协调性。
本研究提出Motion2Meaning框架,旨在解决AI辅助帕金森病步态分析中缺乏透明度与临床争议渠道的问题。该框架整合了步态数据可视化、基于一维CNN的疾病分期预测模型,以及一个创新的可争议解释界面。该界面引入跨模态解释差异(XMED)安全机制与大型语言模型,使临床医生能验证AI决策并对其错误提出质疑。评估显示,系统在保持AI能力的同时,实现了临床监督与可审计性。
本文提出了一种基于剧本生成的多智能体实验设计自动化框架,旨在降低社会科学计算实验的门槛。该框架将实验设计分为剧本生成、剧本定稿和演员生成三个阶段,通过“编剧”、“导演”和“演员工厂”三类智能体协同工作,将抽象的实验设计转化为可执行的智能体行为脚本。实验表明,生成的智能体能够按照设计脚本执行,并复现与现实情境一致的结果,为政策制定和研究提供了新的决策支持工具。
本文提出并验证了一个名为SHARP(安全、有用、准确、相关、个性化)的原则性框架,用于系统评估应用于个人健康与保健领域的大语言模型。该框架集成了专家评估、自动评分和对抗性测试等方法,并应用于Fitbit Insights健康数据解读系统的迭代开发中。通过对超过13,000名用户的阶段性部署,该框架成功识别了初始测试中未显现的挑战,证明了结合技术评估与真实用户反馈的必要性,为负责任地开发和部署健康AI应用提供了标准化方法。
研究通过专家评估比较了Reddit高赞人类建议与LLM生成建议的质量。结果显示,LLM在整体评分、有效性、温暖度及用户再次寻求建议的意愿上均显著优于人类建议。GPT-4o在除奉承性外的所有指标上均优于GPT-5,表明基准性能提升未必改善建议质量。研究还发现,人类建议经过润色后可与AI建议竞争,且用户对建议代理的偏好(如教练型或朋友型)存在异质性。
本研究通过混合方法(230份问卷与14位专家访谈),探讨了人工智能(AI)如何有效整合进战略技术管理(STM)。研究发现,AI通过数据驱动的战略对齐和持续适应从根本上改变STM,但成功依赖于培育专有数据生态系统、专业人才和稳健的治理能力。研究提出了AIbSTM概念框架,强调最可行的路径是以人为中心的增强模式,即AI作为协作伙伴而非人类判断的替代品。
本研究基于Twin-2K-500数据集,系统评估了大型语言模型驱动的人类数字孪生模拟医疗系统不信任心理特质的能力。结果显示,数字孪生的模拟响应分布更集中、方差更低,极端选项选择更少。虽然能大致复现年龄、性别等主要人口模式,但在捕捉教育水平等细微差异时敏感性较低。研究表明,当前LLM驱动的数字孪生在模拟复杂人类态度方面存在局限,应用于医疗系统政策模拟前需谨慎校准。
本研究提出了一种个性化的城市可达性评估框架,通过整合指数衰减函数与用户可自定义的权重系统,实现了基于个人优先级和生活方式的实时评估。该框架采用网格化离散和两阶段计算架构,将密集预处理与轻量级实时计算分离,使非技术用户也能通过交互界面进行精细化的空间分析,识别社区内部的可达性差异。该研究为理解不同人群如何体验相同的城市空间提供了工具,支持基于证据的政策制定,以解决可达性差距,助力实现可持续发展目标11(可持续城市和社区)的愿景。
本研究针对资源有限的分布式独立游戏开发团队,提出了CIGDI框架,以整合AI工具应对技术债务、协调与倦怠问题。基于对三人团队开发过程的实证分析,研究发现AI虽能降低认知负荷,但也导致了“理解债”——即团队构建的系统复杂度超出了其独立理解和维护的能力,形成对AI的依赖与系统脆弱性。该工作为资源受限团队提供了实用框架,并引发了对AI辅助是“学习阶梯”还是“依赖陷阱”的思考。
本文针对检索增强生成(RAG)中检索文档常含无关或误导性噪声,导致摘要压缩模型易遗漏关键信息的问题,提出了抗噪摘要压缩方法ACoRN。该方法通过更细粒度的文档分类,引入两个新颖的训练步骤:首先对训练数据进行离线数据增强,以增强模型对两类检索噪声的鲁棒性;其次,针对基于语言模型的压缩器难以充分利用多文档信息且存在位置偏差的缺陷,进行微调以生成围绕支持正确答案的关键信息的摘要。实验表明,采用ACoRN训练的T5-large压缩器在保留答案字符串的同时,提升了EM和F1分数,尤其在包含大量降低准确性文档的数据集上表现优异。
本研究评估了大语言模型(LLM)在生成文本时,能否复现基于心智化治疗(MBT)理论框架的语言结构。研究通过五位受过MBT培训的精神科医生对LLM生成的50段对话进行盲评,发现模型在“内隐-外显”和“自我-他人”维度上表现出较高的结构一致性与评分者间信度,但在整合内在状态与外部情境方面存在局限,且整体情感表达趋于中性。
本文探讨了大语言模型(LLMs)未来可能取代传统搜索引擎成为主要信息门户所带来的社会挑战。研究聚焦于LLM提供商、内容创作者和终端用户三大角色,系统识别了15类潜在挑战,并从技术和法律两个维度分析了当前的缓解策略。文章评估了每类挑战的影响,并指出了未来的研究方向,为理解这一技术变革的社会影响提供了框架。
本研究提出了一种用于电磁编队飞行的新型控制器,解决了传统方法中反作用飞轮角动量分布不均、易饱和的问题。该控制器基于角动量守恒原理设计,能同时控制电磁力和电磁力矩,仅需在部分卫星上配置飞轮即可实现整个编队的姿态与位置控制。结合主卫星的简单卸载控制,可有效消除系统角动量累积。数值仿真验证了该控制器在五卫星系统编队保持与重构任务中的有效性。
本研究针对移动健康干预中强化学习面临的用户负担与干预效果平衡难题,在“行动-测量”启发式算法基础上,提出了一种贝叶斯扩展方法。该方法用卡尔曼滤波器风格的贝叶斯更新替代标准Q学习,以维持对Q值的不确定性感知估计,从而实现更稳定、样本效率更高的学习。在小型表格化环境中,贝叶斯方法取得了可比或更优的标量化回报,且方差显著降低,策略行为更稳定。然而,在更复杂的大型移动健康场景中,两种方法均表现不佳,揭示了现有模型假设与现实领域结构性挑战之间的不匹配。
本文提出了AI Co-Artist系统,利用GPT-4等大语言模型,通过直观的视觉界面支持用户迭代演化和精炼GLSL着色器。该系统借鉴了Picbreeder平台的用户引导进化原则,允许用户无需编写或理解代码即可创作实时视觉艺术。评估表明,该系统显著降低了着色器创作的技术门槛,提升了创意成果,并能广泛应用于网站布局生成、建筑可视化等多个创意领域。
研究提出一种仿真优先的流程,将访谈数据转化为276个虚拟患者,用于训练人形机器人的对话代理。通过感知-融合-策略循环,机器人学习决定何时发言、何时回应以及如何避免打断,同时关注信任、节奏和融洽关系。在三种控制器对比中,定制的TD3算法在保持奖励相当的情况下,实现了更全面的覆盖和更稳定的对话节奏。该研究为临床监督下的人形机器人试点奠定了基础。
本文介绍了SimClinician,一个用于心理健康诊断的交互式模拟平台,旨在研究AI诊断界面设计如何影响心理学家对AI建议的采纳、调整或拒绝行为。该平台整合了音频、文本、视线-表情模式等多模态数据,通过虚拟化身模块呈现匿名化动态信息,并将AI输出映射到多模态证据以供心理学家审查。在E-DAIC语料库上的测试表明,增加确认步骤可将AI建议接受率提升23%,同时将升级干预率控制在9%以下,保障了流畅的交互流程。
本研究针对心电图(ECG)分析,首次对语言、通用时序及ECG专用基础模型进行了全面评估。实验表明,通用时序与ECG基础模型在多项任务中取得了高达80%的优异性能,证实了其在心脏活动分析中的有效性。研究不仅提供了详尽的实验结果与深入分析,还指出了基础模型在生理波形分析领域的潜力与局限,为AI辅助医疗诊断提供了重要参考。
本文提出LLM4XCE,一种利用大语言模型进行超大规模MIMO信道估计的新框架。针对6G网络中混合近/远场信道带来的估计挑战,该方法通过精心设计的嵌入模块与并行特征-空间注意力机制,深度融合导频特征与空间结构,构建语义丰富的表征。仅微调顶层Transformer层,即可高效捕获导频数据中的潜在依赖关系。仿真表明,该框架在混合场条件下显著优于现有方法,实现了更高的估计精度与泛化性能。
本文提出DW-KNN,一种改进的K近邻分类器。传统方法假设所有邻居同等可靠,在异构特征空间中存在局限。DW-KNN通过整合指数距离权重与邻居有效性评估,实现了实例级可解释性,能抑制噪声或错误标记样本,并降低对超参数的敏感性。在9个数据集上的评估表明,其平均准确率达0.8988,在六种方法中排名第二,且交叉验证方差最低(0.0156),预测稳定性可靠。统计显著性测试证实其性能显著优于对比方法。该方法为需要可解释预测的高风险应用提供了简单有效的方案。
本文提出LUMOS,一种基于Transformer架构的大规模用户模型,旨在解决在线B2C平台用户行为预测的规模化难题。该模型摒弃了传统任务特定模型和人工特征工程,仅使用原始用户活动数据进行多任务联合学习。其核心创新在于引入一种新颖的跨注意力机制,能够将未来已知事件(如节假日、促销)作为条件融入预测,从而捕捉复杂行为模式。通过在包含2750亿活动令牌、2.5亿用户的生产数据集上进行实验,LUMOS在5项任务上均优于传统基线模型,二分类任务ROC-AUC平均提升0.025,回归任务MAPE降低4.6%。在线A/B测试验证了其商业价值,使日活跃用户数提升了3.15%。
研究团队推出了EEG-Bench,这是一个专注于评估基于脑电图(EEG)的基础模型在临床应用中性能的统一基准测试框架。该基准覆盖了癫痫、精神分裂症、帕金森病等11项明确的诊断任务,涉及14个公开EEG数据集。其特点是预处理步骤极简、评估协议标准化,支持经典基线模型与现代基础模型的并行比较。结果表明,尽管基础模型在某些场景下表现强劲,但更简单的模型在面临临床数据分布偏移时往往仍具竞争力。为促进可复现性与应用,所有处理后的数据与代码均已开源。
本文介绍了Psychlysis的开发,这是一款基于问卷的机器学习应用,旨在分析用户当前的心理状态,并利用机器学习提供改善情绪的建议。该应用采用OCEAN人格模型来理解用户的性格特质,从而提供个性化的健康建议。其重点在于改善用户情绪,而非仅仅检测情绪。初步结果显示,该模型在预测用户情绪和提供个性化推荐方面具有潜力。
本研究提出了一种针对性的强化学习框架,旨在同时缓解大语言模型在短问答和长问答任务中的内在与外在幻觉。通过改造TriviaQA数据集处理外在幻觉(错误内部知识),并利用FineWeb长文本构建事实锚定奖励机制来应对内在幻觉(不忠于上下文)。该框架还明确奖励模型拒绝回答无法回答的问题,以培养其谨慎性。实验表明,该方法在多个基准测试中显著提升了性能,有效减少了两种幻觉类型,为解决大模型高级推理能力与事实可信度之间的关键矛盾提供了实用方案。