cs
01-27 00:00
本文提出TelcoAI系统,针对3GPP复杂技术规范(包含文本、图表等多模态内容)的检索难题,设计了一种智能体驱动的多模态检索增强生成框架。系统通过章节感知分块、结构化查询规划、元数据引导检索以及图文多模态融合等技术,有效处理规范间的依赖关系和复杂查询。在专家评估基准上,系统实现了87%的召回率、83%的声明召回率和92%的忠实度,相比现有最优基线提升16%。
多模态检索智能体系统技术文档理解3gpp规范rag框架
cs
01-27 00:00
本文提出了一种结合分层抽象、任务与运动规划及强化学习的神经符号框架,以解决机器人在开放世界中适应突发新情况的难题。该框架融合了符号化的目标导向学习与基于世界模型的探索,旨在提升样本效率、加速收敛并避免灾难性遗忘。在机器人操作与自动驾驶场景的验证中,该方法相比现有混合方法,展现出更快的适应速度、更高的样本效率及更强的鲁棒性,为实际部署提供了潜力。
神经符号学习开放世界机器人任务与运动规划强化学习自适应系统分层抽象
cs
01-27 00:00
针对大语言模型进行思维链推理时,冗长的思考阶段序列导致KV缓存占用过高的问题,本研究提出了Crystal-KV框架。其核心是“答案优先”原则,通过将答案偏好映射到注意力图中,区分出对最终答案至关重要的CrystalKV和可能引入误导的SlipKV。框架包含基于注意力的LRFU算法,精准淘汰失效的SlipKV;以及自适应缓存预算分配算法,根据CrystalKV的动态比例调整各层/头的缓存预算。实验表明,Crystal-KV在实现业界领先的KV缓存压缩、显著提升吞吐量和响应速度的同时,维持甚至提高了思维链推理的答案准确性。
kv缓存优化思维链推理大语言模型注意力机制高效推理
cs
01-27 00:00
本研究提出了成对最大差异竞赛(PMDC),一种用于评估奖励模型(RM)泛化能力的新框架。该方法利用大型未标注提示池,动态选择能最大化两个RM之间分歧的提示-响应对,生成一组紧凑但极具争议性的测试用例。通过专家裁决结果,并利用Bradley-Terry模型进行聚合,最终得到RM的全局排名和两两胜率图。应用PMDC对10个代表性RM进行重新评估,发现其排名相较于传统基准测试发生了显著变化,并揭示了系统性的泛化失败案例,为改进奖励建模提供了重要见解。
奖励模型泛化评估大语言模型对齐成对比较主动测试
cs
01-27 00:00
本文提出SALR(Sparsity-Aware Low-Rank Representation),一种新颖的微调范式,在严格的均方误差框架下统一了低秩适配与稀疏剪枝。研究证明,静态剪枝冻结的基础权重能最小化剪枝误差界,并通过截断SVD低秩适配器恢复丢弃的残差信息,理论上可将每项MSE降低因子 $(1 - r/\min(d,k))$。为实现硬件效率最大化,SALR将多个低秩适配器融合为单个拼接的GEMM运算,并采用基于位图的编码与两阶段流水线解码+GEMM设计,实现了真正的模型压缩与加速。实证表明,SALR在多种LLM上达到50%稀疏度,在GSM8K和MMLU任务上性能与LoRA相当,模型大小减少2倍,推理速度提升高达1.7倍。
大语言模型高效微调稀疏剪枝低秩适配模型压缩推理加速
cs
01-27 00:00
针对学术文献中普遍存在的误引问题,本文提出了BibAgent,一个可扩展的端到端智能体框架,用于自动化引文验证。该框架集成了检索、推理和自适应证据聚合能力,并对可获取和付费墙后的文献采用不同策略。对于后者,它创新性地引入了“证据委员会”机制,通过下游引文共识来推断引文有效性。为支持系统评估,研究贡献了一个包含5个类别的误引分类法,以及一个跨学科大规模基准数据集MisciteBench(包含6350个样本,覆盖254个领域)。实验结果表明,BibAgent在引文验证准确性和可解释性上均优于现有的大型语言模型基线。
引文验证智能体框架学术不端检测大规模基准证据聚合跨学科评估
cs
01-27 00:00
本文提出了一种通用框架,将基于序列标注的命名实体识别模型适配为能输出不确定性感知预测集的方法。该框架基于共形预测理论,在最小假设下提供有限样本覆盖保证。研究者设计了高效的非共形性评分函数,构建了支持无条件及类别条件覆盖的校准预测集,并考虑了句子长度、语言、实体类型及实体数量等异质性因素。在三个基准数据集上的四个NER模型实验验证了该方法的广泛适用性、有效性和效率。
命名实体识别不确定性量化共形预测序列标注自然语言处理
cs
01-27 00:00
本研究在生成式AI辅助的智能辅导系统中,通过追踪学生完成问题解决任务时的交互数据,提取其自我调节学习模式。研究从信息处理视角分析学生使用AI的目的,并利用序列和聚类分析将参与者分为两组。结果显示,两组学生在AI使用频率和时序特征上存在差异,且多数学生将AI用于信息获取而非信息转化。研究为优化AI辅助学习环境的设计提供了实证依据。
生成式ai智能辅导系统自我调节学习学习分析信息处理
cs
01-27 00:00
本研究对超过2万次真实用户与心理健康AI的对话进行生态审计,比较了通用大语言模型与专用心理健康AI在安全性能上的差异。结果显示,专用AI在自杀/非自杀性自伤(NSSI)内容生成风险上显著低于通用模型(0.4-11.27% vs 29.0-54.4%),但测试集的失败率远高于实际部署表现。临床医生审核发现,所有被标记的对话中,自杀风险案例均获得了危机资源;在全部对话中,仅3例NSSI风险(0.015%)未触发危机干预,系统端到端假阴性率为0.38%。研究主张AI心理健康系统应从有限的基准认证转向持续、与部署相关的安全保证。
ai安全心理健康大语言模型生态审计自杀风险评估真实对话分析
cs
01-27 00:00
本研究提出了一种基于监督机器学习的轻量级AI框架,用于过滤供应链调查中的不可靠输入。研究收集了99份行业响应数据集,通过人工标注识别逻辑不一致和响应模式异常的虚假回答。在预处理和标签编码后,使用随机森林、逻辑回归和XGBoost等模型进行训练,最佳模型准确率达到92.0%,相比初步研究有显著提升。该框架为供应链研究(特别是在产品发布和技术采用阶段)提供了可扩展的数据完整性解决方案。
供应链管理数据完整性机器学习调查分析ai决策支持
cs
01-27 00:00
本文提出MathMixup,一种新颖的数据合成范式,通过混合与分解策略,系统性地生成高质量、难度可控的数学推理问题。该方法结合自动自检与人工筛选,确保合成数据语义清晰且难度梯度结构良好。基于此构建的MathMixupQA数据集及配套课程学习策略,能灵活与其他数据集结合。实验表明,经MathMixup微调的Qwen2.5-7B模型在七个数学基准测试中平均得分达52.6%,超越了现有最优方法,验证了其在提升LLM数学推理能力及推进以数据为中心的课程学习方面的有效性与广泛适用性。
数学推理数据合成课程学习大语言模型难度控制基准测试
cs
01-27 00:00
针对算法交易模型在真实市场环境变化时性能下降的问题,本研究提出一个贝叶斯鲁棒框架。该框架包含一个基于宏观经济指标的生成对抗网络(GAN)来合成具有真实时序、跨资产和宏观相关性的市场数据,以及一个将交易过程建模为两人零和贝叶斯马尔可夫博弈的鲁棒策略学习模块。其中,对抗代理通过扰动宏观指标模拟市场机制变化,交易代理则通过分位数信念网络更新对隐藏市场状态的信念,并利用贝叶斯神经虚拟自我博弈寻求鲁棒完美贝叶斯均衡。在9种金融工具上的实验表明,该框架在COVID-19等极端事件中,在盈利能力和风险管理方面均优于9种前沿基线方法。
算法交易贝叶斯鲁棒学习生成对抗网络对抗性训练市场模拟风险管理
cs
01-27 00:00
本研究针对Crazyflie四旋翼无人机系统,在引入随机噪声的背景下,提出了一种在线参数估计方法。研究采用扩展卡尔曼滤波器(EKF)处理传感器噪声并估计系统状态,并基于随机微分方程(SDE)系统实现了线性二次高斯(LQG)控制器。核心贡献在于应用期望最大化(EM)算法进行无人机参数估计,并对比了离线与在线估计的结果。实验表明,在线参数估计的收敛值范围略大于离线估计,为无人机在复杂噪声环境下的自适应控制提供了新思路。
无人机控制参数估计em算法扩展卡尔曼滤波随机系统在线学习
cs
01-27 00:00
本研究将大语言模型(LLM)嵌入向量重新定义为可搜索的语义景观,并采用动态探索性图分析(DynEGA)方法,将维度索引视为伪时间序列进行系统遍历。通过蒙特卡洛模拟,使用OpenAI的text-embedding-3-small模型嵌入代表自恋特质的项目,并系统改变项目池规模(每维度3-40项)和嵌入深度(3-1298维)。研究发现,总熵拟合指数(TEFI)和归一化互信息(NMI)在嵌入空间中呈现竞争性优化轨迹:TEFI在深嵌入范围(900-1200维)达到最小值(熵组织最大化),但结构准确性下降;NMI在浅层深度达到峰值(维度恢复最强),但熵拟合次优。单一指标优化会产生结构不一致的解决方案,而加权复合标准能识别同时平衡准确性与组织性的嵌入深度区域。最优嵌入深度随项目池规模系统变化。
大语言模型嵌入动态探索性图分析心理测量学蒙特卡洛模拟语义空间优化维度恢复
cs
01-27 00:00
一项针对西班牙胃肠病学专家的全国性调查显示,尽管87.5%的受访者认为人工智能(AI)是变革性工具,但仅60.2%实际使用AI,且多数在机构框架外自发应用。使用AI的独立预测因素包括接受过培训(OR=2.44)、在大学医院工作(OR=2.14)和更年轻(OR=1.36/5年)。主要障碍是缺乏培训(61%)、无机构战略(46%)和伦理担忧(50%)。93.8%的专家认为需要AI培训项目,但仅18.4%接受过正式培训,凸显临床整合与认知间的巨大差距。
人工智能胃肠病学临床整合医学教育医疗调查西班牙
cs
01-27 00:00
研究指出,随着全球老龄化加剧,远程医疗、可穿戴设备等数字健康技术虽能提升老年人独立性与福祉,但其采用率不均。论文将“数字鸿沟”重新定义为“可用性鸿沟”,认为用户体验设计不佳是主要障碍,而非技术接入。通过分析视觉、认知、运动能力衰退及界面复杂等问题,研究强调参与式、以用户为中心的设计方法至关重要。直观、易用且能融入社交环境的技术更能被老年人接受,并能提升其自主性与健康公平。研究还指出,高对比度屏幕、简化交互流程、多模态反馈及照护者整合等设计属性显著影响可用性,并批评当前无障碍指南过于技术导向,呼吁建立基于同理心与以人为中心的可用性设计伦理。
数字鸿沟老年健康可用性设计用户体验参与式设计健康公平
cs
01-27 00:00
本文探讨了人工智能与公民权利保护之间的结构性冲突,指出算法问责问题的核心在于私人企业而非政府。作者认为,真正的挑战源于私营企业的算法活动引发的隐私、正当程序和歧视问题,因此解决方案应聚焦于行业内部。文章提出了行为准则、影响评估和举报人保护等工具,旨在增强AI系统的透明度,并鼓励公民权利执行的内生性。最终,通过审视私营企业与公民权利的关系,可能催生新一代的问责形式。
算法问责人工智能伦理公民权利私营企业责任透明度算法偏见
cs
01-27 00:00
本研究评估了九个大型语言模型在24个政治敏感议题上的立场与一致性。通过五种提示技术测试发现,模型常对同一议题持对立立场,部分立场易受提示词影响,而另一些则保持稳定。其中,Grok-3-mini立场最坚定,Mistral-7B最易变。当议题涉及不同语言国家时,模型倾向于支持提示词所用语言的一方。值得注意的是,所有提示技术均未能改变模型在卡塔尔封锁和巴勒斯坦压迫议题上的既定立场。
大语言模型政治立场模型评估提示工程算法偏见
cs
01-27 00:00
本文提出了一种基于规则的计算框架,用于自动化地将研究论文分类到联合国可持续发展目标(SDGs)中。该框架通过专家精心设计的布尔查询映射,处理文献元数据(标题、摘要、关键词),避免了传统机器学习模型“黑箱”问题,实现了结果的可解释性。系统包含Web界面、后端API和Python分类引擎,支持单篇和批量处理,实验表明每小时可处理数千条记录,为机构、研究者和政策制定者提供了一种高效、可复现且易于理解的系统性分析工具。
可持续发展目标文献分类布尔查询自动化框架可解释性学术分析
cs
01-27 00:00
本文介绍了pyBiblioNet,一个用于进行综合性网络文献计量分析的Python库。该库旨在弥补传统方法在捕捉科学文献中复杂关系和演变趋势方面的不足。它集成了OpenAlex开放研究目录,支持用户轻松预处理、可视化和分析文献计量数据。核心功能包括:通过OpenAlex API自动下载数据、构建引文网络与合著网络、提供网络可视化工具,以及一套专门为文献计量领域定制的算法,用于计算网络中心性、聚类和社区发现。此外,它还支持利用自然语言处理技术分析关键主题和概念。作者通过对跨学科的“15分钟城市范式”进行文献计量分析,展示了该库在揭示各科学领域中隐藏模式和新兴趋势方面的实用性。pyBiblioNet为研究人员、图书馆员和政策制定者提供了一个强大且用户友好的工具,以增强其文献计量分析能力并支持数据驱动的决策。
文献计量学python库网络分析科学计量数据可视化openalex
cs
01-27 00:00
本研究公开了一个巴西市级登革热住院时间序列数据集(1999-2021年),其核心贡献在于通过插值协议将原始月度数据降尺度为周度(流行病学周)数据,同时通过校正步骤保持月度总量不变。为验证降尺度方法的有效性,研究利用圣保罗州同时包含月度和周度计数的参考数据集(2024年),比较了线性插值、抖动和三次样条插值三种策略。结果表明,三次样条插值对参考数据的拟合度最高,因此被采纳用于生成全国范围的周度序列。除住院数据外,数据集还包含一套常用的解释变量(如人口密度、温室气体排放、气候指标、社会经济指数等),并遵循相同的时间降尺度方案以确保多变量兼容性。该数据集为多变量时间序列分析、环境健康研究以及机器学习/深度学习模型的爆发预测训练提供了高质量资源。
登革热数据时间序列降尺度流行病学预测巴西公共卫生环境健康机器学习数据集
cs
01-27 00:00
本文回顾了Reidenberg提出的“Lex Informatica”概念,即技术本身(如网络架构)能像法律一样塑造社会规范。作者指出,过去数十年对互联网的放任监管已暴露信息自由主义弊端,如今亟需转向“Lex Reformatica”——一种聚焦公私监管与自律互动、权衡成本效益的改革路径。文章强调,学者与立法者需更新Reidenberg的理论框架,以应对数字时代的社会挑战。
技术监管数字政策lex informatica信息自由主义公私治理
cs
01-27 00:00
本文提出RAM-SD,一个用于讽刺检测的检索增强多智能体框架,以解决现有方法因采用单一推理策略而难以应对讽刺表达多样性分析需求的问题。该框架通过四个阶段运作:上下文检索、元规划器分类并选择推理计划、专业智能体进行多视角分析、以及整合器生成最终可解释的判断。在四个标准基准测试中,RAM-SD取得了77.74%的宏平均F1分数,比GPT-4o+CoC基线高出7.01个百分点,不仅设定了新的性能基准,还提供了透明可解释的推理过程。
讽刺检测多智能体检索增强可解释ai自然语言处理
cs
01-27 00:00
本研究提出结合特征选择与机器学习模型,利用患者语音录音对帕金森病进行早期分类诊断。通过特征选择技术筛选出最具信息量的语音特征,显著减少了模型所需特征数量。实验结果表明,神经网络等机器学习方法在帕金森病分类任务中表现优异,且特征数量的减少并未影响模型性能,为临床低成本、高效率的辅助诊断提供了可行方案。
帕金森病语音分析机器学习特征选择早期诊断神经网络