ZK-APEX:首个可验证的个性化机器学习遗忘框架
本文提出ZK-APEX,一种无需重新训练即可从个性化模型中移除特定数据影响的零知识验证方法。该方法结合服务端的稀疏掩码与客户端的轻量级补偿步骤,利用分块经验费雪矩阵进行低开销更新。通过Halo2零知识证明,服务商可验证遗忘操作的正确执行,而无需访问任何私有数据或模型参数。在视觉Transformer任务中,该方法在有效移除目标信息的同时,几乎完全恢复了模型的个性化性能。
今日速览 · AI 导读
自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。
AI 导读
今日看点(自动摘要):cs: ZK-APEX:首个可验证的个性化机器学习遗忘框架;cs: CloudFix:首个结合形式化方法与LLM的云访问控制策略自动修复框架;cs: 量子联邦学习与区块链融合,为6G网络构建安全智能框架
数据源:arXiv 官方 RSS(physics / math / cs / q-bio / econ / astro-ph 等)。
标题与摘要由 DeepSeek 进行中文润色,便于快速浏览;外链跳转至原文。
AI 速览助手:点击卡片“速览全文”可拉取 arXiv HTML,生成全文要点并缓存;右下角悬浮按钮可随时展开/收起速览。
自动抓取:每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。
往期回顾:点击上方“往期回顾”进入日历页,按月查看每日抓取总数,并跳转到对应日期速览。
Showing last 24h for this domain
本文提出ZK-APEX,一种无需重新训练即可从个性化模型中移除特定数据影响的零知识验证方法。该方法结合服务端的稀疏掩码与客户端的轻量级补偿步骤,利用分块经验费雪矩阵进行低开销更新。通过Halo2零知识证明,服务商可验证遗忘操作的正确执行,而无需访问任何私有数据或模型参数。在视觉Transformer任务中,该方法在有效移除目标信息的同时,几乎完全恢复了模型的个性化性能。
本文提出CloudFix,首个结合形式化方法与大型语言模型(LLM)的云访问控制策略自动修复框架。针对手动编写策略易出错且耗时的问题,CloudFix首先利用基于形式化方法的故障定位识别策略中的错误语句,然后调用LLM生成潜在修复方案,最后通过SMT求解器进行验证。在包含282个真实AWS策略的数据集上,CloudFix在不同请求规模下均展现出优于基线方法的修复准确率。该工作首次探索了LLM在策略修复中的应用,为高效、自动化的云安全策略维护提供了新方案。
本文提出QFLchain框架,将量子联邦学习与区块链技术结合,以应对未来6G网络动态、去中心化、数据密集的挑战。该框架旨在利用量子计算优势提升学习效率与抗量子威胁能力,同时借助区块链实现分布式量子边缘设备间的可信协作。研究重点分析了通信共识开销、可扩展性、能效及安全漏洞四大支柱问题,并通过仿真案例展示了其在训练性能上的潜在优势。
本文提出了一种面向Web3.0的可信去中心化协作缓存框架TDC-Cache,旨在解决去中心化数据访问中的效率与安全问题。该框架采用双层架构,利用去中心化预言机网络作为可信中介平台。针对网络拓扑与数据流的复杂性,提出了基于深度强化学习的去中心化缓存策略以动态优化缓存,并设计了协作学习证明共识机制来维护缓存决策的一致性。实验表明,该框架能有效降低访问延迟、提升缓存命中率与共识成功率。
本研究提出了一种基于神经形态传感器和脉冲神经网络(SNN)的新型眼动追踪模型,旨在解决AR/VR等可穿戴设备对低延迟、低功耗的需求。通过用轻量级LIF层替换传统循环和注意力模块,并利用深度可分离卷积降低模型复杂度,新模型在保持3.7-4.1像素平均误差(接近专用系统精度)的同时,将模型大小缩小20倍,理论计算量降低850倍。预计功耗仅为3.9-4.9毫瓦,延迟低至3毫秒,为实时可穿戴部署提供了高效解决方案。
本文提出BAMBO框架,旨在解决大语言模型能力与效率权衡的帕累托集构建难题。针对现有模型级方法解集稀疏、层间方法维度灾难的问题,BAMBO引入混合最优块划分策略,将其建模为一维聚类问题,通过动态规划平衡块内同质性与块间信息分布,从而大幅降低搜索维度。整个过程由q-期望超体积改进驱动,在进化循环中自动进行。实验表明,BAMBO能发现比基线更优、更全面的帕累托前沿,支持根据多样化约束进行敏捷模型选择。
本研究提出一种轻量级增强方法,通过为每个节点添加度中心性和局部聚类系数这两个经典图论指标,显式地标记其在传播网络中的枢纽和社区角色。在UPFD Politifact数据集上的实验表明,该简单修改将宏观F1分数从0.7753提升至0.8344。这不仅证明了显式拓扑特征在假新闻检测中的实用价值,也为其他信息传播任务融合图指标提供了可解释、易复现的模板。
本文介绍了ExaCraft,一个能够根据学习者动态变化的理解水平、困难点和技能成长,实时生成个性化教学案例的AI系统。它通过整合用户自定义档案(如地理位置、教育背景)与实时行为分析,确保案例兼具文化相关性与个体适配性。系统的核心创新在于能适应学习情境的五个关键方面:困难指标、掌握模式、主题进展历史、会话边界和学习进展信号,使教学案例能从基础概念平滑过渡到高级技术实现。
本研究基于社会临场感理论,提出“具身化信息枢纽”概念,旨在通过物理与对话交互改善知识分享体验。原型Suzume-chan是一个小型、柔软的本地AI代理,结合语言模型与检索增强生成技术。它能通过语音学习解释并对话回应,有效减少心理距离,使知识传递更具人性化与连接感。
针对学术环境中物联网设备增多带来的安全与管理挑战,本研究提出了IoTEdu集成平台。该平台统一了物联网设备的注册、监控与事件响应流程,集成了访问控制、事件检测与自动阻断功能。在模拟攻击的受控环境中评估显示,其平均检测到阻断时间仅为28.6秒,有效减少了人工干预,实现了响应标准化与流程统一。
针对在线健康谣言泛滥的问题,本研究提出了一种两阶段检测框架。第一阶段利用大语言模型独立评估检索到的证据文章,计算反映整体证据立场的聚合一致性分数。若分数低于预设阈值,则进入第二阶段,启动多智能体结构化辩论,以综合冲突证据并生成带有明确理由的裁决。实验表明,该方法性能优于基线,验证了自动化评分与协作推理结合在复杂验证任务中的价值。
本文提出QSTAformer,一种将参数化量子电路嵌入注意力机制的量子增强Transformer架构,用于提升短期电压稳定性评估在对抗攻击下的鲁棒性。研究开发了专门的对抗训练策略以抵御白盒与灰盒攻击,并系统评估了不同量子电路在表达能力、收敛性与效率间的权衡。在IEEE 39节点系统的案例研究表明,该模型在保持高精度的同时,显著提升了对抗条件下的鲁棒性,为电力系统安全运行提供了新方案。
本研究提出一种基于区块链的审计追踪模型,旨在解决电信与金融行业跨运营商结算流程中存在的周期长、成本高、透明度低等痛点。该框架利用分布式账本、智能合约自动化及密码学验证技术,构建了统一且不可篡改的交易记录。实证评估显示,该模型能将交易费用降低87%,结算周期从120天压缩至3分钟,并实现100%的审计追踪完整性。智能合约自动化减少了92%的人工干预,并消除了88%的结算纠纷。
本文针对再保险决策中信息分散、异构、受监管约束等复杂特性,提出了再保险约束多智能体仿真过程(R-CMASP)模型。该模型在随机博弈与Dec-POMDP基础上,引入了三大核心要素:基于灾害、资本与投资组合引擎的仿真器耦合动态;具备结构化观测、信念更新与类型化通信的角色化智能体;以及将偿付能力、监管与组织规则编码为联合行动可行性约束的规范层。实验表明,在基于LLM的智能体环境中,该规范治理的多智能体协调机制相比确定性自动化或单一LLM基线,能产生更稳定、一致且合规的行为,有效降低了定价方差,提升了资本效率与条款解释准确性。
本研究提出Echo-CoPilot,一个利用大语言模型协调多个专业工具的多视图、多任务智能体,用于超声心动图解读。该智能体在ReAct式循环中,能分解临床查询、调用视图识别、结构分割、测量、疾病预测等工具,并整合输出为符合指南的答案和叙述性报告。在MIMIC-EchoQA基准测试中,其准确率达50.8%,优于通用及生物医学视频视觉语言模型。分析表明,它能利用定量测量和生理学背景解决临床决策阈值附近的疑难病例。
研究者开源了轻量级分析工具ELANA,用于评估大语言模型在从边缘设备到云集群不同硬件上的延迟与能耗。该工具支持分析模型大小、KV缓存、首字延迟、生成延迟及端到端延迟,兼容Hugging Face所有公开模型,并易于定制以适应压缩或低比特模型,为高效LLM研究和小规模概念验证提供便利。
本文提出了一种名为HGC-Herd的高效异质图压缩框架,旨在解决异质图神经网络在处理大规模图数据时面临的结构冗余和高维特征挑战。该方法无需依赖传统梯度匹配,通过轻量级特征传播编码多跳关系上下文,并采用类内聚类机制为每个类别选取代表性节点,从而生成紧凑且信息丰富的子图。在多个基准数据集上的实验表明,HGC-Herd在保持与全图训练相当甚至更优精度的同时,显著降低了计算时间和内存消耗。
本研究探讨了生成式AI作为“卧底队友”在协作学习中的作用。研究将AI设计为支持型或反对型人格,并基于论证性知识建构的四维框架,分析了212名人类与64个AI参与者在问题解决任务中的对话。研究发现,AI能维持平衡的参与度,但显著重组了认知与社会过程:支持型AI促进概念整合与共识导向推理,而反对型AI则激发批判性阐述与冲突驱动协商。个体学习收益与论证的认知充分性相关,而非发言量,表明智能体AI的教育价值在于提升推理质量与协调性。
本研究提出Motion2Meaning框架,旨在解决AI辅助帕金森病步态分析中缺乏透明度与临床争议渠道的问题。该框架整合了步态数据可视化、基于一维CNN的疾病分期预测模型,以及一个创新的可争议解释界面。该界面引入跨模态解释差异(XMED)安全机制与大型语言模型,使临床医生能验证AI决策并对其错误提出质疑。评估显示,系统在保持AI能力的同时,实现了临床监督与可审计性。
本文提出了一种基于剧本生成的多智能体实验设计自动化框架,旨在降低社会科学计算实验的门槛。该框架将实验设计分为剧本生成、剧本定稿和演员生成三个阶段,通过“编剧”、“导演”和“演员工厂”三类智能体协同工作,将抽象的实验设计转化为可执行的智能体行为脚本。实验表明,生成的智能体能够按照设计脚本执行,并复现与现实情境一致的结果,为政策制定和研究提供了新的决策支持工具。
本文提出并验证了一个名为SHARP(安全、有用、准确、相关、个性化)的原则性框架,用于系统评估应用于个人健康与保健领域的大语言模型。该框架集成了专家评估、自动评分和对抗性测试等方法,并应用于Fitbit Insights健康数据解读系统的迭代开发中。通过对超过13,000名用户的阶段性部署,该框架成功识别了初始测试中未显现的挑战,证明了结合技术评估与真实用户反馈的必要性,为负责任地开发和部署健康AI应用提供了标准化方法。
研究通过专家评估比较了Reddit高赞人类建议与LLM生成建议的质量。结果显示,LLM在整体评分、有效性、温暖度及用户再次寻求建议的意愿上均显著优于人类建议。GPT-4o在除奉承性外的所有指标上均优于GPT-5,表明基准性能提升未必改善建议质量。研究还发现,人类建议经过润色后可与AI建议竞争,且用户对建议代理的偏好(如教练型或朋友型)存在异质性。
本研究通过混合方法(230份问卷与14位专家访谈),探讨了人工智能(AI)如何有效整合进战略技术管理(STM)。研究发现,AI通过数据驱动的战略对齐和持续适应从根本上改变STM,但成功依赖于培育专有数据生态系统、专业人才和稳健的治理能力。研究提出了AIbSTM概念框架,强调最可行的路径是以人为中心的增强模式,即AI作为协作伙伴而非人类判断的替代品。
本研究基于Twin-2K-500数据集,系统评估了大型语言模型驱动的人类数字孪生模拟医疗系统不信任心理特质的能力。结果显示,数字孪生的模拟响应分布更集中、方差更低,极端选项选择更少。虽然能大致复现年龄、性别等主要人口模式,但在捕捉教育水平等细微差异时敏感性较低。研究表明,当前LLM驱动的数字孪生在模拟复杂人类态度方面存在局限,应用于医疗系统政策模拟前需谨慎校准。
本研究提出了一种个性化的城市可达性评估框架,通过整合指数衰减函数与用户可自定义的权重系统,实现了基于个人优先级和生活方式的实时评估。该框架采用网格化离散和两阶段计算架构,将密集预处理与轻量级实时计算分离,使非技术用户也能通过交互界面进行精细化的空间分析,识别社区内部的可达性差异。该研究为理解不同人群如何体验相同的城市空间提供了工具,支持基于证据的政策制定,以解决可达性差距,助力实现可持续发展目标11(可持续城市和社区)的愿景。
本研究针对资源有限的分布式独立游戏开发团队,提出了CIGDI框架,以整合AI工具应对技术债务、协调与倦怠问题。基于对三人团队开发过程的实证分析,研究发现AI虽能降低认知负荷,但也导致了“理解债”——即团队构建的系统复杂度超出了其独立理解和维护的能力,形成对AI的依赖与系统脆弱性。该工作为资源受限团队提供了实用框架,并引发了对AI辅助是“学习阶梯”还是“依赖陷阱”的思考。
本文针对检索增强生成(RAG)中检索文档常含无关或误导性噪声,导致摘要压缩模型易遗漏关键信息的问题,提出了抗噪摘要压缩方法ACoRN。该方法通过更细粒度的文档分类,引入两个新颖的训练步骤:首先对训练数据进行离线数据增强,以增强模型对两类检索噪声的鲁棒性;其次,针对基于语言模型的压缩器难以充分利用多文档信息且存在位置偏差的缺陷,进行微调以生成围绕支持正确答案的关键信息的摘要。实验表明,采用ACoRN训练的T5-large压缩器在保留答案字符串的同时,提升了EM和F1分数,尤其在包含大量降低准确性文档的数据集上表现优异。
本研究评估了大语言模型(LLM)在生成文本时,能否复现基于心智化治疗(MBT)理论框架的语言结构。研究通过五位受过MBT培训的精神科医生对LLM生成的50段对话进行盲评,发现模型在“内隐-外显”和“自我-他人”维度上表现出较高的结构一致性与评分者间信度,但在整合内在状态与外部情境方面存在局限,且整体情感表达趋于中性。
本文探讨了大语言模型(LLMs)未来可能取代传统搜索引擎成为主要信息门户所带来的社会挑战。研究聚焦于LLM提供商、内容创作者和终端用户三大角色,系统识别了15类潜在挑战,并从技术和法律两个维度分析了当前的缓解策略。文章评估了每类挑战的影响,并指出了未来的研究方向,为理解这一技术变革的社会影响提供了框架。
本研究提出了一种用于电磁编队飞行的新型控制器,解决了传统方法中反作用飞轮角动量分布不均、易饱和的问题。该控制器基于角动量守恒原理设计,能同时控制电磁力和电磁力矩,仅需在部分卫星上配置飞轮即可实现整个编队的姿态与位置控制。结合主卫星的简单卸载控制,可有效消除系统角动量累积。数值仿真验证了该控制器在五卫星系统编队保持与重构任务中的有效性。
本研究针对移动健康干预中强化学习面临的用户负担与干预效果平衡难题,在“行动-测量”启发式算法基础上,提出了一种贝叶斯扩展方法。该方法用卡尔曼滤波器风格的贝叶斯更新替代标准Q学习,以维持对Q值的不确定性感知估计,从而实现更稳定、样本效率更高的学习。在小型表格化环境中,贝叶斯方法取得了可比或更优的标量化回报,且方差显著降低,策略行为更稳定。然而,在更复杂的大型移动健康场景中,两种方法均表现不佳,揭示了现有模型假设与现实领域结构性挑战之间的不匹配。
本文提出了AI Co-Artist系统,利用GPT-4等大语言模型,通过直观的视觉界面支持用户迭代演化和精炼GLSL着色器。该系统借鉴了Picbreeder平台的用户引导进化原则,允许用户无需编写或理解代码即可创作实时视觉艺术。评估表明,该系统显著降低了着色器创作的技术门槛,提升了创意成果,并能广泛应用于网站布局生成、建筑可视化等多个创意领域。
研究提出一种仿真优先的流程,将访谈数据转化为276个虚拟患者,用于训练人形机器人的对话代理。通过感知-融合-策略循环,机器人学习决定何时发言、何时回应以及如何避免打断,同时关注信任、节奏和融洽关系。在三种控制器对比中,定制的TD3算法在保持奖励相当的情况下,实现了更全面的覆盖和更稳定的对话节奏。该研究为临床监督下的人形机器人试点奠定了基础。
本文介绍了SimClinician,一个用于心理健康诊断的交互式模拟平台,旨在研究AI诊断界面设计如何影响心理学家对AI建议的采纳、调整或拒绝行为。该平台整合了音频、文本、视线-表情模式等多模态数据,通过虚拟化身模块呈现匿名化动态信息,并将AI输出映射到多模态证据以供心理学家审查。在E-DAIC语料库上的测试表明,增加确认步骤可将AI建议接受率提升23%,同时将升级干预率控制在9%以下,保障了流畅的交互流程。
本研究针对心电图(ECG)分析,首次对语言、通用时序及ECG专用基础模型进行了全面评估。实验表明,通用时序与ECG基础模型在多项任务中取得了高达80%的优异性能,证实了其在心脏活动分析中的有效性。研究不仅提供了详尽的实验结果与深入分析,还指出了基础模型在生理波形分析领域的潜力与局限,为AI辅助医疗诊断提供了重要参考。
本文提出LLM4XCE,一种利用大语言模型进行超大规模MIMO信道估计的新框架。针对6G网络中混合近/远场信道带来的估计挑战,该方法通过精心设计的嵌入模块与并行特征-空间注意力机制,深度融合导频特征与空间结构,构建语义丰富的表征。仅微调顶层Transformer层,即可高效捕获导频数据中的潜在依赖关系。仿真表明,该框架在混合场条件下显著优于现有方法,实现了更高的估计精度与泛化性能。
本文提出DW-KNN,一种改进的K近邻分类器。传统方法假设所有邻居同等可靠,在异构特征空间中存在局限。DW-KNN通过整合指数距离权重与邻居有效性评估,实现了实例级可解释性,能抑制噪声或错误标记样本,并降低对超参数的敏感性。在9个数据集上的评估表明,其平均准确率达0.8988,在六种方法中排名第二,且交叉验证方差最低(0.0156),预测稳定性可靠。统计显著性测试证实其性能显著优于对比方法。该方法为需要可解释预测的高风险应用提供了简单有效的方案。
本文提出LUMOS,一种基于Transformer架构的大规模用户模型,旨在解决在线B2C平台用户行为预测的规模化难题。该模型摒弃了传统任务特定模型和人工特征工程,仅使用原始用户活动数据进行多任务联合学习。其核心创新在于引入一种新颖的跨注意力机制,能够将未来已知事件(如节假日、促销)作为条件融入预测,从而捕捉复杂行为模式。通过在包含2750亿活动令牌、2.5亿用户的生产数据集上进行实验,LUMOS在5项任务上均优于传统基线模型,二分类任务ROC-AUC平均提升0.025,回归任务MAPE降低4.6%。在线A/B测试验证了其商业价值,使日活跃用户数提升了3.15%。
研究团队推出了EEG-Bench,这是一个专注于评估基于脑电图(EEG)的基础模型在临床应用中性能的统一基准测试框架。该基准覆盖了癫痫、精神分裂症、帕金森病等11项明确的诊断任务,涉及14个公开EEG数据集。其特点是预处理步骤极简、评估协议标准化,支持经典基线模型与现代基础模型的并行比较。结果表明,尽管基础模型在某些场景下表现强劲,但更简单的模型在面临临床数据分布偏移时往往仍具竞争力。为促进可复现性与应用,所有处理后的数据与代码均已开源。
下一代战术网络面临匿名性、低延迟与低带宽开销无法兼得的“三难困境”。CIDP协议通过联合设计网络控制器、鲁棒控制屏障函数与天线旁瓣调制优化,在物理层注入熵,实现了近乎等时、低开销的匿名通信。理论证明与仿真表明,该协议在保证严格抖动边界的同时,能扩大约40%的匿名集,且吞吐量损失仅约5%,为自主JADC2部署提供了首个兼具强匿名性、严格等时性与频谱效率的可证明保障架构。
本文提出了一种名为TRUCE的可信合规执行框架,旨在解决HIPAA与Cures Act等法规冲突导致的健康数据交换合规难题。该框架利用人工智能、知识表示与语义网技术,通过推理数据交换上下文、评估用户信任度与数据真实性来自动化合规流程。其信任管理方法融合了法规静态规则与组织政策的动态规则。验证表明,TRUCE能有效管理多达百万条CDC接触者追踪患者数据的实时交换,帮助组织简化合规工作并确保隐私法规遵从。
本文提出GOODSPEED框架,旨在解决多用户分布式大语言模型推理中有效吞吐量与公平性的平衡难题。该框架采用一个中央验证服务器协调多个异构的草稿服务器,通过创新的梯度调度算法动态分配令牌验证任务,最大化对数效用函数以确保服务器间的比例公平。理论分析表明,GOODSPEED在稳态下能收敛至最优有效吞吐量分配,并在动态负载下保持接近最优的性能,为资源受限的边缘环境提供了可扩展、公平且高效的LLM推理解决方案。
本文提出了一种利用有限自动机(DFA)同步积来确保广义弧一致性(GAC)的新方法。该方法针对矩阵形式的约束问题,通过构建一个正则约束和多个表约束,得到一个Berge-无环的分解,从而高效实现GAC。研究通过一个氢分布问题的求解,验证了该方法在快速找到最优解并证明最优性方面的有效性。
本文针对ERC4907标准在去中心化多时段调度场景中的局限性,提出了M-ERC4907扩展方法。该方法创新性地支持多时段批量配置与多用户同时授权,打破了原有标准的顺序授权约束。在Remix开发平台上的实验表明,M-ERC4907能显著减少链上交易和Gas总消耗,有效提升了系统的可扩展性与频谱资源分配效率。
本文介绍了Psychlysis的开发,这是一款基于问卷的机器学习应用,旨在分析用户当前的心理状态,并利用机器学习提供改善情绪的建议。该应用采用OCEAN人格模型来理解用户的性格特质,从而提供个性化的健康建议。其重点在于改善用户情绪,而非仅仅检测情绪。初步结果显示,该模型在预测用户情绪和提供个性化推荐方面具有潜力。
本研究提出了一种针对性的强化学习框架,旨在同时缓解大语言模型在短问答和长问答任务中的内在与外在幻觉。通过改造TriviaQA数据集处理外在幻觉(错误内部知识),并利用FineWeb长文本构建事实锚定奖励机制来应对内在幻觉(不忠于上下文)。该框架还明确奖励模型拒绝回答无法回答的问题,以培养其谨慎性。实验表明,该方法在多个基准测试中显著提升了性能,有效减少了两种幻觉类型,为解决大模型高级推理能力与事实可信度之间的关键矛盾提供了实用方案。