cs
03-17 00:00
本文提出Audo-Sight,一种为盲人与低视力(BLV)用户设计的AI辅助系统。该系统通过分布在边缘和云端的专用处理管道,结合专家与通用AI代理,分析用户查询的紧急性和上下文以推断意图,并动态地将查询与场景帧路由至最合适的管道。对于需要快速响应的任务,系统同时利用边缘(快速生成初始响应)和云端(提供更详细准确信息)管道,并通过其创新的“响应融合引擎”无缝融合两者输出,确保响应的及时性与高准确性。系统评估表明,相比纯云端商业方案,Audo-Sight在紧急任务中语音输出快约80%,所有任务中完整响应生成快约50%。
辅助技术边缘计算人机交互环境感知视障辅助ai代理
cs
03-17 00:00
本文提出SHAMISA,一种非对比的自监督框架,用于解决无参考图像质量评估(NR-IQA)中依赖大量人工标注的瓶颈。其核心创新在于引入“隐式结构关联”——一种从合成元数据和内在特征结构中推断出的、可控制的软关系,替代了传统的刚性二元相似性约束。方法通过一个组合失真引擎,从连续参数空间生成不可数的退化图像族,并确保每次仅一个失真因子变化,从而在嵌入空间中对具有共享失真模式的图像进行精细控制。模型利用编码已知退化轮廓和新兴结构亲和力的双源关系图来指导学习,最终仅需在冻结的编码器特征上训练一个线性回归器进行质量预测。实验表明,该方法在无需人工质量标注或对比损失的情况下,实现了强大的整体性能、跨数据集泛化能力和鲁棒性。
图像质量评估自监督学习隐式结构关联无参考评估组合失真
cs
03-17 00:00
本文针对无需全球共识、由发行者商品/服务背书的草根加密货币(Grassroots Cryptocurrencies)缺乏生息信贷流动性的问题,提出了“草根债券”(Grassroots Bonds)概念。通过为草根币引入到期日,将其重构为已到期的债券,从而允许用流动性硬币交换带息的未来到期债券。研究证明,数字社会合约可以表达信贷额度、贷款、远期合约、期权等全套金融工具,作为草根债券的自愿互换,且经典流动性比率同样适用。该形式化规范已由AI在GLP逻辑编程语言中实现,并通过多智能体乡村市场场景进行了演示。
草根加密货币数字债券市场流动性数字社会合约去中心化金融智能合约
cs
03-17 00:00
本研究提出LLM-MINE框架,利用大语言模型从非结构化的电子健康记录临床文本中自动挖掘阿尔茨海默病及相关痴呆症的表型。该方法使用专家定义的表型列表,通过卡方分析验证了不同队列间表型差异的统计显著性,其中记忆障碍是最强的区分因子。在无监督疾病分期任务中,结合表型列表的少样本提示方法取得了最佳聚类性能(ARI=0.290,NMI=0.232),显著优于生物医学命名实体识别和基于词典的基线方法。结果表明,基于LLM的表型提取是从非结构化文本中发现具有临床意义的ADRD信号的有效工具。
大语言模型阿尔茨海默病表型挖掘临床文本电子健康记录无监督学习
cs
03-17 00:00
本文提出SyMPLER模型,用于非平稳环境下的时间序列预测。该模型基于动态分段线性逼近,其核心创新在于利用统计学习理论中的泛化界(VC理论),自动根据预测误差决定何时添加新的局部线性模型,无需对数据进行显式聚类。实验表明,SyMPLER在保持与黑盒模型及现有可解释模型相当性能的同时,提供了揭示系统行为洞察的人类可解释结构,从而在准确性与可解释性之间取得了平衡。
持续学习时间序列预测可解释aivc理论非平稳环境分段线性模型
cs
03-17 00:00
本文指出,为智能交通系统(ITS)和自动驾驶应用提供算力的图形处理器(GPU)在安全监控方面存在严重盲区。研究发现,未经管理的GPU工作负载会悄无声息地降低系统实时性能,构成潜在安全风险。文章强调了在ITS中加强GPU安全监控与管理的必要性。
智能交通系统gpu安全自动驾驶实时性能系统安全
cs
03-17 00:00
本研究将经典两阶段峰谷定价模型扩展至包含时长限制的储能系统。在太阳能主导的电力系统中,研究发现峰谷电价差主要反映储能固定成本而非循环效率损失的可变成本。与传统发电不同,储能因时长约束需按每次高峰事件回收能量容量成本,而非在总高峰时段内分摊。数值算例揭示了均衡价格与容量投资的新规律。
储能定价峰谷电价投资回收时长约束电力市场容量成本
cs
03-17 00:00
本研究探索使用单个天花板摄像头分析面对面实践学习中的协作行为。在本科护理模拟教学中,研究者首先定义了7类可观察行为,并基于YOLO训练检测模型。在52场实验数据中,模型在测试集上达到精确率0.789、召回率0.784和mAP@0.5为0.827。研究发现,仅比较行为频率时,高低绩效组无显著差异;但当结合空间位置分析时,两组在任务执行和协作模式上呈现明显差异:高绩效组在主工作区与患者互动更多,低绩效组则更多使用手机并在次要区域活动。这表明行为数据需结合空间上下文才更具信息价值。
计算机视觉协作学习分析行为识别教育技术多模态分析护理教育
cs
03-17 00:00
研究发现,即使经过去偏训练的大语言模型在面对未知的偏见提示时,仍可能产生有害输出。本文首先通过分布外检测验证了此类高偏见提示构成了分布偏移,并指出静态模型在此偏移下性能会下降。为此,作者提出了CAP-TTA,一种测试时自适应框架。该框架仅在偏见风险“触发器”超过阈值时,才执行上下文感知的LoRA更新,并利用预计算的对角“预处理器”实现快速稳定的参数调整。在多种有毒提示设置和基准测试中,CAP-TTA有效降低了偏见(经人工评估确认),同时其更新延迟远低于AdamW/SGD方法。此外,它在保持可比去偏效果的同时,显著提升了叙事流畅性,缓解了灾难性遗忘问题。
测试时自适应大语言模型去偏分布外泛化叙事生成低秩自适应
cs
03-17 00:00
研究团队推出τ-Voice基准测试,首次在真实复杂任务场景下评估全双工语音助手(可同时听说的系统)。该框架结合了可验证的复杂任务完成度、全双工交互和真实音频环境,并引入可控的语音用户模拟器,支持多种口音和真实音频环境。在278项任务测试中,GPT-5(推理)任务完成率达85%,而语音助手在理想条件下仅达31-51%,在含噪声和多样口音的真实条件下降至26-38%,仅保留文本能力的30-45%。定性分析显示79-90%的失败源于智能体行为。τ-Voice为衡量语音助手在自然性、对话性和可靠性方面的进展提供了可复现的测试平台。
语音助手基准测试全双工交互任务完成度人机交互人工智能评估
cs
03-17 00:00
本研究提出了一种新型量子增强视觉Transformer(ViT)模型,用于遥感影像的洪水检测。该模型通过并行处理架构,将传统ViT的全局上下文感知能力与4量子比特参数化量子电路的特征提取能力相结合,融合两种表征以优化二元分类。实验结果表明,该混合模型显著超越了经典ViT基线,将整体准确率从84.48%提升至94.47%,F1分数从0.841提升至0.944,尤其在复杂地形中表现出更强的判别能力。这验证了量子-经典混合模型在水文监测和地球观测应用中的潜力。
量子机器学习视觉transformer洪水检测遥感影像混合模型灾害管理
cs
03-17 00:00
针对大语言模型在标准化医学考试中表现优异,但在处理真实、模糊、长尾的医疗咨询时质量不佳的问题,本研究提出了QuarkMedBench基准。该基准包含20,821个单轮查询和3,853个多轮会话,覆盖临床诊疗、健康咨询与专业查询三大场景。研究创新性地提出一个自动化评分框架,通过多模型共识与基于证据的检索,为每个查询动态生成约9.8个细粒度评分标准(总计超22万个),以客观评估开放式回答。该框架通过分层加权与安全约束,结构化量化医学准确性、关键点覆盖与风险拦截,在降低人工评分成本与主观性的同时,其生成的评分标准与临床专家盲审的一致性率达91.8%。基准测试揭示了顶尖模型在应对真实临床细微差别时存在显著性能差异,凸显了传统考试指标的局限性。QuarkMedBench为衡量大语言模型处理复杂健康问题的能力提供了一个严谨、可复现的标尺,其框架本身支持动态知识更新,可防止基准过时。
医疗大模型评测真实世界场景自动化评分基准测试开放式问答评估
cs
03-17 00:00
本文提出FMS²,一个统一的流匹配框架,用于解决薄结构(如裂纹、血管)分割任务中拓扑敏感、标注成本高和跨域泛化差的问题。框架包含两个模块:SegFlow将分割任务重构为连续的图像到掩码传输过程,通过流匹配回归损失学习速度场,并使用ODE积分输出掩码,在多个基准测试中显著提升了分割的连续性和拓扑准确性;SynFlow则是一个掩码条件图像生成器,能生成像素对齐的合成图像-掩码对,通过可控的掩码生成器模拟结构变化,有效缓解标注数据稀缺和域偏移问题。实验表明,该方法在有限标注下能恢复接近全监督的性能。
图像分割流匹配薄结构数据合成域适应拓扑感知
cs
03-17 00:00
本文提出MASS(掩码引导自监督学习)方法,旨在解决3D医学影像领域缺乏通用基础模型的问题。该方法将上下文分割作为预训练任务,利用自动生成的类别无关掩码作为结构监督信号,从大规模无标注的CT、MRI和PET数据中学习包含外观、形状、空间上下文和解剖关系的语义丰富表征。实验表明,MASS在少量标注数据下(仅需20-40%标注)即可达到全监督性能,在少样本分割任务上超越现有自监督基线方法超过20个Dice分数,并在未见病理分类任务上匹配了使用数千样本的全监督训练效果。
医学影像自监督学习3d分割基础模型表征学习
cs
03-17 00:00
本文提出PDE-SSM,一种创新的空间状态空间模块,用于解决视觉Transformer在生成建模中因自注意力机制带来的二次计算成本和弱空间归纳偏置问题。该方法用可学习的对流-扩散-反应偏微分方程(PDE)替代注意力机制,通过物理启发的动力学建模信息流,而非全连接令牌交互,从而编码了强大的空间先验。在傅里叶域求解该PDE实现了全局耦合,计算复杂度降至近线性的 $O(N \log N)$,为注意力机制提供了一个原理性强且可扩展的替代方案。研究者将PDE-SSM集成到流匹配生成模型中,构建了PDE-SSM-DiT。实验表明,PDE-SSM-DiT在性能上匹配或超越了最先进的扩散Transformer,同时显著降低了计算开销。这证明,正如一维场景中状态空间模型(SSM)取代注意力一样,多维PDE算子为下一代视觉模型提供了高效且富含归纳偏置的基础。
扩散transformer状态空间模型偏微分方程谱方法生成模型计算效率
cs
03-17 00:00
本研究通过增强现实模拟器进行户外实验,探究了自动驾驶汽车(AVs)的外部人机界面(eHMIs)与不同活动状态行人(步行者与跑步者)的交互效果。研究发现,无eHMI时交互效果最差。步行者倾向于停车并综合验证eHMI信号与车辆行为,能有效处理动画和红绿灯颜色变化两种信号。而跑步者由于面临更大的时间压力,更依赖eHMI信号而非车辆行为本身,且为快速决策,他们更偏好颜色变化信号而非动画信号。这些发现对设计更具包容性、促进公共健康的eHMI至关重要。
自动驾驶汽车人机交互行人安全外部界面增强现实
cs
03-17 00:00
针对先进工艺节点中接触多晶硅间距与下层金属间距解耦的趋势,本研究提出了CPCell——一个高效的布局生成框架。它通过精细化的分层网格图与基于约束规划的布局布线协同优化,支持任意的齿轮比与偏移参数。框架通过引入中间层布线、启用M0引脚、引脚可访问性约束以及加权多目标优化来提升布局质量。为扩展到最多48个晶体管的网表,采用了晶体管聚类、相同晶体管分区、布线下界收紧及提前终止等加速技术。全面的单元级与模块级研究评估了不同参数选择,并量化了所提优化目标对功耗、性能、面积及IR压降的影响。
标准单元布局布局布线协同优化约束规划先进工艺节点设计工艺协同优化电子设计自动化
cs
03-17 00:00
本文提出TSDCRF框架,旨在解决视频多目标跟踪中隐私保护与跟踪性能的平衡难题。该框架包含三个核心组件:1) 基于可配置隐私预算的校准高斯噪声,实现$(\varepsilon,\delta)$-差分隐私;2) 归一化控制惩罚,在注入噪声前对不稳定或冲突的类别预测进行降权,以稳定跨帧关联;3) 时序动态条件随机场,在噪声注入后强制执行时间一致性并纠正轨迹偏差,从而减少ID切换并增强对轨迹劫持的鲁棒性。实验表明,TSDCRF在MOT16等多个数据集上,相比白噪声及现有方法,在保持隐私的同时实现了更优的隐私-效用权衡。
多目标跟踪隐私保护差分隐私条件随机场轨迹关联计算机视觉
cs
03-17 00:00
针对Transformer模型在隐私保护推理中计算与通信开销高的问题,本文提出SecDTD方案。该方案通过将令牌丢弃提前至推理早期阶段,有效降低了Softmax等关键组件的开销。其核心创新包括:1)最大中心归一化(MCN),一种独立于Softmax的新型评分方法,支持早期令牌丢弃且精度无损;2)OMSEL,一种更快的茫然中值选择协议,相比现有基于排序的方法实现16.9倍加速。在BOLT和BumbleBee框架下的实验表明,SecDTD可在不损失精度的前提下实现端到端推理4.47倍加速。
安全推理transformer令牌丢弃隐私计算性能优化
cs
03-17 00:00
本文探讨了微服务架构在构建可扩展机器学习系统中的应用。随着机器学习在现代系统中的核心地位日益凸显,高效管理、部署和扩展模型成为关键挑战。文章通过分析Netflix、Uber和Google等公司的实践,阐述了微服务如何将复杂的ML系统拆分为独立、可独立构建和扩展的组件,以应对训练、部署和监控等关键任务。模拟研究表明,基于微服务的设计能够有效降低延迟、提升可扩展性,从而在推荐系统等大规模应用中实现更快速、高效和响应灵敏的机器学习服务。
微服务架构机器学习系统可扩展性系统设计推荐系统模型部署
cs
03-17 00:00
本研究提出首个用于PET诊疗(PET theranostics)的多智能体框架TheraAgent,旨在解决前列腺癌放射性配体疗法(RLT)疗效预测的三大挑战:数据稀缺、异构信息整合与证据推理。其核心创新包括:1)多专家特征提取与置信度加权共识;2)自演化智能体记忆(SEA-Mem),可从有限病例中学习预后模式;3)证据校准推理,将预测结果锚定于VISION/TheraP临床试验证据。在35例真实患者和400例合成病例上的评估显示,TheraAgent在真实患者中的总体准确率达75.7%,优于现有方法超过20%,为PET诊疗领域提供了可信赖的AI决策支持蓝图。
pet诊疗多智能体证据推理疗效预测前列腺癌ai医疗
cs
03-17 00:00
本文针对多示例学习在医学图像诊断中忽视误分类严重性的问题,提出了一种非对称错误严重性感知训练策略。该方法将诊断类别组织为层次结构,采用严重性加权的交叉熵损失函数,对高风险误判施加更强惩罚。同时,通过概率对齐和语义特征重组技术,确保层次一致性并适应多症状临床病例。实验在公开及内部真实数据集上表明,该方法相比现有方法能显著减少诊断中的关键错误,并在自然领域数据上验证了其泛化能力。
多示例学习错误严重性医学图像诊断层次分类非对称损失特征重组
cs
03-17 00:00
本研究提出了首个用于评估音频表征组合性的基准框架。音频组合性指将声音场景表示为构成声源与属性的组合,并对其进行系统化操作。针对当前评估协议中该特性的缺失,研究借鉴视觉与语言领域的思路,设计了两个核心任务:A-COAT测试加性变换下的表征一致性,A-TRE探究从属性级基元重构音频的能力。两项任务均基于大规模合成数据集,通过精确控制声学属性变化,为音频嵌入的组合性结构提供了首个系统性评估基准。
音频表征组合性评估听觉感知基准测试合成数据集
cs
03-17 00:00
为应对针对数据中心核心管理基础设施的分布式拒绝服务攻击,研究者开发了一种基于图神经网络(GNN)的检测系统。该系统采用Graph U-Nets架构,能够自动分类并缓解DDoS流量。模型利用开源网络流数据进行训练,有效识别了威胁现代数据中心的多层DDoS攻击模式。在多个开源数据集上的评估显示,该系统F1分数超过95%,精确度高达98.5%。该方案对现有运维流程改动极小,可集成于数据中心网络的关键节点,显著降低服务中断风险与声誉损失。
图神经网络ddos防护数据中心安全网络安全graph u-nets