cs
04-01 00:00
针对大语言模型在知识图谱问答中易产生事实性错误的问题,本文提出了ULTRAG框架。该框架通过为LLM配备现成的神经查询执行模块,无需对LLM或执行器进行任何重新训练,即可在知识图谱上进行多跳推理。实验表明,ULTRAG在KGQA任务上取得了优于现有KG-RAG方案的性能,并能以相当或更低的成本处理包含数亿实体和数十亿关系的大规模知识图谱(如Wikidata)。
知识图谱问答检索增强生成多跳推理大语言模型神经查询执行
cs
04-01 00:00
Focus360系统通过自然语言描述识别360度VR视频中的关键元素,并应用视觉效果组合来无缝引导用户注意力。该系统旨在提升用户在沉浸式视频中的参与度,在保持沉浸感的同时改善其关注焦点。演示中的“360度野生动物园之旅”展示了其实际应用效果。
虚拟现实注意力引导360度视频人机交互自然语言处理
cs
04-01 00:00
本研究针对生物材料微形貌设计中对周期性结构的严格需求,提出了DF-ACBlurGAN模型。该模型通过整合频域重复尺度估计、尺度自适应高斯模糊和晶胞重建,在训练中显式地推理长程重复性,有效平衡了局部特征的锐利度与全局周期性的稳定性。相较于传统生成方法,该模型在多个生物材料数据集上展现出更优的重复一致性和可控的结构变化能力。
生成对抗网络生物材料设计结构感知周期性图案条件生成微形貌
cs
04-01 00:00
本文介绍了一本旨在帮助读者深入掌握计算机系统设计的指南。作者指出,相较于快速教程或AI摘要,研读原始研究论文是理解系统设计核心的最佳途径。该书作为一份路线图,精选了分布式系统、操作系统和大数据领域的奠基性论文,不仅剖析系统功能,更深入探讨其设计背后的深层原因。本书内容源于顶尖高校和行业研讨会的多年笔记,旨在帮助厌倦表面知识的读者培养解决复杂问题的技术耐心,从而将工程技艺提升至专业水平。
系统设计经典论文分布式系统操作系统学习路径工程技艺
cs
04-01 00:00
本文提出了一种用于分布式传感器网络的混合集体推理框架,旨在解决物联网、车联网等场景下,资源受限的全局分类问题。该框架创新性地融合了分布式数据交换与云/边缘计算范式,允许节点在运行时动态决策通信策略。通过推导最优策略并评估不同数据分布下的性能,分析表明,该方法能以显著降低的理论通信成本,维持与集中式联合推理相当的分类精度,为处理更复杂数据分布的实际应用提供了高效推理潜力。
分布式推理传感器网络混合通信集体分类资源优化边缘计算
cs
04-01 00:00
本文针对存在拜占庭攻击和通信约束的分布式训练问题,提出了一种名为LAD的新方法。该方法在训练开始前将完整数据集分配给各设备,并在每次迭代中利用循环梯度编码向设备冗余分配计算任务。诚实设备计算固定数量数据子集的本地梯度并进行编码后发送至服务器,服务器再通过鲁棒聚合规则处理来自诚实设备和潜在恶意设备的信息。理论分析表明,该方法通过跨设备计算冗余,显著提升了对抗拜占庭攻击的鲁棒性并降低了解决方案误差。此外,研究还进一步提出了通信高效的变体Com-LAD,在受限环境下进一步降低了通信开销。数值结果验证了所提方法在增强拜占庭弹性和通信效率方面的有效性。
分布式训练拜占庭鲁棒性梯度编码通信效率鲁棒聚合
cs
04-01 00:00
本文针对现代HPC和AI工作负载中GPU节点的一类关键故障——‘脱离类故障’(GPU在驱动或互连层面突然不可用,且缺乏数值前兆)——提出了一种可观测性感知的预警框架。该框架联合建模了(i) GPU遥测中利用率感知的热漂移特征,以及(ii)监控管道退化指标(如抓取延迟增加、样本丢失、时间序列缺口和设备指标消失)。在GWDG生产环境遥测数据上的评估表明,脱离类故障的数值前兆极少,主要通过结构性遥测崩溃来观测,而联合建模相比仅使用GPU检测能显著增加预警提前时间。
gpu故障可观测性预警系统高性能计算ai基础设施遥测分析
cs
04-01 00:00
本研究针对Nextflow工作流管理系统在生物信息学、地球观测等领域的分布式任务执行监控难题,开发了一款基于插件机制的监控工具。该工具通过Nextflow 21.10版本的插件机制实现,无需定制分支,支持在线监控执行过程,提供比内置监控更详细灵活的数据采集,同时保持与社区标准wf-commons工具的兼容性。
工作流监控nextflow插件分布式计算性能分析生物信息学
cs
04-01 00:00
本研究调查了384名菲律宾高校实习生在实习期间对智能工具的使用情况。研究发现,实习生主要将AI工具用于四大目的:提升生产力与报告撰写、辅助沟通与内容起草、提供技术协助与代码支持,以及独立完成任务。ChatGPT是最常用的工具,其次是Quillbot、Canva AI和Grammarly。学生表现出中等程度的AI使用自信,并在任务中进行了有选择且符合伦理的应用。研究表明,AI工具能有效辅助实习生完成与工作准备相关的各项活动,并建议高等教育项目应纳入AI素养培训,同时制定清晰的政策以确保公平访问,从而支持负责任的使用并为学生未来职业做好准备。
教育技术人工智能应用工作本位学习学生实习数字素养伦理使用
cs
04-01 00:00
本文提出了一种名为“可读共识”的新方法,通过将“崩溃墙”法定人数构造映射到物理分层网络,分离了跨层义务与层内复制两个独立问题。这使得协议故障模式变得清晰可读:运维人员仅凭墙结构和连接状态即可判断哪些层级仍保留全局共识能力,无需运行时探测。在一个包含地球、近地轨道、月球和火星的10节点拓扑中验证表明,在火星合日通信中断期间,四个层级中的三个仍能保持全局活性,仅断开连接的层级失效。该方法还揭示了对称网格法定人数无法表达的领导选举成本梯度。所有设计均通过TLA+进行了详尽的法定人数交集验证。
分布式共识法定人数系统非对称网络拓扑感知故障可读性tla+验证
cs
04-01 00:00
针对边缘计算中无服务器负载的随机性和突发性挑战,本文提出了一种新颖的稳定性感知自动扩缩容框架。该框架通过集成注意力增强的双层LSTM架构与近端策略优化(PPO)智能体,将工作负载预测与控制统一起来。其核心创新在于利用深度时间注意力机制,有选择地加权历史状态,有效过滤高频噪声,同时保留需求变化的关键先兆。在真实Azure Functions跟踪数据上的实验表明,相较于单层LSTM基线,该方法将第90百分位延迟降低了约29%,同时将副本变动减少了39%,显著提升了生产边缘环境中自动扩缩容的可靠性和稳定性。
kubernetes自动扩缩容边缘计算注意力机制lstm深度强化学习资源管理
cs
04-01 00:00
本研究首次对NVIDIA、AMD、Intel和Apple四大GPU厂商的指令集架构进行了系统性跨厂商分析。基于超过5000页的官方文档与逆向工程资料,研究识别出10个在所有架构中都存在的硬件不变计算原语、6个参数化实现的概念以及6个根本性的设计分歧。基于此,研究者提出了一个基于并行计算物理约束的、厂商中立的抽象GPU执行模型。在NVIDIA T4和Apple M1这两个架构差异最大的平台上进行验证,该模型在5/6的测试场景中达到或超过了厂商原生优化性能。唯一例外(NVIDIA上的并行规约,性能为原生的62.5%)揭示了“波内洗牌”必须作为强制原语,从而完善了所提出的模型。
gpu架构指令集并行计算跨厂商分析硬件原语抽象模型
cs
04-01 00:00
本文系统阐述了构建SCAN统计模型检查器所依赖的形式化理论基础。统计模型检查是一种通过统计抽样和分析来验证随机系统是否满足特定概率性质的技术。该工作为SCAN工具提供了坚实的数学框架,使其能够对复杂随机模型(如通信协议、生物系统)进行高效、可靠的自动化验证。
统计模型检查形式化验证随机系统概率性质自动化验证
cs
04-01 00:00
本文提出StepCache,一种与后端解耦的步级缓存复用层,用于处理具有共同结构但局部约束(如输出格式、变量名)不同的LLM请求。它将输出分割为有序步骤,检索最佳匹配缓存,通过轻量级任务感知检查进行验证,并仅对失败区域进行选择性修补再生。系统还支持JSON的严格结构化输出强制与单步修复。在数学与JSON任务的CPU基准测试中,StepCache将平均延迟从2.13秒降至0.67秒,总token使用量从36.1k减少至27.3k,并在任务特定检查下将端到端正确率从72.5%提升至100%。
大语言模型服务缓存复用步级验证选择性修补结构化输出性能优化
cs
04-01 00:00
本文提出GaloisSAT,一种新颖的混合GPU-CPU SAT求解器,旨在突破传统求解器性能瓶颈。它首先在GPU上利用现代机器学习基础设施运行一个可微的SAT求解引擎,随后在CPU上进行基于传统CDCL的求解阶段。在SAT Competition 2024基准测试中,与最先进的求解器Kissat和CaDiCaL相比,GaloisSAT在官方PAR-2指标上取得显著提升:在可满足类别中实现8.41倍加速,在不可满足类别中实现1.29倍加速。
布尔可满足性可微求解gpu加速混合求解器有限域代数
cs
04-01 00:00
本研究针对物联网设备认证中的硬件安全问题,设计了一种基于电阻-电容(RC)的动态可重构物理不可克隆函数(PUF)。该PUF利用32位挑战-响应对(CRP),旨在抵抗机器学习(ML)和深度学习(DL)建模攻击。研究通过生成CRP数据集,并利用人工神经网络(ANN)、梯度提升神经网络(GBNN)、决策树(DT)、随机森林(RF)和XGBoost等多种先进ML模型进行攻击测试。结果显示,尽管所有模型在训练集上均达到100%准确率,但在测试集上的表现接近随机猜测(50.06%~53.27%),证明了该PUF架构对ML驱动建模攻击的强大抵抗力。这种动态可重构设计以最小的资源开销增强了安全性,为资源受限的物联网环境提供了一种低成本、高效的身份认证解决方案。
物联网安全物理不可克隆函数机器学习攻击硬件认证动态可重构rc电路
cs
04-01 00:00
本文研究一类新的多智能体单机调度问题,每个作业对应一个智能体,其效用随完成时间增加而递减。核心目标是实现公平性,即最大化所有智能体中的最小效用。研究分析了问题的计算复杂性,并针对不同变体提出了解决方案。对于一般情况,提出了二分搜索和精确贪婪算法。研究还探讨了带释放时间和截止日期的变体,证明了任意释放日期下的强NP难解性,以及处理时间相同时的多项式可解性。此外,本文对比了公平性目标(最大化最小效用)与效率目标(最大化效用总和),并研究了在预算约束下调整线性效用函数、插入新作业以及双层博弈(领导者通过修改效用函数引导追随者达成目标调度)等扩展场景。
调度理论多智能体系统算法公平性效用优化计算复杂性np难问题
cs
04-01 00:00
针对大规模语言模型推理中专家并行架构导致的负载不均衡问题,本文提出CRAFT框架。该框架通过细粒度的层间评估,精确计算专家副本的收益,在给定GPU内存预算下实现最优负载均衡,无需额外训练或修改模型。实验表明,在千亿至万亿参数模型部署中,CRAFT相比现有副本技术平均提升端到端服务吞吐量1.14倍(最高达1.2倍)。
专家混合模型负载均衡推理优化gpu内存管理大规模语言模型
cs
04-01 00:00
本文提出了Spark-LLM-Eval,一个基于Apache Spark原生构建的分布式大语言模型评估框架。它将评估任务视为数据并行问题,通过分区处理海量样本并聚合结果。该框架的核心贡献在于强调统计严谨性:所有报告的指标均包含自助法置信区间,模型比较则根据指标类型(如准确率、F1分数)自动应用配对t检验、McNemar检验或Wilcoxon符号秩检验。此外,系统通过基于Delta Lake的内容可寻址响应缓存,解决了重复调用LLM的高昂成本问题,允许在不重新运行推理的情况下迭代优化评估指标。基准测试表明,其性能随集群规模线性扩展。
大语言模型评估分布式计算统计检验apache spark性能基准
cs
04-01 00:00
针对设备端大语言模型性能与效率受限的问题,本文提出了一种名为FedRefine的新型联邦推理框架。该框架通过让异构LLM以隐私保护的方式进行通信与协作,共享KV缓存而非原始数据或模型权重,在满足任务QoS需求与隐私约束的同时,充分利用设备端的推理能力。初步数值结果验证了其优越性,为LLM原生通信与协作领域提供了新的研究范式。
联邦推理大语言模型异构协作隐私保护kv缓存设备端推理
cs
04-01 00:00
本文以游戏《明日方舟》中的AI系统PRTS为案例,探讨了在生成式AI日益介入决策的背景下,如何通过交互过程构建解释。研究发现,PRTS提供了“可用但不可验证”的解释,足以引导玩家行动,却不足以建立稳定的因果理解。通过不完整信息、延迟反馈和叙事性信任破坏,玩家的能动性从直接控制转向解释性和溯因推理。论文将这种模式概念化为“解释性能动性”,为面向可解释AI的交互设计提供了新视角。
可解释ai人机交互游戏研究玩家能动性交互设计溯因推理
cs
04-01 00:00
本文针对电路仿真中需反复求解线性方程组的问题,提出两种加速方法:一种是将并行计算策略首次应用于高斯-约当消元法(GJE),另一种是提出一种全新的迭代前部分系统降阶方法。研究在C++中利用OpenMP实现了这些算法,并在多种输入矩阵上进行了测试。分析表明,两种方法均能提升性能,且在大型矩阵上结合使用后,并行效率在部分降阶后得以保持甚至提升。
电路仿真并行计算高斯-约当消元系统降阶线性方程组性能优化
cs
04-01 00:00
本文提出了一种名为ZEUS的新型高效数值优化方法,并开源了其实现。该方法集成了粒子群优化(PSO)、BFGS算法、自动微分(AD)与GPU加速四大关键技术,旨在解决高维非凸优化问题的计算挑战。其核心流程是:首先利用PSO获取一组优质的初始点,然后并行地以这些点为起点独立运行BFGS算法进行局部优化。BFGS所需的梯度通过自动微分自动计算,无需用户手动推导。GPU的运用则大幅提升了计算速度。系统研究表明,少量PSO迭代与BFGS的结合能有效改善全局收敛性。
数值优化gpu加速粒子群优化bfgs算法自动微分非凸优化
cs
04-01 00:00
本文献综述系统回顾了将图形处理单元(GPU)中的光线追踪(RT)核心用于通用计算的研究。通过分析59篇文献,特别是其中35篇提出新RT解决方案的研究,综述发现通过将非图形问题(如物理模拟、几何查询)重构为几何查询,RT核心能利用其固有的并行性和高效的树遍历能力,在某些问题上实现高达$200\times$的加速。分析表明,最近邻搜索及其变体,以及依赖启发式方法减少不必要计算的问题,最能从RT核心中获益。研究结果为判断哪些应用适合利用RT硬件提供了前瞻性指导。
光线追踪核心通用计算gpu加速几何查询性能分析文献综述