cs
04-10 00:00
本文系统梳理了形式方法先驱让-雷蒙·阿布里亚尔五十余年的学术生涯与核心贡献。他主导开发了Z规范表示法、B方法及Event-B,并成功将其应用于大规模工业系统。研究追溯了其思想演变——从早期实时语言与数据库工作,到形式化规范、精化与证明的基础性贡献,再到Atelier B与Rodin平台等工业级工具的开发。文章将其工作置于历史、学术与工业背景中,评估了其对软件工程及程序形式化推理的持久影响。
形式方法软件工程b方法z规范工业应用学术传记
cs
04-10 00:00
研究指出,当前语音转文本系统在学术基准上的准确率已进入平台期,与工业界在高风险领域应用的实际表现存在差距。核心差异在于“上下文条件化”:学术基准多依赖常见通用词汇,而实际应用中,对可用性影响巨大的往往是罕见且由上下文定义的自定义词汇。为填补这一空白,本研究基于Earnings-22数据集,构建了首个标准化开放基准Contextual Earnings-22,包含现实场景的自定义词汇上下文。研究为关键词提示和关键词增强两种主流方法建立了六个强基线模型。实验表明,当系统从概念验证扩展到大规模应用时,两种方法均能达到可比且显著提升的准确率,揭示了该领域的潜在进展。
语音识别自定义词汇上下文建模基准测试关键词增强
cs
04-10 00:00
研究团队推出“预测竞技场”基准测试,通过让AI模型在Kalshi和Polymarket等真实预测市场上使用真实资金进行自主交易,评估其预测准确性和决策能力。在为期57天的纵向评估中,前沿模型在Kalshi上的最终回报率为-16.0%至-30.8%,而在Polymarket上平均仅-1.1%。研究发现,初始预测准确性和利用正确预测的能力是主要驱动因素,而平台设计对模型成功与否有深远影响。
ai基准测试预测市场自主交易金融ai模型评估
cs
04-10 00:00
本研究提出了一种用于阿拉伯语语音情感识别的混合CNN-Transformer架构。模型利用卷积层从梅尔频谱图中提取判别性声谱特征,并通过Transformer编码器捕捉语音中的长程时序依赖关系。在EYASE(埃及阿拉伯语语音情感)语料库上的实验表明,该模型取得了97.8%的准确率和0.98的宏F1分数,证明了卷积特征提取与基于注意力的建模相结合在低资源阿拉伯语SER任务中的有效性。
语音情感识别阿拉伯语处理混合架构transformer低资源语言深度学习
cs
04-10 00:00
本文提出,传统将边缘AI视为在严格约束下进行模型压缩与部署的观点存在根本缺陷。在长期实际部署中,固定的配置面临两难困境:要么违反随时间变化的预算(如延迟、能耗、隐私),要么丧失预测可靠性(尤其是校准性)。作者认为,真正的边缘AI必须是自适应的。为此,论文引入了一个“代理-系统-环境”分析框架,明确了自适应过程中“什么在变、什么被观测、什么可重配置、哪些约束须持续满足”四个核心问题。基于此,文章系统性地提出了未来十年的十大研究挑战,涵盖动态系统理论保证、混合架构、故障驱动更新、模块化设计以及在标签稀缺和概念漂移下的验证与评估协议。
边缘计算自适应系统人工智能模型部署系统可靠性概念漂移
cs
04-10 00:00
本研究系统探讨了四种情绪(喜悦、鼓励、愤怒、不安全感)及其强度变化对大语言模型行为的影响。通过构建GPT-4o mini驱动的提示生成管道,创建了不同情绪强度的提示数据集,并在准确性、谄媚性和毒性三个维度进行评估。实证结果表明,积极情绪刺激能提高模型准确性并降低毒性,但也会增加谄媚行为。
情绪提示大语言模型提示工程模型行为人工智能伦理
cs
04-10 00:00
本研究提出了一种结合视频与大型语言模型(LLM)对话式聊天机器人的新方法,用于实时收集人们对骑行安全环境的感知及其原因。该方法采用模块化LLM架构,通过提示工程和状态管理来支持人机交互。在纽约市9个街段的试点研究中,16名参与者的用户体验(易用性、支持性、效率)平均评分为5.00/7,聊天机器人可用性(个性、机器人感、友好度)平均评分为3.47/5。数据分析采用KeyBERT进行关键词提取、K-means聚类进行语义分析以及回归模型评估建成环境与人口变量对安全感知的影响,证明了AI聊天机器人在收集交通规划中人因数据方面的潜力。
人机交互骑行安全大型语言模型视频调查感知测量交通规划
cs
04-10 00:00
本研究利用几何数据分析工具,探究了大语言模型(LLMs)中情感表征的潜在结构。研究发现:1)LLMs学习到的情感表征与心理学中广泛使用的“效价-唤醒度”模型高度一致;2)这些表征呈现出非线性几何结构,但能被线性模型良好近似,为模型透明度方法中常用的线性表征假说提供了实证支持;3)习得的潜在表征空间可用于量化情感处理任务中的不确定性。该工作表明LLMs习得的情感表征几何结构与人类情感模型相似,对模型可解释性与安全性具有实际意义。
大语言模型情感表征几何结构模型可解释性ai安全潜在空间
cs
04-10 00:00
SAHELI项目(2020-2025)与印度NGO ARMMAN合作,旨在解决孕产妇和儿童健康项目中因医疗工作者资源有限而无法持续提供个性化服务的难题。该项目采用“不安定多臂老虎机”(Restless Multi-Armed Bandit, RMAB)框架,将资源分配建模为序列决策问题。其核心方法创新在于,从传统的“预测-优化”两阶段方法转向“决策聚焦学习”(Decision-Focused Learning, DFL),使学习目标直接与最大化受益人长期参与度的最终目标对齐。大规模随机对照试验表明,DFL策略使累计参与度下降减少了31%,并显著改善了现实中的健康行为,如持续补充铁和钙。
不安定多臂老虎机决策聚焦学习资源分配孕产妇健康序列决策人工智能
cs
04-10 00:00
研究团队开发了仅含130万参数的SauerkrautLM-Doom-MultiVec模型,在经典射击游戏《DOOM》的实时控制任务中,性能显著优于参数规模大其9.2万倍的Nemotron-120B、Qwen3.5-27B及GPT-4o-mini等大型语言模型。该模型采用ModernBERT编码器,结合哈希嵌入、深度感知令牌表示和注意力池化分类头,仅基于ASCII帧和深度图,每31毫秒做出一次动作决策。在仅使用3.1万条人类演示数据训练后,于“defend_the_center”场景中取得10局178击杀的成绩(平均每局17.8击杀),远超所有测试LLM的总和(13击杀)。研究表明,针对特定任务的小型专用模型能以极低的推理成本,在实时控制任务上完胜通用大模型,并可在消费级硬件上部署。
小型专用模型实时游戏控制模型效率轻量化ai任务特定学习
cs
04-10 00:00
本研究提出了一种自校准的模拟电路尺寸设计框架,利用大语言模型直接从原始电路网表生成拓扑特定的解析设计方程。与现有AI方法仅调整参数或缩小搜索空间不同,该框架生成完整的Python尺寸函数,将每个器件尺寸与特定性能约束关联。通过确定性校准循环从单次晶体管级仿真中提取工艺相关参数,并利用预测误差反馈机制补偿解析不准确性。在两种工艺节点(180nm和40nm CMOS)的六种运算跨导放大器拓扑上验证,12个组合均满足所有规格,其中11个在2-9次仿真内收敛。该方法实现了跨节点移植,无需修改、重新训练或逐工艺表征。
模拟电路设计大语言模型自校准框架设计自动化可解释ai
cs
04-10 00:00
本文提出了一种用于无线资源分配的图基础模型(GFM-RA),以解决密集网络中实时资源分配的挑战。该模型基于预训练与微调范式,通过引入一个能感知干扰拓扑的Transformer架构(包含偏置投影器)来提取统一表征。其采用结合掩码边预测与无负样本师生对比学习的混合自监督预训练策略,从海量无标签数据中学习可迁移的结构表征。实验表明,该模型在性能上达到先进水平,并展现出卓越的样本效率,能够在分布外场景中通过少量样本快速、鲁棒地适应多样且无监督的下游目标。
无线资源分配图基础模型transformer自监督预训练快速自适应干扰感知
cs
04-10 00:00
本文提出FedUTR,一种新颖的联邦推荐方法,旨在解决高数据稀疏性下的性能瓶颈。传统方法依赖用户历史行为构建物品嵌入,在交互稀疏时效果不佳。FedUTR创新性地引入物品的通用文本表示作为补充,通过设计的协同信息融合模块(CIFM)和本地适应模块(LAM),有效整合通用知识与个性化偏好。其变体FedUTR-SAR进一步引入稀疏感知机制,精细平衡两类信息。理论收敛性分析证明了方法的有效性,在四个真实数据集上的实验表明,其性能相比现有最优方法提升最高达59%。
联邦学习推荐系统数据稀疏性文本表示隐私保护个性化推荐
cs
04-10 00:00
本研究提出BLEG方法,创新性地将大语言模型作为功能磁共振成像图数据的增强器,以提升图神经网络在脑网络分析任务中的性能。该方法通过提示LLM生成增强文本,设计低成本指令微调获取文本表征,并与GNN进行协同对齐训练。实验表明,BLEG有效克服了传统fMRI图数据特征稀疏和领域知识有限的瓶颈,在多个数据集上验证了其优越性。
脑网络分析大语言模型图神经网络功能磁共振成像多模态融合表征学习
cs
04-10 00:00
本文提出了一种解耦的离线-在线故障注入框架,以解决边缘自动驾驶系统因资源受限而难以进行实时全面安全测试的挑战。在离线阶段,利用大语言模型(LLM)语义生成结构化故障场景,并结合潜在扩散模型(LDM)合成高保真传感器退化数据。这些复杂的故障动态被提炼为预计算的查找表,使边缘设备无需本地运行重型AI模型即可执行实时故障感知推理。在460个故障场景下对ResNet18车道跟随模型进行验证,结果显示,在雾天条件下,模型的RMSE最高增加99%,定位精度(误差<0.10)最低降至31.0%,显著暴露了仅用正常数据评估的不足。
自动驾驶边缘计算故障注入大语言模型鲁棒性评估扩散模型
cs
04-10 00:00
研究发现,大语言模型在基准测试上的提升未必意味着真实能力的增强。通过设计受控数据干预实验,论文揭示了两种不同的训练模式:专注于基准测试的数据能提升特定指标,但会限制模型的表征发展;而扩大覆盖范围的数据则能促进参数更均匀地适应,从而获得更好的泛化能力。研究进一步利用谱分析和秩分析等参数空间诊断方法,识别了这两种模式在模型结构上的不同特征。这些模式在包括多模态模型在内的多种开源模型家族中均被观察到,表明基准测试性能本身不足以全面评估模型能力,数据分布在塑造学习动态中起着关键作用。
大语言模型基准测试数据分布泛化能力参数分析学习动态
cs
04-10 00:00
针对电商搜索中普遍存在但对传统检索方法(如词法或嵌入模型)不敏感的字母数字标识符(如零件号、SKU),本文提出了一种无需训练的字符级检索框架。该方法将每个标识符编码为固定长度的二进制向量,通过汉明距离实现高效的相似度计算,并支持在大规模标识符库中进行最近邻检索。一个可选的、基于编辑距离的重排序阶段可在保证低延迟的同时提升精度。该方法为学习型稠密检索模型提供了一种实用且可解释的替代方案,并在A/B测试中带来了显著的商业指标提升。
信息检索搜索建议字母数字查询字符级编码汉明距离电商搜索
cs
04-10 00:00
本文提出“流学习者”新范式,旨在解决当前基于生成式AI的PDE求解器面临的挑战。现有方法如物理信息神经网络、神经算子等,或难以优化,或缺乏长期稳定性。核心观点在于,许多科学场景需要建模不确定性在约束动力学中的传播,而非单纯预测状态。流学习者通过参数化输运向量场并积分生成轨迹,直接模拟PDE演化的连续动力学。这种物理到物理的对齐支持连续时间预测、原生不确定性量化,并为物理感知的求解器设计开辟了新途径。
偏微分方程求解生成式ai物理信息机器学习流学习者不确定性量化科学计算
cs
04-10 00:00
本文提出“评估即进化”(E²)框架,旨在解决自动驾驶模型因训练数据缺乏安全关键极端场景而导致的鲁棒性不足问题。传统对抗性测试多为开环且事后处理,E²则将其转化为一个闭环的进化课程:通过基于学习的逆向时间随机微分方程先验,并施加传输正则化的稀疏控制来合成对抗场景。为处理高维生成问题,该方法采用拓扑驱动的支持选择来识别关键交互智能体,并引入“拓扑锚定”以稳定过程。实验表明,在nuScenes和nuPlan数据集上,E²相比基线方法分别将碰撞故障发现率提升了9.01%和21.43%,同时保持了高真实性与低无效性。利用发现的边界案例进行闭环策略微调,可显著提升模型鲁棒性。
自动驾驶对抗测试闭环课程鲁棒性场景生成进化学习
cs
04-10 00:00
本研究通过分解参数更新Gram矩阵的主导方向(谱边缘),揭示了神经网络在‘顿悟’过程中的两阶段生命周期。在Dyck-1和SCAN序列任务中,研究发现:顿悟前,谱边缘由梯度驱动并保持功能活跃;顿悟时,梯度与权重衰减对齐,谱边缘转变为压缩轴,虽对扰动平坦但对剪枝极其敏感(影响是随机方向的4000倍以上)。研究识别出功能、混合、压缩三类普适性,并通过非线性探针(MLP $R^2=0.99$ vs. 线性 $R^2=0.86$)证明信息被重新编码而非丢失。移除权重衰减可逆转压缩同时保留算法功能。
顿悟现象谱分析权重衰减模型压缩梯度学习神经网络动力学
cs
04-10 00:00
本文提出SCOT框架,用于解决跨城市预测任务中因区域划分不一致且缺乏真实对应关系而导致的迁移难题。SCOT通过基于Sinkhorn的熵正则化最优传输,学习不同城市间不等区域集合的显式软对应关系。该框架进一步利用OT加权的对比目标来锐化可迁移结构,并通过循环式重建正则化器稳定优化过程。对于多源迁移,SCOT使用目标诱导的原型先验引导的平衡熵传输,将每个源城市和目标城市对齐到一个共享的原型中心。在真实城市数据集上的实验表明,SCOT能持续提升迁移准确性和鲁棒性,同时学到的传输耦合和中心分配为对齐质量提供了可解释的诊断依据。
跨城市迁移最优传输软对应学习多源迁移表示学习区域对齐
cs
04-10 00:00
本文针对机器学习中的类别遗忘场景,揭示了现有遗忘方法可能无意中泄露已删除数据类别的安全风险。研究从模型参数和模型反演两个角度,提出了四种攻击方法:在参数层面,通过计算目标模型与辅助模型参数的点积或向量差构建判别特征,并利用聚类与决策树算法识别被遗忘类别;在反演层面,设计了基于梯度优化的白盒攻击和基于遗传算法的黑盒攻击,以重构类原型样本,并通过阈值与信息熵准则分析其预测分布来推断遗忘类别。实验在四个标准数据集上对五种前沿遗忘算法进行了评估,证实了所提攻击的有效性。
机器学习遗忘隐私攻击标签泄露模型反演参数分析数据隐私
cs
04-10 00:00
本研究提出了一种用于犯罪模式分析的量子-经典混合框架,评估了量子模型、经典机器学习模型及两种混合架构在16年孟加拉国犯罪统计数据上的表现。实验表明,量子启发方法(如QAOA)在减少可训练参数的同时,分类准确率可达84.6%,其低计算开销和紧凑参数占用使其在资源受限的边缘部署(如智慧城市无线传感器网络)中展现出潜力。该研究为结构化犯罪数据的量子增强机器学习提供了初步实证评估。
量子机器学习犯罪模式分析边缘计算混合架构智慧城市