基于熵的大语言模型价值漂移与对齐工作测量方法
本研究提出了一种动态评估大语言模型安全性的新框架。针对静态基准测试的不足,研究者将“伦理熵”概念操作化,构建了一个五维行为分类法,并训练分类器从模型输出中估计熵值S(t)。通过对四个前沿模型的基础版和指令调优版进行压力测试,发现基础模型熵值持续增长,而调优模型能抑制约80%的漂移。基于此,研究定义了有效对齐工作率γ_eff,并开发了监控管道,可在熵漂移超过阈值时发出警报,实现对价值漂移的运行时监督。
今日速览 · AI 导读
自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。
AI 导读
今日看点(自动摘要):cs: 基于熵的大语言模型价值漂移与对齐工作测量方法;cs: AI对齐新视角:从编码价值观转向构建协同演化智能体;cs: 物理信息机器学习加速钢铁开发:计算框架与CCT图建模
数据源:arXiv 官方 RSS(physics / math / cs / q-bio / econ / astro-ph 等)。
标题与摘要由 DeepSeek 进行中文润色,便于快速浏览;外链跳转至原文。
AI 速览助手:点击卡片“速览全文”可拉取 arXiv HTML,生成全文要点并缓存;右下角悬浮按钮可随时展开/收起速览。
自动抓取:每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。
往期回顾:点击上方“往期回顾”进入日历页,按月查看每日抓取总数,并跳转到对应日期速览。
2025-12-04 共 24 条抓取,按综合热度排序
本研究提出了一种动态评估大语言模型安全性的新框架。针对静态基准测试的不足,研究者将“伦理熵”概念操作化,构建了一个五维行为分类法,并训练分类器从模型输出中估计熵值S(t)。通过对四个前沿模型的基础版和指令调优版进行压力测试,发现基础模型熵值持续增长,而调优模型能抑制约80%的漂移。基于此,研究定义了有效对齐工作率γ_eff,并开发了监控管道,可在熵漂移超过阈值时发出警报,实现对价值漂移的运行时监督。
本文提出AI对齐应重新构想为通过过程化、多智能体、发展性机制构建协同(syntropic)且能响应理由的智能体,而非编码固定的人类价值观内容。论文做出三项哲学贡献:1)阐述“规范陷阱”论证,说明基于内容的价值观规范因事实-价值鸿沟、价值多元论和扩展框架问题而结构不稳定;2)提出“协同”作为理解多智能体对齐动态的信息论框架;3)基于兼容论的指导控制理论,建立真实与模拟道德能力的功能区分,并提供独立于现象学主张的操作标准。
本研究提出了一种结合物理洞察与机器学习的计算框架,用于开发钢铁的物理信息连续冷却转变(CCT)模型。该模型基于4100个CCT图数据集训练,验证显示其计算效率高(5秒内生成含100条冷却曲线的完整CCT图),且对合金钢具有强泛化能力:所有相的分类F1分数均高于88%,除贝氏体相变温度回归的平均绝对误差为27°C外,其余相均低于20°C。该框架可扩展为通用的热处理数字孪生平台。
本文提出了LATTICE框架,旨在弥合2D与3D生成模型在质量和可扩展性之间的差距。其核心是VoxSet表示法,将3D资产压缩为锚定在粗体素网格上的潜在向量集,从而实现了高效且具有位置感知的生成。LATTICE采用两阶段流程:首先生成稀疏体素化几何锚点,然后使用整流流变换器生成详细几何。该方法支持任意分辨率解码、低成本训练和灵活推理,在多个方面达到了最先进的性能,为可扩展的高质量3D资产创建迈出了重要一步。
本研究针对可逆问题(如从逻辑条件表生成硬件描述语言代码),提出一种新方法:将大语言模型(LLM)作为从源域到目标域的无损编码器,再作为从目标域回源域的无损解码器。该方法类似于信息论中的无损压缩,能有效缓解LLM在代码生成中常见的幻觉和遗漏问题。实验以网络芯片路由器的HDL代码生成为例,通过七个不同LLM生成代码并逆向重构逻辑表进行验证,不仅能确认正确生成的逻辑、检测错误,还能帮助开发者发现设计规范错误,显著提升开发效率。
本研究提出一种面向绿色AI的自适应层冻结策略,用于医学影像(MRI-to-CT)转换的联邦学习。该策略通过监控编码器权重更新的相对差异,选择性地冻结权重,在保证模型性能(平均绝对误差仅小幅波动)的同时,将训练时间、总能耗及二氧化碳当量排放降低高达23%。研究为构建兼顾临床需求与气候、社会、经济可持续性的AI医疗框架奠定了基础。
本研究提出PINS-CAD框架,通过物理信息自监督学习,利用20万个合成冠状动脉数字孪生预训练图神经网络,预测血流和压力。该框架无需计算流体力学仿真或标注数据,仅需血管几何结构。在包含635名患者的多中心临床数据上微调后,其预测未来心血管事件的AUC达0.73,优于传统风险评分与纯数据驱动基线。该工作将物理先验嵌入几何深度学习,有望将常规血管造影转化为可扩展的、无仿真且具备生理感知的预防性心脏病学工具。
本研究提出Delta Sampling方法,解决了扩散模型生态中适配器组件(如LoRA、ControlNet)与特定基础模型强耦合、难以跨版本迁移的问题。该方法无需原始训练数据,在推理时通过计算模型适配前后的预测差值,引导新基础模型的去噪过程,实现知识迁移。实验表明,该方法在不同Stable Diffusion版本间能有效传递视觉风格、语义概念和结构控制等效果。
本研究提出了一个用于估计异质性处理效应的大规模工业框架,利用来自数亿 Snapchat 用户的实验数据。该框架通过整合众多实验结果,揭示了先前无法测量的潜在用户特征,并实现了大规模稳定的处理效应估计。核心组件包括实验选择、基础学习器设计和增量训练。应用案例显示,利用用户“可影响性”分数进行广告定向,其关键业务指标的提升效果是通常认为显著水平的六倍以上。
本研究探讨了如何将模型无关的解释方法——累积局部效应(ALE)——应用于图神经网络(GNN)的链路预测任务,以可视化节点特征值的影响。针对GNN消息传递中节点交互复杂、直接应用ALE计算成本高的问题,论文提出了一种近似计算方法。研究发现,虽然近似方法计算效率更高,但精确方法产生的解释更稳定;不过,两种方法得到的解释差异并不显著。研究还分析了不同参数对两种方法ALE估计准确性的影响。
本研究提出两种物理启发的改进方法,以优化大型语言模型的SVD压缩。FermiGrad算法通过费米函数将离散的奇异值截断松弛为连续优化问题,从而确定全局最优的逐层秩。PivGa方法则利用低秩因子参数化中的规范自由度,对其进行无损压缩。这些方法旨在解决压缩中的实际障碍,如秩选择和参数冗余问题。
本研究提出了一种结合AWS Strands Agents与Thompson Sampling上下文赌博机的新框架,旨在解决生命科学领域生成式AI代理面临的决策难题。该框架无需依赖固定规则或昂贵的标注数据,仅通过用户反馈即可学习优化三个关键维度:生成策略选择、工具选择和领域路由。实证评估显示,相比随机基线,该方法在生命科学查询任务中可将用户满意度提升15-30%,并在处理20-30个查询后显现出清晰的学习模式。
研究团队提出了一种名为“气泡逃逸潜力”的新评估指标,通过对比模拟框架,区分推荐算法中的偏好建模与信息茧房效应。实验首次定量验证了推荐系统在精准预测与避免过滤气泡之间的两难困境,并发现适度的随机推荐对缓解信息茧房效果有限。
本文提出ECHO框架,通过系统性地将AI偏见类型映射到不同利益相关者和领域背景下的危害结果,实现AI危害的主动预测。该框架采用模块化工作流程,结合利益相关者识别、基于情景的偏见AI系统呈现以及人机协同的危害标注,并整合伦理矩阵进行结构化解读。研究在疾病诊断和招聘两个高风险领域验证了ECHO的有效性,揭示了领域特定的偏见-危害模式,为AI系统的前瞻性治理提供了支持。
本研究提出了一种利用预拓扑理论对大规模分布式区域的能源消耗曲线进行建模与分类的自动化方法,旨在优化建筑能耗管理。该方法开发了一个基于预拓扑空间特性的多准则分层分类算法,并集成至Python库中。通过在二维空间点集、生成时间序列以及法国能源公司400个真实能耗站点的数据集上进行评估,算法成功识别了空间位置簇和时间序列簇,在生成时间序列上取得了调整兰德指数为1的优异表现。
本文针对大数据时代下数值与类别变量并存的混合数据聚类难题,综述了现有方法的局限,并提出了一种基于预拓扑空间的新聚类方法。该方法旨在更有效地处理异构数据类型的复杂性,并通过与经典数值聚类算法及现有预拓扑方法的基准测试,验证了其在大数据范式下的性能与有效性。分层与可解释算法因其能提供结构化、可解释的聚类结果而受到特别关注。
本文提出了一种基于预拓扑的新型聚类算法PretopoMD,旨在直接处理混合数据,无需降维。该方法利用析取范式构建可定制的逻辑规则和可调超参数,支持用户定义分层聚类结构,为异构数据集提供定制化解决方案。通过分层树状图分析和聚类指标比较,该方法在保持数据完整性的同时,能够直接从原始数据中准确、可解释地划分簇,展现了卓越的性能。实证结果突显了该算法在构建有意义簇方面的鲁棒性,并揭示了其在解决聚类数据可解释性问题上的潜力。
本文提出了一种名为“权重计算主义”的新型认知架构,旨在解决当前AI在可解释性和价值对齐方面的根本挑战。该架构将认知解构为不可分割的逻辑原子和两个基本操作,并通过一个可解释的“权重=收益*概率”模型来形式化决策过程。所有决策值均可追溯至一组可审计的初始权重,实现了原子级的可解释性、对新情境的内在泛化能力以及可追溯的价值对齐。初步实现与场景验证表明,该架构能在前所未见的情境中实现透明、类人的推理和稳健学习,为构建可信且对齐的通用人工智能奠定了理论与实践基础。
本研究基于Hugging Face模型中心2020-2025年的完整下载历史与模型元数据,首次对开源模型经济的集中度动态与演变特征进行了全面分析。研究发现,美国科技巨头(谷歌、Meta、OpenAI)的主导地位显著下降,独立开发者、社区组织以及以深度求索、通义千问为代表的中国产业力量影响力快速上升。模型平均规模增长17倍,多模态生成、量化、专家混合架构等技术方向迅猛发展,但数据透明度出现令人担忧的下降趋势。
本文为复杂的广义麦克斯韦滑移(GMS)动态摩擦模型提出了一个清晰的模块图表示。该模型能够模拟多种非线性摩擦现象,但以往因复杂性而缺乏直观图示,限制了其可访问性。作者提供的模块图可在MATLAB-Simulink等环境中实现,并通过闭环和开环仿真验证了其能准确复现无漂移行为和粘滑摩擦。这项工作为工程界模拟和控制含摩擦系统提供了一个更易使用的实用工具。
本研究分析了预训练 Transformer 模型中 token 的动态系统特性,揭示了其渐近行为取决于模型参数。研究提供了判断 token 收敛或发散的条件,并发现收敛行为会损害模型性能。特别地,论文探讨了绝对位置编码和旋转位置编码如何影响这些动态机制,并据此提出了简单的架构改进方案,以缓解收敛问题,为优化 Transformer 模型提供了理论基础和设计原则。
本研究提出了一种安全的分层深度强化学习框架,用于优化电动公交车充电调度。该框架将问题建模为带约束的马尔可夫决策过程,并创新性地集成了拉格朗日松弛方法,形成DAC-MAPPO-Lagrangian算法。高层采用集中式策略分配充电桩,低层则进行去中心化的充电功率决策。基于真实数据的实验表明,该方法在降低运营成本、确保电池安全运行方面优于现有基线,并能快速收敛。
本研究提出了一种无监督的多模态图模型,用于联合嵌入社交媒体内容的语义和地理信息。该方法包含单图与多图两种架构,通过对比、一致性和对齐的复合损失函数,学习生成语义连贯且空间紧凑的聚类。在四个真实灾害数据集上的实验表明,该模型在主题质量、空间一致性和可解释性方面均优于现有基线。该框架具有领域独立性,可轻松扩展至多种多模态数据和下游分析任务。
本研究利用GPT-5多模态基础模型,从X(原Twitter)用户的公开资料中推断年龄、性别和种族。通过渐进式融合用户名、个人简介、推文和头像等多模态信息,模型性能持续提升,最终在年龄、性别和种族推断上分别达到0.90、0.98和0.85的准确率,优于现有方法。该框架以最少的任务特定训练,实现了高精度、可解释的人口属性推断,有助于提升社交媒体研究的代表性与公平性。