cs
03-05 00:00
本文综述了深度草图三维建模(DS-3DM)领域的最新进展。DS-3DM利用数据驱动方法,有效解决了草图抽象与模糊性等长期挑战,将人类置于创意流程的中心,提升了建模界面的灵活性、可用性、忠实度和适应性。作者提出了一个新颖的MORPHEUS设计空间,基于输入-模型-输出(IMO)框架,对模型输出的三维表示与部件选项、多样化的人类输入(数量与模态)以及跨用户视角和风格的评估进行了系统分类。综述指出了当前局限,并揭示了在计算机视觉、计算机图形学和人机交互领域进行跨学科研究的机遇,特别是对可控性和信息丰富输出的需求,以更好地响应用户意图。
草图三维建模深度学习人机交互计算机图形学设计空间跨学科研究
cs
03-05 00:00
本文提出AriadneMem,一种结构化记忆系统,旨在解决LLM智能体在固定上下文预算下进行长期对话时面临的两大挑战:证据分散(多跳答案需关联跨时间事实)与状态更新(新旧信息冲突)。系统采用解耦的两阶段流程:离线构建阶段通过熵感知门控过滤噪声,并应用冲突感知粗化合并静态副本;在线推理阶段则执行算法桥接发现以重构缺失逻辑路径,再进行单次拓扑感知合成。在GPT-4o上的实验表明,AriadneMem将多跳F1提升15.2%,平均F1提升9.0%,同时通过将推理卸载至图层,仅使用497个上下文令牌便将总运行时间减少77.8%。
长时记忆llm智能体图推理结构化记忆多跳问答
cs
03-05 00:00
研究发现,用于对齐语言模型与人类偏好的奖励模型存在多种系统性偏差,包括长度偏好、奉承倾向、过度自信、模型风格偏好和答案顺序偏好。作者提出了一种机制化奖励塑形方法,通过最小化标记数据干预模型内部机制,有效降低低复杂度偏差,同时保持奖励质量,并能泛化到分布外数据。
奖励模型语言模型对齐偏差检测奖励塑形人工智能安全
cs
03-05 00:00
针对大语言模型在医疗问答中易产生幻觉和知识过时的问题,本研究提出MA-RAG框架。该方法将候选答案间的语义冲突转化为检索查询,在多轮智能体循环中迭代优化外部证据与内部推理历史,其机制类似于通过最小化残差误差来逼近稳定共识的“提升”过程。在7个医疗基准测试中,MA-RAG平均准确率比基线模型高出6.8个百分点。
医疗人工智能检索增强生成多轮推理智能体框架大语言模型
cs
03-05 00:00
本研究针对大语言模型在农业咨询中存在的建议缺乏依据、内容笼统及沟通风格不符等问题,提出了一种混合架构。该架构将事实检索与对话生成解耦:首先利用专家整理的“黄金事实”知识单元,通过LoRA进行监督微调以优化事实召回;随后通过一个独立的“缝合层”将检索到的事实转化为文化适宜、安全可控的回应。评估框架DG-EVAL基于专家标注的真实数据进行原子事实验证(测量召回率、精确度和矛盾检测)。在印度比哈尔邦的作物和查询实验表明,基于精调数据的微调显著提升了事实召回率和F1分数,且使用精调后的小模型能以极低成本达到或超越前沿模型的事实质量。缝合层则进一步提升了安全子分数,同时保持了高对话质量。
农业ai大语言模型监督微调事实检索对话生成负责任ai
cs
03-05 00:00
研究通过一项受控的开放式学习任务,直接评估了大型语言模型(LLMs)作为人类目标选择代理的有效性。测试了GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5和Centaur等先进模型,发现它们与人类行为存在显著差异:人类倾向于逐步探索并实现多样化的目标,而多数模型则利用单一解决方案(奖励破解)或表现不佳,且同一模型的实例间变异性很小。即使经过专门训练以模拟人类行为的Centaur模型,也难以捕捉人类的目标选择模式。思维链推理和角色引导带来的改善有限。这些发现凸显了人类目标选择的独特性,警示在个人助理、科学发现和政策研究等应用中,不应轻易用当前模型替代人类决策。
语言模型目标选择人机差异决策模拟认知科学
cs
03-05 00:00
本文提出PlugMem,一种任务无关的插件式记忆模块,可附加于任意大型语言模型智能体,无需针对特定任务重新设计。受认知科学启发,该方法将情景记忆结构化、压缩为以知识为中心的记忆图,显式地表征命题性和规范性知识。这种表示使得智能体能够基于任务相关知识进行高效记忆检索与推理,而非冗长的原始轨迹。在三个异构基准上的评估表明,PlugMem在性能和信息密度上均优于任务无关基线及特定任务记忆设计。
llm智能体长期记忆记忆图知识表示任务无关
cs
03-05 00:00
本文提出TTSR,一种测试时自演化的训练框架,旨在解决现有测试时训练方法面临的难题:测试问题难度高导致伪标签不可靠,且缺乏针对模型特定推理弱点的有效适应机制。TTSR让单个预训练语言模型在测试时交替扮演“学生”和“教师”角色。学生负责解题并从合成的变体问题中学习;教师则分析学生的失败推理轨迹,总结反复出现的推理弱点,并据此合成有针对性的变体问题。通过这种持续的自我演化循环,模型在可学习的范围内得到改进。在多个具有挑战性的数学推理基准测试上的实验结果表明,TTSR能持续提升推理性能,并在不同模型主干和通用领域推理任务上表现出良好的泛化能力。
测试时训练自反思学习推理能力提升大语言模型持续学习数学推理
cs
03-05 00:00
本文提出TATRA方法,解决了大型语言模型(LLMs)对提示词表述高度敏感的问题。该方法无需任务特定的训练数据或昂贵的迭代优化,而是为每个输入实例动态合成少量示例,与用户指令共同构成提示。在文本分类和数学推理(如GSM8K、DeepMath)基准测试中,TATRA的性能达到或超越了依赖大量数据和搜索的提示优化基线方法。结果表明,为每个实例动态构建上下文示例,比为一个任务生成单一提示的昂贵优化循环更为重要。
提示工程大型语言模型上下文学习自适应提示数学推理
cs
03-05 00:00
本文针对大语言模型(LLM)应用中响应速度与成本控制的需求,深入研究了基于嵌入向量的语义缓存技术。研究证明,实现最优的离线缓存策略是NP难问题,并提出了多种多项式时间的启发式算法。同时,论文设计了结合访问时间、频率和局部性的在线语义感知缓存策略。在多样化数据集上的评估表明,基于频率的策略是强基线,而本文提出的新变体进一步提升了语义准确性。研究结果为现有系统提供了有效策略,并揭示了未来创新的巨大空间。
语义缓存大语言模型嵌入向量缓存策略np难问题启发式算法
cs
03-05 00:00
本文针对州交通部门面临的知识碎片化、专家退休导致经验流失以及海量技术文档检索困难等问题,提出了一个基于检索增强生成(RAG)的多智能体AI助手框架。该框架通过多个专门智能体(检索、生成、评估、查询优化)进行迭代式质量控制和改进,并创新性地集成了开源视觉语言模型,将技术图表转换为语义文本表示,实现了图文信息的统一索引与检索。最终由开源大语言模型基于检索到的图文证据生成精准回答,旨在提升知识管理效率、辅助现场决策并优化人员培训。
知识管理检索增强生成多智能体系统交通工程视觉语言模型智能助手
cs
03-05 00:00
本文提出HumanLM训练框架,旨在构建能准确反映真实用户内在状态(如信念、情感)的用户模拟器。其核心在于,模型不仅生成响应,还通过强化学习生成与真实响应对齐的自然语言潜在状态,这些状态对应一系列驱动用户行为的心理学维度。研究构建了包含6个数据集、26k用户、216k响应的综合基准Humanual进行评估。结果表明,HumanLM在LLM评判的“对齐分数”上平均相对提升16.3%,并在111名参与者的实时模拟研究中,获得了与真实用户响应最高的相似度。
用户模拟大语言模型状态对齐强化学习人机交互心理建模
cs
03-05 00:00
本文提出了一种用于联合训练句子与结构化数据的简洁架构,其核心在于保持知识与语言表征的可分离性。模型将知识图谱和超图视为具有角色槽的结构化实例,并将其编码为一个键值存储库,供语言Transformer进行注意力查询。注意力机制通过基于路径的角色传输进行调节,该方法统一了边标记的KG遍历、超边遍历和句子结构。文章概述了一种双流架构,包含具有实例局部、邻域和全局混合注意力的分层组,对独立存储库的检索,以及涵盖掩码语言建模、链接预测和角色一致性去噪的多任务目标。最终实现了语言上下文与结构化知识之间显式、可检查的分离,同时仍能通过交叉注意力实现紧密对齐。
知识图谱超图transformer注意力机制多模态学习结构化数据
cs
03-05 00:00
本文提出了一种名为草稿引导约束解码(DCCD)的训练无关推理方法,以解决大语言模型在生成JSON、代码等结构化输出时,因硬性约束解码导致语义偏差的问题。DCCD将生成过程解耦为两步:先生成无约束的语义草稿,再以此草稿为条件进行约束解码以确保语法正确性。理论分析表明,该方法通过增加可行解空间并减少KL投影损失,有效提升了生成质量。在多个结构化推理基准测试中,DCCD将严格结构准确率最高提升了24个百分点,并能使较小模型达到甚至超越更大基线模型的性能。
约束解码结构化生成大语言模型推理优化语法正确性
cs
03-05 00:00
本研究对新型序列化格式TOON与标准JSON在大型语言模型生成任务中的表现进行了基准测试。测试比较了普通JSON生成、约束解码JSON生成以及TOON单样本上下文学习生成三种方式。关键发现:TOON在领域内生成任务中展现出有前景的准确率/令牌消耗比,但其优势常被提示指令的“提示税”所抵消。普通JSON生成在单样本和最终准确率上表现最佳,而约束解码JSON的唯一显著优势是令牌使用量最低,但代价是准确率略有下降。结果表明,TOON的真正效率潜力可能遵循非线性曲线,仅在语法节省累积到足以抵消初始提示开销的特定临界点之后才能显现。
序列化格式llm生成基准测试约束解码令牌效率上下文学习
cs
03-05 00:00
本研究提出TopicENA框架,将BERTopic主题建模与认知网络分析(ENA)相结合,以自动生成的主题替代传统ENA中依赖专家手动编码的概念,解决了该方法难以扩展至大规模文本语料库的瓶颈。通过三个分析案例,研究探讨了主题粒度、纳入阈值对分析结果的影响,并验证了其在远大于以往研究数据集上的可扩展性。TopicENA在保持ENA对概念间结构关联建模能力的同时,为大规模文本分析提供了实用且可解释的自动化流程配置指导。
认知网络分析主题建模文本分析自动化编码可扩展性bertopic
cs
03-05 00:00
本研究提出“历史回声”框架,揭示大语言模型的对话历史会以几何方式限制其后续生成。研究从概率和几何两个视角分析:概率上,将对话建模为马尔可夫链以量化状态一致性;几何上,测量连续隐藏表示的一致性。在三个模型系列和六个数据集上的实验表明,两种视角高度相关,行为持续性表现为一种“几何陷阱”,即潜在空间中的间隙会限制模型的演化轨迹。
大语言模型对话历史几何陷阱马尔可夫链隐藏表示行为持续性
cs
03-05 00:00
本研究提出了一种创新的混合框架,旨在解决推荐系统中的冷启动难题。该框架结合大型语言模型(LLM)进行内容语义分析与知识图谱构建,并整合了基于VARK(视觉、听觉、读写、动觉)学习偏好的认知画像技术。系统通过六个集成组件,包括语义元数据增强、动态图谱构建、VARK画像、心智状态估计、图谱增强检索与LLM排序,以及自适应界面设计,能够从有限的初始信息中生成个性化推荐。在MovieLens-1M数据集上的实验验证了该框架在信息匮乏场景下的有效性,为构建具备认知意识、可解释的推荐系统奠定了基础。
推荐系统冷启动问题大型语言模型认知画像知识图谱个性化推荐
cs
03-05 00:00
本文提出了一种名为“熵时推理”的全新大语言模型推理范式,将解码过程从传统的按令牌索引线性推进,转变为由不确定性(熵)的流动来驱动。核心是引入一个自组织推理架构,在统一的熵控制目标下,联合调度、注意力稀疏化和采样温度。该方法扩展了vLLM,增加了熵感知调度、分页注意力块的熵剪枝以及使生成稳定在目标熵区间的自适应温度控制。这使推理过程转变为一种资源智能的热力学过程,将计算资源优先分配给不确定性降低最大的区域。
大语言模型推理熵控制注意力稀疏化自适应解码系统优化自组织
cs
03-05 00:00
本研究针对脑电信号(EEG)解码为自然语言任务中存在的语义偏差、信号忽视和BLEU陷阱三大挑战,提出了名为SemKey的多阶段框架。该框架通过解耦的情感、主题、长度和惊奇度四个语义目标,强制生成过程以神经信号为根基。核心创新在于重新设计了神经编码器与大语言模型(LLM)的交互方式,将语义提示作为查询(Queries),EEG嵌入作为键值对(Key-Value),迫使模型严格关注神经输入。评估方面,摒弃了易受高频停用词干扰的传统指标,转而采用N路检索准确率和Fr\'echet距离来严格评估多样性和对齐度。实验表明,该方法能有效消除噪声输入下的幻觉,并在这些鲁棒协议上达到最先进性能。
脑机接口脑电解码语义引导大语言模型信号驱动评估指标
cs
03-05 00:00
本文提出SE-Search,一种自我进化的搜索智能体,旨在解决检索增强生成(RAG)中信息累积噪声大、训练信号稀疏的问题。其核心采用“思考-搜索-记忆”策略,通过记忆净化模块保留关键证据、过滤无关内容,并利用原子查询训练生成更简短多样的查询以提升证据获取效率。实验表明,SE-Search-3B在单跳与多跳问答基准上表现优异,相比Search-R1实现了10.8个百分点的绝对提升与33.8%的相对增益。
检索增强生成自我进化密集奖励记忆净化搜索智能体大语言模型
cs
03-05 00:00
本研究对10个商用大语言模型进行了迄今最大规模的引用幻觉审计,在四个学术领域生成了69,557条引用实例,并通过三个学术数据库进行验证。结果显示,引用幻觉率在11.4%至56.8%之间,受模型、领域和提示框架显著影响。研究发现幻觉由提示诱导而非模型固有,并提出两种实用过滤器:多模型共识(超过3个模型引用同一文献,准确率达95.6%)和提示内重复(超过2次重复,准确率达88.9%)。此外,研究开发了一个仅基于书目字符串特征的轻量级分类器,在交叉验证中AUC达0.876,为推理时部署提供了预筛查工具。
大语言模型引用幻觉学术诚信模型审计检测方法人工智能
cs
03-05 00:00
本研究基于LaborBench基准,评估了三种新兴AI法律检索工具。结果显示,定制工具STARA在布尔任务上的准确率从标准RAG的70%提升至83%,经校正后实际可达92%。而Westlaw AI(58%)和Lexis+ AI(64%)两款商业平台表现甚至不及基础RAG。研究通过与美国劳工部律师的手动汇编结果对比,系统分析了推理错误(如法律概念混淆、法规例外误解)和检索失败等错误类型,并发现部分“错误”实为人工汇编的遗漏。最后,研究为构建准确的多司法管辖区法律AI系统提出了具体设计原则。
法律人工智能检索增强生成基准测试法规研究多司法管辖区
cs
03-05 00:00
本文系统记录了 Logovista 英日机器翻译系统的架构、开发实践与历史遗产。该系统是上世纪90年代至2012年间持续商业运营的大型显式规则型MT系统,其核心结合了人工编写的语法规则、编码了句法与语义约束的大型中心词典,以及基于图表解析与加权解释评分的结构歧义管理机制。文章重点阐述了系统在真实使用压力下的扩展与维护策略,包括回归控制、歧义处理及覆盖范围扩大时遇到的瓶颈。与多数仅停留在研究阶段的规则系统不同,Logovista 历经数十年部署,并依据实际需求持续演化,为计算语言学的历史研究提供了宝贵的技术与资源记录。
机器翻译规则系统计算语言学技术档案英日翻译歧义消解