今日速览 · Fortune Health

cs 03-23 00:00

L-PRISMA：将生成式人工智能融入系统综述的新框架

本研究提出L-PRISMA框架，旨在解决生成式人工智能（GenAI）在自动化系统综述（如文献筛选与数据提取）时，对PRISMA核心原则（可重复性、透明性、可审计性）带来的挑战。该框架创新性地结合了人类主导的合成与一个由GenAI辅助的统计预筛选步骤。人类监督确保了科学有效性与透明度，而确定性统计层则增强了可重复性，为负责任地将GenAI整合到系统综述工作流程中提供了一条可行路径。

系统综述生成式人工智能prisma框架可重复性自动化筛选人机协同

cs 03-23 00:00

Gordian：用LLM生成幽灵代码化解符号执行中的逻辑炸弹

本文提出Gordian，一种混合符号执行框架，旨在解决传统符号执行面临的求解器不友好代码、复杂数值推理和无界堆结构等挑战。Gordian创新性地选择性使用大语言模型（LLM）生成轻量级“幽灵代码”来辅助SMT求解器，而非完全替代。具体方法包括：通过迭代双向约束传播反转复杂代码片段、使用求解器友好的代理模型保留关键行为、以及对无界堆空间进行语义分区。在KLEE引擎上的实验表明，相比传统基线，Gordian平均提升覆盖率52-84%，相比纯LLM方法提升86-419%，同时将LLM令牌使用量减少90-96%。

符号执行大语言模型程序分析混合求解幽灵代码约束求解

cs 03-23 00:00

离散几何映射中 Beltrami 系数与角度畸变的理论关联研究

本研究首次建立了离散几何映射中 Beltrami 系数与角度畸变之间的精确理论联系。作者发现映射的 Beltrami 系数范数与三角形元素在该映射下的绝对角度畸变之间存在简单关系，并进一步推导出利用 Beltrami 系数估算最大角度畸变的公式。该理论框架通过生物学和工程学中的多种曲面网格，在保角映射、拟共形映射和保面积映射算法上得到了数值验证。这项工作为曲面映射算法的量化与分析开辟了新途径。

几何映射拟共形理论beltrami系数角度畸变曲面网格数值验证

cs 03-23 00:00

工程导向符号回归：LLM作为物理代理发现仿真就绪的本构定律

本研究提出了一种工程导向符号回归框架，利用大型语言模型作为“物理信息代理”，将热力学一致性和客观性等物理约束零样本地整合到本构定律的发现过程中。该方法将搜索过程从数学曲线拟合转变为受物理规律支配的发现引擎。在橡胶类材料的超弹性建模验证中，该框架自主发现了一种结合Mooney-Rivlin线性基和有理锁定项的新型混合本构定律。该模型不仅在多轴变形模式下实现了高预测精度，还保证了无条件凸性。有限元验证表明，即使在严重横向压缩下，该模型也能保持稳健收敛，而行业标准模型则因数值奇异性而失效。

符号回归大型语言模型本构定律物理信息代理超弹性材料有限元仿真

cs 03-23 00:00

IJCNN 2025审稿流程解析：应对论文提交量翻倍与审稿人偏见的策略

本文详细介绍了国际神经网络联合会议（IJCNN）2025年的审稿流程。面对论文提交量（5,526篇）较上届增长约100%、审稿人数量（7,877人）增长200%的挑战，会议采用了包含426名领域主席的评审体系，最终接收了2,152篇论文。论文的核心贡献在于提出了一种通过评估分数指数（score index）及其校准版本来对审稿人评分进行排序的策略，旨在实验性地消除审稿人个体偏见对评审结果的影响。

神经网络会议审稿流程评审偏见校准学术会议管理人工智能

cs 03-23 00:00

当提示优化沦为越狱攻击：大语言模型的自适应红队测试

研究揭示了大语言模型（LLMs）在自适应攻击下的安全脆弱性。作者将原本用于提升任务性能的黑盒提示优化技术（如DSPy），转而用于系统性地搜索模型的安全漏洞。通过从HarmfulQA和JailbreakBench获取初始提示，并利用独立评估模型（GPT-5.1）提供的0-1危险分数作为优化目标，研究成功将开源小模型（如Qwen 3 8B）的平均危险分数从0.09提升至0.79。这表明静态安全基准可能低估了残余风险，自适应红队测试是构建稳健安全评估的必要环节。

大语言模型安全提示优化攻击自适应红队测试安全评估越狱攻击模型脆弱性

cs 03-23 00:00

DuCCAE：百度搜索部署的混合引擎，解决沉浸式对话响应与任务执行延迟难题

百度研究团队提出DuCCAE混合引擎，旨在解决沉浸式对话系统中实时响应与复杂任务执行（如搜索、媒体生成）之间的延迟矛盾。该系统通过解耦实时响应生成与异步智能体执行，并利用共享状态进行同步，使异步结果能无缝融入持续对话。DuCCAE整合了信息、对话、协作、增强与进化五个子系统，支持多智能体协作与持续改进。在Du-Interact数据集离线评测及百度搜索大规模线上评估中，该系统在智能体执行可靠性与对话质量上均优于基线，同时满足严格实时性要求。自2025年6月部署以来，用户7日留存率提升至34.2%（增长三倍），复杂任务完成率达到65.2%，验证了其工业级有效性。

沉浸式对话混合引擎异步执行多智能体协作工业部署延迟优化

cs 03-23 00:00

GeoChallenge：首个大规模多答案选择题几何推理基准，揭示大模型视觉依赖短板

研究团队推出GeoChallenge基准，包含9万个自动生成的多答案选择题几何证明问题，要求模型结合文本描述与图表进行多步推理。该基准提供细粒度复杂度评级与形式化语言标注，支持可控评估。实验表明，当前最先进模型（GPT-5-nano）与人类表现存在显著差距（75.89 vs. 94.74），并揭示了大模型在几何推理中的三大常见失败模式：选择题精确匹配失败、视觉依赖能力弱以及推理发散不收敛。

几何推理多模态基准大语言模型评估符号推理视觉语言模型

cs 03-23 00:00

LLM在论点挖掘中的表现评估：从Llama到GPT-5.2的全面研究

本研究对GPT-5.2、Llama 4和DeepSeek等前沿大语言模型在论点挖掘任务上的性能进行了全面评估。研究在Args.me和UKP等公开数据集上测试了思维链提示、提示重述、投票和基于确定性的分类等高级提示策略。最佳模型GPT-5.2在UKP和Args.me数据集上分别取得了78.0%和91.9%的分类准确率。提示策略的优化使模型性能提升了2%至8%。定性分析揭示了模型在提示稳定性、识别隐含批评、解析复杂论证结构等方面存在系统性局限。

论点挖掘大语言模型提示工程模型评估自然语言处理

cs 03-23 00:00

LARFT：解决大语言模型长度指令遵循的认知-行动鸿沟

本文提出LARFT（长度感知强化微调）框架，旨在解决大语言模型在遵循输出长度指令时的核心难题。现有方法多从外部施加约束，而LARFT则聚焦于模型内在的“长度认知”缺陷。该框架通过强化学习与事后长度感知相结合，让模型从自身生成的数据中学习识别实际长度，从而协同优化其内部长度表征与生成策略。实验表明，LARFT在三个长度指令遵循基准上平均提升20.92分，同时在四个通用能力基准上性能下降仅1.45分，实现了精确且可靠的输出长度控制。

大语言模型指令遵循强化学习长度控制模型对齐认知行动鸿沟

cs 03-23 00:00

MAPLE：利用元数据增强提升私有语言演化效率

针对仅能通过API访问的专有大语言模型，传统差分隐私微调方法成本高昂。本研究提出MAPLE框架，通过差分隐私提取表格元数据并结合上下文学习，将初始合成数据分布有效锚定在目标领域。实验表明，在专业领域文本生成任务中，MAPLE相比现有私有演化方法，在隐私-效用权衡、收敛速度和API成本控制方面均有显著提升。

差分隐私大语言模型合成数据生成元数据增强api成本优化

cs 03-23 00:00

Breeze Taigi：台语语音识别与合成的标准化评测框架

本研究提出了Breeze Taigi框架，为台湾闽南语（台语）的语音识别与合成建立了首个标准化评测基准。核心贡献在于利用台湾行政院公共服务公告中的30对精心标注的普通话-台语平行音频数据，并制定了以字错误率（CER）为核心、包含文本归一化流程的公平评测方法。为展示基准实用性，研究团队通过利用现有普通话资源和大规模合成数据生成的方法，开发了参考模型。其中，语音识别模型通过在约1万小时台语合成语音数据上微调Whisper模型实现，在基准测试中取得了30.13%的平均CER，优于现有商业及研究系统。该框架提供了可复现的方法论，适用于多种语言环境。

语音识别语音合成台语处理评测基准多语言模型whisper模型

cs 03-23 00:00

HATL：用于手语机器翻译的分层自适应迁移学习框架

本文提出了一种分层自适应迁移学习框架，以解决手语机器翻译中数据稀缺、手语者多样性有限以及预训练表征与手语动作模式间存在较大领域差距的挑战。该框架通过动态解冻预训练层、分层学习率衰减和稳定性机制，在保持通用表征的同时适应手语特性。在Sign2Text和Sign2Gloss2Text翻译任务上的实验表明，HATL在PHOENIX14T、Isharah和MedASL三个数据集上均优于传统迁移学习方法，其中自适应变换器在MedASL数据集上的BLEU-4分数提升了37.6%。

手语翻译迁移学习自适应学习动态解冻分层学习多模态学习

cs 03-23 00:00

显著性增益BPE：用统计方法改进大语言模型的子词合并策略

本文提出了一种名为显著性增益BPE的子词合并新标准，以替代传统基于频率的BPE方法。该方法通过独立性零模型下的z统计量来衡量子词对的真实内聚性，并结合显式的压缩感知增益项，从而避免高频边缘计数带来的误判。在WikiText-103数据集上的实验表明，使用该方法的Transformer语言模型在验证集和测试集上的困惑度分别降低了13%和12%，每字符比特数（BPC）提升了约0.9%至1.0%。结果表明，基于统计的合并选择能在多种压缩水平下提升原始文本的预测效率。

子词分词bpe算法语言模型统计方法模型效率自然语言处理

cs 03-23 00:00

基于提示工程的文献目录网络爬虫自动生成方法

本文提出了一种利用提示工程与大型语言模型（如ChatGPT-4o）高效生成功能性网络爬虫的方法。研究旨在通过单次交互，自动生成适用于文献目录（以西班牙国家图书馆数千条记录为例）的PHP爬虫程序。结果表明，LLM能够理解特定上下文与模式，适应不同的书目信息呈现格式，从而提升爬虫质量，实现AI辅助下的最小化交互开发。

提示工程网络爬虫大型语言模型文献目录自动化编程chatgpt

cs 03-23 00:00

lit-tag：为文献数据库添加自定义标签与笔记的R Shiny应用

lit-tag是一款基于R Shiny开发的应用程序，旨在帮助研究者高效管理和分析科学文献。用户可以从Zotero导出引文数据，并通过自定义的Excel文件定义标签和笔记字段。该应用包含两个核心模块：lit-tag-builder用于为论文分配标签和笔记，lit-tag-viewer则支持对生成的数据库进行导出、图表绘制和报告生成。它不局限于特定学科，已在海洋二氧化碳去除等多个领域的科学综述中得到应用。

文献管理r shiny自定义标签数据分析科学综述

cs 03-23 00:00

国际计算会议的地域多样性研究：亚洲研究崛起与顶级会议滞后

本研究分析了13个国际系统研究会议过去13年的数据，发现随着亚洲研究产出的快速增长，计算研究格局正从美欧两极向美、欧、亚三极演变。分析显示，大多数会议已逐步反映了亚洲日益增长的研究存在，但顶级会议（如ASPLOS、OSDI、NSDI、SIGCOMM）的国际多样性存在显著的历史不平衡，仅在最近四年才出现明显调整。研究还发现，程序委员会（PC）的多样性在适应论文来源地变化方面存在持续的僵化，亚洲机构的研究人员在许多PC中持续代表不足。

计算研究国际会议地域多样性亚洲崛起程序委员会系统研究

cs 03-23 00:00

团队科学在紧急社会事件中的速度与影响力研究

本研究通过对抗性合作，连接了多个文献计量数据库，评估了48次紧急社会事件后三年内超过200万篇科学出版物的速度与影响力。对三个案例（2022年ChatGPT发布、2019年COVID-19大流行、2001年世贸中心袭击）的初步分析揭示了意外模式：更大的团队不仅更具影响力，而且发表速度更快。具体而言，团队规模的增加与（a）学术引用量的初始增加但最终收益递减，（b）新闻和政策文件引用量的曲线收益，以及（c）论文发表速度的曲线收益相关。研究通过预注册，对过去二十年中另外45个事件进行了更广泛的稳健性检验。

团队科学紧急事件科研速度科研影响力文献计量学收益递减

cs 03-23 00:00

医疗问答系统拼写纠错研究：真实查询错误率达61.5%，纠错显著提升检索效果

本研究首次针对医疗问答系统中的拼写纠错进行控制实验，发现真实医疗查询中61.5%存在拼写错误（词级错误率11.0%）。通过评估四种纠错方法（编辑距离、上下文感知排名等）在三种实验条件下的表现，证明查询端纠错是关键干预手段：编辑距离和上下文感知方法使MRR提升+9.2%，NDCG@10提升+8.3%。仅纠正语料库效果微弱（+0.5% MRR）。研究基于TREC 2017和HealthSearchQA数据集，为医疗QA系统提供了实证建议。

医疗问答系统拼写纠错信息检索编辑距离实证评估查询处理

cs 03-23 00:00

结构线索能否拯救大语言模型？StreamBench评估模型在海量文档流中的表现

本文针对大语言模型在流式文档环境中的评估难题，提出了StreamBench基准。该基准基于2016与2025年的重大新闻事件构建，包含605个事件和15,354份文档，涵盖主题聚类、时序问答和摘要三大任务。研究发现，通过事件组织关键事实的“结构线索”能显著提升模型性能，在聚类任务上提升达4.37%，在时序问答上提升达9.63%，帮助模型定位相关信息并区分不同事件。尽管时序推理仍是当前LLMs的固有挑战，但结构线索为处理海量文档流提供了一个有前景的研究方向。

大语言模型评估文档流处理结构线索时序推理基准测试

cs 03-23 00:00

法律大语言模型优化：元数据增强RAG与偏好优化提升可靠性

针对法律大语言模型在处理长文档时易产生幻觉（如错误条款或判例）的问题，本研究提出了一种结合元数据增强的混合检索增强生成（RAG）框架与直接偏好优化（DPO）的解决方案。该方法通过改进文档级检索精度，并训练模型在上下文不足时安全拒绝回答，有效提升了模型输出的准确性、可靠性与安全性，尤其适用于对数据隐私要求高、需本地部署的小型模型场景。

法律大模型检索增强生成直接偏好优化元数据检索模型可靠性幻觉抑制

cs 03-23 00:00

FinReasoning：评估大模型生成金融研究报告的推理能力新基准

针对大语言模型生成金融研究报告时出现的“事实错误、数据矛盾、分析浅薄”等问题，本文提出了FinReasoning基准。它将报告生成分解为语义一致性、数据对齐和深度洞察三个阶段，并引入包含12项指标的细粒度评估框架。评估发现，多数模型存在“理解-执行”差距，能识别错误但难以准确修正；且没有模型在所有阶段均表现卓越。Doubao-Seed-1.8、GPT-5和Kimi-K2在综合表现中位列前三，但各自能力分布不同。

金融大模型基准评测报告生成推理能力幻觉检测

cs 03-23 00:00

ShobdoSetu：面向孟加拉语长语音识别与说话人日志的数据中心化框架

本文针对资源匮乏的孟加拉语，提出了一个数据中心化框架ShobdoSetu，用于长语音识别与说话人日志任务。在语音识别任务中，通过从YouTube有声书和戏剧构建高质量训练语料库，结合LLM辅助语言规范化、模糊匹配分块边界验证和静音区增强等技术，对Whisper-medium模型进行微调，在私有测试集上取得了15.551的词错误率。在说话人日志任务中，在极低资源（仅10个训练文件）下对pyannote.audio模型进行超参数优化，私有测试集上的日志错误率为0.26723。结果表明，精心的数据工程和领域自适应微调可在缺乏大规模标注数据的情况下，为孟加拉语语音处理取得有竞争力的性能。

语音识别说话人日志孟加拉语数据中心化低资源语言模型微调

cs 03-23 00:00

基于大语言模型的自然语言路径规划：约束感知与迭代优化

本文提出了一种利用大语言模型（LLM）直接从自然语言指令解决约束路径规划问题的灵活框架。该方法允许用户以对话形式描述任务，核心在于通过LLM进行问题解析与求解。框架包含两个集成组件：对于已知问题类型，LLM将输入匹配到预定义模板库；对于新问题，LLM通过上下文学习自主推断问题表示并构建合适的形式化描述。两种情况下，均采用迭代式的解决方案生成与验证过程，通过多轮自我修正（受遗传算法启发）引导LLM产生可行且逐步优化的路径方案。该方法为现实世界路由任务提供了一种可扩展、通用性强且人工干预最少的新途径。

大语言模型路径规划自然语言处理约束优化迭代求解智能交通

24 小时跨学科精选

计算机科学

2026-03-23 速览 · 计算机科学

L-PRISMA：将生成式人工智能融入系统综述的新框架

Gordian：用LLM生成幽灵代码化解符号执行中的逻辑炸弹

离散几何映射中 Beltrami 系数与角度畸变的理论关联研究

工程导向符号回归：LLM作为物理代理发现仿真就绪的本构定律

IJCNN 2025审稿流程解析：应对论文提交量翻倍与审稿人偏见的策略

当提示优化沦为越狱攻击：大语言模型的自适应红队测试

DuCCAE：百度搜索部署的混合引擎，解决沉浸式对话响应与任务执行延迟难题

GeoChallenge：首个大规模多答案选择题几何推理基准，揭示大模型视觉依赖短板

LLM在论点挖掘中的表现评估：从Llama到GPT-5.2的全面研究

LARFT：解决大语言模型长度指令遵循的认知-行动鸿沟

MAPLE：利用元数据增强提升私有语言演化效率

Breeze Taigi：台语语音识别与合成的标准化评测框架

HATL：用于手语机器翻译的分层自适应迁移学习框架

显著性增益BPE：用统计方法改进大语言模型的子词合并策略

基于提示工程的文献目录网络爬虫自动生成方法

lit-tag：为文献数据库添加自定义标签与笔记的R Shiny应用

国际计算会议的地域多样性研究：亚洲研究崛起与顶级会议滞后

团队科学在紧急社会事件中的速度与影响力研究

医疗问答系统拼写纠错研究：真实查询错误率达61.5%，纠错显著提升检索效果

结构线索能否拯救大语言模型？StreamBench评估模型在海量文档流中的表现

法律大语言模型优化：元数据增强RAG与偏好优化提升可靠性

FinReasoning：评估大模型生成金融研究报告的推理能力新基准

ShobdoSetu：面向孟加拉语长语音识别与说话人日志的数据中心化框架

基于大语言模型的自然语言路径规划：约束感知与迭代优化