AI模型以97%准确率检测GIF网络霸凌
本研究针对日益严重的网络霸凌问题,首次构建了一个包含4100余个GIF的标注数据集,并应用VGG16深度学习模型进行检测,准确率达到97%。该工作填补了GIF/表情包霸凌检测的研究空白,为社交媒体内容审核提供了新的技术工具。
今日速览 · AI 导读
自动抓取 arXiv 多学科 RSS,DeepSeek 自动润色标题与摘要,最快 24 小时内汇总。
AI 导读
今日看点(自动摘要):cs: AI模型以97%准确率检测GIF网络霸凌;cs: 数据导向设计在多线程AI算法中显著提升缓存效率与性能;cs: ThreadWeaver:自适应并行推理框架,在保持语言模型准确性的同时显著降低延迟
数据源:arXiv 官方 RSS(physics / math / cs / q-bio / econ / astro-ph 等)。
标题与摘要由 DeepSeek 进行中文润色,便于快速浏览;外链跳转至原文。
AI 速览助手:点击卡片“速览全文”可拉取 arXiv HTML,生成全文要点并缓存;右下角悬浮按钮可随时展开/收起速览。
自动抓取:每日 14:00 初始化批次并每 15 分钟轮询学科,24h 无数据则回退 72h/7 天;arXiv 周末停更时自动跳过。
往期回顾:点击上方“往期回顾”进入日历页,按月查看每日抓取总数,并跳转到对应日期速览。
2025-12-10 共 24 条抓取,按综合热度排序
本研究针对日益严重的网络霸凌问题,首次构建了一个包含4100余个GIF的标注数据集,并应用VGG16深度学习模型进行检测,准确率达到97%。该工作填补了GIF/表情包霸凌检测的研究空白,为社交媒体内容审核提供了新的技术工具。
本研究通过对比数据导向设计(DOD)与面向对象设计(OOD)在A*搜索算法上的实现,系统评估了二者在多线程CPU环境下的性能差异。实验结果表明,在多线程场景中,DOD版本在执行时间、系统调用次数和缓存未命中数等关键指标上均表现出显著优势,尤其在数据密集型操作中效率更高。研究同时发现,对于A*这类细粒度任务,线程管理开销可能导致单线程版本性能优于多线程版本。结论指出,DOD在架构上具有基础性优势,是提升复杂AI及并行计算任务硬件效率的更有效方法。
ThreadWeaver 是一个创新的自适应并行推理框架,旨在解决大语言模型(LLM)推理时因顺序解码导致的高延迟问题。该框架通过三方面创新实现高效并行:1)生成大规模带并行标注的思维链数据用于监督微调;2)基于字典树的训练-推理协同设计,使其能在任何现成的自回归推理引擎上运行,无需修改位置编码或KV缓存;3)并行感知的强化学习框架,教导模型在准确性与并行效率间取得平衡。在六个数学推理基准测试中,基于Qwen3-8B的ThreadWeaver实现了与顶尖顺序推理模型相当的准确率(平均71.9%,AIME24上达79.9%),同时将token延迟平均加速1.53倍,在准确性与效率之间建立了新的帕累托前沿。
本文指出,在长尾学习中,特征空间与分类器权重空间的对齐缺失是阻碍神经崩溃现象发生、导致泛化性能差的关键原因。作者通过理论分析量化了这种错位的危害,并提出了三种即插即用的显式对齐策略。在多个长尾数据集上的实验表明,该方法能有效提升现有基线模型的性能,达到新的最优水平。
本研究提出了两个新颖的音频-空间场景数据集AudioScanNet和AudioRoboTHOR,旨在解决现有音频数据集缺乏空间上下文的问题。通过将音频片段与空间对齐的3D场景相结合,该研究探索了音频信号如何与空间环境交互。方法上,利用大语言模型的常识推理能力并结合严格的人工验证来关联音频事件与空间信息,在保证准确性、完整性和多样性的同时,实现了比纯手动标注更高的可扩展性。基准测试表明,该数据集能有效推动音频引导的3D视觉定位和机器人零样本导航等任务的发展。
MixLM是一种新颖的大语言模型排序框架,旨在解决工业级搜索推荐系统中LLM排序计算开销高、吞吐量低的问题。其核心创新在于“混合交互”机制,将冗长的物品文本描述预先编码为少量嵌入向量并缓存,在线推理时仅需输入这些向量,从而将输入上下文长度从数千文本词元大幅缩减。在LinkedIn真实搜索应用中的部署表明,MixLM在保持排序相关性的同时,将系统吞吐量提升了10倍,并成功推动LLM搜索全流量上线,带来日活跃用户显著增长。
本文提出了一种知识驱动的AI Urban Scientist系统,旨在解决城市科学面临的数据碎片化、跨学科信息整合难题。该系统从数千项高质量研究中提炼假设、数据和分析模式,构建为一个协调的多智能体框架,能够自主生成结构化假设、检索与整合异构数据集、进行自动化实证分析与模拟,并以符合城市科学推理的方式综合见解。它不仅降低了高级城市分析的门槛,更能作为主动合作者,揭示城市系统运行机制,助力设计更具韧性与公平性的城市。
研究发现,在LLM代理执行长序列任务时,并非所有动作错误都同等致命。通过分析Airline/Retail和SWE-Bench任务轨迹,作者将步骤分为“突变”(改变环境状态)和“非突变”两类,并定义了“决定性偏差”——即最早导致任务从成功翻转为失败的动作偏差。逻辑回归分析显示,在SoTA模型中,每个突变动作的额外偏差可使成功率降低高达92%-96%,而非突变动作偏差影响甚微。基于此,团队提出了CM防护机制,通过突变门控验证、针对性反思和基于块的上下文清理,在多个基准测试上实现了7%-28%的相对性能提升。
针对多模态模型训练中GPU内存溢出(OoM)导致资源浪费的问题,本研究提出了一个预测峰值GPU内存使用量的框架。该框架通过将多模态模型分解为各组成层,并应用因子化方法估算每层内存使用量,实现了对复杂模型内存需求的准确预测。评估显示,其平均绝对百分比误差(MAPE)约为8.7%,有效解决了现有方法难以泛化至多模态架构的局限。
本文提出LAPA,一种针对Transformer模型的日志域预测驱动动态稀疏加速器。针对Transformer计算瓶颈随输入序列动态变化的问题,LAPA设计了跨阶段稀疏加速策略。其核心创新包括:消除昂贵乘法的非对称前导一计算方案、缓解累加开销的混合精度多轮移位累加机制,以及与之协同的数据特征依赖滤波器策略。实验表明,LAPA在能效上分别比当前最先进的Spatten、Sanger和FACT方案高出3.52倍、3.24倍和2.79倍。
本研究提出一个无监督机器学习框架,用于监控《蒙特利尔议定书》等环境条约的执行。该框架结合K-Means聚类、孤立森林异常检测及启发式标记,对10万条贸易记录进行分析,成功识别出1351个价格异常和1288个高优先级货物。关键发现是,高优先级商品的价值重量比与普通货物显著不同。模型还成功捕捉到2021年初因美国《AIM法案》实施而出现的“大宗贸易”激增现象,验证了其敏感性。
针对恶意软件利用域名生成算法(DGA)逃避传统防火墙拦截的问题,本研究提出了一种结合深度学习和自然语言处理(NLP)的检测方法。通过构建包含5万个合法与5万个恶意域名的混合数据集,提取词汇特征并训练长短期记忆网络(LSTM)模型。实验结果表明,该神经网络方法在检测复杂DGA模式上表现优异,准确率达到97.2%,并在合法流量场景中有效降低了误报率。
本研究针对传统贝叶斯优化方法难以处理函数型响应(如随时间或波长变化的信号)且通常只优化平均性能的局限,提出了最小-最大函数型贝叶斯优化(MM-FBO)框架。该方法利用函数主成分分析表示响应,并为得分构建高斯过程代理模型,通过一种集成不确定性采集函数,在探索整个函数域的同时,直接最小化最坏情况下的误差。理论分析证明了其离散化界和一致性,在合成基准和涉及超光子器件电磁散射等物理案例中,MM-FBO均优于现有基线,凸显了显式建模函数不确定性的重要性。
LocaGen 提出了一种基于机器学习的亚采样时延学习方法,旨在提升二维音频波束定位性能。该系统利用仿真生成的真实合成数据训练模型,有效降低了采样量化误差,从而提高了基于三麦克风阵列的波达方向(DOA)和精确位置估计的准确性。实验表明,即使在低功耗嵌入式系统上,LocaGen 也能以极小的实时资源开销,将 DOA 误差降低约 67%。
本研究提出了一种基于混合专家(MoE)的噪声估计器,并将其融入分数扩散框架,用于解决生理时序信号(如多变量、高噪声、易受伪影干扰)的重建与插补难题。核心创新在于设计了感受野自适应MoE模块,使各通道能在扩散过程中自适应选择感受野;并利用MoE的并行特性,通过融合MoE模块在单次推理中生成并融合多个噪声信号,在提升性能的同时,避免了传统多轮推理带来的巨大计算开销与延迟。实验表明,该方法在不同任务和数据集上均优于现有的扩散模型SOTA方法。
本研究提出了CarBench,这是首个专注于大规模3D汽车空气动力学的综合基准。该研究在最大的公开汽车空气动力学数据集DrivAerNet++(包含超过8000个高保真仿真)上,对包括神经算子、几何深度学习、基于Transformer的求解器和隐式场网络在内的11种最先进模型进行了大规模评估。评估内容涵盖预测精度、物理一致性、计算效率和统计不确定性。研究团队开源了完整的基准框架,为基于高保真CFD仿真的数据驱动工程研究建立了首个可复现的基础。
研究团队提出了RaX-Crash,一个资源高效且可解释的小模型流程,用于预测纽约市机动车碰撞事故的伤害严重程度。该流程整合了数千万条记录,构建统一特征模式,并训练基于树的集成模型(XGBoost和随机森林)。在时间保留测试集上,这些模型(准确率约0.78)显著优于小型语言模型(约0.5-0.59)。SHAP归因分析揭示了人员脆弱性、时间和地点是预测严重程度的主要驱动因素。研究表明,可解释的小模型集成仍是城市级伤害分析的强基线,而结合表格预测器和语言模型生成的叙述的混合流程,能在不牺牲可扩展性的情况下改善沟通。
本文提出了一种新颖的HSTMixer框架,旨在解决大规模交通预测中模型计算复杂度高的问题。该模型采用全MLP架构,通过分层时空混合块提取多分辨率特征,并利用自适应区域混合器动态捕捉不同区域的时空演化模式。在四个大规模真实数据集上的实验表明,该方法在实现最先进预测性能的同时,保持了出色的计算效率。
本研究提出了一种名为CLDD的新型图深度学习模型,旨在无需依赖大量医学检测的情况下,实现对成百上千种疾病的筛查。该模型通过自适应地利用疾病间的关联和患者间的相似性,将疾病检测构建为协同学习任务。在包含6万余名患者和2000种疾病的MIMIC-IV数据集上,CLDD在召回率和精确率上分别提升了6.33%和7.63%。该方法有望降低诊断成本,提升大规模疾病筛查的可及性。
本文提出SA^2GFM框架,旨在解决图基础模型在领域噪声、结构扰动和对抗攻击下鲁棒性不足的问题。核心方法包括:将基于熵的编码树转化为结构感知文本提示以增强特征;利用自监督信息瓶颈机制提炼鲁棒、可迁移的表示;引入专家自适应路由机制缓解跨域负迁移;并通过联合社区内/间结构学习的微调模块优化层次结构。实验表明,该框架在节点和图分类任务上,针对随机噪声和对抗扰动的有效性和鲁棒性均优于9个先进基线。
本文提出FAIM模型,用于解决时序分类任务中模型计算成本高、对噪声敏感及小数据集易过拟合的挑战。FAIM通过自适应滤波块在频域提取特征并动态抑制噪声,结合交互Mamba块实现多粒度信息交互,并引入自监督预训练增强模型鲁棒性。实验表明,FAIM在多个基准测试中优于现有方法,实现了精度与效率的优越平衡。
本文提出SetAD,一种将半监督异常检测重构为集合级任务的新框架。传统方法聚焦于对单个数据点或简单对进行评分,忽略了异常通常是在群体上下文中定义的。SetAD采用基于注意力的集合编码器,通过分级学习目标来量化整个集合的异常程度,直接建模定义异常的复杂群体级交互。此外,还提出了一种上下文校准的异常评分机制,通过聚合一个点在多个不同上下文集合中相对于同伴行为的归一化偏差来评估其异常分数。在10个真实数据集上的实验表明,SetAD显著优于现有最先进模型,且性能随集合规模增大而持续提升。
研究将瑞典690万人口(2001-2013年)的登记数据转化为语义丰富的文本化生命轨迹,用于预测后续年份(2013-2017年)的居住迁移。该方法解决了分类变量基数高和编码方案随时间不一致的长期挑战。通过比较LSTM、DistilBERT、BERT和Qwen等多种NLP架构,发现序列和基于Transformer的模型能更有效地捕捉时间和语义结构。结果表明,文本化的登记数据保留了个人路径的有意义信息,支持复杂、可扩展的建模,为社会科学的纵向分析提供了新工具。
本文提出可控风险智能体生成框架CRAG,旨在解决自动驾驶测试中模拟真实且罕见危险场景的难题。该框架构建了一个解耦正常行为与风险行为的结构化潜在空间,有效利用有限的事故数据。通过结合风险感知表征与基于优化的模式转换机制,CRAG能使环境智能体在长时间范围内平滑、可信地从安全状态过渡到风险状态,并在两种状态下均保持高保真度。实验表明,CRAG在提升场景多样性的同时,实现了可控的风险场景生成,从而支持对自动驾驶系统鲁棒性进行有针对性的高效评估。