让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

借钱炒股

上交CVPR满分论文数据蒸馏时间,平直把GPU显存“砍掉”300倍

发布日期:2025-03-18 08:49    点击次数:182

给全球共享一项在计较机视觉顶会CVPR 2025上被收受的重磅酌量,来自上海交通大学,上海东谈主工智能推行室等机构,论文名为 《Dataset Distillation with Neural Characteristic Function: A Minmax Perspective》(基于神经特征函数的数据集蒸馏:一个 Minmax 视角)

这项酌量不错说是在数据蒸馏范畴投下了一颗“深水炸弹”,它建议了一种全新的才略NCFM (Neural Characteristic Function Matching,神经特征函数匹配),不仅大幅进步了数据蒸馏的性能,更在资源遵循上完毕了质的飞跃!

比较于DATM等SOTA才略,NCFM的GPU显存占用缩短了300倍以上!检修速率进步了20倍!更令东谈主畏缩的是,NCFM仅用2.3GB显存,就在单张NVIDIA2080TiGPU上收效完成了CIFAR-100的无损蒸馏!这在之前是难以假想的。

话未几说,我给全球划个重心。

布景:大数据时期的“瘦身术”——数据集蒸馏

在东谈主工智能范畴,咱们常说“数据为王”。 模子要强大,海量数据少不了。 可是,大数据也带来了新的挑战:

存储压力山大: 动辄TB以致PB级别的数据,存储老本昂贵检修耗时漫长: 在海量数据上检修模子,计较资源和时分老本都让东谈主望而生畏内存瓶颈突显:大模子 + 大数据,GPU显存分分钟被榨干

为了处置这些问题,数据蒸馏 (Dataset Distillation)时间应时而生。 它的场地就像给数据集作念“瘦身”, 用小数合成数据 (Synthetic Data) “浓缩” 原始大数据集 (Real Data) 的精华信息,让模子仅用这些“迷你”数据就能达到以致杰出在原始数据集上的检修成果。

现存才略的窘境: “像素级”匹配 vs. “散播级”各异

现在,数据集蒸馏才略主要分为两大类:

特征匹配 (Feature Matching): 这类才略就像“像素级”比对,平直比较合成数据和委果数据在特征空间的相同度。 举例,早期的 MSE (均方差错) 才略等于典型代表,但它不断忽略了数据的高维语义信息,成果有限。散播匹配 (Distribution Matching): 这类才略更贯注“散播级”的相同性,试图让合成数据和委果数据在散播上尽可能一致。 MMD (最大均值各异) 是常用的度量宗旨,但酌量标明,MMD只是对皆了数据的低阶矩,并不行保证合座散播的相同性,并且计较复杂度较高。

简便来说,现存才略要么过于简便残暴,无法捕捉数据的深层散播;要么计较复杂,遵循不高。这就限度了数据集蒸馏时间的进一步发展。

NCFM: Minmax 博弈下的“神经特征函数”

为了芜乱现存才略的瓶颈,白银投资NCFM 从全新的 Minmax 博弈视角启航, 引入了 “神经特征函数各异 (Neural Characteristic Function Discrepancy, NCFD)” 这一立异度量宗旨。

1. Minmax 博弈: “矛与盾”的抗拒学习

NCFM 将数据集蒸馏问题从头界说为一个 Minmax 优化问题,就像一场“矛与盾”的抗拒游戏:

“矛” (Discrepancy Metric Network, 各异度量收集 ψ):它的场地是 最大化 (Max)合成数据和委果数据之间的各异 (Discrepancy), 勤恳找到一个最能鉴别二者散播的“判别器”。 这个“判别器”等于神经特征函数各异 (NCFD)“盾” (Synthetic Data, 合成数据 D):它的场地是 最小化 (Min) 在 “矛” 的度量下,合成数据和委果数据之间的各异, 勤恳生成尽可能“传神”的合成数据, “诈欺” “判别器”

通过 “矛与盾” 的不断抗拒和迭代优化,NCFM 大约 自顺应地学习到一个更鲁棒、更灵验的各异度量宗旨 (NCFD), 并生成更高质地的合成数据。 这种 Minmax 框架与 GANs 的抗拒生成念念想有不谋而合之妙,但场地和完毕神色却截然有异。

2. NCFD: 基于“特征函数”的全面散播描绘

NCFD 的中枢立异在于 “神经特征函数各异” 这一度量宗旨。 它秘要隘哄骗了特征函数 (Characteristic Function, CF)的强大智力来描绘数据散播

什么是特征函数 (CF)?简便来说, 特征函数等于概率密度函数的傅里叶变换。它具有以下关键上风:

独一性:一个散播对应独一的特征函数,反之也是。这意味着特征函数大约完好意思、无损地编码散播的一皆信息全面性: 特征函数包含了散播的通盘矩信息,比 MMD 仅对皆低阶矩更全面

NCFD 若何“神经”?NCFM 并莫得平直使用传统的特征函数,而是引入了一个轻量级的神经收集 ψ 来学习特征函数的频率参数 t 的采样战略。这么作念的公道是:

自顺应性: 神经收集 ψ 不错左证数据散播的特质, 动态治疗频率参数的采样战略, 最大化各异度量 (NCFD)高效性:比较于 MMD 的二次复杂度, NCFD 的计较复杂度是线性的,更高效

3. 相位 (Phase) 与幅度 (Amplitude) 的精妙均衡

NCFM 在 NCFD 的计较中, 终点调遣了神经收集特征在复数域的 “相位 (Phase)” 和 “幅度 (Amplitude)” 信息

相位信息:编码了数据的 “中心” 和 “形状”, 关于保证合成数据的 “委果性 (Realism)”至关弥留幅度信息:反馈了数据的“表率” 和 “界限”, 有助于进步合成数据的“各样性 (Diversity)”。

NCFM 通过精妙地均衡相位和幅度信息, 使得合成数据既能保捏委果感,又能兼顾各样性, 从而显赫进步了蒸馏性能

推行甩掉: 性能与遵循的双重 “王炸”

推行甩掉充分讲明了 NCFM 的超卓性能和遵循:

性能大幅杰出 SOTA: 在 CIFAR-10, CIFAR-100, Tiny ImageNet 以及高分辨率的 ImageNet 子集上,NCFM 都显赫杰出了现存起原进 (SOTA) 的数据集蒸馏才略。 在 ImageSquawk 高分辨率数据集上,NCFM 以致得到了惊东谈主的 20.5% 的精度进步!资源遵循惊东谈主:比较于 DATM 等 SOTA 才略,NCFM 的 GPU 显存占用缩短了 300 倍以上! 检修速率进步了 20 倍!更令东谈主畏缩的是,NCFM 仅用 2.3GB 显存,就在单张 NVIDIA 2080 Ti GPU 上收效完成了 CIFAR-100 的无损蒸馏! 这在之前是难以假想的

本文来源:AI寒武纪,原文标题:《上交CVPR 满分论文数据蒸馏时间,平直把 GPU 显存 “砍掉” 300 倍》

风险教导及免责要求 市集有风险,投资需严慎。本文不组成个东谈主投资建议,也未辩论到个别用户迥殊的投资场地、财务情景或需要。用户应试虑本文中的任何认识、不雅点或论断是否顺应其特定情景。据此投资,背负自诩。