laosege 图像伪造照妖镜！北大发布多模态LLM图像更正检测定位框架

发布日期：2024-10-30 19:34 点击次数：197

裁剪：LRSTlaosege

【新智元导读】北京大学的询查东谈主员缔造了一种新式多模态框架FakeShield，巧合检测图像伪造、定位更正区域，并提供基于像素和图像语义虚假的合相识释，不错提高图像伪造检测的可诠释注解性和泛化身手。

跟着生成式东谈主工智能（AIGC）的迅猛发展，图像裁剪与合成技艺变得更加熟谙与普及。这一趋势为图像内容创作带来了方便的同期，也显赫增多了更正检测的难度。

用户巧合通过Photoshop、DeepFake、AIGC等器具对图像进行高质地裁剪，且时时不留任何印迹。在此配景下，若何准确检测并定位更正区域，成为了学术界与工业界的表情要点。

尽管现存的图像更正检测与定位（IFDL）算法在采聚会构和熟谙政策上赢得了一定进展，但仍存在几个主要问题：

1. 大大宗按序遴荐黑箱模子，仅输出信得过性概率，可贵详备的检测诠释注解，导致用户对适度的信任度缩小。

2. 现存算法频繁针对特定更正技艺，可贵支吾千般化更正技能的身手，缩小了实用性。

为了搞定这些问题，如图1所示，北京大学与华南理工大学的询查团队提议了一种全新的任务：可诠释注解的图像伪造检测与定位（e-IFDL），并假想了一个新颖的多模态伪造检测定位框架：FakeShield。

论文地址：https://arxiv.org/abs/2410.02761laosege

神色主页：https://zhipeixu.github.io/projects/FakeShield/

GitHub地址：https://github.com/zhipeixu/FakeShield

集合多模态大讲话模子的视觉和讲话相识身手，兑当今检测图像信得过性，生成更正区域掩膜的同期，提供详备诠释注解，进而增强了检测定位流程的透明性与泛化性。

图1：(a)传统IFDL按序，(b)可诠释注解的IFDL按序

为了搞定现存IFDL按序的不及，FakeShield提议了以下主要孝敬：

1. 提议了首个多模态大模子框架用于图像更正检测与定位，不仅兑现了检测与定位流程的解耦，还提供了合理的判断依据，搞定了现存按序的黑箱问题。

2. 愚弄GPT-4o丰富现存IFDL数据集，构建了多模态更正刻画数据集（MMTD-Set），通过表情不同更正特征，生成「图像-掩膜-刻画」三元组，提高了模子的分析身手。

3. 假想了基于鸿沟标签指点的诠释注解性更正检测模块（DTE-FDM），在单一模子中检测多种更正类型，缓解了数据域突破问题。同期，通过多模态更正定位模块（MFLM），对皆视觉和讲话特征，兑现精确的更正区域定位。

基于上述翻新，FakeShield不仅栽种了更正检测定位的准确性和诠释注解性，还显赫增强了模子的合适性和实用性，为图像更正检测鸿沟提供了一种全面而高效的搞定决策。

MMTD-Set数据集

如图2所示，咱们凭证更正按序，将更正图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。基于现存的IFDL数据集，咱们愚弄GPT-4o生成关于更正图像的分析与刻画，构建「图像-掩膜-刻画」三元组，以撑抓模子的多模态熟谙。另外，针对不同更正类型，咱们假想了特定的刻画教唆，指点GPT表情不同的像素伪影和语义虚假。

图2：MMTD-Set数据集构建流程laosege

在MMTD-Set的构建流程中，prompt假想是关键关键，旨在确保GPT-4o能准确生成与更正图像有关的高质地刻画。在输入裁剪后的图像偏激二值掩膜时，prompt的假想围绕两个主要方面伸开：更正区域的定位和可见细节的捕捉。

在定位刻画中，GPT-4o需要对更正区域的齐全位置和相对位置进行明晰抒发。齐全位置指更正区域在通盘图像中的位置，如「图像的左上角」或「围聚图像下半部分」。相对位置则条目刻画更正区域与其他物体之间的干系，如「在桌面上方」或「围聚东谈主群」。这种双重刻画的假想不错匡助模子更准确地感知更正区域在图像中的位置，确保输出的掩膜与骨子更正区域一致。

在可见细节的捕捉上，prompt要点表情多种视觉相称，这些相称反馈了更正流程中可能留住的伪影和逻辑虚假。

关于Photoshop更正，prompt要点表情像素级伪影和不当然的旯旮，条目模子检查光照一致性、像素破绽和分辨率变化，同期判断是否违背物理章程，如缺失的暗影或透视干系不对理。在DeepFake数据中，prompt强调面部细节和语义逻辑，条目模子正式皮肤纹理的连贯性、脸色的当然性以及光影的匹配，属意面部对称性和眼睛反射的相称。

关于AIGC裁剪，prompt聚焦于翰墨生成和视觉逻辑，条目分析翰墨拼写是否正确、陈列是否合理，并判断场景中光影和对象位置的合感性。这种针对不同更正类型的prompt假想确保了FakeShield在检测与诠释注解上的高效性和准确性。

FakeShield框架

如图3所示，该框架包括域标签指点的可诠释注解伪造检测模块（Domain Tag-guided Explainable Forgery Detection Module，DTE-FDM）和多模态伪造定位模块（Multi-modal Forgery Localization Module，MFLM）两个关键部分。

DTE-FDM端庄图像伪造检测与检测适度分析，愚弄数据域标签（domain tag）弥合不同伪造类型数据之间的数据域突破，指点多模态大讲话模子生成检测适度及判定依据。MFLM则使用DTE-FDM输出的关于更正区域的刻画动作视觉分割模子的Prompt，指点其精笃定位更正区域。

图3：FakeShield框架图

Domain Tag-guided Explainable Forgery Detection Module（DTE-FDM）

DTE-FDM模块端庄图像伪造检测与检测适度的分析，通过生成数据域标签（domain tag）来缓解不同伪造类型数据（如Photoshop裁剪、DeepFake、AIGC裁剪）之间的数据域突破。这些标签指点多模态大讲话模子（LLM）聚焦于各种型更正的特征，兑现针对性检测与诠释注解。

在检测流程中，输入图像I_ori通过数据域标签生成器G_dt分派特定标签T_tag，标明该图像的伪造类型。接着，图像经过编码器F_enc和线性投影层F_proj退换为特征向量T_img。

这些图像特征与指示文本T_ins一并输入LLM，生成检测适度O_det，包括是否更正、具体的更正区域刻画以及诠释注解性分析。

自慰

具体流程如下：

DTE-FDM不仅判断图像的信得过性，还凭证不同伪造类型生成详备的判定依据，包括光照一致性、旯旮伪影、分辨率各异等。这种假想确保模子巧合支吾千般化的伪造场景，增强了检测的准确性和诠释注解性，使FakeShield在支吾复杂更正任务时具有更强的泛化身手与实用性。

Multi-modal Forgery Localization Module（MFLM）

MFLM模块端庄精确定位图像中的更正区域，通过多模态特征对皆的形状将文本和视觉信息交融，从而生成准确的更正掩膜。MFLM的假想旨在搞定仅依赖单一模态信息所带来的定位不准确问题，增强对复杂更正区域的识别身手。

在MFLM中，输入的图像I_ori经过Tamper Comprehension Module (TCM) 编码，将图像特征与诠释注解性文本O_det进行对皆。对皆后的镶嵌暗意通过多层感知机（MLP）投影为非凡的令牌镶嵌用于带领分割模子生成更正区域掩膜，用于带领分割模子生成更正区域掩膜M_loc。

通盘流程如下：

其中，S_enc和S_dec分歧为图像的编码器与解码器，Extract(⋅)为提真金不怕火镶嵌的操作，通过上述要领，MFLM愚弄文本刻画和图像特征的对皆生成准确的二值掩膜。

此外，MFLM使用了LoRA微调技艺，对模子进行轻量化优化，提高了处理成果并缩小了蓄意本钱。与单一模态分割按序比较，这种多模态交互的假想使得MFLM巧合支吾更加复杂的更正场景，如光照不一致、透视虚假和对象拼接，从而显赫栽种更正区域的定位准确性。

执行适度

咱们对FakeShield与多种IFDL按序和多模态大讲话模子（MLLM）在检测、诠释注解和定位方面的性能进行了全濒临比。为了确保适度的公谈性，统共IFDL按序均在与FakeShield疏浚的数据集上进行了熟谙和测试。

这一比较掩盖了Photoshop、DeepFake以及AIGC裁剪等多种更正场景，全面评估了各模子在多模态信息交融和复杂更正检测中的说明。

检测性能对比

咱们与MVSS-Net，CAT-Net等其他先进的IFDL按序进行了检测性能的对比，适度如表1所示。执行适度标明，FakeShield在Photoshop、DeepFake和AIGC裁剪等数据集上的检测准确率（ACC）和F1分数均显赫优于其他按序。通过引入域标签指点政策（domain-tag guidance），FakeShield巧合有用处理多种更正类型，增强跨鸿沟的泛化身手。

表1：FakeShield与主流IFDL按序的定位性能比较

诠释注解性能对比

咱们通过与预熟谙的多模态大讲话模子（M-LLMs）在Photoshop、DeepFake和AIGC裁剪数据集上的说明进行对比，评估了FakeShield的诠释注解身手，适度如表2所示。

咱们遴荐余弦语义相同度（CSS）动作料到标的，FakeShield在各项测试中均赢得了最高分数，展现了其生成准确且详备更正区域刻画的身手。这标明，FakeShield巧合在复杂的更正场景中生成与信得过情况高度一致的诠释注解性刻画，大幅栽种了模子在检测流程中的可诠释注解性与透明度。

表2：FakeShield与主畅达用MLLM按序的诠释注解性能比较

定位性能对比

咱们通过与其他先进的IFDL按序在Photoshop和AIGC裁剪等数据集上的说明进行对比，评估了FakeShield在更正区域定位方面的身手，适度如表3所示。执行适度标明，FakeShield在大大宗测试聚积均赢得了最高的IoU和F1分数。

表3：FakeShield与主流IFDL按序的定位性能比较

另外，图4的主不雅适度对比也标明，FakeShield巧合生成更加明晰且精确的更正区域分割，准确捕捉领域，而其他按序如PSCC-Net则容易产生破绽且过于普通的预计。

图4：FakeShield与主流IFDL按序的定位性能的定性比较

参考贵寓：

https://arxiv.org/abs/2410.02761

上一篇：台湾佬中文网半场-国米暂3-2尤文泽林斯基点射双响姆希塔良立功DV9&维阿破门下一篇：台湾佬中文网对于那些研究不周密的东说念主，说一些对于葡萄牙外侨的信得过情况

laosege 图像伪造照妖镜！北大发布多模态LLM图像更正检测定位框架

热点资讯

相关资讯