你的位置:伦理片在线看 > 冲田杏梨作品 >

女同 sex CVPR 2025:长Prompt对皆问题也能评估了!现时最大AIGC评估数据集,模子评分卓绝现时SOTA

女同 sex CVPR 2025:长Prompt对皆问题也能评估了!现时最大AIGC评估数据集,模子评分卓绝现时SOTA

本年女同 sex,CVPR 共有 13008 份灵验投稿并干涉评审经由,其中 2878 篇被寄托,最终寄托率为 22.1%。

寄托论文上来看,多模态关联内容也曾存眷要点。

上海交通大学 - 好意思团策画与智能搭伙推行室发布的论文也被寄托,论文提议了 Q-Eval-100K 数据集与 Q-Eval-Score 评估框架。

论文奋力于于惩办以下问题:

现有的文本到视觉评估数据集存在要津评估维度缺少系统性、无法区分视觉质料和文本一致性,以及限制不及等问题;

狠撸撸

评估过程复杂、终端疲塌,难以知足特定评估需求,终端了基于大模子的评估模子在骨子场景中的驾驭

关联推行也标明数据集和轨范在评估论断和泛化性方面都作念到确现时业界的最初水准。

不才表中不错看到数据集 Q-Eval-100K 的实例数目和东谈主工标注数目远超其他数据集,不错说 Q-Eval-100K 是现时最大的 AIGC 评估数据集。

同期跨数据集考据透露,在 Q-Eval-100K 上磨练的模子在 GenAI-Bench 数据集上弘扬出色,远超现时先进轨范,充分证实了 Q-Eval-100K 数据集的泛化价值。

数据集 Q-Eval-100K 开启了文本到视觉内容评估的新时间,同期 Q-Eval-Score 提供一个开源的较为准确客不雅的 AIGC 打分框架,可用于对 AIGC 图片视频生成类模子的评估。

Q-Eval-100K 数据集共计包含了 100K 的 AIGC 生成数据(其中包含 60k 的 AIGC 图片以及 40k 的 AIGC 视频)。

接下来,将对 Q-Eval-100K 数据集与 Q-Eval-Score 评估框架进行防卫先容。

数据集构建

在数据集构建上,团队确保死守三个原则:

1)保证数据各种性。为了汇聚到接近确凿场景下各种性的数据集,团队从三个大的维度动身构建了对应的 prompt 集,这三个大的维度不错被辩认为实体生成(people,objects,animals,etc.),实体属性生成(clothing,color,material,etc.),交叉智商项(backrgound,spatialrelationship,etc.),通过关于不同维度数据的比例适度,确保了 prompt 数据的各种性。同期,团队还使用了现时 SOTA 开源或者 API 的 AIGC 模子进行数据生成,从而确保了生成数据的高质料。这些 AIGC 模子包括 FLUX,Lumina-T2X,PixArt,StableDiffusion 3,CogVideoX,Runway GEN-3,Kling 等。

2)高质料的数据标注。团队招募了 200 多名经过培训的东谈主员进行东谈主工打分标注,从这些东谈主员手中汇聚了进步 960k 条关联数据的打分信息。经过东谈主工严格的筛选和过滤后,最终得回了这 100k AIGC 数据以过头对应的一致性 / 质料标注数据。通过这么的方式,不错确保标注数据与东谈主类偏好的高度一致性,从而进步了 Q-Eval-Score 评估框架的一致性与泛化智商。

3)视觉质料和文本一致性解耦标注。团队不雅察到现时关于 AIGC 模子质料的研判主要聚焦于视觉质料和文本一致性两个方面,因此,在数据集构建的过程当中将两个维度拆分开标注,以确保 Q-Eval-Score 不错同期对这两个维度进行评估。如下图所示,在统计了多个 AIGC 模子的视觉质料和文本一致性 mos 分后,团队发现两个维度上模子的弘扬有在一定的各别性,因此也证实了将两个维度解耦的必要性。

以上数据集已在 AGI-Eval 社区评测集专区上线。

长入评估框架

在 Q-Eval-100k 的基础上,团队磨练得回了 Q-Eval-Score 评估框架,该框架将数据集调遣为监督微调(SFT)数据集,以特定凹凸文 prompt 时势磨练诳言语模子(LMM),使其大略独处评估视觉质料和文本一致性。

模子磨练

起初,团队构建一个凹凸文 prompt 数据集用于大模子的 SFT 过程,模版如下:

再将东谈主工标注打分按照 1-5 分分别映射到 5 个档位 {Bad,Poor,Fair,Good,Excellent} 上,以确保数据可用于大模子 SFT,东谈主工标注打分映射的过程如下所示。

通过将五档得分的 logits 概率与权重加权得回最终得分,权重 1-0 分别示意从 Excellent 到 Bad 的得分映射。

在模子上,团队选定了现时在图像视频集会上性能较为优异的Qwen2-VL-7B-Instruct模子进行 SFT 微调,在微调时同期启用 CE Loss 和 MSELoss,用于监督模子打分智商的进步。

长 prompt 对皆问题

在文本一致性上,团队发当今处理长 prompt(进步 25 个词长)的场景时,常会低估对应的分数,这时时是由于磨练集当中出现的较长教导词占相比少导致。

因此,针对长教导词对皆评估贫瘠,团队翻新性地提议" Vague-to-Specific "计谋,将长教导词拆分为疲塌教导词和多个具体教导词分别评估,再综算策画最终得分。

关于疲塌教导词,团队按照惯例方式策画对皆度得分。

但是,关于特定教导词来说这个计谋并不对适,因为每个特定教导词只波及视觉内容的一部分。

受 VQAScore 轨范的启发,团队将问题修改为更和气的式样,举例" Doestheimage/videoshow [ prompt ] ?",以此来评估每个特定教导词的对皆度。

临了,团队使用加权轨范联接疲塌教导词和特定教导词的终端,策画最终的对皆分数:

推行论断

在视觉质料评估方面,Q-Eval-Score 在图像和视频的测试中均弘扬优异,其瞻望得分与东谈主工打分的斯皮尔曼等第关说合数(SRCC)和皮尔逊线性关说合数(PLCC)卓绝了现时总共的 SOTA 模子。

在文本一致性上,Q-Eval-Score 相同上风权贵,在图像和视频的测试中,其 Instance-level 的 SRCC 分别最初其他的 sota 模子6% 和 12%。

消融推行标明,磋商中提议的各项计谋和耗费函数对模子性能进步孝敬权贵。

在长教导词子集测试中," Vague-to-Specific "计谋灵验提高了评估性能;

Q-Eval-100K 和 Q-Eval-Score 的出现料想要紧。它们为文本到视觉模子的评估提供了更可靠、全面的决策,有助于鼓动生成式模子的进一步发展和骨子驾驭。翌日,这一磋商后果有望为关联界限的发展奠定坚实基础,助力文本到视觉本领迈向新高度。

AGI-Eval 评测社区也一直奋力于于共创如" Q-Eval-100k 数据集"这么优秀的数据集,在模子评测界限深耕,旨在打造公平、确凿、科学、全面的评测生态以"评测助力,让 AI 成为东谈主类更好的伙伴"为服务。

论文连结:

https://arxiv.org/abs/2503.02357

AGI-Eval 评测集专区:  https://agi-eval.cn/evaluation/Q-Eval-100K?id=55

—  完  —

学术投稿请于服务日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 状貌主页连结,以及说合方式哦

咱们会(尽量)实时报酬你

一键存眷 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「留心心」

接待在指摘区留住你的目的!女同 sex



相关资讯



Powered by 伦理片在线看 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024