(2024,强化学习,提示扩展,原始提示中心引导)Parrot:用于文本到图像生成的帕累托最优多奖励强化学习框架

Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 基础

4. 方法

4.1 Parrot 概述

4.2 按批次帕累托最优选择

4.3 原始提示中心引导

5. 实验


0. 摘要

最近的研究表明,使用带有质量奖励(quality rewards)的强化学习(RL)可以提高文本到图像(T2I)生成中生成图像的质量。然而,对多个奖励进行简单聚合可能会导致在某些指标上过度优化并在其他指标上降低,手动找到最佳权重也具有挑战性。一种在 RL 中联合优化 T2I 生成的多个奖励的有效策略是非常可取的。本文介绍了 Parrot(Pareto-optimal multi-reward reinforcement learning framework for text-to-image generation,一种新颖的 T2I 生成的多奖励 RL 框架。通过使用按批次 Pareto 最优选择,Parrot 在 T2I 生成的 RL 优化过程中自动识别不同奖励之间的最佳权衡。此外,Parrot 采用 T2I 模型和提示扩展网络的联合优化方法,促进了生成具有质量意识的文本提示,从而进一步提高最终图像的质量。为了抵消由于提示扩展而导致的原始用户提示的潜在灾难性遗忘,我们在推理时引入了原始提示中心引导(original prompt centered guidance),确保生成的图像忠实于用户输入。大量实验证明,Parrot 在各种质量标准,包括美学、人类偏好、图像情感和文本图像对齐等方面,优于几种基准方法。

3. 基础

扩散概率模型:扩散概率模型 [15] 通过逐渐去噪嘈杂图像生成图像。具体而言,给定来自数据分布 x_0 ∼ q(x_0) 的真实图像 x_0,扩散概率模型的正向过程 q(x_t | x_0, c) 生成嘈杂图像 x_t,引发了在文本提示 c 条件下的分布 p(x_0, c)。在无分类器引导 [14] 中,去噪模型通过以下无条件评分估计 ϵ_θ(x_t, t) 和条件评分估计 ϵ_θ(x_t, t, c) 的线性组合来预测噪声 ¯ϵ_θ:

其中 t 表示扩散的时间步数,null 表示空文本,w 表示无分类器引导的引导比例,其中 w ≥ 1。请注意,ϵ_θ 通常由 UNet [39] 参数化。

基于 RL 的 T2I 扩散模型微调:给定从生成的图像得到的奖励信号,RL 微调 T2I 扩散模型的目标是优化一个策略,该策略定义为 T2I 扩散模型的一个去噪步骤。特别是,Black 等人 [4] 应用策略梯度算法(policy gradient algorithm),将扩散模型的去噪过程视为马尔可夫决策过程(Markov decision process,MDP),通过迭代执行多个去噪步骤。随后,一个黑盒奖励模型 r(·, ·) 从采样的图像 x_0 预测一个单一的标量值。给定文本条件 c ∼ p(c) 和图像 x_0,可以定义目标函数 J 以最大化期望奖励,如下所示:

其中,预训练的扩散模型 p_θ 利用文本条件 c 产生一个样本分布 p_θ(x_0 | c)。修改这个方程,Lee等人 [10] 证明了目标函数的梯度 ∇J_θ 可以通过梯度上升算法计算,而无需使用奖励模型的梯度,如下所示: 

其中,T 表示扩散采样过程的总时间步数。使用参数 θ,期望值可以在扩散采样过程的轨迹上进行计算。

4. 方法

4.1 Parrot 概述

图 2 显示了 Parrot 的概述,它由提示扩展网络(prompt expansion network,PEN)p_ϕ 和 T2I 扩散模型 p_θ 组成。首先,PEN 的初始化是从提示扩展对的示范上监督微调检查点,而 T2I 模型从预训练的扩散模型初始化。给定原始提示 c,PEN生成扩展提示 ˆc,而 T2I 模型根据此扩展提示生成图像。在多奖励 RL 微调期间,抽样一批 N 张图像,并为每张图像计算多个质量奖励,包括文本图像对齐、美学、人类偏好和图像情感等方面。基于这些奖励分数,Parrot 使用非支配排序(non-dominated sorting)算法识别批次的帕累托最优集(Pareto-optimal set)。然后,这组最优图像用于通过 RL 策略梯度更新联合优化 PEN 和 T2I 模型参数。在推断过程中,Parrot 同时利用原始提示及其扩展,平衡保持对原始提示的忠实性和融入更多细节以获得更高质量。

4.2 按批次帕累托最优选择

算法 1 概述了 Parrot 的过程。与使用所有图像更新梯度不同,Parrot 专注于高质量样本,在每个小批次中考虑多个质量奖励。在多奖励 RL 中,T2I 模型生成的每个样本为每个奖励呈现不同的权衡。在这些样本中,存在一个子集,其目标之间存在多样的最优权衡,称为帕累托集。对于帕累托最优样本,没有目标值可以进一步改善而不损害其他目标。换句话说,帕累托最优集不被任何数据点支配,也被称为非支配集。为了使用 T2I 扩散模型获得帕累托最优解,Parrot 通过使用非支配排序算法选择来自非支配集的数据点。这自然地鼓励 T2I 模型生成相对于多奖励目标而言的帕累托最优样本。

奖励特定偏好:受到在多目标优化中使用偏好信息的启发 [27],Parrot 通过奖励特定的标识来纳入偏好信息。这使得 Parrot 能够自动确定每个奖励目标的重要性。具体来说,我们通过在第 k 个奖励前面添加奖励特定标识符 “<reward k>” 来丰富扩展提示 ˆc。基于这个奖励特定提示,生成 N 张图像,并在梯度更新期间用于最大化相应的第 k 个奖励模型。在推断时,所有奖励标识符 “<reward 1>,...,<reward K>” 的串联用于图像生成。

非支配排序:Parrot 根据多个奖励之间的权衡构建非支配点的帕累托集。这些非支配点优于其余的解决方案,并且彼此之间不受支配。形式上,支配关系定义如下:当且仅当对于所有 i ∈ 1, ...,m,

并且存在 j ∈ 1, ...,m,使得

则图像 x^a_0 支配图像 x^b_0,表示为 x^b_0 < x^a_0,。例如,给定小批次中的第 i 个生成的图像 x^i_0,当小批次中没有任何点支配 x^i_0 时,它被称为非支配点。

策略梯度更新:对于未包含在非支配集中的数据点,我们将奖励值设为零,并且仅更新这些非支配数据点的梯度,如下所示:

其中 i 表示小批次中图像的索引,P 表示批次中的一组非支配点。K 和 T 分别是奖励模型的总数和总扩散时间步数。在每个批次更新扩散模型时,使用相同的文本提示。

4.3 原始提示中心引导

虽然提示扩展可以增强细节并通常提高生成质量,但有人担心添加的上下文可能会淡化原始输入的主要内容。为了在推断过程中减轻这一问题,我们引入了原始提示中心引导。在以原始提示为条件进行采样时,扩散模型 ϵ_θ 通常通过组合无条件得分估计和提示条件得分估计来预测噪声。我们提出在 T2I 生成中使用两个引导的线性组合,而不仅仅依赖于 PEN 生成的扩展提示:一个来自用户输入,另一个来自扩展提示。原始提示的强度由引导比例 w_1 和 w_2 控制。噪声 ¯ϵθ 的估计,根据方程 1 的推导如下:

其中 null 表示空文本。   

5. 实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/327106.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MR-GCN

∘ Φ \circ_Φ ∘Φ​ denotes a convolution Let b l o c k d i a g blockdiag blockdiag(A) be a n1n3-by-n2n3 block diagonal matrix&#xff0c; f o l d fold fold indicate its inverse operator diagonal degree tensor D \mathcal{D} D 作者未提供代码

【漏洞复现】Sentinel Dashboard默认弱口令漏洞

Nx01 产品简介 Sentinel Dashboard是一个轻量级的开源控制台&#xff0c;提供机器发现以及健康情况管理、监控、规则管理和推送的功能。它还提供了详细的被保护资源的实际访问统计情况&#xff0c;以及为不同服务配置的限流规则。 Nx02 漏洞描述 Sentinel Dashboard存在默认弱…

AI智能剪辑,快速剪辑出需要的视频

AI智能剪辑技术&#xff0c;是一种基于人工智能的技术&#xff0c;它能够通过机器学习和深度学习算法&#xff0c;自动识别视频中的内容&#xff0c;并根据用户的需求和喜好&#xff0c;快速地剪辑出需要的视频。 所需工具 &#xff1a; 一个【媒体梦工厂】软件 视频素材 …

通过FTP和HTTPD,搭建内网yum仓库

一、yum仓库的简介 1.yum介绍 yum是一个基于RPM包&#xff08;是Red-Hat Package Manager红帽软件包管理器的缩写&#xff09;构建的软件更新机制&#xff0c;能够自动解决软件包之间的依赖关系。解决了日常工作中的大量查找安装依赖包的时间 为什么会有依赖关系的发生 因为li…

ssm基于spring和vue开发的web新闻流媒体平台论文

摘 要 如今的时代&#xff0c;是有史以来最好的时代&#xff0c;随着计算机的发展到现在的移动终端的发展&#xff0c;国内目前信息技术已经在世界上遥遥领先&#xff0c;让人们感觉到处于信息大爆炸的社会。信息时代的信息处理肯定不能用之前的手工处理这样的解决方法&#x…

C#--核心

CSharp核心知识点学习 学习内容有&#xff1a; 绪论&#xff1a;面向对象的概念 Lesson1&#xff1a;类和对象 练习&#xff1a; Lesson2&#xff1a;封装--成员变量和访问修饰符 练习: Lesson3:封装--成员方法 Lesson4&#xff1a;封装--构造函数和析构函数 知识点四 垃圾回收…

程序员接私活还不知道这几个平台?那你真的亏了!

程序员接私活现在已经是一个老生常谈的话题了&#xff0c;现在市面上各种程序员接单平台层出不穷&#xff0c;也参差不齐&#xff0c;有比较老牌的知名平台&#xff0c;也有比较好的新兴平台&#xff0c;如此多的平台就容易让人眼花缭乱&#xff0c;不知道该如何选择。 这期文…

获取当前设备的IP

背景&#xff1a; 在本地使用自带webUI的项目时&#xff0c;需要制定webUI的访问地址。 一般本地访问使用&#xff1a;127.0.0.1&#xff0c;配置为可以从其他设备访问时&#xff0c;需要指定当前设备的IP&#xff0c;或者指定为0.0.0.0。 例如&#xff1a;使用locust的时候&a…

ElasticSearch降本增效常见的方法 | 京东云技术团队

Elasticsearch在db_ranking 的排名不断上升&#xff0c;其在存储领域已经蔚然成风且占有非常重要的地位。 随着Elasticsearch越来越受欢迎&#xff0c;企业花费在ES建设上的成本自然也不少。那如何减少ES的成本呢&#xff1f;今天我们就特地来聊聊ES降本增效的常见方法&#x…

x-cmd pkg | public-ip-cli - 公共 IP 地址查询工具

简介 public-ip-cli 是一个用 Javascript 编写的命令行工具&#xff0c;用于获取当前计算机或网络所使用的公共 IP 地址。 它可以让用户在命令行界面上查询 OpenDNS、Google DNS 和 HTTPS 服务的 DNS 记录以获取与互联网通信时所分配的公共 IP 地址。 首次用户 使用 x env us…

国科大-自然语言处理复习

自然语言处理复习 实体关系联合抽取流水线式端到端方法 检索式问答系统流水线方式信息检索&#xff08;IR&#xff09;阶段阅读理解&#xff08;RC&#xff09;阶段基于证据强度的重排基于证据覆盖的重排结合不同类型的聚合 端到端方式Retriever-Reader的联合学习基于预训练的R…

仿真机器人-深度学习CV和激光雷达感知(项目2)day01【项目介绍与环境搭建】

文章目录 前言项目介绍功能与技术简介硬件要求环境配置虚拟机运行项目demo 前言 &#x1f4ab;你好&#xff0c;我是辰chen&#xff0c;本文旨在准备考研复试或就业 &#x1f4ab;本文内容是我为复试准备的第二个项目 &#x1f4ab;欢迎大家的关注&#xff0c;我的博客主要关注…

图像处理:孤立点的检测

图像处理-孤立点的检测 孤立点的检测在图像处理中通常涉及到检测图像中的突变或者边缘&#xff0c;而使用二阶导数是一种常见的方法。一阶导数可以帮助找到图像中的边缘&#xff0c;而二阶导数则有助于检测边缘上的峰值&#xff0c;这些峰值可能对应于孤立点或者特殊的图像结构…

Zookeeper使用详解

介绍 ZooKeeper是一个分布式的&#xff0c;开放源码的分布式应用程序协调服务&#xff0c;是Google的Chubby一个开源的实现&#xff0c;是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件&#xff0c;提供的功能包括&#xff1a;配置维护、域名服务、分布…

谷粒商城-缓存使用分布式锁SpringCache(5天)

缓存使用 1.1.1 哪些数据适合放入缓存 即时性、 数据一致性要求不高的 访问量大且更新频率不高的数据&#xff08;读多&#xff0c; 写少&#xff09; 例如&#xff1a;电商类应用&#xff0c; 商品分类&#xff0c; 商品列表等适合缓存 本地缓存 使用Map进行本地缓存 本地缓存…

【Redis】AOF 源码

在上篇, 我们已经从使用 / 机制 / AOF 过程中涉及的辅助功能等方面简单了解了 Redis AOF。 这篇将从源码的形式, 进行深入的了解。 1 Redis 整个 AOF 主要功能 Redis 的 AOF 功能概括起来就 2 个功能 AOF 同步: 将客户端发送的变更命令, 保存到 AOF 文件中AOF 重写: 随着 Red…

MySQL数据库软件详解二

MySQL的配置文件 my.ini 概述&#xff1a;MySQL 的配置文件 参数名称说明port表示 MySQL 服务器的端口号basedir表示 MySQL 的安装路径datadir表示 MySQL 数据文件的存储位置&#xff0c;也是数据表的存放位置default-character-set表示服务器端默认的字符集default-storage…

系统性学习vue-组件及脚手架

书接上文 Vue组件及脚手架 初始化脚手架说明步骤 分析脚手架结构render函数修改默认配置ref属性props配置mixin 混入/混合定义混合局部混合全局混合 插件scoped样式安装less-loader 浏览器的本地存储 webStoragelocalStroage 本地存储sessionStorage 会话存储 组件自定义事件绑…

SQLServer 为角色开视图SELECT权限,报错提示需要开基础表权限

问题&#xff1a; 创建了个视图V&#xff0c;里面包含V库的a表&#xff0c;和T库的b表 为角色开启视图V的SELECT权限&#xff0c;提示T库的b表无SELECT权限&#xff0c;报错如下 解决方案&#xff1a; ①在T库建个视图TV&#xff0c;里面包含b表&#xff08;注意是在b表的对…

【Qt 学习之路】关于C++ Vlc视频播放

文章目录 1、简介2、效果2.1、视频2.2、动态图 3、核心代码3.1、判断视频3.2、视频核心类调用3.3、视频核心类3.3.1、头文件3.3.2、源文件 1、简介 最近有童鞋咨询VLC相关的问题&#xff0c;公布一个 5年前 编写的 VLC示例 代码供参考学习。包括正常对视频各种常用的操作&…
最新文章