Skip to content

Commit

Permalink
Update 2024-05-17-AI-paper.md
Browse files Browse the repository at this point in the history
  • Loading branch information
Young-Chin authored May 17, 2024
1 parent ad46988 commit 7bd0bec
Showing 1 changed file with 3 additions and 23 deletions.
26 changes: 3 additions & 23 deletions _posts/2024-05-17-AI-paper.md
Original file line number Diff line number Diff line change
Expand Up @@ -7,8 +7,7 @@ tags:
- Advanced News
---

AIGC 一周资讯

---
## 图视频超分|CDFormer

## 【简要描述】
Expand Down Expand Up @@ -110,7 +109,7 @@ GaussianVTON是一个创新的3D虚拟试穿(VTON)流程,它整合了高斯散

## 【效果展示】

![](file:///Users/admin/Documents/MarkText-img/2024-05-17-11-51-35-image.png?msec=1715917896019)
![video]([file:///Users/admin/Documents/MarkText-img/2024-05-17-11-51-35-image.png?msec=1715917896019](https://haroldchen19.github.io/gsvton/data/videos/man/man-original-man.mp4))

**详情至项目主页**![GaussianVTON Database](https://uploads-ssl.webflow.com/51e0d73d83d06baa7a00000f/5e7136849ee3b0a0c6a95151_database.svg)

Expand All @@ -121,24 +120,6 @@ GaussianVTON是一个创新的3D虚拟试穿(VTON)流程,它整合了高斯散
- 提出了三阶段的细化策略,以解决编辑过程中的问题。
- 引入编辑回忆重建(ERR)策略,以处理复杂几何变化。

## 数字人|SPEAK

## 【简要描述】

本文提出了一种名为SPEAK(Speech-Driven Pose and Emotion-Adjustable Talking Head Generation)的新技术,**用于生成能够根据语音驱动控制头部姿势和面部情感的逼真虚拟说话头像**。与以往侧重于口型与语音同步的研究不同,**SPEAK框架不仅关注口型,还考虑了头部姿势和面部情感,这些是自然人脸的重要特征**。该技术的目标是**通过四种输入类型——身份源图像、语音源音频、姿势源视频和情感源视频——来创建逼真的说话视频。**SPEAK框架的核心是Inter-Reconstructed Feature Disentanglement (IRFD) 方法,它能够将人脸特征解耦成三个潜在空间:情感、身份和姿势。此外,作者设计了一个面部编辑模块,用于将语音内容和面部潜在代码修改并合并到单一潜在空间中。最后,通过一个新颖的生成器,利用编辑模块派生的修改后的潜在代码来控制合成面部动画的情感表达、头部姿势和语音内容。该方法能够在不需要对训练数据进行大量预处理的情况下,隐式地学习情感和头部姿势。

## 【算法地址】

[GaussianVTON Project Page](https://haroldchen19.github.io/gsvton/)

## 【效果展示】

![GaussianVTON Database](https://uploads-ssl.webflow.com/51e0d73d83d06baa7a00000f/5e7136849ee3b0a0c6a95151_database.svg)![img](https://mmbiz.qpic.cn/sz_mmbiz_png/gnw0Ivy7lZN3gZp74j76NGLU6bbqibRsfxNnm2wiaCvPUlgAOjYuK91F7zbN7Om9360KvyrLSiaOtZibgcftFwGl8w/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)

## 【算法特点】

用户研究也表明,SPEAK在口型同步度、头部自然度和视频真实感方面获得了用户的高评价。此外,消融研究进一步证明了IRFD模块在解耦面部特征方面的有效性,以及不同损失函数对模型性能的贡献。

## 图像Low-level任务|Infinite Texture

## 【简要描述】
Expand All @@ -151,7 +132,7 @@ Infinite Texture是一种基于文本提示生成高分辨率纹理图像的方

## 【效果展示】

![GaussianVTON Database](https://uploads-ssl.webflow.com/51e0d73d83d06baa7a00000f/5e7136849ee3b0a0c6a95151_database.svg)![img](https://mmbiz.qpic.cn/sz_mmbiz_png/gnw0Ivy7lZNf08y5SJY0laYoOh6F7cCuWJawsr3NsR0g7jOca4LfHcUcSPA5HEYx2oNmUo9B0LNS7ggILbp5fw/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
![img](https://i.dsin.ai/m5z0VaNhRp.jpg)

## 【算法特点】

Expand All @@ -176,7 +157,6 @@ LoRAdapter是一种新的方法,它通过一个新颖的条件LoRA块统一了

- ![Qualitative Style Comparison](https://compvis.github.io/LoRAdapter/static/images/qual_style.png)
- ![Qualitative Structure Comparison](https://compvis.github.io/LoRAdapter/static/images/qual_struct.png)

- ![Quantitative Structure Comparison](https://compvis.github.io/LoRAdapter/static/images/quan_depth.png)

## 【算法特点】
Expand Down

0 comments on commit 7bd0bec

Please sign in to comment.