AI“舞蹈机器”引爆社交圈,技术创新赋予照片新生命

AI“舞蹈机器”引爆社交圈,技术创新赋予照片新生命


2024年,随着新一年的到来,社交媒体上突然爆发了一个新奇的现象:兵马俑身披战甲跳起了激情四射的科目三舞,科技巨头马斯克在月球上尽情翩翩起舞,普通网友则以各种姿态在虚拟空间展示自己的舞技。这一切,都是由一款名为“Animate Anyone”的人物视频生成模型造成的。

Animate Anyone,这款被阿里云通义千问APP集成的功能,只需要简单的操作:上传一张静止的照片,系统便能在短短几分钟内生成一段十秒左右的舞蹈视频。而产生的视频不仅流畅自然,而且完美保留了原照片人物的面部表情、身材比例甚至是衣着和背景。目前,用户可以选择的舞蹈模板多达12种,包括科目三舞、蒙古舞等,满足了网友们多样化的需求。

这一技术带给人们的不仅仅是视觉上的新奇和娱乐,更重要的是打破了传统舞蹈学习的高门槛,使得每一个普通人都能通过AI成为舞台上的主角。网民们的评论更是充满了幽默与赞赏:“AI终于治愈了我这个舞白的四肢不协调”、“考古界也能感受到科目三的魅力”,或是“现在跳舞不用担心扭到脚了”。

Animate Anyone背后的技术细节也同样引人入胜。通义实验室自主研发了一整套算法,其中包括一个名为ReferenceNet的创新技术,它负责捕捉原照片中的信息,保证输出视频与原图高度相似。此外,Pose Guider姿态引导器可以确保动作的准确性与可控性,时序生成模块则让视频帧之间的连贯性得到有效保证。

而这款热门的视频生成模型不仅在国内热度高涨,在国外社交媒体上,它的相关视频播放量已经突破亿级,Github上也迅速积累了超过一万的Stars,国外的开发者和网友对该技术的评价普遍正面,并纷纷期待开放体验入口。

视频生成领域一直被认为是大模型研究中最具挑战性的方向之一。随着谷歌、Meta等国际科技公司纷纷加码投入,竞争日趋激烈。通义千问APP的上线,搭载Animate Anyone这样的技术,不仅在业界引起了震动,在为用户带来诸如文本对话、语音对话、翻译等功能的同时,也展现了AI技术对传统艺术形式的重新定义和创新潜能。随着模型的持续升级优化,我们有理由相信,未来AI与人类生活的结合将会越来越紧密,越来越多彩。

相关新闻