Stable Audio 2.0:轻松生成3分钟高质量音乐,开启音频处理新时代!

Stable Audio 2.0 是由 StabilityAI 推出的音频生成模型,可通过文本或音频生成多种类型的高质量音乐,时长长达3分钟,采样率为 44.1kHz。与之前的版本相比,Stable Audio 2.0 使用了 Diffusion Transformer (DiT) 取代了 U-Net 架构,大幅提高了音乐生成效率。该模型利用超过 80 万个音频文件组成的数据集,总计超过 1.95 万小时的音频,与知名音乐服务商 AudioSparx 合作,生成的音乐可供商业使用。

【官方网站】:(打赏后可见)

此内容查看价格为3积分立即购买(VIP免费)
积分奖励:邀请注册1积分,新用户1积分,签到奖励0.5积分

Stable Audio 2.0 能够生成多种类型的音乐,时长长达 3 分钟。除了扩展了音乐生成功能外,还提供了音频生成音频的功能,即根据用户上传的一小段音频内容,扩展生成并补充相关的音频内容。用户可通过输入提示词生成不同类型的音乐,如冥想背景音乐或体育赛事激情音乐等。此外,Stable Audio 2.0 还支持对生成后的音频内容进行定制微调,用户可以根据具体需求改变风格,去除不喜欢的内容。

技术上,Stable Audio 2.0 使用了 Diffusion Transformer (DiT) 技术,该技术能够逐步将随机噪音转化为结构化数据,识别复杂的模式和关系。同时,自动编码器可压缩音频并将其重建为原始状态,捕捉并再现基本特征,同时过滤掉不太重要的细节,生成更加连贯的声音。结合 DiT 和自动编码器,能够处理更长的音频序列,并准确解读、还原用户输入的提示文本。

Stable Audio 2.0 的应用场景不仅限于个人使用,还支持商业使用。音乐家可在创作某段音乐时上传 DEMO,要求 Stable Audio 2.0 补充完整歌曲,将各种小创意转换为完整的音频内容。此外,对于视频自媒体用户来说,Stable Audio 2.0 免费赠送 20 积分,并支持商业使用,为他们的创作提供更多可能性。

在版权方面,使用在训练过程中的歌曲的创作者通过 AudioSparx 分享 Stable Audio 的利润,尽管仍存在潜在内容抄袭和版权问题的担忧。不过,被纳入 AudioSparx 的艺术家可以选择退出,以避免其作品被用于训练模型。

发表评论

error: Content is protected !!