走独立自主研发之路,「天工SkyMusic」打造本土最强AI音乐大模型
最近这段时间,SUNO刷屏了全球科技圈。 这是国外一家AI初创公司研发的一款文本生成音乐工具,用户只需输入几句歌词,选择自己喜欢的音乐风格,便可创作出属于自己的一首歌。很多网友把它称为AI音乐的CHATGPT时刻。 但事实上,在大洋彼岸的中国科技界,同样精彩的故事也正在发生。 自从4月2日推出以后,国内首款AI音乐生成大模型「天工SkyMusic」产品体验广受关注。 和SUNO一样,「天工SkyMusic」的操作门槛也非常低,用户只需输入歌词,再参考一些音频,一首AI音乐就搞定了。 目前,「天工SkyMusic」是国内唯一公开可用的AI音乐生成大模型。 我们来看看「天工SkyMusic」的用户们都整了哪些花活儿~ 周杰伦不出新专辑,好,那就用AI写一首歌催更吧!话说这首参考《哪里都是你》生成的AI歌曲还真有点周氏情歌那味道了~ 下班的钟声敲响,老板却通知要开会。还能怎么办呢,不如用AI写一首歌表达一下自己的精神状态~! 突然想起中学时期最难背的《滕王阁序》,何不唱诗为歌,寓教于乐? 选择一条难却值得的路 或许有人会问,CHATGPT爆红后,国内很快就如雨后春笋出现了各种类似的产品。 但为何在AI音乐生成领域,国内却只有「天工SkyMusic」一枝独秀?为什么没有别的公司来做这件事? 当面对一条少有人选择的路时,可能意味着这条路上会有更多的困难和挑战。 其实,做AI音乐生成,原本是还有一条路可以走的——符号音乐生成,我们简称为“符号派”。 符号派以MIDI为主流,全称是Musical Instrument Digital Interface。 它的基本原理是将音乐转化为一系列符号或代码,比如音符、音高、音量、音色信息,然后通过对这些符号进行处理和组合来生成新的音乐作品。 要注意,MIDI是不能直接生成歌曲的,仍然需要后期加入乐器、旋律、音色以及人声等元素。 然而,「天工SkyMusic」选择了一条更难的路——大模型音乐音频生成路线。 它是怎么做到的?「天工SkyMusic」公开了自己的技术路径,我们在这里可以找到答案。 在「天工SkyMusic」的架构中,一部分叫Large-scale Transformer,它负责把音乐串起来,学习音乐片段之间的联系,确保音乐听起来顺畅; 另一部分叫Diffusion Transformer,它负责唱歌,把音乐片段变成高质量的声音。 这样一来,「天工SkyMusic」能够生成80秒长、44100Hz 采样率双声道立体声歌曲。 巧合的是,「天工SkyMusic」框架与Sora非常类似,不过别误会,但「天工SkyMusic」在研发的时候Sora还没出现呢。 总而言之,「天工SkyMusic」不但把它选择的路走通了,还走到了“国内唯一公开可用”的行业地位。 它不仅让音乐创作变得更加简单、高效,也为音乐产业注入了新的活力。 通过「天工SkyMusic」,任何人都可以成为音乐创作者,都可以创作出高质量的音乐作品。 这不仅为音乐爱好者提供了一个展示自己创作才华的平台,也为专业音乐人提供了一个快速实现创意的工具。 做中文歌,还得是看本土大模型 「天工SkyMusic」最突出的功能亮点之一,就是其“以假乱真”的清晰人声。 它能够创作出极高中文水平的清晰人声音乐作品,音频质量和逼真的演唱效果,秒杀同一赛道内几个国外选手。 这源于其根植于中国本土文化的诞生背景。相对于海外对手,「天工SkyMusic」对中文语言的理解和处理有天然的优势,更准确地把握语言的韵律、节奏以及中文独有的意境。 举例来说,如近期火到连上热搜的#成都迪士尼#,网友可以用「天工SkyMusic」轻松玩梗,创作不同风格版本的“迪士尼”神曲,其“造梗、玩梗”的潜力和创意实力,深受用户喜欢,用户玩得越开心,「天工SkyMusic」就能涌现更多的创作热情,并且激发全民音乐创作的高潮。 「天工SkyMusic」还能通过歌词来控制歌曲,生成的歌曲能够明确分辨出不同歌词段落的情绪变化,恰好与中文本身自带节奏和韵律的特点,完美地融合,因此,一首歌也能明显地体现出主歌和副歌、前奏和主歌之间的差别。 此外,「天工SkyMusic」能支持说唱、民谣、放克、古风、电子等多种音乐风格,最大化的满足用户的创作尝鲜的乐趣。 用户可以通过参考特定音频,创作想要的音乐风格,则对没有专业背景的小白用户极为友好。 未来,随着「天工SkyMusic」等技术的不断发展和完善,我们有理由相信,人工智能将会成为音乐创作的重要助手,为音乐产业带来更多的惊喜和创新。
|
|||||||||||