今年以来,随着Suno、Udio等多款“AI写歌神器”相继上新,AI大模型的研发和应用场景的讨论热度已经逐渐转移到了音乐领域。
而在国内市场,昆仑万维推出的国内首个音乐SOTA模型「天工SkyMusic」也成为了行业热议的焦点。
作为国内首款公开可用的AI音乐大模型,「天工SkyMusic」点燃了全民的创作热情,激发市场对于“AI音乐”概念的高度关注,使得作为A股上市公司的昆仑万维也因“AI音乐概念股”而屡上热搜。
「天工SkyMusic」的实力确实不容小觑。在与海外顶尖的AI音乐大模型Suno V3的横向测评中,「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,成为全球AI音乐SOTA模型。
群雄并起,竞争激烈的AI音乐大模型行业,「天工SkyMusic」如何能脱颖而出?
4月18日,昆仑万维董事长兼CEO方汉受量子位邀请进行了以《中国首个音乐SOTA大模型震撼登场:昆仑万维天工3.0终极揭秘》为题的直播分享,这是方汉首次面向广大用户全面解读中国首个音乐SOTA模型「天工SkyMusic」与「天工3.0」。
或许方汉的直播分享或许能为我们揭晓上述问题的答案。
方汉提到,「天工SkyMusic」音乐大模型的成功,离不开昆仑万维多年来在音乐领域的技术积累。在过去三年间,「天工SkyMusic」团队克服了众多AI音乐技术难题。
最初,「天工SkyMusic」的研究路线集中在符号音乐生成技术上,虽然音乐的质量、效果都已达到优秀水平,但是该技术路线难以进行Scale Up(规模化扩大)。
因此,团队决定彻底重塑之前的工作,采用自研大模型音乐音频生成技术路线,这一路线直接通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成。
尽管技术难度极大,但「天工SkyMusic」团队并未因此退缩。通过深入研究大模型技术,不断优化算法,攻克了一个又一个技术难关,终于成功地实现了大模型音乐音频生成技术的突破,达到了业界的领先水平。
除了对「天工SkyMusic」的深度解读外,方汉还在直播现场实时分享了用户通过「天工SkyMusic」创作的精彩歌曲,其中,既有记录宝妈甜蜜与心酸的亲情点滴,也有描述剁手党买买买快乐的“剁手党的快乐”,每一首都独具匠心,充分展现了「天工SkyMusic」在音乐创作领域的无限趣味与潜力。
方汉认为,传统音乐创作往往需要深厚的专业背景与高昂的制作费用,而「天工SkyMusic」则通过AI技术的运用,使得更多人能够轻松参与到音乐创作中来,无论是旋律的构思、和声的编排,还是歌词的撰写,都能得到「天工SkyMusic」的辅助,极大地拓宽了音乐创作的参与范围。
无论是高品质的音乐输出,还是精准调控音乐情感色彩的能力,都彰显了「天工SkyMusic」在AI音乐大模型行业的领先地位。这背后离不开其背后的强大技术支撑——「天工3.0」基座大模型。
「天工3.0」拥有4000亿参数,超越了3140亿参数的Grok-1,是全球最大的开源MoE大模型之一。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。
正是基于「天工3.0」的强大能力,「天工SkyMusic」得以展现出其卓越的音乐生成技术,为用户带来前所未有的音乐体验。
值得一提的是,「天工SkyMusic」不仅在技术层面具有显著优势,更在“文化平权”的社会价值上展现了深刻的畅想。
方汉指出,音乐作为一种文化表达形式,往往能够跨越地域、语言的界限,成为不同文化间交流的桥梁。而「天工SkyMusic」通过降低音乐创作的门槛和成本,使得更多来自不同背景、不同文化的人们能够用音乐来表达自己,进而促进文化的多样性与交流,在一定程度上有利于“文化平权”的实现。通过「天工SkyMusic」,人人都能够零门槛地利用音乐尽情地自我表达,以歌明志。
回顾「天工SkyMusic」的崛起之路,我们不禁为其背后的技术团队所付出的努力深感敬佩,他们不仅为「天工SkyMusic」带来了卓越的性能表现,更为整个AI音乐大模型行业注入了新的活力。
相信随着未来「天工SkyMusic」的不断优化,昆仑万维将继续在AI音乐领域发挥引领作用,推动音乐创作的多样性和文化交流的发展,为更多人带来音乐创作的乐趣和无限可能!