幼时学钢琴学绘画,到了研究生阶段又学习摄影,“这些经历告诉我,‘入门’容易‘精通’难,尤其是音乐,它的门槛很高。”如今,身为趣丸科技副总裁的贾朔,正全力带领着团队做一件事:通过AI让音乐创作变得像说话一样简单,用一种相对低门槛的方式让普通用户去体验这种创作的乐趣。
就在近日,备受瞩目的第三届琶洲算法大赛复赛结束,趣丸科技“唱鸭天谱乐团队”凭借自研的全球首个多模态音乐生成大模型——天谱乐,以卓越的表现和强大的技术实力,在AI大模型挑战赛-AI大模型产品赛的角逐中脱颖而出,以赛区第一的成绩成功晋级决赛。
1
探索音乐创作的技术平权
贾朔在伦敦艺术大学攻读硕士学位时,就已经给泰晤士报供稿,并与世界最大的商业图片库公司有着较深的合作关系。“回国之后,正赶上互联网的高速发展期,各种各样的互联网产品不断兴起。”贾朔发现,以他身处的摄影行业为例,国内外已有了如Instagram这样的图片社交产品,“通过技术手段帮助爱好者很快地学习和成长,甚至达到准专业用户的水平。”
技术平权的意义在于让更多人能够享受到科技进步带来的便利和好处,缩小不同群体之间的技术差距。“在2013年至2016年的那段时间里,互联网发展的主线之一,就是用技术推动某一种创作媒介的平权,那么音乐创作能否实现技术平权呢?”
三岁时,妈妈就带着贾朔去学钢琴,“那时年纪小,上的又是课外辅导班,所以也只能说是‘学过’。同一个班里还有十几岁的孩子,学习效果更好。这也让我体会到,像音乐这种偏艺术方向的兴趣爱好,在学习过程中存在着怎样的门槛和卡点。”尤其是学习了绘画和摄影后,贾朔进行了横向比较,他更加意识到,在音乐领域如果想从“入门”过渡到“精通”,很难。
2019年,在一些头部互联网企业担任过产品经理的他,开始探索音乐领域小而美的应用产品的开发。“那个时候我设计了一个玩法,叫弹唱玩法。”这款产品把学习钢琴的需求分解,用户不用弹完整首钢琴曲,而是简单的去弹几个键,就能达到伴唱伴奏的效果。“弹一首曲子需要用到的钢琴键很多,并要熟悉五线谱,对于普通用户而言太难了。” 这款弹唱玩法,可以让更多人体验到过往凭借高超弹奏技艺才能实现的自弹自唱的表演感受。
“也许还有更简单的方法。”在随后的设计中,歌词都附加上了颜色块提示,用户只要跟着不同颜色的色块弹键,就能实现自弹自唱。产品开发出来后,很快就得到了市场的积极反馈,尤其是2020年初,更是进入用户增长的高峰期,“我对很多兴趣爱好都有涉猎,所以我想解决的,就是此前没有被别人解决好的降低学习门槛的问题。”
2
大模型让AI音乐更符合人类审美
2022年,随着对人工智能发展趋势的敏锐判断,贾朔带领团队专注研究AI技术在音乐领域的应用。
作为中国领先的国家高新技术企业,趣丸科技在人工智能、兴趣社交、电子竞技等领域进行了多元化布局,拥有强劲的技术研发和产业落地能力。拳头产品TT语音如今累计注册用户已超2亿,是国内最大的兴趣社交平台之一。公司旗下的唱鸭APP,是新一代AI+大众应用型音乐创作平台,曾是华南地区唯一入选文旅部“2022年文化和旅游数字化创新实践十佳案例”的产品,而贾朔就是唱鸭及相关AI音乐业务的负责人。
据他介绍,在早期,唱鸭也曾用过不含AI大模型的技术方案。“在第一个阶段,我们更多的是靠单点工具式的功能,即弹唱,以自弹自唱的玩法快速地切入市场,吸引了大量的用户跟受众。”随后,产品开始深耕社区,帮助那些因同一爱好而聚集在这个平台上的用户去形成社交关系,并沉淀在此,相互交流,共同成长。
“人人都能玩点音乐”是唱鸭打出的口号,“降低门槛让普通用户体验音乐创作的乐趣”是产品的价值主张。随着AIGC技术的成熟和广泛应用,贾朔也在思考,如何用更新的大模型技术跨越“弹唱”这种方式,在进一步降低门槛的同时,给到用户尽可能达到完整创作的体验。
2024年,趣丸科技推出了自主研发的全球首个多模态音乐生成大模型——天谱乐。该模型集成音频处理、深度学习及大数据分析等领先技术,不仅支持文生音乐、音频生音乐,还首创图片/视频生音乐功能,生成的歌曲自带人声唱词,效果达到专业发行水准。
简单来说,用户只需要输入一句话、一张照片或一段视频,就可以在1-2分钟内生成一首词曲结构相对完整的歌曲。
“大模型技术跟传统的AI技术不一样,传统的AI技术使用的仍是以教人写歌的方式,比如用人类主观理解的条条框框,告诉这台机器该如何去创作歌曲。但用这种方法创作出来的歌曲如同开盲盒,有好有坏。有些听起来会有蹩脚的地方,也就是说,不一定符合人类的音乐审美。”
而大模型,以Transformer架构为基石,其参数量跟数据量都特别大。“打个比方,人要多学习,多交朋友,多旅游,看得东西足够多了,才能知道好的东西长什么样。模型也要多见世面,才会总结出符合人类审美的理解。” 贾朔表示,将大模型应用于唱鸭APP后,确实让音乐生成的效果大幅度提升。“对于多数非专业用户而言,AI音乐从成品效果上看,已经非常接近合格分了。”
据介绍,天谱乐大模型已全面接入唱鸭APP,已有4600万人使用唱鸭进行AI音乐创作,累计创作近1000万首AI歌曲。
3
以技术服务人类,大模型迎来更多应用
据贾朔介绍,除了为音乐爱好者提供创作平台,唱鸭AI也渐渐应用于影视制作。“我们已经实实在在地去参与并帮助一些项目去完成音乐部分的产出。” 不过贾朔始终强调, “AI不会替代人类,技术是为人服务的,且只有为人服务了,才有可能被推广及真正地应用起来。”
在趣丸科技的展厅,除了有唱鸭APP,还有更多人工智能技术应用的产品在这里展示。据悉,基于大模型技术,趣丸科技已开拓出了数智人、视频翻译等一站式的企业级解决方案。除了服务于其产业链上下游的游戏厂商、MCN机构的视频内容创作、出海等业务,还被应用于智能客服、本地生活、影视文旅等场景,辐射了万亿级市场规模。
目前,趣丸科技已构建全栈式AI交互技术产业生态,持续多年保持研发投入与研发强度双增长。截止2023年12月,公司研发人员占比超62%,在全球获得专利、软著等知识产权数超1600项。2020年至2023年,公司累计研发投入超14亿元。
去年以来,在广州市大力支持下,海珠区以发展最盈利大模型为重心,加快建设国内首个人工智能大模型应用示范区。截至今年7月,海珠区已累计进驻行业大模型超50个,趣丸科技也是其中之一。
海珠区还出台了《建设人工智能大模型应用示范区实施细则》,专设模型优化补贴(每年最高补贴150万元)、人才补贴(最高奖补1000万元)、新生产经营奖励(最高奖励100万元),以政策奖补的方式鼓励企业配套最优人才、最强算力。趣丸科技也在首批新生产经营奖励获奖企业名单中。
目前,趣丸科技正在琶洲人工智能与数字经济试验区建设全球总部大厦,未来将承载集团的社交、文创、电竞、人工智能板块以及全球研发、管理决策、运营、流量、财务结算、投资等管理功能,有望带动更多区域科研技术及上下游企业入驻海珠。