大家平时吃喝玩乐发抖音,是不是都需要找一些符合视频内容的背景音乐呢?视频有了音乐的加持,内容才能变得更有趣。其实相比于传统的复杂漫长的视频剪辑流程,AI可以通过各种各样的手段,去控制一段音乐与视频匹配,这样就能让你的创作过程更容易更高效。
本期创业内幕的主角DeepMusic,是一家非常酷的AI音乐公司。他们主攻音乐的AIGC方向,就是通过AI降低音乐的门槛,让更多人可以参与到音乐的学习、练习、创作和娱乐中,“让每一个人都成为音乐家”。AI音乐数据化领域,还远没有到所谓白热化竞争阶段,所以非常值得大家了解一下。
与传统的音乐创作相比,DeepMusic的创作功能有怎样的变化和升级?AI音乐数据化领域目前紧缺哪类人才?又有着怎样的前景和未来?
今天的《创业内幕》,我们邀请到两位嘉宾—— DeepMusic灵动音科技的创始人兼CEO刘晓光以及DeepMusic灵动音科技的联合创始人&CTO苑盛成,他们将和GGV纪源资本的执行董事罗超一起谈谈AI音乐数据化领域的赛道和机会。
展开全文
Lily:
今天我们访谈的两位嘉宾,来自于一家非常酷的AI音乐公司——北京灵动音科技有限公司(DeepMusic),他们就是灵动音的创始人兼CEO刘晓光以及联合创始人&CTO苑盛成。另外和我们一起进行访谈的,还有GGV纪源资本的执行董事罗超。我们先请晓光和盛成分别介绍一下自己和DeepMusic这家公司。
刘晓光:
大家好,我是刘晓光,在清华化学系读的本硕博,后来和朋友一起创办了灵动音科技这家公司。我们公司是做音乐的AIGC方向,希望能够用AI去降低音乐的各种各样的门槛,让更多人可以参与到音乐的学习、练习、创作和娱乐中。我们非常坚信我们能够让每一个人都成为音乐家。
苑盛成:
我是清华大学工程物理系,也是攻读了本硕博,博士毕业之后去了美国的罗格斯大学,在人工智能方向的机器听觉方向做了博士后。毕业之后,我在2019年回国来到这家公司工作。我希望让人类在创作音乐这件事情上,能够获得更加美好和沉浸式的体验,让每个人只要他愿意,都能够使用音乐作为他表达自我的工具。
Lily:
晓光你作为一个可以投身化学事业和制药事业的科学家,为什么会选择这样一个创业方向?
刘晓光:
其实我和音乐还是有很多渊源的。我从三岁半就开始学电子琴,九岁时过了中央音乐学院的电子琴9级,结果在我十岁时,教育部说电子琴不算特长生乐器了,于是本来想当特长生的我,只能在父母的逼迫下成为了一个文化生。自那以后,音乐就成为了我的兴趣爱好。我大学时候除了花少部分时间学习,其他时间都基本投入到了和音乐相关的事情上。
现在我之所以会做音乐方向的创业,可能和我三段经历非常相关。第一段经历,我在大学一直当校园歌手,也写了很多歌想制作出来,所以我研究了很多乐器的演奏方法,还学会了编曲和音乐制作。第二段经历,我是清华大学2011年时的吉他协会会长,当时我们吉他协会有30多位骨干,这些骨干里有很多既懂音乐又懂技术的伙伴,后来也成为我们团队最重要的一批理工男。第三段经历,有段时间我去一线做了音乐老师,负责教5-12岁儿童学习音乐基础知识。所以我现在创业,聚集起来的是三个群体的伙伴,清华的理工男朋友们,做音乐教育时积累的朋友们,还有一直在做音乐制作的朋友们,我们三拨人组成了这家公司。
Lily:
盛成,是什么契机让你决定加入DeepMusic这样一家早期创业公司?
苑盛成:
其实一开始我很纠结,因为美国那边确实有很好的研究条件,也有非常好、非常有规模有体量的这种公司。另外在人工智能领域,还有一条路是走学术圈,所以学术圈那边会更擅长一些,便于探索一些新的方向,然后工业界特别擅长把人工智能的各种模型做大。这些方向我都非常感兴趣,所以当时也有和晓光聊。
我五岁时开始学电子琴,当时我感觉非常枯燥,坚持了半年后,先受不了的是我爸妈,他们听得太难受了,也就让我放弃了音乐的专业学习之路。到了8、9岁时,我就开始学习编程,学得还挺开心的。大概到初高中的时候,我开始使用程序去参与一些机器人比赛,这些比赛让我接触到了人工智能。
到了15岁左右,我突然就对音乐开窍了,对各种音乐都感兴趣,进入大学以后还去参与了合唱队。因为清华本身是没有音乐专业的,学生都喜欢唱自己的歌,唱别人没有的,所以我就开始自己琢磨编曲。在这个阶段,我去图书馆、各种视频网站自学了各种各样的音乐知识。在学习音乐的过程当中,我发现音乐虽然是门艺术,但是它背后的很多理论都有它自己的物理规律和数学规律。
Lily:
DeepMusic做的产品,是如何从科学上和算法上实现它的机器作曲过程的?
刘晓光:
其实我们在做的事情,就是用AI赋能音乐生产过程。这一代的AI都是data driven(数据驱动)的,我们有很多数据,需要对这些数据进行标注,所以我们花了非常多精力,去标注出一个非常丰富且有足够量的数据集。 我们希望AI能够读懂这些音乐里面的具体音乐知识,所以我们把音乐通过“音乐信息提取”的方式,把它变成各种各样的音乐的符号。通过音乐的知识和音乐的符号,能够把音乐做一个降维,这样我们就可以通过人类已经创造过的这些音乐,去生成一些新的音乐。
Lily:
你觉得将来AI会完全替代人去做创作吗?
刘晓光:
其实我们还是比较深度地思考过这件事情,不只是音乐,很多内容场景实际上都分为了艺术型内容和功能型内容。 其中艺术型的内容是人,他还是要表达自己的情感,可能会通过一些创作的方式,最终还是要达到一个自己的艺术追求;这种场景下,工具或者AI再有能力,依然没办法完成这个场景。但如果是功能化的场景,比如我想用AI生成一个视频配乐,那我觉得AI是完全可以做到的。
尤其是现在短视频制作如火如荼,像抖音这样的平台就是一个非常大的利好。一方面视频配乐受到平台版权局限;另一方面我们想匹配到更好的音乐比如卡点功能,以前都需要创作者付出大量工作时间才能够完成,但AI可以通过各种各样的手段,去控制一段音乐去配上一个视频,实际上它就可以把创作流程缩短很多。
Lily:
超哥你是怎么发现这样一个赛道机会的?
罗超:
其实我们花了很多时间,从2019年开始就一直在扫描一个娱乐科技的赛道,在整个娱乐科技的大版块下,我们会关注像游戏、影视、动漫、音乐这些大的娱乐主题下的技术公司,包含了渲染物理仿真、AI生成等等各种各样的技术,去支撑如今多媒体的丰富的数字化娱乐的方式。这是我们一直在做的一件事情。
在大方向上,我们之所以会看娱乐科技,核心是因为我非常喜欢一本书,这本书可能也是直到今天为止,对我作为一个投资人包括曾经作为一个创业者而言,最有指导意义的一本书,它就是GEB(《哥德尔、艾舍尔、巴赫》),哥德尔是一位著名数学家,艾舍尔是一位版画家,巴赫是一名音乐家。其实它讲述的是理性和感性的交融,探讨了数学、人工智能、哲学和艺术之间的融合,就是这些看似非常多的不一样的学科,让你的左脑右脑互搏的学科,所产生的魅力和影响力是非常大的,对我的影响也非常深。我觉得娱乐科技本质也是这样,娱乐看似是非常感性的情感驱动的事,但它背后又有很多理性技术可以驱动并且助力的方向,所以我们一直在看这个方向。音乐是娱乐科技里面重要的一个赛道,也是一个离我们生活如此之近的行业,与此同时,它又如此传统。我们也想看看,这里有没有一个更大的AI+数据驱动的软件、方式,可以让整个行业能够有新的革新。
我们看这个版块时,在中国还有世界范围内的市场上看到了不少的团队,晓光他们团队在这件事情上技术积累非常深厚,同时团队对这件事情的热情和喜爱是非常深的。我觉得做任何事情,只有真的爱一个行业,并且把自己所学投入在自己爱的这件事情里,就像GEB那本书所展现出来的,把感性上的事和理性上的东西做一个最完美的结合,才能够把它做到最好。所以在我看完这个行业之后,我当时觉得DeepMusic团队是我愿意去支持、去陪伴一起创业的团队。
Lily:
其实在美国也有类似大公司在做类似的事,比如谷歌就在音乐AIGC上有不少积淀,包括AudioLM和现在的MusicLM都吸引了全行业的关注。我也想请二位介绍一下,我们跟它们相比,有什么独特的战略优势和技术优势吗?
苑盛成:
首先,我觉着我们的整体路线和谷歌的路线有所不同。在我看来,谷歌是人工智能领域灯塔级别的存在,它会证明很多事情的可行性。AudioLM和 MusicLM这两个模型,实际上就向我们证明了“从文本直接生成音频”的技术路线的可行性。接下来,我们会非常期待能够看到有越来越多类似这样的模型、技术,在音频空间里直接给我们很多惊喜。
另一方面,像这样一种模型/任何一个技术,其实都会有它擅长的地方和相对不擅长的地方,谷歌这样一条发展路线也会遭遇挑战。挑战一就是声音质量问题,不论是什么样的机器学习,当机器去学习音频空间时,目标是那些用数字音乐工作站等专业软件做出来的音频,那么你永远只能逼近而不可能超越它的音质;至于能够逼近到何种程度,就要看你的模型是否足够大,你的训练是否足够。
符号式的音乐生成,也是在生成内容,但并不是一个简单的检索。只是它生成的空间不是完整的音频空间,而是音乐人可以去操作的工程上的空间。这种空间有两个好处:第一是它最后渲染出来的音乐质量一定是商品级质量;第二是这条路线上每个环节是音乐人最容易去控制的。对于音乐人来说,他一定会要求自己控制生产音乐过程中的主导权,需要明确地知道自己在干什么。通过文本去生成音频,很多时候能够满足音乐人,靠粗糙描述和大量随机产出内容,去选择更加接近理想状态音乐的需求。
Lily:
在传统音乐创作上,过去的音乐人是怎么创作的?有了我们的产品之后,会有什么样的变化?
刘晓光:
过去我们想去做一个音乐创作/做一首歌,大概要经过“词曲编录混”五个过程,从偏技术角度去讲,这些都来自于不同模态,尤其是混音,它是一个偏工程化的事情。如果你想通过一款产品,完全赋能到这个场景上,我们觉得是可能的,但它的工程化的量是极大的。它需要的一个工程化的基础叫“数字音乐工作站”,即我们去做音乐用的软件,里面有各种各样的模块技术,能够帮助音乐人提供里面的一些价值,这个价值可能分成两部分:
第一,比如说作词,这个环节现在已经有一些AIGC技术可以写得很好,比如ChatGPT就可以。音乐人可以运用这些技术,去快速给自己提供各种各样的灵感,从而把创作过程变得更简单。
第二,在曲和伴奏的制作过程中,音乐人都是需要这样的灵感的,所以我们在曲和编曲这块投入了最大精力。我们认为这是在AI音乐领域里最交叉的两个环节了。
Lily:
但是音乐往往蕴含了很多超越声音本身所表达的内容,情感、情绪等等,如果只给模型听一首歌的一部分,你觉得它能理解创作者的真实意图吗?怎么能确定它理解的就是正确的呢?
刘晓光:
首先我们认为,AI去听懂人类的音乐可能分成几层:最浅的一层是里面运用了什么音乐知识,比如有人声、吉他、鼓点,音高什么样,歌词段落什么样,重低音什么样等等,这些是AI去听懂音乐所含音乐知识的过程,其实涉及一个领域叫“音乐信息提取”。再进一步,不管是想让AI去理解知识也好,还是直接去了解其中表达的情感也好,一定要有一些配对的数据,比如人要标注大量的音频里表达的是什么。我们觉得可以直接从音频去标注一些音乐片段里面表达了什么,但这其实是会比较困难的,因为一个人认为是情感,另一个人不一定认为是情感。
苑盛成:
我用“三度创作”来诠释一下音乐的创作过程三步骤:第一步,作曲家把音乐创作出来写成谱子的创作体验;第二步,演唱家和演奏家把它演唱/演奏出来交给用户的表达体验;第三步,观众听到了这样的音乐并在心中产生了审美体验。其实每一个人在这个过程当中,都有自己的艺术体验,每一个过程都有自己的艺术价值在里面。
Lily:
在我看来这可能也是技术上最难的部分,那在您看起来它是更难还是更简单?
苑盛成:
讨论这个问题,我们不如从ChatGPT这样一个我们已经见到的模型去入手,文本当中也会存在一些暗喻/引申义,比如“今晚的月色真美”,通过文本本身直接去看含义,它是不携带这个意思的。ChatGPT这样的模型或者大模型有没有可能学到这背后的情绪,我认为是有可能的。因为互联网上已经沉淀了大量文本,这些文本是有上下文关系的,这些相关性会定义“今晚月色很美”这句话,大语言模型理解好了里面的空间后,它就能够通过其他文章的上下文推测出来,知道这背后蕴含的什么。
在音乐里面,实际上也有一些音乐语言能做这些事。比如我们在和弦系统当中,有一些和弦可以去表达一些遗憾的、令人心碎的情绪,这样的情绪通常意味着它要延长,因为遗憾总要回味一下。那模型就可以在这个地方延长一下给你叹一口气。另外有的时候音乐是有歌词的,这部分歌词往往也和离别、惆怅情绪相关,甚至做成视频MV后,弹幕上可能也会有人发表类似情绪的言论。当模型形成一些配对的数据之后,语言空间当中一些引申含义,一些情绪表达,就会映射到音频空间/音乐知识的空间当中,能从归纳层面上给出这样一种判断。
Lily:
我问一个比较商业化的问题,现在有多少人在使用我们的应用,是B端还是C端为主?
刘晓光:
首先,我们认为我们在做的是音乐的AIGC,AI其实代表的就是它的商业前景,它的商业价值主要体现在,它会让一些内容的生产过程变得更快更便宜。这样的场景,我认为可能是在一些现在的商业模型里面,比如我们已经把我们的 AI编曲功能,赋能到了全民K歌的“换曲风”功能上,你可以一键把流行音乐风格换成古风风格,这样就能给全民K歌上的用户更多表达音乐的方法。像这样一个功能,以往可能需要做很多伴奏,一个伴奏就要花很多钱很长时间。当AI能够完成这件事以后,本来可能一个新的产品/运营计划,它的成本很高,收益是大于不了一的,但是在AI赋能下,这件事有可能就大于一了。
所以我们认为,AIGC提供的价值,是能够在这种已有的商业里面去提供更多可能性。像这样的功能,我们提供给B端,像赋能在全民K歌端上的这个功能,目前已经让我们的 AI编曲技术触达了千万级用户,目前使用次数已经超过了3亿次。它对于我们来说,是一个非常好的去验证技术的场景。
我们希望我们的技术不仅能够赋能到现有的商业模式,还能够让更多人进入到更深度的音乐世界里,不只是停留在听音乐和唱歌这类简单的音乐娱乐行为里面。我们自己在做AIGC音乐产品的时候,可能往两个方向去走:第一,在功能性音乐上直接能够去满足很多场景,像我们的BGMCAT的产品,目前每个月都会收到上万次音乐生成的申请;第二,我们另外一个产品是口袋乐队,我们希望可以通过它,让用户去理解音乐,并且进一步降低玩音乐的门槛。我们想用这种非常亲民的可视化方式,让每个人能够感受到音乐带上视觉、听觉的各种各样的交互。
Lily:
它会涉及版权问题吗?
刘晓光:
我们在这个产品里面,会让用户提供他创作的一首歌的词曲,然后我们的AI为它创作伴奏,其实伴奏就是各种乐器的音轨以及乐器的演奏,这些是不涉及版权的。实际上它更像一个工程化场景,没有特别创作化的场景,更多还是用户自己去创作,我们的产品帮他完成他不太容易学习的除创作以外的所有部分。
Lily:
您现在在做的这个事,您觉得它会成为一个单独市场吗?如果未来咱们已经积累了大量数据,但是巨头突然冲进来了,也可以随时来做这个事,那你有没有觉得这种挑战也会很大?
刘晓光:
我认为大家已经慢慢关注到音乐标注是一个很重要的事情了。其实音乐标注的门槛比别的像自然语言图像的标注都会困难一些,因为音乐标注需要非常深的一些音乐知识。我们从最开始做这家公司时就认识到这件事情,所以我们有一个十几人的数据组,他们都是非常专业的音乐人,把这些数据标注得非常精准。
其实这里边要建立的一个模态连接,就是音乐的符号,它是描述音乐信息的一些自然语言,和音乐音频模态进行一些连接。想把音频描述成这些自然语言/符号的话,它的门槛超级高,并且我要非常精准的数据,比如你想把自然语言和音频这两个模态之间进行连接的时候,你也需要大量的对位的这种数据。
特别声明
本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。