「AI 原生 100」 是天顺财经科技组推出针对 AI 原生创新栏目,这是本系列的第 「15」 篇文章。
「我们确信不久的将来会有一个 『大饼』 掉下一个,虽然具体什么时候掉下来我们不知道,但我们要先把盘子做好、做大,否则掉下来了我们也接不住。」
姜涛如此描述自己现在做的事。说这句话时,姜涛正坐在音潮办公室的会客区里。
他亲历了中国 AI 音乐发展全过程,在过去的十多年时间,他几乎没有离开过 AI 音乐赛道,如今,他是一家专注音乐大模型和 AI 音乐产品的公司——音潮的 CEO。
如果第一次见到姜涛,很容易将他和音乐人联系在一起,但你很难想到这是一位从事了多年 AI 算法的技术男。他穿着米色休闲亚麻西装,有时候还会带着一个圆形礼帽,很像一个玩爵士乐的 「老炮儿」。他会给妻子做歌,把女儿稚嫩的声音编进旋律,浪漫得不像理工男。但从他的表达中,却能看出他的算法功底,例如他会用 「技术栈」 来比喻团队成员的不同能力,他对 AI 音乐发展史信手拈来,说到 AI 发展的每一个里程碑事件时,他会提高语气。
1938 年,第一台电子语音合成器 Voder 在贝尔实验室建造成功,这是 AI 第一次和音频结缘。
1957 年,Lejaren Hiller 和 Leonard Isaacson 实现的人类历史上第一支由计算机创作的音乐作品 《Illiac Suite》,通过算法将变量替换成音符生成了四个乐章。
但此后漫长的岁月里,AI 音乐像是被按下了慢放键——马尔可夫链在旋律里打转,循环神经网络困在节奏的迷宫里,卷积神经网络也跨不过全链条生成的门槛,进展缓慢得让人几乎忘了它的存在。
直到 2016 年,谷歌推出了用于音乐生成的 Magenta 项目,利用深度学习 TensorFlow 等框架,展示了 AI 音乐生成的能力。
彼时的姜涛正在快手的办公室里,对着屏幕上混乱的音频波形发愁——他正试图解决人声与伴奏音乐分离的难题,这个困扰行业多年的痛点,在此前的技术框架下始终是块难啃的硬骨头。偶然间注意到 Spotify(瑞典一家在线音乐流服务平台) 的一些科学家尝试用医疗影像中血管分离的模型解决这个问题,姜涛觉得很有创意,他也写了个模型尝试了一下,没想到效果出奇的好,分离出来的人声异常干净。
姜涛后来常对人说起那个时刻,他第一次深刻感知到深度学习的能力,之前很多认为不可解的问题在这一刻完美解决了。
也是在那一年,他找到快手 CEO 宿华,提出要做 AI 音乐生成。「当时大家觉得这事儿太玄幻了。」 但宿华非常的支持,同时还分享了其上学时用音乐排解其苦闷的故事。转头又给他找了个特殊的顾问——曾给张惠妹、萧敬腾等一众知名歌手填词作曲的专业音乐人 「阿怪」,陈志翰。
那段时间,快手的办公室里总飘着奇奇怪怪的旋律。姜涛带着算法团队和阿怪挤在同一个隔间,一边用代码训练模型,一边听阿怪讲和弦走向、编曲等乐理知识。这种奇妙的碰撞,成为了他音乐素养的启蒙。
2021 年,Transformer 为架构的大模型的出现。2024 年,Suno 横空出世,被称为音乐界的 「ChatGPT」,第一次实现了歌词、人声、伴奏等一系列音乐内容一次性 AI 生成。姜涛知道,那个 「天上的饼」 可能快要掉下来了。
也是在这一年,音潮诞生了。
即使现在看来,音乐生成依然还是一个小众却好玩的赛道。在中国科技领域,做语音和音频生成的人并不多,音乐生成又是其中最小众的一批人,国内的专家一只手都数得过来。在这个领域的人,既是玩音乐的人中最懂算法的,也是做算法的人中最懂音乐的。但姜涛总觉得,这里藏着和快手当年一样的机会——每个人都能拍视频让短视频实现了平权,那当每个人都能做歌的时候,音乐是否也能实现平权?
他还记得快手上那个把李荣浩 《爸爸妈妈》 唱火的农民工,记得蒙古牧民哼着听不懂的调子却让人汗毛倒竖的瞬间。「外卖小哥的故事,环卫工的生活,为什么不能写成歌?」 他给妻子写的歌,每年都会拿出来听,里面还留着女儿小时候含糊不清的童声。
姜涛说,如果短视频的平权,塑造了快手和抖音,那么音乐平权是不是也能塑造出伟大的公司?
快手的启蒙
天顺财经:你是如何切入 AI 音乐赛道?
姜涛:我在中科院计算所工作了三年。我可能是所里唯一做应用声学相关研究的。那时海外听歌识曲的 APP 应用 Shazam 特别火,我就在所里开发了国内的第一款听歌识曲 APP--「音乐耳朵」,上线了 App Store 应用市场。几年后 QQ 音乐、网易云等才上线了该功能。这段经历让我进入音乐信息检索 (Music Information Retrieval) 这个赛道。
我经历过深度学习之前的专家系统、隐含马尔科夫模型、知识向量机等多个模型阶段,以及当下的大模型阶段。
其实深度学习出来的时候我很兴奋,2016 年左右我在快手做了一个音乐和伴奏分离的模型,这个问题在这之前一直做不好,效果很差,深度学习出来之后,我们借鉴了 Spotify 发表的一篇论文,这个算法将医疗图像上的血管分离用于语谱图中人声和伴奏的分离。
这个想法非常的巧妙,我们实现以后发现效果特别棒。这是我从内心相信深度学习的原因,一个自己多年来求而不得结果,深度学习一下就解决得很好。这个感觉非常的让人兴奋和幸福。
我很感谢我的导师,哈工大的韩纪庆教授,以及郑贵滨、郑铁然两位师兄的帮助。韩老师是一个对科研非常认真,对学生的指导倾尽心血。我当时的研究方向和实验室的主流方向有差异,但是韩老师给予了极大的支持和鼓励。没有韩老师和实验室给我打牢的知识基础,我很难在 AI 音乐这个领域有所发展。
天顺财经:但你的经历中其实并没有选择进入一些语音识别的公司。
姜涛:有时候可能真是被选择,投身了一个小众又好玩的赛道。整个算法圈的人员分布基本是这样的,首先是自然语言最多,然后是 CV 视觉,最少的是音频相关。音频当中,做语音识别的人最多,其次是合成,然后才是音乐。音乐在过去 20 到 30 年时间,一直处于一个既不算落寞但也不火热的状态。
音乐研究人员的匮乏,资源也非常有限,导致这个领域比较封闭,国内从事这个方面研究的屈指可数。当年与北大的陈晓鸥教授合作时,他为了让学生出国参加会议,把凑了三四张经费卡,才凑够学生的出行费用。
这个行业确实有一些比较有趣的人,龚嵘老师拿了欧洲文化基金,录入了国内最大的京剧数据集,最近他还做口吃的识别和矫正。北邮的李荣锋老师一直在做古乐谱-工尺谱翻译研究。Gus 夏光宇老师做了能与人合奏的弹钢琴机器人、能够指导人唱歌时呼吸的硬件设备等好玩的东西。
这个方向很难招人,只有复旦李伟老师等几个学校有少量的学生。更多情况,我们都是在公司内部培养,找一些知识背景接近又对这个方向感兴趣的同学。
天顺财经:到快手负责哪块业务?
姜涛:2016 年,我去了快手。当时快手大概一两百人多人,是快手飞速发展的阶段,快手的 DAU 从几百万到几千万,又迅速上升到几亿的阶段。
我是快手的第一位音频相关的算法工程师,我们从零开始建立快手的音频和音乐相关的算法团队。最开始我们做的工作一部分是把一些违规的音频内容过滤掉,同时把音频内容做聚合和打散。
天顺财经:在快手的经历中有没有印象深刻的事情?
姜涛:当时的快手是一个有趣的状态——混乱的高速发展,但是效率非常非常高。没有职级,但你需要什么帮助, 在企业微信里找到这个人,只要能帮到你就一定会全力帮你。
天顺财经:当时的快手有 OKR 或者 KPI 吗?
姜涛:没有,那个时候是一个风口,上涨很快,你可以感受站在风口的感觉,就是你做点什么事情,都会有大批用户喜欢。
天顺财经:抖音在那个时候是个什么状态?
姜涛:那时候是很有趣的状态,抖音刚起来。因为我当时一直关注各种音乐流量的变化情况,我发现抖音音乐流量起来了,内部还讨论过是否学习抖音的模式。不过最后快手选择了自己的路线,我认为这两种都没有错,都发展成了现象级的产品。
天顺财经:这两条路线是什么样的?
姜涛:快手更强调短视频平权,宿华的个人理想是相信每个人都有平等机会成为世界明星,只要你拍摄,快手就会给你一个平等的展示权利。那时快手的 slogan 还是 「记录世界、记录你」。快手的群众基础是东北老铁,其实流量起源于同城,你可以看到整个区域内的内容,还可以看到其他区域的人发的视频什么风格,这个非常有趣,也是当时快手快速起量的原因。抖音更强调一二线城市的年轻人,流量会集中打一个单独的品类。我们当时开玩笑地说过一句话,这是人类历史上仅有的两个产品,DAU 都过亿,但还能保持高速增长,那就是中国的抖音和快手。他们选择了两条完全不同的增长曲线,这两条都很性感,都成长成了伟大的公司。
天顺财经:你在快手呆了 4 年多,这四年多的时间,除了见证它的高速发展,有经历过快手一些至关重要的转型时刻吗?
姜涛:快手完成了短视频的教育,但后续抖音完成了第一波收割,微信视频号完成了第二波收割。快手能迅速发展起来,得益于几个因素的叠加,智能手机的普及、移动互联网的加速和降费、深度学习的红利等。每个人手机上都有一个摄像头,能够随时随地的拍摄作品并快速传播给全世界。
天顺财经:快手是一个非常典型的移动互联网原生的产品,和我们现在讨论的 AI 原生产品一样。
姜涛:是的,快手、抖音都吃到了上一波深度学习的红利。快手发展时,深度学习刚起来,我们这个组叫 MMU,Multimedia Understanding。组长李岩对算法和业务都有非常深刻的理解,是快手 AI 技术研发的核心人员。我们的主要工作就是给短视频做理解,知道作品的场景、人、物、情绪、语音等等。有了这些理解后,就可以很方便地进行流量分发。把作品精准发给喜欢它的人群。如果没有那个时候深度学习的爆发,流量分发将会很困难。
快手内部对算法的重视程度极高,宿华本身是一个非常技术范的人,智商超群、情商超群、精力也超群。我们一直说,他写代码的速度只受限于他的手速。有一年大家春节回家,他自己默默把快手底层 C++库做了升级。
天顺财经:当时卷吗?
姜涛:不太好称之为 「卷」,更多是高速增长,因为业务发展太快了。这个东西你不做,其他人就会做。当时没有任何资源限制和岗位限制,可以内部合作。其实更多的是成就感,希望自己做到东西可以服务广大的用户,帮助公司更加快速的成长。
天顺财经:当时内部是一个鼓励创新的氛围?
姜涛:是的,那时候百花齐放,如果你有好的想法,公司就会让你做。2016 年我提议做 AI 音乐,当时谷歌开源了一个实时音乐模型叫做 Mamenta,这是上一波深度学习阶段标志性的事件。AI 音乐生成在 2016 年还是一个很玄幻的方向,商业化还不清晰。当时宿华和李岩都很支持,还给配了一个业务顾问——阿怪老师 (陈志翰),他给张惠妹、萧敬腾等很多歌手作曲,我们一周三个半天面对面聊,那段时间,我的音乐素养完成了蜕变。
天顺财经:阿怪给你带来了什么?
姜涛:他是一个很有趣的人,他号称自己是整个音乐圈代码写的最好的。他也是音乐圈里对算法最热爱的,他喜欢深度学习。他自己有很高的音乐素养,但他也很明白大众需要什么,他知道艺术有时候就是生意。他让我对音乐的世界观发生了转变,也意识到音乐是可以拿模型来做的。
天顺财经:你们一起磨合了多久?
姜涛:我们一起做了三年,阿怪老师 2019 年心梗去世了,2020 年左右我们全套模型做完,上线了一个产品叫做 「小森唱」,用比较特殊的方式把一些小模型串在一起,用户给一个主题就能做出一首歌,但这个产品太超前了,产品上线之后,发现市场并不是特别认可。我也是在那个时候离开了快手。其实做 「小森唱」 的时候,也是希望是给阿怪老师的一份特殊礼物,希望他在另一个世界可以快乐地玩音乐、玩算法。
「Aha moment」:见证了智能涌现的时刻
天顺财经:离开快手的原因是什么?
姜涛:在快手遇到了自己成长的瓶颈,想要在一个新的环境中获得成长。
天顺财经:接着你选择了腾讯音乐,为什么做这个选择?
姜涛:我到腾讯音乐的时候抱着一个理想,希望有更多训练数据。
天顺财经:你到腾讯音乐的时候,做了哪些事?
姜涛:当时腾讯音乐算法团队比较分散,不利于将算法研发深化。我去了之后,花了半年时间把零零散散的小团队组建成了一个大团队,叫做天琴实验室,这个实验室最后承接了 QQ 音乐、全民 K 歌两个大平台所有音视频算法需求。我们上线了各种有趣的功能,例如 K 歌的多维度打分、智能修音、无损音乐超分、有声小说等。后来还做了一对数字人,一个叫小天,一个叫小琴,是一对兄妹,她们成了天琴实验室的歌声合成、舞蹈生成、灯光生成等多项技术的最佳载体。
天顺财经:但是 2023 年你又从 QQ 音乐离开,这个怎么考虑?
姜涛:其实 QQ 音乐也好、网易云音乐也好,这些音乐流媒体平台的核心资产是曲库版权,而大模型训练需要较大的算力资源、人力资源和较长周期的投入,因此在大模型上的投入比较谨慎。当然这件事情是对的,作为一个音乐版权公司,还是以核心资产收益最大化为目的,所以从商业逻辑上来看,我认为这种谨慎是一个很正确的决定。
天顺财经:从腾讯音乐出来之后,你去了昆仑万维。
姜涛:就像之前说的,腾讯系比较喜欢后发先至的打法,而我当时想尽快投入到大模型训练中,而当时国内愿意为 AI 音乐这件事做大投入的只有昆仑天工,所以我从腾讯音乐离职,加入昆仑天工担任 AI 音乐团队的 CTO,做出全国第一个端到端生成的音乐大模型。
那个时候,Suno 3.0 也刚刚发布,整个市场非常热闹,虽然那时候效果不好,但大家觉得未来可期。
周亚辉老板是一个非典型的连续创业者,他组建一个完整的 AI 产品矩阵,天宫音乐、天宫搜索、社交动漫,然后这个 AI 板块也让整个昆仑的股价起飞。包括现在,周总也是少数能从 AI 上获得收益的投资人。
天顺财经:但是在昆仑就呆了一年就走了,为什么?
姜涛:昆仑天工有自己的产品迭代路径,但我希望我做的事情能对整个中国的音乐产业有所改变。
天顺财经:这个改变你指的是音乐平权吗?
姜涛:是的,这可能和快手给我带来的影响有关。我希望每个人都能用音乐记录生活。我给我妻子写的歌曲,我们现在每年还会拿出来听一听,那时候还把我女儿的声音录进去。短视频的平权成就了快手,我相信音乐平权也能诞生伟大的公司,整个音乐行业和 IP 生态都会被重构,我相信外卖小哥、农民工,他们的故事、他们的音乐,也能感动我们。
我们在快手上有一个农民工兄弟,他把李荣浩的 《爸爸妈妈》 这首歌带火了一把。还有一次,我在快手上听到了一个蒙古牧民唱的歌,有非常好的颅腔共鸣和漂移,我虽然听不懂,但那种汗毛炸裂的感觉让我终生难忘。我相信普通人也一样可以做出感人的音乐。
天顺财经:ChatGPT 出来之后,每个人都有个所谓的 「Aha moment」,对你来说是什么样的?
姜涛:我当时在昆仑天工,可以说见证了智力涌现的力量。比如我们同样的模型架构,在喂几十万首歌数据的时候,会像一个小孩子唱歌一样,这里也不对,那里也有问题,但是当到了千万首歌的时候,效果突然出奇的好,让模型从一个懵懂孩童一瞬间成长出色音乐家。一旦你经历智力涌现,你会对 AI 有深深信仰,相信当下一切仅仅是个开始,AI 会改变整个人类的未来。
「我们现在有个锤子,但怎么敲我们还在尝试」
天顺财经:选择创业是先拿融资还是自有资金?
姜涛:音潮的投资人是一个很有理想和抱负的人,当时市场上大多数的公司开始专注垂直大模型,我们聊完后都认为音乐是一个发力点,就开始启动了。
天顺财经:这一年多产品迭代了多少次?
姜涛:我们产品刚刚上线,更多是把模型效果做好;下一个阶段,我们的产品会进入很高频的迭代状态,基本上两周到三周就会有一个新的版本上线,增加很多有趣的功能,激发用户的创作热情。
天顺财经:建团队花了多长时间?
姜涛:大概半年多才凑齐基本的人员,现在也在不断吸引业内优秀的同学。我们核心团队里有很多音乐学院毕业的同学,我们仅算法同学现在都可以组成一个乐团了。比如我们现在做评测的同学是清华大学阿卡贝拉乐团的创始成员,之前是在清华读芯片设计的博士,他能作为算法同学和音乐老师直接沟通的桥梁。
天顺财经:对你来说你现在的挑战是什么?
姜涛:我需要一边做算法研发和工程迭代,一边往产品和商业化的路径上去做,后面这个是我的之前技能栈中有所欠缺的。
天顺财经:产品现在刚上线,你自己有发现一些问题吗?
姜涛:其实我们现在最大的痛点就是,激发用户的创作热情,找到更多大家要做歌的场景,并让制作歌曲的产品路径尽可能短。我们想过很多路径,比如 Suno,他的产品受众很清晰就是专业音乐人的生产工具和类 Spotify 的音乐流媒体平台。
还有一家公司叫 Riffusion,这家公司的交互非常有趣,他们想要采用 GPT 聊天的方式来创作音乐。这家公司的历史比 suno 还早,在文生图 Stability 模型出来后出来之后,这家公司做了件很酷的事,就是生成钢琴的语谱图,然后再把它转化成可以听的声音。Riffusion 早期只能生成一些短片段,二三十秒,但是他们很有创意把这个缺陷变成了一种产品 format,命名为 『riff』。
我们其实也在尝试 Agent 的音乐创作路径,我相信这些新的交互可以激发不一样的创作火花。
天顺财经:你们针对这些痛点做了哪些事?
姜涛:基于自研模型的能力,我们尝试让用户知道音乐是可以用来 「玩」 的,并为他们准备了很多好玩有趣的功能。例如:「音果」 就非常好玩,用户可以两首歌的要素抽取出来,混合成一首新的歌,然后在这个基础上可以层层堆叠,并把创作过程游戏化。两个用户的歌曲可以基于 「音果」 的功能建立一个弱的社交关系,我们成为 「音缘」。把谐音梗也玩得比较彻底。
应该说我们现在有一个锤子,但这个锤子敲碎哪些罐子?我们现在还在不断尝试。比如我们希望能够先击中那些更加细分和垂直领域的人群,再这些从垂直人群中破圈,泛化到更大的人群。
天顺财经:我们现在有锁定一些目标群体吗?
姜涛:首先是学生,他们思维更加活跃,也更容易接受新鲜事物,有更高的使用频率也有使用时间。
天顺财经:现在还是一个产品发散的状态?
姜涛:对的,我们现在还是去试,如果有的内容反响不大,我们就会立刻撤掉。
天顺财经:你们的产品迭代速度怎么样?
姜涛:我们移动端是每三周一次迭代,网页端是双周一次迭代。
天顺财经:自己训练模型的话这部分的成本很高?
姜涛:在训练和推理中我们也在和一些国内的芯片厂商合作,用国产卡,性价比很高。因为业务请求量越来越大,我们会尝试训推一体。推理请求量大的时候,我们会把一部分训练的机器拿来做推理,请求量下去之后再收回来。推理的成本是很低的,我觉得未来几个月这个成本可以继续下降。
天顺财经:腾讯前不久发布了 AudioGenie 音频生成工具,你注意到了吗?这对于音潮是否是一个挑战?
姜涛:AudioGenie 更像是视频或者图像配音效,他们的多模态做得很好,不过完整的音乐作品不是这项工作的目标和重点。
打造和用户共创的数据飞轮
天顺财经:所以我们的商业模式和产品定价是什么样的?
姜涛:我们 B 端是开放 API 接口,C 端按首收费,可以免费做四首歌,近期会上付费,满足用户更大量的创作需求。
天顺财经:这个定价是怎么考虑的?
姜涛:我们打算做一个尝试,而且我们也有免费额度。如果你在我们这里做的歌,收听的人多了,你可以形成自己的 IP,我们会按照播放量给创作者结算。我们现在其实是象征性收费,而且四首歌的免费额度对普通用户来说也是够用的。我们在儿童音乐教育和 AI 教育场景下完全免费使用。
我们也会在 C 端做一些衍生服务。因为我们要实现音乐创作的平权,所以用户在我们平台上做的歌,版权完全属于用户。如果你想做相关的版权认证,我们可以帮用户做完。如果用户想做分发,我们可以帮他们做分发渠道。
天顺财经:你们的数据壁垒怎么建立?
姜涛:我们花了一年多的时间建了国内最大的音乐数据标注库,其中有我们从其它音乐科技公司购买的,也有我们从录音棚中购买的,就是这样一点点寻找和积累优质数据。在上海音乐学院于阳教授和陈世哲教授的帮助下,有几十名上海音乐学院的学生帮助我们做音乐数据的标注,构建我们的数据壁垒。我们与两位教授也建立了音乐大模型的联合实验室,进一步加深双方的合作。
天顺财经:你们如何吸引用户并维持用户粘性?
姜涛:第一是我们提供了一个收益的渠道,用户可以通过养成自己的 IP 并获得收益,就能得到成就感。第二是我们提供了市场上没有的玩法,足够好玩可以吸引用户。
我们的核心理念是,用户花在作品上的时间越多,用户资产就能够获得增值,比如他点了个赞,或者收藏一张歌单,用户价值就会增加。
天顺财经:ToB 和 To C 的节奏怎么把握?
姜涛:我们同步进行,现在还在摸索当中。因为音乐平权未来的市场是什么样,对我们来说就像个迷雾。不过我相信,在快手和抖音刚做起来的时候,也并没有看到清晰的商业化路径,一直到流量激增之后,出现了新的商业火花。
我们要做的事情是,我们知道天上有一个大饼,但什么时候掉下来,我们不知道,我们得把自己的盘子做大,如果盘子不够大,饼掉下来是接不到的。
天顺财经:B 端的生意,大厂其实也在做,你们怎么平衡这个关系?
姜涛:不止一个人问过这个问题,我们首先进入生态位,我在生态位上有一个支撑,那么你给我投钱就是一个路径。
天顺财经:如果和大厂合作,你们不担心自己的数据可能会变成大厂模型的某个部分吗?
姜涛:目前不会,当然在中间某个节点可能需要做一些取舍。
「逼自己每月花 200 美金-300 美金在 AI 产品上」
天顺财经:出海节奏是什么样的?
姜涛:如果出海的话,我们的产品形态会有区隔,我们会和 Suno 形成差异化的服务。我们现在是和一些 MV 厂家合作给他们做歌。另一个方向是我们现在有一个小产品,比如你发 Youtube 需要有版权的配乐,但如果没有版权,就无法上架。我们会把 AI 音乐作品做一个曲库并配上丰富的标签,用户可以付费使用。
天顺财经:Eleven Labs 在语音合成上也走得很快,甚至也推出了 Eleven Music 的 API,拿到了不错的估值,它会是未来音潮出海的对手吗?
姜涛:Eleven Labs 确实算是竞争对手,它的语音合成是目前行业标杆。商业模式上,我们是 toB 的 API、toP 的创作工具、toC 的消费平台、音乐 IP 的衍生增值服务都有。国内和国外的市场环境差异很大,很难走同一条路线。
天顺财经:音潮团队是一个跨学科背景和多元的团队,你们怎么融合和管理?
姜涛:我们的团建是组织大家去听 R&B livehouse,现在我们算法工程师可以凑成一个乐队了,可能我们下一次团建就是包个小场地自己演奏。很难想象一群很 i 的算法同学,在面对音乐时会展很 e 的一面,这种反差非常有趣。
天顺财经:团队有 OKR 或者 KPI 吗?音乐人都偏理想化,算法工程师偏理性。
姜涛:有 OKR 的,因为大家都明确知道我们要跑得更快才能活下来。我们的产品负责人是中央音乐学院毕业,他也明确知道商业化的互联网产品是什么样,曲库的负责人也是音乐人,做了很多年乐曲的交易。我见过很多互联网音乐做得很好的公司,但最终没能活下来,所以我需要平衡一下,让大家有快乐的一面,也有紧迫的一面。
天顺财经:如果公司是一个乐队,你承担的是一个什么角色?
姜涛:我给大家提供弹药,给大家划定明确的边界,让大家快乐的把自己的技术栈发挥到最大。
天顺财经:回溯到公司刚成立,有哪些决定现在想来比较后悔?
姜涛:有些东西可以做得更快。比如产品上线,如果可以快一点,也许可以在世界人工智能大会之前让产品更完备。
天顺财经:最近让你焦虑的事是什么?
姜涛:产品刚上线,需要有一个增长点和好玩的功能点。
天顺财经:你们产品上线到现在注册用户有多少?
姜涛:依托 waic 的宣传,已经有几十万的注册量了。我们还在通过不停迭代,给用户新的刺激点。
世界人工智能大会上姜涛向观众介绍产品 图片由受访者本人提供
天顺财经:现在主要工作在做什么?
姜涛:主要是招人和产品决策。我现在给自己一个规定,每个月要花 200 美金-300 美金在新的 AI 产品上,我觉得只有付了费才能逼迫自己更加耐心和专注使用这些产品,同时每个月面对账单时,我也会被迫思考这些 AI 产品提供的功能是否值得继续付费。
天顺财经:你觉得哪些产品做得不错?
姜涛:可灵、即梦、PixVerse 的视频生成做的很不错,我的很多视觉素材都是用他们做到的。看到 AI talk 的 Yuri 后,我还花时间做了一个数字人的 MV 作品,但是与 Yuri 差异巨大,建立一个类似的视觉 IP 目前还有不小的门槛,虽然工具大家都能平等使用。
Riffusion 提供了新的音乐交互方式,它通过多轮聊天来完成创作,我不确定这条路对不对,它与传统的基于 daw 的创作方式非常不同,它选择了与 Suno 不一样的路线,但如果这条路是对的,这个交互方式和模式会很有趣,我们也会在自己产品上尝试。
我也会经常使用 Suno,它的 Suno Studio 对于音乐人而言将是一个颠覆性的产品。我会在 openrouter 上观察近期市场上各类模型的使用分布,以及使用这些模型的创新产品。
文章标题:让东北老铁人人都能当周杰伦
文章链接:https://www.huxiu.com/article/4733039.html
阅读原文:让东北老铁人人都能当周杰伦_天顺财经网