有没有什么算法,或者利用深度学习能自动生成好听的旋律呢?
实现效果就如有一个app叫做“听画”,它可以根据用户上传的图片,自动把图片生成一段独一无二的旋律,同时这段旋律又很好听。
实现这种效果,是通过怎样的深度学习实现的呢?
根据他们公司的简介大概可以知道,他们是通过深度学习实现的。
大家有没有什么思路,如何利用深度学习,实现这种生成好听的旋律的系统?
图片的深度学习我能理解,但是音频的深度学习是如何实现的呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我不知道它们内部怎么实现的,只能说一下我想到的思路。
图片可以看做一个二维的数字序列,音频也只是一个一维的离散序列,序列中的每个点表示当前时间声音的信息(包括强度、频率分布之类的)。
深度学习算法里面对图片建模常用卷积神经网络(CNN),得到一个向量表示,然后可以把该向量作为输入,连接一个递归神经网络(RNN),通过sequence to sequence learning的序列生成算法就可以自动生成一段音乐。
以上是一个有监督的模型,需要一个标注数据集来做参数训练,目标函数一般取对数似然概率加上正则项。
在deeplearning.net上有一个利用RBM和RNN生成音乐的例子:
http://deeplearning.net/tutorial/rnnrbm.html
思路略有差别,可供参考。