无法使用通用语音数据训练 Wav2vec XLSR 模型
我正在尝试使用丹麦语的 wav2vec XLSR 训练变压器 ASR 模型,但每当我尝试使用数据集库提取丹麦语数据集时,都会出现错误。 笔记本链接
错误日志:
ValueError:未找到 BuilderConfig da。可用:['ab'、'ar'、'as'、'br'、'ca'、'cnh'、'cs'、'cv'、'cy'、'de'、'dv'、'el' , 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'fy-NL', 'ga-IE'、'hi'、'hsb'、'hu'、'ia'、'id'、'it'、'ja'、'ka'、'kab'、'ky'、'lg'、 'lt'、'lv'、'mn'、'mt'、'nl'、'或'、'pa-IN'、'pl'、'pt'、 'rm-sursilv'、'rm-vallader'、'ro'、'ru'、'rw'、'sah'、'sl'、'sv-SE'、'ta'、'th'、'tr'、 'tt'、'uk'、'vi'、'vot'、'zh-CN'、'zh-HK'、'zh-TW']
I am trying to train a transformer ASR model with wav2vec XLSR in the danish language, but whenever I try to pull the danish dataset with datasets library it's giving me an error..
Notebook link
error log:
ValueError: BuilderConfig da not found. Available: ['ab', 'ar', 'as', 'br', 'ca', 'cnh', 'cs', 'cv', 'cy', 'de', 'dv', 'el', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'fy-NL', 'ga-IE', 'hi', 'hsb', 'hu', 'ia', 'id', 'it', 'ja', 'ka', 'kab', 'ky', 'lg', 'lt', 'lv', 'mn', 'mt', 'nl', 'or', 'pa-IN', 'pl', 'pt', 'rm-sursilv', 'rm-vallader', 'ro', 'ru', 'rw', 'sah', 'sl', 'sv-SE', 'ta', 'th', 'tr', 'tt', 'uk', 'vi', 'vot', 'zh-CN', 'zh-HK', 'zh-TW']
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我帮你查了一下。
丹麦语子集受以下版本支持:
版本。
然而,Hugging Face 的数据集库(版本 2.2.1)使用的是 6.1.0 版本的语料库。您可以通过加载语料库的任何子集并打印数据集信息来检查自己,如下所示:
代码
输出
查看语料库详细信息
查看库
您应该等待库的新版本或提出请求给他们的存储库。
I checked it for you.
The Danish language subset is supported in:
releases.
However, Hugging Face's datasets library (version 2.2.1) uses the 6.1.0 version of the Corpus. You can check yourself this by loading any subset of corpus and printing dataset info as follows:
Code
Output
See the Corpus Details
See the Library
You should wait for a new release of the library or open a request to their repository.