keras oov_token = true有效
默认情况下,当 oov_token = true 时,KERAS如何将vocabulary代币归功于vocabulary令牌。
根据KERAS的官方文档,它告诉如果给出,它将添加到word_index,并用于在text_to_sequence调用期间替换vocabulary单词。 但是,如果未明确指定,但是 oov_token = true 时,没有太多细节。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
假设您参考
> tf.keras.preprocessing.text.tokenizer 的
的索引在两次添加oov_token
,您应该看一下 source Code> source Code 以了解引擎盖下发生的事情。 oov_tokenoov_token = true
:text_to_sequence
方法中,您会看到在
word_index
中找不到,这是词汇中每个单词的字典,映射到唯一的整数值。num_words
和i
是某个单词的索引,等于num_words
。这是相关代码:
另外,您会看到
oov_token
如果将索引1设置为true
,始终获取索引1。Assuming, you are referring to the
oov_token
of thetf.keras.preprocessing.text.Tokenizer
, you should take a look at the source code to understand what is happening under the hood. In thetext_to_sequence
method, you see that the index of theoov_token
is added on two occasions foroov_token=True
:word_index
, which is the dictionary of each word in your vocabulary mapped to a unique integer value.num_words
andi
being the index of a certain word, is equals to or abovenum_words
.Here is the related code:
Also, here you see that the
oov_token
always gets the index 1 if it was set toTrue
.