tidymodels 食谱:我可以使用 step_dummy() 对分类变量 *除了* 布尔值进行一次性编码吗?它只需要 1 个虚拟变量?
如果一个分类变量有超过 2 个值(例如婚姻状况=单身/已婚/丧偶/分居/离婚),那么我需要创建 N 个虚拟变量,每个可能的级别都有一个。这是使用 step_dummy(one_hot = TRUE) 完成的。
但是,如果类别是二进制的(pokemon_fan =“yes”/“no”),那么我只需要创建一个名为“pokemon_fan_yes”的虚拟对象。这是使用 step_dummy(one_hot = FALSE) 完成的。
step_dummy 是否可以计算级别数并根据该数字进行不同的处理?
谢谢。
If a categorical variable has more than 2 values (like marital status= single/married/widowed/separated/divorced), then I need to create N dummies, one for each of the possible levels. This is done using step_dummy(one_hot = TRUE).
However, if the category is binary (pokemon_fan = "yes"/"no") then I only need to create a single dummy called "pokemon_fan_yes". This is done using step_dummy(one_hot = FALSE).
Is it possible for step_dummy to count the number of levels and proceed differently depending on that number?
thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
在食谱本身中没有自动方法来执行此操作,但我认为您可以创建一个函数来为您处理此问题,如下所示:
由 reprex 包 (v2.0.1)
这里是使用不完全标准选择器的一些技巧在食谱中。
There is no automatic way to do this within recipes itself, but I think you can create a function that will handle this for you, something like this:
Created on 2022-02-23 by the reprex package (v2.0.1)
Here are some tips for using not-quite-standard selectors in recipes.