Pycaret 不能很好地管理多重共线性

发布于 2025-01-14 06:14:25 字数 1369 浏览 1 评论 0原文

我在 Pycaret 库的输入中有一个 Panda Dataframe df 。所以 df 具有：

3 categoricals variables:
    LIB_SOURCE  : values: 'arome_001', 'gfs_025' and 'arpege_01'
    MonthNumber : values from 1 to 12
    origine     : 'Sencrop' and 'Visiogreen' values

3 continuous variables : 

    TEMPERATURE_PREDITE  DIFF_HOURS  TEMPERATURE_OBSERVEE

我让 Pycaret 将分类特征编码为 0/1 并管理多重共线性：

regression = setup(data = dataset_predictions_meteo, 
                   target = 'TEMPERATURE_PREDITE', 
                   categorical_features = ['MonthNumber' , 'origine' , 'LIB_SOURCE'],
                   numeric_features = ['DIFF_HOURS' , 'TEMPERATURE_OBSERVEE'],  
                   session_id=123,
                   train_size=0.8, 
                   normalize=True, 
                   #transform_target=True,
                   remove_perfect_collinearity = True
                  )

但正如您在上面的屏幕中看到的，Pycaret不能很好地管理多重共线性：PyCaret 应该自行删除 3 列 'arome_001'、'gfs_025' 和 'arpege_01' 中的 1 列(get_config('X'))。但 PyCaret 保留所有 3 列。

为什么 PyCaret 不删除 3 列之一？谢谢。

原文

I have a Panda Dataframe df in input to Pycaret library.
So the df has :

3 categoricals variables:
    LIB_SOURCE  : values: 'arome_001', 'gfs_025' and 'arpege_01'
    MonthNumber : values from 1 to 12
    origine     : 'Sencrop' and 'Visiogreen' values

3 continuous variables : 

    TEMPERATURE_PREDITE  DIFF_HOURS  TEMPERATURE_OBSERVEE

I let Pycaret encoding categorical features to 0/1 and manage multicollinearity:

regression = setup(data = dataset_predictions_meteo, 
                   target = 'TEMPERATURE_PREDITE', 
                   categorical_features = ['MonthNumber' , 'origine' , 'LIB_SOURCE'],
                   numeric_features = ['DIFF_HOURS' , 'TEMPERATURE_OBSERVEE'],  
                   session_id=123,
                   train_size=0.8, 
                   normalize=True, 
                   #transform_target=True,
                   remove_perfect_collinearity = True
                  )

But as you can see in the screen above, Pycaret doesn't well manage multicollinearity : PyCaret should remove by itself 1 of 3 columns 'arome_001', 'gfs_025' and 'arpege_01' (get_config('X')).
But PyCaret keeps all 3 columns.

Why PyCaret doesn't remove one of 3 columns?
Thanks.

分享到QQ

分享到微博