如何编码大量唯一的分类值？

发布于 2025-02-08 02:23:34 字数 1176 浏览 1 评论 0 原文

我有一个数据集，其中有几列，每个列的 18000 唯一值。

不可能使用 One_hot ，因为它在维度上炸开并且还用尽了内存。

简单的 label_encoder 仍将从 {0，18000} 中具有值，因此它并不理想。也许，这可以在两个值之间进行归一化，即： { - 1，1} 。

一个人将如何处理这个问题？

编辑提出这个 - 不知道它是否正确

class OrdinalEncoderAndStandardScalerTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, mean=None, var=None, encoding_dict=None):
        self.mean = mean
        self.var = var
        self.encoding_dict = encoding_dict

    def fit(self, x, y=None):
        self.ordinal_encoder = OrdinalEncoder()
        self.scaler = StandardScaler()
        return self

    def transform(self, x, y=None):
        series_name = x.name
        _x = x.to_numpy().reshape(-1, 1)
        _x = self.ordinal_encoder.fit_transform(_x)
        categories = self.ordinal_encoder.categories_
        self.encoding_dict = dict(zip((categories[0]), range(len(categories[0]))))
        _x = np.squeeze(self.scaler.fit_transform(_x))
        self.mean = self.scaler.mean_[0]
        self.var = self.scaler.var_[0]
        return pd.Series(_x, name=series_name)

原文

I have a dataset with a few columns that have around 18000 unique values each.

It is impossible to use one_hot because it blows up in dimensionality and also runs out of memory.

A simple label_encoder will still have values from {0, 18000} so it not ideal. Perhaps, this can be normalized between two values i.e.: {-1, 1}.

How would one handle this issue?

Edit
Came up with this - don't know if its correct

class OrdinalEncoderAndStandardScalerTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, mean=None, var=None, encoding_dict=None):
        self.mean = mean
        self.var = var
        self.encoding_dict = encoding_dict

    def fit(self, x, y=None):
        self.ordinal_encoder = OrdinalEncoder()
        self.scaler = StandardScaler()
        return self

    def transform(self, x, y=None):
        series_name = x.name
        _x = x.to_numpy().reshape(-1, 1)
        _x = self.ordinal_encoder.fit_transform(_x)
        categories = self.ordinal_encoder.categories_
        self.encoding_dict = dict(zip((categories[0]), range(len(categories[0]))))
        _x = np.squeeze(self.scaler.fit_transform(_x))
        self.mean = self.scaler.mean_[0]
        self.var = self.scaler.var_[0]
        return pd.Series(_x, name=series_name)

分享到QQ

分享到微博