2. 词向量

发布于 2025-02-18 23:44:02 字数 1315 浏览 0 评论 0 收藏 0

我们拿英文举例。

英语中大约有 1300 万个词组（token，自定义字符串，译作词组），不过他们全部是独立的吗？并不是哦，比如有一些词组，“Feline 猫科动物”和“Cat 猫”，“Hotel 宾馆“和”Motel 汽车旅馆”，其实有一定的关联或者相似性在。因此，我们希望用词向量编码词组，使它代表在词组的 N 维空间中的一个点（而点与点之间有距离的远近等关系，可以体现深层一点的信息）。每一个词向量的维度都可能会表征一些意义（物理含义），这些意义我们用“声明 speech”来定义。例如，语义维度可以用来表明时态（过去与现在与未来），计数（单数与复数），和性别（男性与女性）。

说起来，词向量的编码方式其实挺有讲究的。咱们从最简单的看起，最简单的编码方式叫做 one-hot vector：假设我们的词库总共有 n 个词，那我们开一个 1*n 的高维向量，而每个词都会在某个索引 index 下取到 1，其余位置全部都取值为 0.词向量在这种类型的编码中如下图所示：

这种词向量编码方式简单粗暴，我们将每一个词作为一个完全独立的个体来表达。遗憾的是，这种方式下，我们的词向量没办法给我们任何形式的词组相似性权衡。例如:

（注：这里是的逆矩阵，它们有关系：，注意到 hotel 和 motel 是近义词）