数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
一、Unigram Model
假设有一个骰子,骰子有 $ V $ 个面,每个面对应于词典中的一个单词。
Unigram Model
是这样生成文档的:- 每次抛一次骰子,抛出的面就对应于产生一个单词。
- 如果一篇文档有 $ n $ 个单词,则独立的抛掷 $ n $ 次骰子就产生着 $ n $ 个单词。
令骰子的投掷出各个面的概率为 $ \vec\Theta =(\theta_1,\theta_2,\cdots,\theta_V)^{T} $ ,其中 $ \theta_v $ 为抛出的面是第 $ v $ 面的概率: $ p(\text{word}_v)=\theta_v $ 。满足约束:
$ \sum_{v=1}^{V}\theta_v=1\\ \theta_v \ge 0 $$ \vec\Theta $ 就是待求的参数。
假设文档包含 $ n $ 个单词,这些单词依次为 : $ \{\text{word}_{w_1},\text{word}_{w_2},\cdots,\text{word}_{w_n}\} $ ,其中 $ w_i \in \{1,2,\cdots,V\} $ 。用 $ (w_1,w_2,\cdots,w_n) $ 代表文档, 则生成这篇文档的概率为:
$ p(w_1,w_2,\cdots,w_n;\vec\Theta)=p(w_1;\vec\Theta)\prod_{i=2}^{n}p(w_i\mid w_1,w_2,\cdots,w_{i-1};\vec\Theta) $在 $ p(w_i\mid w_1,w_2,\cdots,w_{i-1};\vec\Theta) $ 中, $ w_1,w_2,\cdots,w_{ i-1 } $ 称作 $ w_i $ 的上下文。由于采取的是词袋模型,没有考虑上下文,所以有:
$ p(w_i\mid w_1,w_2,\cdots,w_{i-1};\vec\Theta) =p(w_i;\vec\Theta) $于是有:
$ p(w_1,w_2,\cdots,w_n;\vec\Theta)=\prod_{i=1}^{n}p(w_i;\vec\Theta) $- 如果考虑了上下文(即抛弃词袋模型),则各种单词的组合会导致爆炸性的复杂度增长。
- 由于是词袋模型,因此 $ p(w_1,w_2,\cdots,w_n;\vec\Theta) $ 并不构成一个概率分布。 $ p(w_1,w_2,\cdots,w_n;\vec\Theta) $ 仅仅是生成该文档的一种非归一化概率。
假设单词 $ \{\text{word}_{w_1},\text{word}_{w_2},\cdots,\text{word}_{w_n}\} $ 中,有 $ \tilde n_1 $ 个 $ \text{word}_1 $ ,有 $ \tilde n_2 $ 个 $ \text{word}_2 $ ,...有 $ \tilde n_V $ 个 $ \text{word}_V $ ,其中 $ \tilde n_1+\tilde n_2+\cdots+\tilde n_V=n $ ,则:
$ p(w_1,w_2,\cdots,w_n;\vec\Theta)=\prod_{i=1}^{n}p(w_i;\vec\Theta)=\prod_{v=1}^{V}p(\text{word}_v)^{\tilde n_v}=\prod_{v=1}^{V}\theta_v^{\tilde n_v} $参数估计:就是估计骰子的投掷出各个面的概率 $ \vec\Theta=(\theta_1,\theta_2,\cdots,\theta_V)^{T} $
1.1 最大似然估计
假设数据集 $ \mathbb D $ 包含 $ N $ 篇文档 $ \mathbb D =\{\mathcal D_1,\mathcal D_2,\cdots,\mathcal D_N \} $ 。对文档 $ \mathcal D_i $ ,假设其单词依次为 $ \{\text{word}_{w_1^{i}},\text{word}_{w_2^{i}},\cdots,\text{word}_{w_{n_i}^{i}}\} $ , 用 $ (w_1^{i},w_2^{i},\cdots,w_{n_i}^{i}) $ 来表示。其中:
- $ v=w_j^i $ 表示文档 $ \mathcal D_i $ 的第 $ j $ 个单词为单词 $ \text{word}_v $ 。
- $ n_i $ 表示文档 $ \mathcal D_i $ 一共有 $ n_i $ 个单词。
由于每篇文档都是独立的且不考虑文档的顺序和单词的顺序,则数据集发生的概率
$ L=p(\mathbb D)=p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N};\vec\Theta)=\prod_{i=1}^{N}\prod_{j=1}^{n_i}p(w^{i}_j;\vec\Theta) $假设数据集的所有单词 $ \{\text{word}_{w_1^{1}},\text{word}_{w_2^{1}},\cdots,\text{word}_{w_{n_1}^{1}},\cdots,\text{word}_{w_1^{N}},\text{word}_{w_2^{N}},\cdots,\text{word}_{w_{n_N}^{N}}\} $ 中,有 $ \tilde n_1 $ 个 $ \text{word}_1 $ ,有 $ \tilde n_2 $ 个 $ \text{word}_2 $ ,...有 $ \tilde n_V $ 个 $ \text{word}_V $ 。其中 $ \tilde n_1+\tilde n_2+\cdots+\tilde n_V=n $ , $ n $ 为所有文档的所有单词的数量。则有:
$ L=\prod_{i=1}^{N}\prod_{j=1}^{n_i}p(w^{i}_j;\vec\Theta)=\prod_{v=1}^{V}p(\text{word}_v)^{\tilde n_v}=\prod_{v=1}^{V}\theta_v^{\tilde n_v} $使用最大似然估计法,也就是最大化对数的 $ L $ :
$ LL=\log L=\log \prod_{v=1}^{V}\theta_v^{\tilde n_v}=\sum_{v=1}^{V}\tilde n_v\log \theta_v $于是求解:
$ \arg\max_{\vec\Theta}\sum_{v=1}^{V}\tilde n_v\log \theta_v\\ s.t. \quad \sum_{v=1}^{V}\theta_v=1;\quad \theta_1,\theta_2,\cdots,\theta_V \ge 0 $用拉格朗日乘子法求解,其解为:
$ \hat \theta_v=\frac{\tilde n_v}{n},v=1,2,\cdots,V $其物理意义为:单词 $ \text{word}_v $ 出现的概率 $ \theta_v $ 等于它在数据集 $ \mathbb D $ 中出现的频率,即:它出现的次数 $ \tilde n_v $ 除以数据集 $ \mathbb D $ 所有单词数 $ n $ 。
1.2 最大后验估计
根据贝叶斯学派的观点, 参数 $ \vec\Theta $ 也是一个随机变量而不再是一个常量,它服从某个概率分布 $ p(\vec\Theta) $ , 这个分布称作参数 $ \vec\Theta $ 的先验分布。
此时:
$ p(\mathbb D) = p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N})=\int p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N},\vec\Theta)d\vec\Theta\\ =\int p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N}\mid \vec\Theta)p(\vec\Theta)d\vec\Theta $根据前面的推导有: $ p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N}\mid \vec\Theta)=\prod_{v=1}^{V}\theta^{\tilde n_v} $ ,则有:
$ p(\mathbb D) =p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N}) = \int \prod_{v=1}^{V}\theta^{\tilde n_v}p(\vec\Theta)d\vec\Theta $此处先验分布 $ p(\vec\Theta) $ 有多种选择。注意到数据集条件概率 $ p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N}\mid \vec\Theta) $ 刚好是多项式分布的形式,于是选择先验分布为多项式分布的共轭分布,即狄利克雷分布:
$ \vec\Theta \sim Dir(\vec\alpha):p(\vec\Theta;\vec \alpha)=\frac {1}{B(\vec\alpha)}\prod_{v=1}^{V} \theta_v^{\alpha_v-1} $其中: $ \vec \alpha=(\alpha_1,\alpha_2,\cdots,\alpha_V)^{T} $ 为参数向量, $ B(\vec\alpha) $ 为
$ B(\vec\alpha)=\frac{\prod_{v=1}^{V}\Gamma(\alpha_v)}{\Gamma(\sum_{v=1}^{V}\alpha_v)} $Beta
函数:显然根据定义有:
$ \int p(\vec \Theta;\vec\alpha) d\vec\Theta=\int\frac {1}{B(\vec\alpha)}\prod_{v=1}^{V} \theta_v^{\alpha_v-1} d\vec\Theta=1 \longrightarrow \int\prod_{v=1}^{V} \theta_v^{\alpha_v-1}d\vec\Theta=B(\vec\alpha) $令 $ \vec{\tilde{ \mathbf n}}=(\tilde n_1,\tilde n_2,\cdots,\tilde n_V)^{T} $ 为词频向量,其每个元素代表了对应的单词在数据集 $ \mathbb D $ 中出现的次数。
此时有:
$ p(\mathbb D) =p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N})=\int \prod_{v=1}^{V}\theta_v^{\tilde n_v}p(\vec\Theta)d\vec\Theta\\ =\int \prod_{v=1}^{V}\theta_v^{\tilde n_v}\frac {1}{B(\vec\alpha)}\prod_{v=1}^{V} \theta_v^{\alpha_v-1}d\vec\Theta\\ =\frac {1}{B(\vec\alpha)}\int \prod_{v=1}^{V}\theta_v^{\tilde n_v+\alpha_v-1}d\vec\Theta\\ =\frac {B(\vec\alpha+\vec{\tilde{ \mathbf n}})}{B(\vec\alpha)} $因此 $ p(\mathbb D) $ 仅由 $ \vec\alpha $ 决定,记作: $ p(\mathbb D) =\frac {B(\vec\alpha+\vec{\tilde{ \mathbf n}})}{B(\vec\alpha)} $
后验概率 :
$ p(\vec\Theta\mid w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N};\vec \alpha)= \frac{p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N}\mid \vec\Theta)p(\vec\Theta)}{ p(w_1^1,\cdots,w_{n_1}^1,\cdots,w_1^N,\cdots,w^N_{n_N};\vec\alpha) } \\ =\prod_{v=1}^{V}\theta_v^{\tilde n_v}\frac {1}{B(\vec\alpha)}\prod_{v=1}^{V} \theta_v^{\alpha_v-1}\frac{B(\vec\alpha)} {B(\vec\alpha+\vec{\tilde{ \mathbf n}})}\\ =\frac{1} {B(\vec\alpha+\vec{\tilde{ \mathbf n}})}\prod_{v=1}^{V}\theta_v^{\tilde n_v+\alpha_v-1} $可见后验概率服从狄利克雷分布 $ Dir(\vec\alpha+\vec{\tilde{ \mathbf n}}) $ 。
因为这时候的参数 $ \vec\Theta $ 是一个随机变量,而不再是一个固定的数值,因此需要通过对后验概率 $ p(\vec\Theta\mid \mathbb D;\vec\alpha) $ 最大化或者期望来求得。
这里使用期望值 $ \mathbb E(\vec\Theta\mid \mathbb D;\vec\alpha ) $ 来做参数估计。
由于后验分布 $ p(\vec\Theta\mid \mathbb D;\vec\alpha) $ 服从狄利克雷分布 $ Dir(\vec\alpha+\vec{\tilde{ \mathbf n}}) $ , 则有期望:
$ \mathbb E(\vec\Theta\mid \mathbb D;\vec\alpha )=\left(\frac{\tilde n_1 +\alpha_1}{\sum_{v=1}^{V}(\tilde n_v +\alpha_v)},\frac{\tilde n_2 +\alpha_2}{\sum_{v=1}^{V}(\tilde n_v +\alpha_v)},\cdots,\frac{\tilde n_V +\alpha_V}{\sum_{v=1}^{V}(\tilde n_v +\alpha_v)}\right) $即参数 $ \theta_v $ 的估计值为:
$ \hat \theta_v=\frac{\tilde n_v+\alpha_v}{\sum_{v=1}^{V}(\tilde n_v +\alpha_v)} $考虑到 $ \alpha_v $ 在狄利克雷分布中的物理意义为:事件的先验的伪计数。因此该估计式物理意义为:估计值是对应事件计数(伪计数+真实计数)在整体计数中的比例。
这里并没有使用最大似然数据集 $ \mathbb D $ 来做参数估计,因为 $ p(\mathbb D) =\frac {B(\vec\alpha+\vec{\tilde{ \mathbf n}})}{B(\vec\alpha)} $ 中并没有出现参数 $ \vec\Theta $ 。
1.3 文档生成算法
文档生成算法:根据主题模型求解的参数来生成一篇新的文档。
最大似然模型的
Unigram Model
生成文档步骤:根据词汇分布 $ \vec\Theta=(\frac{\tilde n_1}{n},\frac{\tilde n_2}{n},\cdots,\frac{\tilde n_V}{n})^T $ ,从词汇表 $ \mathbb V $ 中独立重复采样 $ n $ 次从而获取 $ n $ 个单词。则这些单词就生成一篇文档。
最大后验估计的
Unigram Model
生成文档的步骤为:根据参数为 $ \vec\alpha $ 的狄利克雷分布 $ p(\vec\Theta;\vec\alpha)\sim Dir(\vec\alpha) $ 随机采样一个词汇分布 $ \tilde{\vec\Theta}=(\tilde \theta_1,\tilde \theta_2,\cdots,\tilde \theta_V)^{T} $ 。
所谓随机采样一个词汇分布,即:根据狄里克雷分布生成一个随机向量。选择时要求 :
$ \sum_{v=1}^V \tilde \theta_v=1\\ \tilde \theta_v\ge 0,\quad v=1,2,\cdots,V $根据词汇分布 $ \tilde{\vec\Theta} $ ,从词汇表 $ \mathbb V $ 中独立重复采样 $ n $ 次从而获取 $ n $ 个单词。则这些单词就生成一篇文档。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论