数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
五、常见概率分布
5.1 均匀分布
离散随机变量的均匀分布:假设 $ MathJax-Element-499 $ 有 $ MathJax-Element-460 $ 个取值: $ MathJax-Element-306 $ ,则均匀分布的概率密度函数(
$ p(X=x_i) =\frac 1k,\quad i=1,2,\cdots,k $probability mass function:PMF
)为:连续随机变量的均匀分布: 假设 $ MathJax-Element-499 $ 在
$ p(X=x)=\begin{cases} 0,&x\notin [a,b]\\ \frac{1}{b-a},&x \in [a,b]\\ \end{cases} $[a,b]
上均匀分布,则其概率密度函数(probability density function:PDF
)为:.
5.2 伯努利分布
伯努利分布:参数为 $ MathJax-Element-308 $ 。随机变量 $ MathJax-Element-309 $ 。
- 概率分布函数为: $ MathJax-Element-310 $ 。
- 期望: $ MathJax-Element-311 $ 。方差: $ MathJax-Element-312 $ 。
$ p(X=1)=\theta_1\\ p(X=2)=\theta_2\\ \vdots\\ p(X=K-1)=\theta_{K-1}\\ p(X=K)=1-\sum_{i=1}^{K-1}\theta_i \\ $categorical
分布:它是二项分布的推广,也称作multinoulli
分布。假设随机变量 $ MathJax-Element-313 $ ,其概率分布函数为:其中 $ MathJax-Element-314 $ 为参数,它满足 $ MathJax-Element-315 $ ,且 $ MathJax-Element-316 $ 。
5.3 二项分布
假设试验只有两种结果:成功的概率为 $ MathJax-Element-317 $ ,失败的概率为 $ MathJax-Element-318 $ 。 则二项分布描述了:独立重复地进行 $ MathJax-Element-387 $ 次试验中,成功 $ MathJax-Element-320 $ 次的概率。
概率质量函数:
$ p(X=x)=\frac{n!}{x!(n-x)!}\phi^{x}(1-\phi)^{n-x},x\in \{0,1,\cdots,n\} $期望: $ MathJax-Element-321 $ 。 方差: $ MathJax-Element-322 $ 。
5.4 高斯分布
正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:
- 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。
- 在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。
5.4.1 一维正态分布
正态分布的概率密度函数为 :
$ p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^{2}/ (2\sigma^{2})}, -\infty \lt x \lt \infty $其中 $ MathJax-Element-323 $ 为常数。
- 若随机变量 $ MathJax-Element-499 $ 的概率密度函数如上所述,则称 $ MathJax-Element-499 $ 服从参数为 $ MathJax-Element-326 $ 的正态分布或者高斯分布,记作 $ MathJax-Element-338 $ 。
- 特别的,当 $ MathJax-Element-328 $ 时,称为标准正态分布,其概率密度函数记作 $ MathJax-Element-329 $ ,分布函数记作 $ MathJax-Element-330 $ 。
- 为了计算方便,有时也记作: $ MathJax-Element-331 $ ,其中 $ MathJax-Element-332 $ 。
正态分布的概率密度函数性质:
- 曲线关于 $ MathJax-Element-334 $ 对称。
- 曲线在 $ MathJax-Element-334 $ 时取最大值。
- 曲线在 $ MathJax-Element-335 $ 处有拐点。
- 参数 $ MathJax-Element-431 $ 决定曲线的位置; $ MathJax-Element-337 $ 决定图形的胖瘦。
若 $ MathJax-Element-338 $ 则:
- $ MathJax-Element-339 $
- 期望: $ MathJax-Element-340 $ 。方差: $ MathJax-Element-341 $ 。
有限个相互独立的正态随机变量的线性组合仍然服从正态分布:若随机变量 $ MathJax-Element-342 $ 且它们相互独立,则它们的线性组合: $ MathJax-Element-343 $ 仍然服从正态分布(其中 $ MathJax-Element-344 $ 不全是为 0 的常数),且: $ MathJax-Element-345 $ 。
5.4.2 多维正态分布
二维正态随机变量 $ MathJax-Element-350 $ 的概率密度为:
$ p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^{2}}}\exp\{\frac{-1}{2(1-\rho^{2})}[\frac{(x-\mu_1)^{2}}{\sigma_1^{2}}\\ -2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^{2}}{\sigma_2^{2}}]\} $根据定义,可以计算出:
$ p_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-(x-\mu_1)^{2}/ (2\sigma_1^{2})}, -\infty \lt x \lt \infty \\ p_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-(y-\mu_2)^{2}/ (2\sigma_2^{2})}, -\infty \lt y \lt \infty\\ \mathbb E[X] =\mu_1 \\ \mathbb E[Y] =\mu_2 \\ Var[X] =\sigma_1^{2} \\ Var[Y]=\sigma_2^{2}\\ Cov[X,Y]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x-\mu_1)(y-\mu_2)p(x,y)dxdy=\rho \sigma_1\sigma_2\\ \rho_{XY}=\rho $引入矩阵:
$ \mathbf{\vec x}=\begin{bmatrix} x \\ y \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}\quad \mathbf{\Sigma}=\begin{bmatrix} c_{11} &c_{12}\\ c_{21} &c_{22} \end{bmatrix} = \begin{bmatrix} \sigma_1^{2} & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^{2} \end{bmatrix} $$ MathJax-Element-367 $ 为 $ MathJax-Element-350 $ 的协方差矩阵。其行列式为 $ MathJax-Element-349 $ ,其逆矩阵为:
$ \mathbf{\Sigma}^{-1}=\frac{1}{\det\mathbf \Sigma}\begin{bmatrix} \sigma_2^{2} & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^{2} \end{bmatrix} $于是 $ MathJax-Element-350 $ 的概率密度函数可以写作 $ MathJax-Element-351 $ 表示矩阵的转置:
$ p(x,x)=\frac{1}{(2\pi)(\det \mathbf \Sigma)^{1/ 2}}\exp\{- \frac 12 ( \mathbf {\vec x}- \mathbf {\vec \mu})^{T} \mathbf \Sigma^{-1}( \mathbf {\vec x}- \mathbf {\vec \mu})\} $其中:
均值 $ MathJax-Element-352 $ 决定了曲面的位置(本例中均值都为0)。
标准差 $ MathJax-Element-353 $ 决定了曲面的陡峭程度(本例中方差都为1)。
$ MathJax-Element-354 $ 决定了协方差矩阵的形状,从而决定了曲面的形状。
$ MathJax-Element-355 $ 时,协方差矩阵对角线非零,其他位置均为零。此时表示随机变量之间不相关。
此时的联合分布概率函数形状如下图所示,曲面在 $ MathJax-Element-361 $ 平面的截面是个圆形:
$ MathJax-Element-357 $ 时,协方差矩阵对角线非零,其他位置非零。此时表示随机变量之间相关。
此时的联合分布概率函数形状如下图所示,曲面在 $ MathJax-Element-361 $ 平面的截面是个椭圆,相当于圆形沿着直线 $ MathJax-Element-363 $ 方向压缩 :
$ MathJax-Element-364 $ 时,协方差矩阵对角线非零,其他位置非零。
此时表示随机变量之间完全相关。此时的联合分布概率函数形状为:曲面在 $ MathJax-Element-361 $ 平面的截面是直线 $ MathJax-Element-363 $ ,相当于圆形沿着直线 $ MathJax-Element-363 $ 方向压缩成一条直线 。
由于 $ MathJax-Element-364 $ 会导致除数为 0,因此这里给出 $ MathJax-Element-365 $ :
多维正态随机变量 $ MathJax-Element-386 $ ,引入列矩阵:
$ \mathbf{\vec x}=\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_n \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2\\ \vdots\\ \mu_n \end{bmatrix}=\begin{bmatrix} \mathbb E[X_1] \\ \mathbb E[X_2] \\ \vdots\\ \mathbb E[X_n] \end{bmatrix} $$ MathJax-Element-367 $ 为 $ MathJax-Element-386 $ 的协方差矩阵。则:
$ p(x_1,x_2,x_3,\cdots,x_n)=\frac {1}{(2\pi)^{n/2}(\det \mathbf \Sigma)^{1/2}} \exp \{- \frac 12( \mathbf {\vec x}- \mathbf {\vec \mu})^{T}\mathbf \Sigma^{-1}( \mathbf {\vec x}- \mathbf {\vec \mu})\} $记做 : $ MathJax-Element-369 $ 。
$ MathJax-Element-387 $ 维正态变量具有下列四条性质:
$ MathJax-Element-387 $ 维正态变量的每一个分量都是正态变量;反之,若 $ MathJax-Element-423 $ 都是正态变量,且相互独立,则 $ MathJax-Element-386 $ 是 $ MathJax-Element-387 $ 维正态变量。
$ MathJax-Element-387 $ 维随机变量 $ MathJax-Element-386 $ 服从 $ MathJax-Element-387 $ 维正态分布的充要条件是: $ MathJax-Element-423 $ 的任意线性组合: $ MathJax-Element-379 $ 服从一维正态分布,其中 $ MathJax-Element-380 $ 不全为 0 。
若 $ MathJax-Element-386 $ 服从 $ MathJax-Element-387 $ 维正态分布,设 $ MathJax-Element-383 $ 是 $ MathJax-Element-384 $ 的线性函数,则 $ MathJax-Element-385 $ 也服从多维正态分布。
这一性质称为正态变量的线性变换不变性。
设 $ MathJax-Element-386 $ 服从 $ MathJax-Element-387 $ 维正态分布,则 $ MathJax-Element-423 $ 相互独立 $ MathJax-Element-389 $ $ MathJax-Element-423 $ 两两不相关。
5.5 拉普拉斯分布
拉普拉斯分布:
- 概率密度函数: $ MathJax-Element-391 $ 。
- 期望: $ MathJax-Element-392 $ 。方差: $ MathJax-Element-393 $ 。
5.6 泊松分布
假设已知事件在单位时间(或者单位面积)内发生的平均次数为 $ MathJax-Element-394 $ ,则泊松分布描述了:事件在单位时间(或者单位面积)内发生的具体次数为 $ MathJax-Element-460 $ 的概率。
- 概率质量函数: $ MathJax-Element-396 $ 。
- 期望: $ MathJax-Element-397 $ 。 方差: $ MathJax-Element-398 $ 。
用均匀分布模拟泊松分布:
xxxxxxxxxx
def make_poisson(lmd,tm): ''' 用均匀分布模拟泊松分布。 lmd为 lambda 参数; tm 为时间 ''' t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻 count,tm_edges=np.histogram(t,bins=tm,range=(0,tm))#获取每个单位时间内,事件发生的次数 max_k= lmd *2 # 要统计的最大次数 dist,count_edges=np.histogram(count,bins=max_k,range=(0,max_k),density=True) x=count_edges[:-1] return x,dist,stats.poisson.pmf(x,lmd)该函数:
- 首先随机性给出了
lmd*tm
个事件发生的时间(时间位于区间[0,tm]
)内。 - 然后统计每个单位时间区间内,事件发生的次数。
- 然后统计这些次数出现的频率。
- 最后将这个频率与理论上的泊松分布的概率质量函数比较。
- 首先随机性给出了
5.7 指数分布
若事件服从泊松分布,则该事件前后两次发生的时间间隔服从指数分布。由于时间间隔是个浮点数,因此指数分布是连续分布。
概率密度函数:( $ MathJax-Element-405 $ 为时间间隔)
$ p(t;\lambda)=\begin{cases} 0,& t\lt0\\ \frac{\lambda}{\exp(\lambda t)},& t\ge0\\ \end{cases} $期望: $ MathJax-Element-400 $ 。方差: $ MathJax-Element-401 $ 。
用均匀分布模拟指数分布:
xxxxxxxxxx
def make_expon(lmd,tm): ''' 用均匀分布模拟指数分布。 lmd为 lambda 参数; tm 为时间 ''' t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻 sorted_t=np.sort(t) #时刻升序排列 delt_t=sorted_t[1:]-sorted_t[:-1] #间隔序列 dist,edges=np.histogram(delt_t,bins="auto",density=True) x=edges[:-1] return x,dist,stats.expon.pdf(x,loc=0,scale=1/lmd) #scale 为 1/lambda
5.8 伽马分布
若事件服从泊松分布,则事件第 $ MathJax-Element-402 $ 次发生和第 $ MathJax-Element-403 $ 次发生的时间间隔为伽玛分布。由于时间间隔是个浮点数,因此指数分布是连续分布。
- 概率密度函数: $ MathJax-Element-404 $ , $ MathJax-Element-405 $ 为时间间隔 。
- 期望: $ MathJax-Element-406 $ 。方差: $ MathJax-Element-407 $ 。
上面的定义中 $ MathJax-Element-460 $ 必须是整数。事实上,若随机变量 $ MathJax-Element-499 $ 服从伽马分布,则其概率密度函数为:
$ p(X;\alpha,\beta)=\frac{\beta^{\alpha}}{\Gamma(\alpha)}X^{\alpha-1}e^{-\beta X},\quad X\gt 0 $记做 $ MathJax-Element-410 $ 。其中 $ MathJax-Element-457 $ 称作形状参数, $ MathJax-Element-458 $ 称作尺度参数。
- 期望 $ MathJax-Element-413 $ ,方差 $ MathJax-Element-414 $ 。
- 当 $ MathJax-Element-415 $ 时, $ MathJax-Element-418 $ 为递减函数。
- 当 $ MathJax-Element-417 $ 时, $ MathJax-Element-418 $ 为单峰函数。
性质:
- 当 $ MathJax-Element-419 $ 时, 为
Erlang
分布。 - 当 $ MathJax-Element-420 $ 时,就是参数为 $ MathJax-Element-421 $ 的指数分布。
- 当 $ MathJax-Element-422 $ 时,就是常用的卡方分布。
- 当 $ MathJax-Element-419 $ 时, 为
伽马分布的可加性:设随机变量 $ MathJax-Element-423 $ 相互独立并且都服从伽马分布: $ MathJax-Element-424 $ ,则:
$ X_1+X_2+\cdots+X_n\sim \Gamma(\alpha_1+\alpha_2+\cdots+\alpha_n,\beta) $用均匀分布模拟伽玛分布:
xxxxxxxxxx
def make_gamma(lmd,tm,k): ''' 用均匀分布模拟伽玛分布。 lmd为 lambda 参数; tm 为时间;k 为 k 参数 ''' t=np.random.uniform(0,tm,size=lmd*tm) # 获取 lmd*tm 个事件发生的时刻 sorted_t=np.sort(t) #时刻升序排列 delt_t=sorted_t[k:]-sorted_t[:-k] #间隔序列 dist,edges=np.histogram(delt_t,bins="auto",density=True) x=edges[:-1] return x,dist,stats.gamma.pdf(x,loc=0,scale=1/lmd,a=k) #scale 为 1/lambda,a 为 k
5.9 贝塔分布
贝塔分布是定义在 $ MathJax-Element-425 $ 之间的连续概率分布。
如果随机变量 $ MathJax-Element-499 $ 服从贝塔分布,则其概率密度函数为:
$ p(X,\alpha,\beta) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}X^{\alpha-1}(1-X)^{\beta-1}=\frac{1}{B(\alpha,\beta)}X^{\alpha-1}(1-X)^{\beta-1},\quad 0\le X\lt 1 $记做 $ MathJax-Element-427 $ 。
- 众数为: $ MathJax-Element-428 $ 。
- 期望为: $ MathJax-Element-429 $ ,方差为: $ MathJax-Element-430 $ 。
5.10 狄拉克分布
狄拉克分布:假设所有的概率都集中在一点 $ MathJax-Element-431 $ 上,则对应的概率密度函数为: $ MathJax-Element-432 $ 。
其中 $ MathJax-Element-433 $ 为狄拉克函数,其性质为:
$ \delta(x)=0,\forall x\neq 0\\ \int_{-\infty}^{\infty}\delta(x)dx=1 $狄拉克分布的一个典型用途就是定义连续型随机变量的经验分布函数。假设数据集中有样本 $ MathJax-Element-434 $ ,则定义经验分布函数:
$ \hat p(\mathbf{\vec x})=\frac 1N\sum_{i=1}^{N}\delta(\mathbf{\vec x}-\mathbf{\vec x}_i) $它就是对每个样本赋予了一个概率质量 $ MathJax-Element-435 $ 。
对于离散型随机变量的经验分布,则经验分布函数就是
multinoulli
分布,它简单地等于训练集中的经验频率。经验分布的两个作用:
- 通过查看训练集样本的经验分布,从而指定该训练集的样本采样的分布(保证采样之后的分布不失真)。
- 经验分布就是使得训练数据的可能性最大化的概率密度函数。
5.11 多项式分布与狄里克雷分布
多项式分布的质量密度函数:
$ Mult(m_1,m_2,\cdots,m_K;\vec\mu,N)=\frac{N!}{m_1!m_2!\cdots m_K!}\prod_{k=1}^{K}\mu_k^{m_k} $它是 $ MathJax-Element-436 $ 的多项式展开的形式。
狄利克雷分布的概率密度函数:
$ Dir(\vec\mu;\vec\alpha)=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1} $可以看到,多项式分布与狄里克雷分布的概率密度函数非常相似,区别仅仅在于前面的归一化项:
- 多项式分布是针对离散型随机变量,通过求和获取概率。
- 狄里克雷分布时针对连续型随机变量,通过求积分来获取概率。
5.12 混合概率分布
混合概率分布:它组合了其他几个分量的分布来组成。
在每次生成样本中,首先通过
multinoulli
分布来决定选用哪个分量,然后由该分量的分布函数来生成样本。其概率分布函数为:
$ p(x)=\sum_{i}P(c=i)p(x\mid c=i) $其中 $ MathJax-Element-437 $ 为一个
multinoulli
分布, $ MathJax-Element-438 $ 的取值范围就是各分量的编号。
前面介绍的连续型随机变量的经验分布函数就是一个混合概率分布的例子,此时 $ MathJax-Element-439 $ 。
混合概率分布可以通过简单的概率分布创建更复杂的概率分布。一个常见的例子是混合高斯模型,其中 $ MathJax-Element-440 $ 为高斯模型。每个分量都有对应的参数 $ MathJax-Element-441 $ 。
- 有些混合高斯模型有更强的约束,如 $ MathJax-Element-442 $ ,更进一步还可以要求 $ MathJax-Element-443 $ 为一个对角矩阵。
- 混合高斯模型是一个通用的概率密度函数逼近工具。任何平滑的概率密度函数都可以通过足够多分量的混合高斯模型来逼近。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论