数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
- 线性模型
- 支持向量机
- 朴素贝叶斯
- 决策树
- knn
- 集成学习
- 梯度提升树
- 数据预处理
- 模型评估
- 降维
- 聚类
- 半监督学习
- EM 算法
- 最大熵算法
- 隐马尔可夫模型
- 概率图与条件随机场
- 边际概率推断
- 主题模型
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- CRF ++
- lightgbm
- xgboost
- xgboost 使用指南
- scikit-learn
- spark
- numpy
- matplotlib
- matplotlib 使用指南
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
十一、 移动窗口函数
-
时间序列的移动窗口上的各种统计函数是一种常见的操作。这一类函数我们称作移动窗口函数
-
与其他统计函数一样,移动窗口函数也排除了
NA
值 -
所谓移动窗口,就是两层含义:
- 窗口:统计函数作用的对象为该窗口内的数值
- 移动:该窗口是移动的,每个窗口对应一个统计量 。最终生成一个统计量序列
-
-
计算移动窗口的平均值:
xxxxxxxxxx
Series/DataFrame.rolling(window, min_periods=None, freq=None, center=False, win_type=None, on=None, axis=0)window
:一个整数或者一个offset
。如果是个整数,则给出了窗口的大小(窗口大小是固定的)。如果是个offset
,则每个窗口对应一个时间段,因此窗口大小不固定。min_periods
:一个整数。给出了窗口内有效值的数量。freq
:一个字符串或者DateOffset
对象,该参数被废弃。它用于对数据重采样,因为我们一般使用resample()
来完成,所以该参数被废弃。center
:一个布尔值。如果为True
,则聚合结果的label
为窗口的中心点的索引。默认情况下,聚合结果的label
为窗口的最右点的索引。(因为一个聚合结果对应了window
个数据,因此该聚合结果可选的索引可以从这些数据的索引中选取)win_type
:一个字符串,给出了窗口类型on
:一个字符串。对于DataFrame
,它指定在哪一column
上进行移动平均。否则是index
axis
:一个整数。指定沿着0轴还是1轴移动平均。如果为0/'index'
则沿着0轴;如果为1/'columns'
则沿着0轴
窗口类型可以为:
'boxcar'
'triang'
'blackman'
'hamming'
'bartlett'
'parzen'
'bohman'
'blackmanharris'
'nuttall'
'barthann'
'kaiser'
(需要beta
参数),该参数由后面的.mean()
等方法给出'guassian'
(需要std
参数),该参数由后面的.mean()
等方法给出'general_gaussian'
(需要power,width
参数),该参数由后面的.mean()
等方法给出'slepian'
(需要width
参数),该参数由后面的.mean()
等方法给出
该方法返回一个
Window
对象,你可以在该对象上调用.mean()/.sum()/.agg()/.aggregate()
等方法。 -
计算移动窗口的指数加权平均值:
xxxxxxxxxx
Series/DataFrame.ewm(com=None, span=None, halflife=None, alpha=None, min_periods=0, freq=None, adjust=True, ignore_na=False, axis=0)com
:一个浮点数,以center of mass
的方式给出了衰减因子。 $ MathJax-Element-18 $span
:一个浮点数,以span
的方式给出了衰减因子。 $ MathJax-Element-19 $halflife
:一个浮点数,以halflife
的方式给出了衰减因子: $ MathJax-Element-20 $alpha
:一个浮点数,为光滑因子。这种方式直接给出了 $ MathJax-Element-25 $ ,要求 $ MathJax-Element-22 $min_periods
:一个整数。给出了窗口内有效值的数量。adjust
:一个布尔值。见下面的解释。ignore_na
:一个布尔值,如果为True
,则计算权重时,忽略缺失值。
加权移动平均的计算公式为:
$ y_t = \frac{\sum_{i=0}^{t} w_i x_{t-i}}{\sum_{i=0}^t w_i} $其中 $ MathJax-Element-23 $ 为输入值。
- 当
adjust=True
时, $ MathJax-Element-24 $ ,此时:
- 当
adjust=False
时
它等价于
$ w_i = \begin{cases} \alpha (1 - \alpha)^{i} & \text{if } i < t \\ (1 - \alpha)^{i} & \text{if } i = t \end{cases} $上式中的 $ MathJax-Element-25 $ 有四种方式,其中最简单的就是直接设置
$ \alpha = \begin{cases} \frac{2}{s + 1}, & \text{for span}\ s \geq 1\\ \frac{1}{1 + c}, & \text{for center of mass}\ c \geq 0\\ 1 - \exp(\frac{\log 0.5}{h}), & \text{for half-life}\ h > 0 \end{cases} $alpha
参数。剩下的三种就是间接给出:该函数返回的是一个
EWM
对象。其统计方法有:mean()
:指数加权移动平均的均值var()
:指数加权移动平均的方差std()
:指数加权移动平均的标准差corr()
:指数加权移动平均的相关系数cov()
:指数加权移动平均的协方差
-
拓展窗口是
rolling
窗口的特殊情况:当窗口大小等于序列长度。另外expanding
窗口中,如果数据有空缺,则剔除空缺值再计算。xxxxxxxxxx
DataFrame/Series.expanding(min_periods=1, freq=None, center=False, axis=0)min_periods
:一个整数。给出了窗口内有效值的数量。freq
:一个字符串或者DateOffset
对象,该参数被废弃。它用于对数据重采样,因为我们一般使用resample()
来完成,所以该参数被废弃。center
:一个布尔值。如果为True
,则label
为窗口的中心的值。默认情况下,label
为窗口的右侧的值。axis
:一个整数。指定沿着0轴还是1轴移动平均。如果为0/'index'
则沿着0轴;如果为1/'columns'
则沿着0轴
它返回一个
Expanding
对象。它的统计方法如下:
count()
:有效值数量sum()
:和mean()
:均值median()
:中位数min()
:最小值max()
:最大值std()
:标准差var()
:方差skew()
:斜度kurt()
:峰度quantile()
:百分位数apply()
:通用处理函数。其参数为一个可调用对象,该可调用对象接受一个序列,返回一个标量。cov()
:协方差corr()
:相关系数
在
Center
中,2016-11-01
为中心的话,它右侧有4个数据,左侧理论上有5个数据(窗口总长为10),而左侧为空,因此第一个窗口就是前 5 个数据的统计量。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论