数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
四、数组的存储和加载
1. 二进制
numpy.save(file, arr, allow_pickle=True, fix_imports=True)
:将数组以二进制的形式存储到文件中。file
:文件名或者文件对象。如果是个文件名,则会自动添加后缀.npy
如果没有该后缀的话arr
:被存储的数组allow_pickle
:一个布尔值,如果为True
,则使用Python pickle
。有时候为了安全性和可移植性而不使用pickle
fix_imports
:用于python3
的数组import
到python2
的情形
numpy.savez(file, *args, **kwds)
:将多个数组以二进制的形式存储到文件中。file
:文件名或者文件对象。如果是个文件名,则会自动添加后缀.npz
如果没有该后缀的话args
:被存储的数组。这些数组的名字将被自动命名为arr_0/arr_1/...
如果没有名字,则完全无法知晓这些数组的区别
kwds
:将被存储的数组,这些关键字参数就是键的名字
numpy.load(file, mmap_mode=None, allow_pickle=True, fix_imports=True, encoding='ASCII')
:将二进制文件中读取数组。file
:一个文件名或者文件对象。它存放着数组mmap_mode
:如果不是None
,则memory-map
该文件。此时对数组的修改会同步到文件上。当读取大文件的一小部分时很有用,因为它不必一次读取整个文件。可选值为None/'r+'/'r'/'w+'/'c'
allow_pickle
:一个布尔值,如果为True
,则使用Python pickle
。有时候为了安全性和可移植性而不使用pickle
fix_imports
:用于python3
的数组import
到python2
的情形encoding
:只用于python2
,读取python2
字符串。
该函数返回一个数组,元组,或者字典(当二进制文件时
savez
生成时)
2. 文本文件
numpy.genfromtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None,
skip_header=0, skip_footer=0, converters=None, missing_values=None,
filling_values=None, usecols=None, names=None, excludelist=None,
deletechars=None, replace_space='_', autostrip=False, case_sensitive=True,
defaultfmt='f%i', unpack=None, usemask=False, loose=True,
invalid_raise=True, max_rows=None)
:从文本文件中加载数组,通用性很强,可以处理缺失数据的情况。loadtxt()
函数只能处理数据无缺失的情况。fname
:指定的数据源。可以为:- 文件名字符串。如果后缀为
gz
或者bz2
,则首先自动解压缩 - 文件对象/字符串列表/其他可迭代对象:这些可迭代对象必须返回字符串(该字符串被视为一行)
- 文件名字符串。如果后缀为
dtype
:数组的元素类型,可以提供一个序列,指定每列的数据类型comments
:一个字符串,其中每个字符都指定了注释行的第一个字符。注释行整体被放弃delimiter
:指定了分隔符。可以为:- 字符串:指定分隔符。默认情况下,所有连续的空白符被认为是分隔符
- 一个整数:指定了每个字段的宽度
- 一个整数序列:依次给出了各个字段的宽度
skiprows
:被废弃,推荐使用skip_header
skip_header
:一个整数,指定跳过文件头部多少行skip_footer
:一个整数,指定跳过文件尾部多少行converters
:用于列数据的格式转换。你可以指定一个字典,字典的键就是列号:xxxxxxxxxx
converters={0: lambda s: float(s or 0), 1: lambda s: int(s or 199),... }missing
:被废弃,推荐使用missing_values
missing_values
:指定缺失数据。你可以自定一个字典,字典的键就是缺失位置的字符串,值就是缺失值。比如你可以指定NNNN
为缺失数据,此时遇到NNNN
时,numpy
解析为np.nan
filling_values
:指定缺失值的填充值。即解析到np.nan
时,用什么值代替它usecols
:一个序列,指定了要读取那些列(列从0 计数)names
:- 如果为
True
,则在skip_header
行之后第一行被视作标题行,将从该行读取每个字段的name
。 - 如果为序列或者一个以冒号分隔的字符串,则使用它作为各个字段的
name
- 如果为
None
,则每个dtype
字段的名字被使用
- 如果为
excludelist
:一个序列,给出了需要排除的字段的name
。deletechars
:A string combining invalid characters that must be deleted from the namesdefaultfmt
:A format used to define default field names, such as “f%i” or “f_%02i”.autostrip
:一个布尔值。如果为True
,则自动移除数据中的空白符replace_space
:一个字符。如果变量名中有空白符,如user name
,则使用该字符来替代空白符。默认为_
,即变量名转换为user_name
case_sensitive
:一个布尔值或者字符串。如果为True
,则字段名是大小写敏感的。如果为False
或者'upper'
,则字段名转换为大写字符。如果为'lower'
则转换为小写字符。unpack
:If True, the returned array is transposedusemask
:If True, return a masked arrayloose
:If True, do not raise errors for invalid valuesinvalid_raise
:If True, an exception is raised if an inconsistency is detected in the number of columns. If False, a warning is emitted and the offending lines are skippedmax_rows
:一个整数,指定读取的最大行数。
numpy.loadtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None,
converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)
:它作用与genfromtxt
相同,但是它只能用于规则比较简单的文件,并且它的解析速度更快。ndim
:一个整数。指定结果数组必须拥有不少于ndim
维度。- 其他参数参考
genfromtxt
numpy.fromstring(string, dtype=float, count=-1, sep='')
:从raw binary
或者字符串中创建一维数组。string
:一个字符串,给出数据源dtype
:指定数据类型count
:一个整数。从数据源(一个字符串)中读取指定数量的数值类型的数值。如果为负数,则为数据长度加上这个负值sep
:如果未提供或者为空字符串,则string
被认为是二进制数据。如果提供了一个非空字符串,则给出了分隔符。
numpy.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='',
footer='', comments='# ')
:存储到文本文件fname
:给出了文件名或者file
对象。如果为.gz
后缀,则自动压缩X
:被存储的数组fmt
:一个字符串或者一个字符串序列,指定存储格式。一个字符串可以指定所有的格式化方式;一个字符串序列可以对每列指定一个格式化方式。如果是虚数,你可以通过%.4e%+.4j
的方式指定实部和虚部。delimiter
:一个字符串,用于分隔符,分隔每个列newline
:一个字符串,指定换行符header
:一个字符串。它会写到文件的首行footer
:一个字符串。它会写到文件的末尾comments
:一个字符串。它会写到文件的中间,并且用注释符作为行首,如#
注:
fmt
分隔字符串的格式为%[flag]width[.precision]specifier
。其中:flags
:可以为'-'
(左对齐)、'+'
(右对齐)、'0'
(左侧填充0)width
:最小的位宽。precision
:- 对于
specifier=d/i/o/x
,指定最少的数字个数 - 对于
specifier=e/E/f
,指定小数点后多少位 - 对于
specifier=g/G
,指定最大的significant digits
- 对于
specifier=s
,指定最大的字符数量
- 对于
specifier
:指定格式化类型。c
(字符)、d/i
(带符号整数)、e/E
(科学计数法)、f
(浮点数)、g/G
(使用shorter e/E/f
)、o
(带符号八进制)、s
(字符串)、u
(无符号整数)、x/X
(无符号十六进制)
ndarray.tofile(fid, sep="", format="%s")
:保存到文件中。fid
:一个file
对象或者文件名sep
:一个字符串,指定分隔符。如果为空或者空字符串,则按照二进制的方式写入,等价于file.write(a.tobytes())
format
:一个字符串,指定了数值的格式化方式
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论