第一部分 新手入门
- 一 量化投资视频学习课程
- 二 Python 手把手教学
- 量化分析师的Python日记【第1天:谁来给我讲讲Python?】
- 量化分析师的Python日记【第2天:再接着介绍一下Python呗】
- 量化分析师的Python日记【第3天:一大波金融Library来袭之numpy篇】
- 量化分析师的Python日记【第4天:一大波金融Library来袭之scipy篇】
- 量化分析师的Python日记【第5天:数据处理的瑞士军刀pandas】
- 量化分析师的Python日记【第6天:数据处理的瑞士军刀pandas下篇
- 量化分析师的Python日记【第7天:Q Quant 之初出江湖】
- 量化分析师的Python日记【第8天 Q Quant兵器谱之函数插值】
- 量化分析师的Python日记【第9天 Q Quant兵器谱之二叉树】
- 量化分析师的Python日记【第10天 Q Quant兵器谱 -之偏微分方程1】
- 量化分析师的Python日记【第11天 Q Quant兵器谱之偏微分方程2】
- 量化分析师的Python日记【第12天:量化入门进阶之葵花宝典:因子如何产生和回测】
- 量化分析师的Python日记【第13天 Q Quant兵器谱之偏微分方程3】
- 量化分析师的Python日记【第14天:如何在优矿上做Alpha对冲模型】
- 量化分析师的Python日记【第15天:如何在优矿上搞一个wealthfront出来】
第二部分 股票量化相关
- 一 基本面分析
- 1.1 alpha 多因子模型
- 1.2 基本面因子选股
- 1.3 财报阅读 • [米缸量化读财报] 资产负债表-投资相关资产
- 1.4 股东分析
- 1.5 宏观研究
- 二 套利
- 三 事件驱动
- 四 技术分析
- 4.1 布林带
- 4.2 均线系统
- 4.3 MACD
- 4.4 阿隆指标 • 技术指标阿隆( Aroon )全解析
- 4.5 CCI • CCI 顺势指标探索
- 4.6 RSI
- 4.7 DMI • DMI 指标体系的构建及简单应用
- 4.8 EMV • EMV 技术指标的构建及应用
- 4.9 KDJ • KDJ 策略
- 4.10 CMO
- 4.11 FPC • FPC 指标选股
- 4.12 Chaikin Volatility
- 4.13 委比 • 实时计算委比
- 4.14 封单量
- 4.15 成交量 • 决战之地, IF1507 !
- 4.16 K 线分析 • 寻找夜空中最亮的星
- 五 量化模型
- 5.1 动量模型
- 5.2 Joseph Piotroski 9 F-Score Value Investing Model
- 5.3 SVR
- 5.4 决策树、随机树
- 5.5 钟摆理论
- 5.6 海龟模型
- 5.7 5217 策略
- 5.8 SMIA
- 5.9 神经网络
- 5.10 PAMR
- 5.11 Fisher Transform
- 5.12 分型假说, Hurst 指数
- 5.13 变点理论
- 5.14 Z-score Model
- 5.15 机器学习
- 5.16 DualTrust 策略和布林强盗策略
- 5.17 卡尔曼滤波
- 5.18 LPPL anti-bubble model
- 六 大数据模型
- 6.1 市场情绪分析
- 6.2 新闻热点
- 七 排名选股系统
- 八 轮动模型
- 九 组合投资
- 十 波动率
- 十一 算法交易
- 十二 中高频交易
- 十三 Alternative Strategy
第三部分 基金、利率互换、固定收益类
- 一 分级基金
- 二 基金分析
- 三 债券
- 四 利率互换
第四部分 衍生品相关
- 一 期权数据
- 二 期权系列
- 三 期权分析
- 四 期货分析
破解Alpha对冲策略——观《量化分析师Python日记第14天》有感
写在最前面:
不知不觉逛社区快半年了,通过优矿平台认识了很多大牛,真心获益匪浅,不管是编程方面还是金融方面,在此真心感谢优矿平台,为你们的分享精神点个赞!
再来说说写作目的吧,估计自己还算是个社区活跃用户,之前也分享过一些实用的帖子,然后某一天系统就发通知说感谢我对优矿的支持,内存已经帮我加到1GB,有效期1个月,从此妈妈再也不用担心我跑策略out of memory了,嘿嘿~所以呢,一方面传承优矿分享交流精神,另一方面也希望通过多为社区做贡献获得1GB内存更长时间,来个永久版最好啦!
本篇缘由:
最近市场的起起伏伏真是惊心动被迫,股指期货投机交易也被狠狠的限制了,各种公募私募产品清盘处理。。。
我开始思考,是市场的问题还是投资者的问题,究竟怎样的策略才能成为常胜将军,如果可以选择,我宁可做市场上的寿星而不是明星。
优矿给了我这个启示,感谢社区大牛薛昆Kelvin的帖子量化分析师的Python日志第14天,告诉我该如何去做Alpha对冲策略
如果你读到这里,强烈建议你先去认真读完上述帖子,然后接着往下看。
上述帖子,对Alpha对冲策略从理论原理再到代码实现都进行了详细的讲解,但是对于其中提到的一些新的函数(而且是特别重要的函数讲述的不是特别清楚,只是说了一下大体方向),于是乎,笔者就顺藤摸瓜,探探究竟。本篇就是讲述自己对上述帖子的一些测试和自我体会,当然也秉承分享精神,展示笔者得意的Fama-french三因子策略。。。老舍不得的了,一定要给我加内存啊!!
关于本篇:
本篇首先对帖子中出现的不太清晰的函数进行相关猜测与测试,包括因子信号处理函数:去极值(
winsorize
)、中性化(neutralize
)、标准化(standardize
)随后,对组合构建函数
simple_long_only
进行猜测最后,以Fama-French三因子构建策略进行回测展示
首先来看三个因子处理函数,笔者结合各家券商研究报告中提到的类似处理进行大胆猜测,并进行测试
首先是去极值函数
winsorize
,大量券商研究报告都提到了这个方法,业内常用所谓的“3σ”原则,也就是先根据因子样本计算出标准差,然后将其中大于u+3σ
的置换为u+3σ
,将小于u-3σ
的置换为u-3σ
,这样做的好处是可以消除因子极值对因子实际效果造成的不必要影响,下面举例来说明
Tips:读者可以首先在code模式下输入 winsorize
? 然后运行便可以得到该函数的说明文档。
import numpy as np
import pandas as pd
universe = set_universe('SH50') # 以上证50市盈率因子进行说明
data = DataAPI.MktStockFactorsOneDayGet(tradeDate='20150916', secID=universe, field='ticker,PE',pandas='1').set_index('ticker')
data = data['PE'].to_dict() # winsorize之前数据
new_data = winsorize(data) # winsorize之后数据
df = pd.DataFrame(data=0, index=map(lambda x: x[:6], universe), columns=['before winsorize','after winsorize'])
df['before winsorize'][data.keys()] = data.values() # 对比两者数据进行展示
df['after winsorize'][new_data.keys()] = new_data.values()
df.reset_index(inplace=True)
接下来,我们可以看看winsorize
前后数据的变化
df
index | before winsorize | after winsorize | |
---|---|---|---|
0 | 600000 | 5.9624 | 5.962400 |
1 | 600104 | 7.0826 | 7.082600 |
2 | 600050 | 33.0181 | 33.018100 |
3 | 600036 | 7.7177 | 7.717700 |
4 | 600030 | 8.8612 | 8.861200 |
5 | 600028 | 14.9741 | 14.974100 |
6 | 600016 | 7.1609 | 7.160900 |
7 | 600015 | 6.1384 | 6.138400 |
8 | 600519 | 16.0515 | 16.051500 |
9 | 601006 | 10.1080 | 10.108000 |
10 | 601398 | 5.8342 | 5.834200 |
11 | 600048 | 6.7609 | 6.760900 |
12 | 601628 | 17.1175 | 17.117500 |
13 | 601166 | 5.7557 | 5.755700 |
14 | 601318 | 10.6240 | 10.624000 |
15 | 601328 | 7.1577 | 7.157700 |
16 | 601088 | 11.7254 | 11.725400 |
17 | 601857 | 24.8742 | 24.874200 |
18 | 601601 | 13.9766 | 13.976600 |
19 | 601169 | 6.7160 | 6.716000 |
20 | 600837 | 10.0223 | 10.022300 |
21 | 601668 | 7.6202 | 7.620200 |
22 | 601288 | 5.7281 | 5.728100 |
23 | 601818 | 6.6163 | 6.616300 |
24 | 600111 | 77.2052 | 77.205200 |
25 | 601989 | 167.9813 | 130.981297 |
26 | 601766 | 65.9834 | 65.983400 |
27 | 600585 | 10.3818 | 10.381800 |
28 | 600010 | -419.8877 | -86.645491 |
29 | 601901 | 13.5459 | 13.545900 |
30 | 600256 | 45.9370 | 45.937000 |
31 | 600887 | 21.8070 | 21.807000 |
32 | 601688 | 10.9483 | 10.948300 |
33 | 600999 | 10.3119 | 10.311900 |
34 | 600518 | 24.2080 | 24.208000 |
35 | 600406 | 49.2598 | 49.259800 |
36 | 600018 | 25.5060 | 25.506000 |
37 | 600637 | 89.8189 | 89.818900 |
38 | 600089 | 20.5017 | 20.501700 |
39 | 601998 | 7.0787 | 7.078700 |
40 | 600109 | 21.8898 | 21.889800 |
41 | 600150 | 508.1892 | 130.981297 |
42 | 600690 | 12.3600 | 12.360000 |
43 | 600583 | 10.8489 | 10.848900 |
44 | 600893 | 68.7643 | 68.764300 |
45 | 601988 | 6.7982 | 6.798200 |
46 | 601390 | 23.0430 | 23.043000 |
47 | 600958 | 12.0603 | 12.060300 |
48 | 601186 | 17.4490 | 17.449000 |
49 | 601800 | 13.6934 | 13.693400 |
可以很明显看到,大部分值都没变,第25、28、41行所在股票的PE值得到了处理,过大或者过小都会被视为极值,会得到调整。笔者也计算了u+3σ
,发现调整结果并没有完全按照3σ
原则,但是winsorize
的作用已经得到了测试检验。
下面绘制一个对比图可以更明显看到winsorize
前后数据的变化
df.plot(figsize=(14,7))
<matplotlib.axes.AxesSubplot at 0x42bfa10>
接下来是中性化函数neutralize
neutralize
函数不太好做测试,但是根据neutralize
的说明文档,可以猜个大概出来。该函数的定义形式是neutralize(raw_data, target_date, risk_module='short', industry_type='SW1')
,可以看到函数需要选择风险模型、行业分类,由此不难推测出,输入原始因子数据,由于原始因子数据是所有行业的,这里可能按照行业分类,对因子进行了行业中性处理(大概可以理解为将因子间的行业差异消除了,比如互联网行业和银行之间的PE本来就不在一个level上,neutralize
之后可能就消除了这个因素,有点像对季节数据进行季节平滑处理)
再来看看标准化函数standardize
这个函数应该非常好理解,也非常好测试,很多券商的研究报告都有提到过该处理方法,简单来讲就是
(因子值 - 因子均值)/ 因子标准差
,下面接前面的例子对standardize
进行测试
data1 = standardize(data)
df1 = pd.DataFrame(data=0, index=map(lambda x: x[:6], universe), columns=['raw data','standardize function','standardize myself'])
df1['raw data'][data.keys()] = data.values() # 原始数据
df1['standardize function'][data1.keys()] = data1.values() # 通过standardize函数计算的值
df1['standardize myself'] = (df1['raw data'] - df1['raw data'].mean()) / df1['raw data'].std() # 自己计算的值
df1
raw data | standardize function | standardize myself | |
---|---|---|---|
600000 | 5.9624 | -0.178463 | -0.178463 |
600104 | 7.0826 | -0.167042 | -0.167042 |
600050 | 33.0181 | 0.097395 | 0.097395 |
600036 | 7.7177 | -0.160566 | -0.160566 |
600030 | 8.8612 | -0.148907 | -0.148907 |
600028 | 14.9741 | -0.086580 | -0.086580 |
600016 | 7.1609 | -0.166243 | -0.166243 |
600015 | 6.1384 | -0.176669 | -0.176669 |
600519 | 16.0515 | -0.075595 | -0.075595 |
601006 | 10.1080 | -0.136195 | -0.136195 |
601398 | 5.8342 | -0.179770 | -0.179770 |
600048 | 6.7609 | -0.170322 | -0.170322 |
601628 | 17.1175 | -0.064726 | -0.064726 |
601166 | 5.7557 | -0.180571 | -0.180571 |
601318 | 10.6240 | -0.130934 | -0.130934 |
601328 | 7.1577 | -0.166276 | -0.166276 |
601088 | 11.7254 | -0.119704 | -0.119704 |
601857 | 24.8742 | 0.014361 | 0.014361 |
601601 | 13.9766 | -0.096751 | -0.096751 |
601169 | 6.7160 | -0.170779 | -0.170779 |
600837 | 10.0223 | -0.137069 | -0.137069 |
601668 | 7.6202 | -0.161560 | -0.161560 |
601288 | 5.7281 | -0.180852 | -0.180852 |
601818 | 6.6163 | -0.171796 | -0.171796 |
600111 | 77.2052 | 0.547924 | 0.547924 |
601989 | 167.9813 | 1.473472 | 1.473472 |
601766 | 65.9834 | 0.433507 | 0.433507 |
600585 | 10.3818 | -0.133403 | -0.133403 |
600010 | -419.8877 | -4.520406 | -4.520406 |
601901 | 13.5459 | -0.101142 | -0.101142 |
600256 | 45.9370 | 0.229116 | 0.229116 |
600887 | 21.8070 | -0.016912 | -0.016912 |
601688 | 10.9483 | -0.127627 | -0.127627 |
600999 | 10.3119 | -0.134116 | -0.134116 |
600518 | 24.2080 | 0.007568 | 0.007568 |
600406 | 49.2598 | 0.262995 | 0.262995 |
600018 | 25.5060 | 0.020802 | 0.020802 |
600637 | 89.8189 | 0.676533 | 0.676533 |
600089 | 20.5017 | -0.030221 | -0.030221 |
601998 | 7.0787 | -0.167081 | -0.167081 |
600109 | 21.8898 | -0.016068 | -0.016068 |
600150 | 508.1892 | 4.942212 | 4.942212 |
600690 | 12.3600 | -0.113234 | -0.113234 |
600583 | 10.8489 | -0.128641 | -0.128641 |
600893 | 68.7643 | 0.461861 | 0.461861 |
601988 | 6.7982 | -0.169941 | -0.169941 |
601390 | 23.0430 | -0.004310 | -0.004310 |
600958 | 12.0603 | -0.116289 | -0.116289 |
601186 | 17.4490 | -0.061346 | -0.061346 |
601800 | 13.6934 | -0.099638 | -0.099638 |
可以看到,猜测完全正确,得到的结果一模一样!!
好了,三个因子处理函数已经猜完了,再来看看大头吧,组合构建函数simple_long_only
,同样,结合帮助文档来看。
在《量化分析师日记》中对该函数的说明是:“组合构建综合考虑各因子大小,行业配置等因素,默认返回前30%的股票”。给我的直观理解是,倘若给定100个股票,那么函数就根据股票的因子值以及行业分类选出其中最好的30%只股票,也就是30只股票以及他们各自的建仓权重。至于内部怎么实现的,我也只能猜测,估计选出来的30只股票行业配置要比较均匀,而且要因子值要优于没有被选中的股票,比如我要选低估值的股票,那么就优先选择低PE的,但是又不能直接选PE排名30%以下的那30只股票,因为还要考虑到行业配置均匀的问题,不然选出来的很可能都是同一个行业的(比如银行、钢铁之类的),所以,个人猜测组合构建函数就是在因子值和行业配置均匀之间进行博弈,求得一个最优组合。。。下面,还是写出猜想过程。
factor = standardize(neutralize(winsorize(data),'20150916')) # 将原始数据进行处理,得到最终因子值
weight = simple_long_only(factor, '20150915') # 根据因子构建组合,获得权重
df_factor = pd.DataFrame(data=np.nan, index=map(lambda x: x[:6], universe), columns=['factor','weight']) # 将因子值和最后的持仓权重对比
df_factor['factor'][factor.keys()] = factor.values()
df_factor['weight'][weight.keys()] = weight.values()
df_factor
| | factor | weight | } --- | --- | | 600000 | -3.236122e-01 | NaN | | 600104 | -7.364325e-15 | NaN | | 600050 | 3.671396e-15 | 0.015365 | | 600036 | 7.982552e-01 | 0.084137 | | 600030 | -3.042384e-01 | NaN | | 600028 | -2.572782e-01 | NaN | | 600016 | -1.811580e-01 | NaN | | 600015 | -2.869542e-01 | NaN | | 600519 | 4.488652e-01 | 0.044730 | | 601006 | -3.457882e-02 | NaN | | 601398 | 2.537750e-01 | 0.026748 | | 600048 | 6.228453e-15 | 0.047034 | | 601628 | 5.374184e-01 | NaN | | 601166 | -7.274821e-01 | NaN | | 601318 | 1.013404e+00 | 0.053078 | | 601328 | 4.274117e-01 | 0.045050 | | 601088 | -6.332870e-01 | NaN | | 601857 | -2.000576e-01 | NaN | | 601601 | -1.666304e-01 | NaN | | 601169 | -4.956554e-01 | NaN | | 600837 | 6.762916e-01 | 0.035421 | | 601668 | -9.654556e-01 | NaN | | 601288 | -1.756114e-01 | NaN | | 601818 | -5.174820e-03 | NaN | | 600111 | -4.047149e-14 | NaN | | 601989 | 2.298816e+00 | NaN | | 601766 | -1.463175e-14 | NaN | | 600585 | -2.109168e-14 | NaN | | 600010 | 3.274110e-14 | 0.016346 | | 601901 | 9.923986e-01 | 0.051978 | | 600256 | 2.572782e-01 | 0.025743 | | 600887 | -4.488652e-01 | NaN | | 601688 | 1.289595e-01 | NaN | | 600999 | -1.478773e-01 | NaN | | 600518 | -2.324500e-14 | NaN | | 600406 | 1.344937e+00 | 0.018264 | | 600018 | 3.457882e-02 | 0.043647 | | 600637 | 1.551461e-14 | 0.043608 | | 600089 | -1.344937e+00 | NaN | | 601998 | 1.893061e-01 | NaN | | 600109 | -2.198574e+00 | NaN | | 600150 | 2.320845e+00 | 0.025369 | | 600690 | 2.358953e-14 | 0.027154 | | 600583 | 8.333446e-01 | 0.022058 | | 600893 | -4.619661e+00 | NaN | | 601988 | 5.269000e-01 | 0.055536 | | 601390 | 6.569516e-01 | 0.045871 | | 600958 | -5.311522e-01 | NaN | | 601186 | 3.286287e-02 | NaN | | 601800 | 2.756411e-01 | NaN |
从上面的对比可以看到:
总共50只股票,最后只选取了19只,比较接近30%的比例,证明了之前的猜测 由于我们假设的是要买高PE的,所以可以看到,最后选出的19只股票的因子值(PE)相对没有选中的都比较高,而且绝大多数权重都和因子值呈比例出现,至于没有呈现比例的应该是基于行业配置均匀的考虑,所以说之前的猜想还是非常靠谱的,有兴趣的读者可以自行进一步研究。
同样,也给出对比分析图
df_factor.plot(secondary_y='weight',figsize=(14,7))
<matplotlib.axes.AxesSubplot at 0x403e590>
终于写到最后一部分,内心是无比的纠结。。
有了因子处理以及组合构建之后,我们就可以自己找因子来构建组合了,大赛方还专门有获取因子数据的DataAPI,真心赞一个!
那么,我就要开始分享我的策略了。。。优矿工作人员看到的话一定要给我加内存,或者什么VIP账号啊啊啊!!!
策略思路来源就是经典的Fama-French三因子模型,三因子模型告诉我们,股票的收益可以由这三个因子来解释:市场beta、股票市值、股票估值;同时,低估值、低市值的股票能够获得超额收益
那么,估值可以用市盈率来衡量(PE),市值可以用流通市值来衡量(LFLO),下面就给出策略回测效果
PS:回测区间从2012年8月1日~2015年8月1日,股票池为中证800,每月第一个交易日建仓
# 导入包
from CAL.PyCAL import *
import numpy as np
import pandas as pd
# 构建日期列表,以保证每月第一个交易日建仓
data=DataAPI.TradeCalGet(exchangeCD=u"XSHG",beginDate=u"20120731",field=['calendarDate','isWeekEnd','isMonthEnd'],pandas="1")
data = data[data['isMonthEnd'] == 1]
date_list = map(lambda x: x[0:4]+x[5:7]+x[8:10], data['calendarDate'].values.tolist())
start = '2012-08-01' # 回测起始时间
end = '2015-08-01' # 回测结束时间
universe = set_universe('HS300') + set_universe('ZZ500') # 股票池
benchmark = 'HS300' # 策略参考标准
capital_base = 10000000 # 起始资金
freq = 'd' # 策略类型,'d'表示日间策略使用日线回测,'m'表示日内策略使用分钟线回测
refresh_rate = 1 # 调仓频率
commission = Commission(buycost=0.0008, sellcost=0.0008)
# 日期处理相关
cal = Calendar('China.SSE')
period = Period('-1B')
def initialize(account): # 初始化虚拟账户状态
pass
def handle_data(account): # 每个交易日的买入卖出指令
today = account.current_date
today = Date.fromDateTime(account.current_date) # 向前移动一个工作日
yesterday = cal.advanceDate(today, period)
yesterday = yesterday.toDateTime().strftime('%Y%m%d')
if yesterday in date_list:
Factor1 = DataAPI.MktStockFactorsOneDayGet(tradeDate=yesterday,secID=account.universe[:400],field=['secID','PE','LFLO'],pandas="1")
Factor2 = DataAPI.MktStockFactorsOneDayGet(tradeDate=yesterday,secID=account.universe[400:],field=['secID','PE','LFLO'],pandas="1")
Factor = pd.concat([Factor1, Factor2])
Factor['ticker'] = Factor['secID'].apply(lambda x: x[0:6])
Factor.set_index('ticker',inplace=True)
# 市盈率PE
Factor['PE'] = 1.0 / Factor['PE'] # 低市盈率
factor = Factor['PE'].dropna().to_dict()
signal_PE = standardize(neutralize(winsorize(factor),yesterday)) # 因子处理
# 对数流通市值LFLO
Factor['LFLO'] = 1.0 / Factor['LFLO'] # 低市值
factor = Factor['LFLO'].dropna().to_dict()
signal_LFLO = standardize(neutralize(winsorize(factor),yesterday)) # 因子处理
# 构建组合score矩阵
Total_Score = pd.DataFrame(index=Factor.index, columns=factor_name, data=0)
Total_Score['PE'][signal_PE.keys()] = signal_PE.values()
Total_Score['LFLO'][signal_LFLO.keys()] = signal_LFLO.values()
Total_Score['total_score'] = np.dot(Total_Score, np.array([0.5, 0.5])) # 综合两个因子的大小,不失一般性,等权求和
total_score = Total_Score['total_score'].to_dict()
wts = simple_long_only(total_score,yesterday) # 组合构建函数
Factor['wts'] = np.nan
Factor['wts'][wts.keys()] = wts.values()
Factor = Factor[~np.isnan(Factor['wts'])]
Factor.set_index('secID', inplace=True)
Factor.drop(factor_name, axis=1, inplace=True)
# 先卖出
sell_list = account.valid_secpos
for stk in sell_list:
order_to(stk, 0)
# 再买入
buy_list = Factor.index
total_money = account.referencePortfolioValue
prices = account.referencePrice
for stk in buy_list:
if np.isnan(prices[stk]) or prices[stk] == 0: # 停牌或是还没有上市等原因不能交易
continue
order(stk, int(total_money * Factor.loc[stk]['wts'] / prices[stk] /100)*100)
else:
return
接下来,用组合累计收益减去基准累计收益就得到alpha收益,如下所示:
((bt['portfolio_value']/bt['portfolio_value'][0] - 1) - ((1 + bt['benchmark_return']).cumprod() - 1)).plot(figsize=(14,7))
<matplotlib.axes.AxesSubplot at 0x25067110>
可以看到,将Fama-French三因子运用到中国市场,可以得到非常稳健的Alpha收益!
写在最后面:
重要的事情说三遍,希望可以给点内存,给点内存,给点内存。。我是不是太直接了???欢迎交流~~~
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论