Fintech建模竞赛:现金贷用户数据分析和画像
文章目录
风控历史
世界上最早的银行是,1407年在意大利威尼斯成立。
只要有银行,就会有风险控制和管理,即风控。
早期风控包括对借贷人资质审核和账户核实。
随着金融业发展,贷款流程逐渐完善:
2000-2008年后,全球逐步进入大数据时代,随着用户数据整合,诞生央行征信,公安人脸数据,芝麻信用分,同盾分,聚信立蜜罐分,百度黑中介分等参考数据。
银行、消费金融公司、小额贷公司可以利用大数据建模,利用机器智能决策代替绝大部分人工审核,缩短信贷流程,减少贷款风险,实现利润最大化。
- 用户申请 -> 用户授权 -> 黑名单过滤 -> 查征信 -> 风控强规则过滤 -> 风控模型智能决策
现代的风控部门主要分为贷前、贷中和贷后管理。
分控核心岗位:
- 模型开发
- 数据分析
本文是数据分析。以后也会更新模型开发方面的内容。
采用金融科技公司 lending club 的12万真实数据,从客户年龄、收入、工作、住房、信用额度等多个维度完成用户画像。
本文特色,除了数据分析之外,最后也添加了个人和企业风险管理的内容。
好,我们开始吧。
- 借贷俱乐部:https://www.lendingclub.com/
lending club 是 P2P 鼻祖,我们的数据就来源于这里。
P.S. 图上红色框中的翻译不对,应该是检测您的信用。
数据分析
备用数据下载地址:https://download.csdn.net/download/qq_41739364/21417988
描述性统计
拿到数据后,先做一个观察,分布是怎样的、是否有异常、缺失率高不高、知己知彼。
我们对数据做一个描述性统计,用几个关键的数字(数据量、维度、缺失率、平均数、中位数等)来描述数据集的整体情况。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
data=pd.read_excel('data.xlsx') # 读取数据
numbers=data.shape[0] # 数据总量
print( data.describe() ) # 描述性统计:观察数据的范围、大小、波动趋势等等,为后面的模型选择打下基础。
missing_pct = data.apply(lambda x : (len(x)-x.count())/len(x)) # 统计各个变量缺失率
missing_pct.plot(kind='bar',fontsize=10, rot=0) # 图表可视化各个变量缺失情况
# 对所有变量画一个直方图,看看分布
data.hist(figsize=(20,15))
plt.show()
描述性统计结果:
好坏客户占比情况
业务分析,建模之前需要观察是否存在好坏客户占比严重失衡的问题。
如果好坏客户比例偏差大,那训练出来的模型偏差也大。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
data=pd.read_excel('data.xlsx') # 读取数据
numbers=data.shape[0] # 数据总量,numbers = 128412
print( data.describe() ) # 描述性统计:观察数据的范围、大小、波动趋势等等,为后面的模型选择打下基础。
missing_pct = data.apply(lambda x : (len(x)-x.count())/len(x)) # 统计各个变量缺失率
missing_pct.plot(kind='bar',fontsize=10, rot=0) # 图表可视化各个变量缺失情况
# 对所有变量画一个直方图,看看分布
data.hist(figsize=(20,15))
plt.show()
# 好坏客户占比情况
n_bad=data[data.target==1].shape[0] # 坏客户数量(target字段0和1组成)
n_good=data[data.target==0].shape[0] # 好客户数量(target字段0和1组成)
percentage_bad=round((n_bad/numbers)*100,2) # 好坏客户占比,小数取俩位
value_count=data['target'].value_counts() # 对好坏客户做一个计数统计
# 图表可视化
plt.style.use('ggplot')
plt.figure(figsize=(10,5))
ax=plt.subplot(1,2,1)
value_count.plot(kind='bar',fontsize=20,rot=0,title='图1.好坏客户数量分布') # 中文可能不会显示,要额外设置一下
ax=plt.subplot(1,2,2)
value_count.plot(kind = "pie", autopct = "%0.1f%%", title= "图2.好坏客户占比分布", fontsize=20)
好客户:126584
坏客户:1828
若中文不能显示,添加:
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
变量相关性分析
相关性判断有俩种方法:皮尔森、斯皮尔曼。
当数据呈现正态分布时,用皮尔森方法更准确。
但很多数据不呈现正态分布,这时斯皮尔曼更合适。
所以,我们再测量相关性时,需要看数据分布,是否是正态分布或者俩种方法都跑一遍。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
data=pd.read_excel('data.xlsx') # 读取数据
numbers=data.shape[0] # 数据总量
print( data.describe() ) # 描述性统计:观察数据的范围、大小、波动趋势等等,为后面的模型选择打下基础。
missing_pct = data.apply(lambda x : (len(x)-x.count())/len(x)) # 统计各个变量缺失率
missing_pct.plot(kind='bar',fontsize=10, rot=0) # 图表可视化各个变量缺失情况
# 对所有变量画一个直方图,看看分布
data.hist(figsize=(20,15))
plt.show()
n_bad=data[data.target==1].shape[0] # 坏客户数量(target字段0和1组成),1828人
n_good=data[data.target==0].shape[0] # 好客户数量(target字段0和1组成),126584人
percentage_bad=round((n_bad/numbers)*100,2) # 好坏客户占比,小数取俩位,1.42
value_count=data['target'].value_counts() # 对好坏客户做一个计数统计
# 图表可视化
plt.style.use('ggplot')
plt.figure(figsize=(10,5))
ax=plt.subplot(1,2,1)
value_count.plot(kind='bar',fontsize=20,rot=0,title='图1.好坏客户数量分布')
ax=plt.subplot(1,2,2)
value_count.plot(kind = "pie", autopct = "%0.1f%%", title= "图2.好坏客户占比分布", fontsize=20)
matrix_cor=data.corr().round(2) # 相关性矩阵,展现各变量之间的相关程度,保留俩位小数
# 可视化:把相关性矩阵绘制成热力图
plt.figure(figsize=(12, 12))
sns.heatmap(matrix_cor, annot=True, linewidths = 0.05, annot_kws={'size':10,'weight':'bold'})
# annot是注解,annot_kws,当annot为True时,可设置各个参数,包括大小,颜色,加粗,斜体字等,linewidths热力图矩阵之间的间隔大小
# 封装一个相关性函数
def Relation(df1, method, fileName): # fileName 数据保存的文件
cor=df1.corr(method) # 生成变量的相关性矩阵
cor.to_excel("correlation_table.xlsx") # 把相关性矩阵存到 correlation_table.xlsx (相关性表)
cor.loc[:,:]=np.tril(cor,k=-1) # 对结构改变和优化
cor=cor.stack()
high_cor=cor[(cor>0.6)|(cor<-0.6)] # 挑选高相关系数,正相关0.6以上、负相关0.6以下
df_high_cor=pd.DataFrame(high_cor) # 数据呈现结构化
df_high_cor.to_excel(fileName) # 保存到(高相关性表)文件
return df_high_cor # 返回高相关性的矩阵
# 皮尔斯方法
cor_pearson=Relation(data,'pearson',"high_correlation_pearson.xlsx")
print(cor_pearson)
# 斯皮尔曼方法
cor_spearman=Relation(data,'spearman',"high_correlation_spearman.xlsx")
print(cor_spearman)
相关性矩阵变成热力图:
皮尔斯方法:
斯皮尔曼方法:
这是什么意思呢?
如斯皮尔曼方法的最后一栏第一个意思是,loan_amnt
贷款总金额和installment
分期付款的相关性是0.96
。
贷款金额和趋势分析
贷款金额有几个重要的指标:
- installment 单笔分期金额
- loan_amnt贷款总额
loan_amnt贷款总额(估算)= installment 单笔分期金额 * 贷款期数 term。
# 分期付款金额情况,我们使用直方图可视化
data['installment'].hist()
plt.show()
# 贷款总额情况,我们使用直方图可视化
data['loan_amnt'].hist()
plt.show()
我们也可以用Seaborn来画。
from scipy.stats import norm
sns.distplot(data.loan_amnt,kde=True,color='blue',fit=norm) # distplot核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一
sns.despine(top=True)
除了直方图,还有核密度函数、高斯分布函数。
······
通过图表分析,发现单笔分期金额在 300美元
范围内占比较多,较高金额的贷款数量较少,也间接证明了 lending club 主营小额度的贷款项目。
单笔贷款金额在 1万~2万 美元范围内占比较多,较高金额的贷款数量较少,也间接证明了lending club 主营小额度的贷款项目。
我们看一下,2018年4季度贷款笔数和贷款金额统计。
# groupby+agg 可以对groupby的结果(2018年、总金额)同时应用多个函数(计数、求和函数)
perform_data = data.groupby('issue_d')['loan_amnt'].agg(['count','sum'])
接下来,绘图。
# 绘图
f, (ax1, ax2) = plt.subplots(2, 1, sharex=True)
# DatetimeIndex(['2018-10-01', '2018-11-01', '2018-12-01'], dtype='datetime64[ns]', name='issue_d', freq=None
x = perform_data.index # 月份month
y1 = perform_data['count'] # 贷款笔数
sns.barplot(x, y1, ax=ax1)
y2 = perform_data['sum'] # 贷款金额
ax1.set_xlabel("")
ax1.set_ylabel("放款笔数")
sns.barplot(x, y2,ax=ax2)
ax2.set_ylabel("放款金额")
# 下边线隐藏
sns.despine(bottom=True)
从结果看,贷款笔数与放贷金额,都在减少,lendingclub在2018年4季度略有下滑趋势 — 业务上,年底坏账增多,放款缩紧,可以理解。
产品周期分析
贷款周期分行业看:房地产,车贷固定资产投资周期性较强。一个周期一般是一个月,借贷人也不会不还钱,因为会把房子给扣押。
贷款周期分为 36 个月与 60 个月,主要以 36 个月为主,不过 60 个月的比重也不小。
在 p2p 平台上以短期贷款为主,长期贷款也有,利率较高,但周期较长。借出人收获利息,承担风险,而借入人到期要偿还本金。贷款周期越长,对借出人来说风险越高。
在国内的环境下,借出人不仅要承担推迟还款的风险,还要担心平台跑路、本息全无的高风险;对借入人来说,因为国内缺少健全的征信体系,借款方违约及重复违约成本低。
国外的部分国家已有健全的征信体系,一旦违约还款,违约率不断上涨,个人征信也会保留记录,对后序的贷款、买房有很大的影响。
所以如果贷款周期较长,且如果没有固定的工作和固定的收入的话(即使有未定收入也不一定如期偿还),偿还本金充满变数,很有可能违约。
- 贷款期数 term
term_counts=data.term.value_counts()
term_counts.plot.pie(autopct='%.2f',figsize=(10, 10),fontsize=20,colors = ['green','lightblue'])
data.term.value_counts().plot.pie(autopct='%.2f',figsize=(10, 10),fontsize=20,colors = ['green','lightblue'])
总结:小额贷 + 短周期为主
所以通过上图可以看出几个信息:
-
短期贷款(36个月)占比重较大,长期贷款(60个月)占比也不低
-
鸡蛋不放在一个篮子里,小额贷分散风险,贷款周期长,违约率高,风险大,贷款周期短,风险相对小
用户工龄分析
不同场景平台用户工龄分布差异大,医美主要为16-30岁群体,lendingclub针对工作时长高群体,这样收入会稳定一些。
data.emp_length.value_counts().plot.pie(autopct='%.2f',figsize=(10,10),fontsize=20)
data.emp_length.value_counts().plot(kind='bar',fontsize=20,rot=0,title='用户工龄柱状图')
value_count=data["emp_length"].value_counts()
plt.style.use('ggplot')
plt.figure(figsize=(10,5))
ax=plt.subplot(1,2,1)
value_count.plot(kind='bar',fontsize=20,rot=0,title='用户工龄数量分布')
ax=plt.subplot(1,2,2)
value_count.plot(kind='pie',fontsize=20,rot=0,title='用户工龄占比分布')
plt.show()
住房情况与贷款等级
美国有房产税,对抑制炒房有很好作用,中国房产税雨声小,雷声大,炒房非常严重。
data.home_ownership.value_counts().plot.pie(autopct='%.2f', figsize=(10, 10),fontsize=20)
-
MORTGAME:按揭贷款
-
RENT:租房
-
OWN:自由租房
-
ANY:其他
analysis_data_home = data.groupby(['grade','home_ownership'])[['issue_d']].count().apply(lambda x:x/x.sum(level=0))
# 对需要分析的俩个字段进行分类
print(analysis_data_home)
这是堆的数据结构。
常见的数据格式化结构有俩种:
- 堆叠
- 表格
在用 pandas 进行数据重排时,经常用到 stack 和 unstack 两个函数。
stack 的意思是 “堆叠”,堆积,unstack 即 “不要堆叠”。
- stack( ):把表格数据转化为堆叠数据
- unstack( ):把堆叠数据转化为表格数据
analysis_data_home1=analysis_data_home.unstack(level=1) # 以第二列(从0开始数)的名字变成表格里面行的名称
analysis_data_home2=analysis_data_home1.stack(level=0)
analysis_data_home3=analysis_data_home2.reset_index(level=1,drop=True)
# (横向)树状图可视化
analysis_data_home3.plot.barh(figsize=(15,8)).legend(loc='center left',bbox_to_anchor=(1,0.5))
意外的发现,贷款等级越高的人群,他们的住房情况是抵押贷款的几率越高,而租房的几率越低。
而拥有完全产权的人群在各个贷款等级的人群中占比差不多。
贷款人年收入分析
income_count=data['annual_inc'].value_counts()
print(income_count) # 查看各个贷款人年收入情况
# 方法一
data['annual_inc']=np.where(data['annual_inc']<=50000,'0-50000',data['annual_inc'])
print(data['annual_inc'])
# 方法二
data = pd.read_excel('data.xlsx')
bins = [0,50000,60000,70000,80000,90000,100000,110000,120000,130000,140000,150000,160000,170000,180000,190000,200000,300000]
data['annual_inc']=pd.cut(data['annual_inc'],bins)
income_counts=data.annual_inc.value_counts()
plt.figure(figsize=(15,15))
income_counts.plot(kind='bar',fontsize=10,rot=0,title="收入数量分布")
income_counts.plot.pie(autopct='%.2f',figsize=(10,10),fontsize=20)
80% 的财富掌握在 20% 的人手里。
贷款人收入水平
之前我们分析的是单因子,我们可以多因子组合分析,以收入水平和贷款等级为例。
数据如下:
- annual_inc:年收入水平
- grade:贷款分类
- verification_status:对收入是否进行核实
因为收入是用户自己填的,不一定真实,所以会请第三方数据员核实,由此分为核实到、没核实到。
sns.factorplot(x="grade", y="annual_inc", data=data,order=list('ABCDEFG'),size=7,palette="Paired")
如图所示,等级A的年收入最高且分布最小,等级G的年收入最低且分布最大。
sns.factorplot(x="grade", y="annual_inc",data=data,order=list('ABCDEFG'),size=7,palette="Paired",hue="verification_status")
not verified(没有核实过)、source verified(有来源的核实)、verified(核实过了) 。
这俩个因子一起分析可以排除垃圾数据(因为年收入是用户填的,一些人为了贷款成功说不定会虚报)
只要你的年收入越高,那你就是高等级客户,贷款的等级也越高,反之亦然。
贷款用途
sns.countplot(y=data.purpose) # purpose是贷款用途
第一是 debt_consolidation(债务重组,借新债还旧债)。
第二是 credit_card(还信用卡)。
这是美国2018年的数据,说明钱大部分都在新债还旧债,说明2018年有结构性的问题,很有可能会引发金融危机。
咱们再来看看贷款目的和人均收入水平,这俩个因子有什么关系吗?
sns.factorplot(x="purpose", y="annual_inc", data=data, size=15, palette="Paired")
发现人均收入水平较高的人群贷款用于小生意,家庭生活改善,房子等。
而贷款为了债务整合(占比最高)的人群的人均收入水平在整体的中下。
新债还旧债,多头借贷会引发一个高债务的问题,意味着金融风险。
因为人有不愿意还钱倾向,债务越高,金融危机就越大。
多头借贷就是金融危机的黄色预警,当利息还不上的时候,就是破产的时候。
多头借贷里套路贷是破产的终极杀手,套路贷是不正规的平台利用高利息 + 黑社会恐吓,目的就是让人还不起利息。
最开始的时候我们只是线上贷款,如在花呗上贷款消费,满满形成贷款消费的习惯,慢慢就变成套路贷了·····
金融活动对整个社会的影响,大概是从有了银行、资本市场开始,可以借钱了,也就是信贷。
-
企业可以向别人借钱,比如发行股票、债券等从市场筹集资金、投入生产;
-
个人也可以向未来的自己借钱,以时间换空间,比如买房贷款。
现代产业模式就是:先借钱,再建设,赚钱后还借款,相当于把未来的钱搬到现在用,或者说把大洋彼岸的英国闲置资金搬到美国来用。
这也是金融最大的功能,可以跨时间跨空间配置资源。
有了技术突破、新需求的时候,大家一片乐观,借钱生产、借钱消费,前期欠钱太多,玩得太激进,或者叫做,杠杆率太高,等到大家意识到风险,银行开始不再随意放款,还不上了,破产倒闭,遣散工人,经济危机也就来了。
等到该破产的已经破产完了,该还的钱也都还上了,杠杆率下去了,银行自然会调低利率,等待着下一次喷发。
一次牛市一次熊市,这就形成了一个周期。
可以发现,信贷的扩张和收缩周期与经济的繁荣和衰退周期重合,并且是相互促进的关系。
黑天鹅的来源
9·11之后,美国为了提振经济,把利息降到了接近零。这种情况下,大家肯定是抓紧时间买房、买车、买吉娃娃,企业肯定扩大再生产,银行也会尽量多往外出贷款赚利息。
大家都在贷款买房,房价一直涨,没买房的人看着房价一直涨,也憋不住赶紧去贷款买房。全社会买房,等到美联储一拉高利息,立刻有一大堆人还不上贷款。
贷款断供,银行拍卖房子,房价进一步暴跌,加上美国巨大的金融衍生品挖出来的坑,引发了危机。
所以说,经济危机的本质都是债务危机。
为了理解这个概念,我们试着把自己当作美联储。
假如你是美联储的主席,平时给大家放贷为生。有段时间大家说贷款养猪,你也觉得这事能成,不断贷款给大家,慢慢有一天你开始担心大家贷款太多,万一还不上怎么办?
你准备把贷款回收回来。怎么操作呢?很简单,你说利息变高了,原来大家借你的钱每月利息一万块,一夜之间变成利息十万块,大家可不就着急给你把钱还回来了?
加息之后经济体里的现金会急剧减少,很多在投的,或者要投资的项目只能砍掉,一些初创公司可能就倒闭了,员工下岗了,可能为了省钱,不去宠物店给家里的宠物狗理发,自己拿个剪子在那里折腾,反正宠物狗也不介意。
时间长了,宠物店可能也要裁掉一个宠物理发工,店长觉得反正来的人少了,不如自己亲自上。
你看,加息后所有的行业都在收缩。同理可推导到其他领域,一片肃杀。
像现在的投资人、投资机构,包括文艺复兴科技公司,都是在市场平稳的时候赚钱,遇到经济危机别说收益,只要能不亏太多已经烧香拜佛了。
比如2008年美国金融危机,著名的金融机构,像雷曼兄弟甚至倒闭了,贝尔斯登也被其他金融机构接管了,就连向来稳健的股神巴菲特旗下的基金也遭受了高达9.6%的损失。
顺势看股神,逆势学桥水
早在70年代,桥水公司创始人达里奥就认为判断宏观经济形势不能靠“人”,必须得算法化。
公司还很小的时候他就买了特别贵的计算机,自己弄了一套系统让计算机做判断。
桥水有一整套的经济分析方法,这套方法和主流的宏观经济分析方法是完全不同的,他们就是依靠这套方法预测了几次的经济危机。
比如在2008年金融危机之前半年,桥水的宏观经济判断系统已经判断出债务危机,而当时美国政府的参谋专家们还一无所知。
主流的宏观经济预测模型无非是两大类:
-
向量自回归
-
结构化模型
不管是哪一种,其实说起来无非就是用一套方程去描述过去的历史数据,而后用这套方程再进行简单的趋势外推,进行预测。
既然是趋势外推,TA就预测不到那些拐点,但是经济危机恰恰就是拐点,以前的规律就不再适用了。
当这个宏观经济预测模型用过去的规律去推测未来的变化时,其实就已经放弃了预测经济危机,在方法论上就已经背道而驰了。
不是我黑宏观经济学,只是宏观经济学成立100多年以来,TA就从来没有成功地预测过一次经济危机,而TA预测到的危机都往往不是危机,究其原因就是所谓的危机就是拐点,是不能用过去的趋势进行外推来预测的。
那么到底怎么样才能够预测经济危机呢?
预测经济危机一定要抓住危机的本质,而不是危机的形式。
不管是向量自回归还是结构化模型,这些都过于注重危机的形式了,TA用一系列宏观经济指标去刻画这个形式,反而是错过了危机的本质。
那危机的本质到底是什么呢?
根据桥水的分析,危机的本质在于债务。日常生活当中人们都会负债,当债务负担不重,人们能够偿还债务的时候,债务其实是个好事情,它活跃了经济;但是当债务负担过重,人们的收入没法还债的时候,危机就开始了,就产生了坏账。然后就引起了资产价格的下跌,进一步引起信心的崩塌,一连串的连锁反应之后,危机就像雪球越滚越大了。
桥水就是依据刚才这套逻辑准确预测了2008年的金融危机。
那次危机是房地产泡沫,2004年、2005年的时候,很多买不起房的中低收入人口负债买了房,而且是零首付低利率,前两年的还本付息压力很小,很多人甚至前两年根本不用还本付息。
到了2006、2007年的时候,越来越多的购房者需要开始还本付息了,债务负担就开始体现出来,越来越多的人付不起,坏账就开始出现,房价就开始下跌。
雪上加霜的是美联储从2004年6月开始加息,一连加了17次,利率水平从1%一直加到5.25%,这么大幅度的加息就大大提高了还本付息的压力。
所谓是屋漏偏逢连夜雨,本来很多人就还不起钱,这时候还遭遇了加息,还本付息的压力就越来越大了,很多人就开始赖账。
这个赖账就引发了一连串的连锁反应,包括房屋的拍卖、房价的下跌以及和住房有关的一系列投资工具都大幅贬值,产生了很多的坏账。
这时候其实很多金融机构的资产负债表都在恶化,大家也不知道彼此的情况到底是什么样的,于是大家就争相持有现金,谁也不愿意把钱往外借,这样就导致经济活动进一步萎缩,这就陷入了一个恶性的循环。
在2008年的时候,桥水就是准确地计算了当时的债务情形,并以此预测到了当时的金融危机。
到了2010年桥水又用相同的方法同样预测到了欧洲的主权债务危机,并且取得了史上最好的投资业绩。
桥水基金对于经济的统计分析甚至比美联储的还要靠谱。
桥水的这套分析方法的核心在于债务的负担是否过重,是否可以支撑下去,这个就要求一套准确的计算方法,是需要下细功夫的,不能停留在概念上。
很多人都懂得债务的重要性,但是能够预测金融危机的人很少,为什么呢?就是计算的功夫不够细。
比如说过去好几年很多人都说我国也存在严重的债务危机,地方债问题也引起了广泛的讨论,居民的负债问题也被说得很严重。
但其实我国居民部门的负债率还很低,中央部门的债务负担也很低,因此我国既不存在欧洲意义上的主权债务危机,也不存在美国意义上的房地产债务危机。
随着2016年我国经济的大幅回暖,对我国债务危机的讨论就慢慢烟消云散了。
所以这个债务的分析方法除了了解债务的重要性,还要把债务的负担算对算准,是需要有细功夫的。
风控学院
风险管理是金融学的几个基石之一,具体就是各种衍生品(如期权)的使用。
在江湖里,股票和债券就像刀和剑,ta们是最基础的武器。
衍生品在金融江湖里的地位,就像江湖里的暗器一样,用的人很多,评价却总是呈现一个两极化的趋势。
天使的一面,比如现在有好多全球化公司,每个国家收到的货币都不一样,人民币、美元、马克各种货币都有波动,货币就有贬值的风险,什么都不做都会白白损失一大笔钱,而通过金融衍生品公司,就不用承担汇率变动带来的风险,所有货币都等值了(农产品类似,受天气影响也有波动)。
比如个人投资时,我们总说高风险、高收益,好像风险就是必须要承受的。但事实上,在很多情况下不是这样的。
可怕的不是风险,而是你根本不知道你本来可以不必承担这些风险。
更何况有些时候一个风险能否被规避掉,对于一笔投资来说,就是生与死的差别。
风险管理就是用金融工具来管理你的风险。你要选对、用对金融工具,那就可以让风险变大、变小,甚至变为零,这取决于你个人的风险偏好。
套期保值是衍生品存在的核心逻辑,ta可以锁定未来的价格波动,很多经济学诺奖得主都认为衍生品是金融领域最重要的创新。
魔鬼的一面,ta除了套期保值,还可以投机套利,是金融界的大规模杀伤武器。
如果你没有接受过投资教育(投资最重要的是避险),你跟着感觉走(幻想、贪婪),哪怕所有钱 all in,也就赚了几千美元 —— 你会觉得这好像没什么意思,不刺激。
怎么才能让回报配得上你的野心呢?去买衍生品,因为涨价无上限,所以损失也是上不封顶!
所以,目前中国股市还不允许交易个股期权(衍生品),但一直以来都有呼声,将来可能会开放,而美国和香港股市都有期权(这样的股市就好多一夜暴富、一夜沉沦)。
我自己也试了一下,我选择了 all in。
押上了全部,并且成功获利。
但是后面再一次做空的时候,连本带利都没了。
靠运气赚的钱,最后靠凭自己的实力亏掉了。
我也有反思,喜欢冒险,做事冲动的人归根结底是思维懒惰的人。
整个投机过程就是这样一个游戏:
- 假如硬币是正面,我赢,赚两万块。假如是反面,我输,我只要赔一万块;
我当时算期望值,算下来每一局的期望值是正的5千块(平均每局赢5千块)。从数学角度看,这是一场非常有概率优势的游戏。
但一开始尝到了 all in 的甜头,那就一发不可收拾了。
现在因为我的疯狂游戏多了一条规则:
- 不仅你每一次要全部压上,而且只要你还有钱,就不能停止这个游戏,除非你没钱玩儿了。
这个游戏不能停啊,不管你赢多少回,只要你输一把,你就归零了。
即使你一直在做大概率成功的事,如果总是all in,早晚有一天你会爆掉。
- 法则1:投资最重要的是避险,你不是赌神的料,你要对自己的未来充满信心。
你并不是一无所有,你不是靠赌才能成功,你的时间、机会、创新,其实都是让人羡慕的本钱。
- 法则2:在冒险的时候,不要拿全部家当下注。
赌会上瘾,总是赌输,连自暴自弃也会上瘾。行为会融入血液,最终铸就了宿命 —— 到了那一天,你就真的成了职业韭菜了。
- 法则3:做好及时撤退的准备,剩者为王
你要想成功,必须要 all in。但 all in 的应该是一个人的激情、专注、专业,而非赌上自己的全部资产,押上自己的车,押上自己的房子。
……
脑外科手术医生做开颅手术的时候,TA的每一个动作 “看起来” 都是 “危险” 的,一点点的失误就可能造成很严重的后果……可这是观察者的角度。
从行动者的角度来看,首先,TA的目标是成功而不是冒险;其次,TA就是被高强度训练来完成观察者不可能完成的工作的;还有就是,TA是专家,他知道什么危险什么不危险,TA知道怎么做是真正的冒险,TA更应该知道怎么做才能有效地避险……
于是,在整个过程中,观察者时时刻刻 “体会得到” 各种危险,心惊胆战,觉得行动者在不断冒险,最后因为冒险而成功。
可实际上,行动者的所有注意力都放在如何避险上,而不是如何冒险上。
于是,请你仔细想想,当我们看到有人完成高难度动作的时候 —— 我们是观察者,他们是行动者——他们若是 “经验丰富” ,那所谓的 “经验”,更可能是 “避险经验”,而不是 “冒险经验”;而如若不经提醒,我们这些观察者就可能出现理解偏差,误以为人家所拥有的那丰富的东西是 “冒险经验”。
为什么要说这样一番话呢~
有一句话说,机遇只偏爱有准备的头脑,但其实,现实世界是有准备的头脑太多,而机遇太少。
所以对机遇光有思想准备不行,你得有动作才行,期权就是我们锁定机遇的动作。
其实期权不是不能用来投机,但首先你得是一个专家呀,你别什么都不懂就来投机,专家和韭菜之间的 “避险经验” 差别,不仅是各种衍生品的使用,还有最为主要的风险管理的框架,这也是最前沿的内容,一线科学家一直再研究的风险管理框架。
整篇博客除了数据分析之外,就是这俩样衍生品、风险管理框架。
衍生品:期货和远期
衍生品:期权和花样期权
风险管理框架

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)