Fintech建模竞赛：现金贷用户数据分析和画像

文章目录

Debroon

2636人浏览 · 2021-08-21 16:35:02

Debroon · 2021-08-21 16:35:02 发布

Fintech建模竞赛：现金贷用户数据分析和画像

风控历史

数据分析

描述性统计

好坏客户占比情况

变量相关性分析

贷款金额和趋势分析

产品周期分析

用户工龄分析

住房情况与贷款等级

贷款人年收入分析

贷款人收入水平

贷款用途

黑天鹅的来源

顺势看股神，逆势学桥水

风控学院

衍生品：期货和远期

衍生品：期权和花样期权

风险管理框架

风控历史

世界上最早的银行是，1407年在意大利威尼斯成立。

只要有银行，就会有风险控制和管理，即风控。

早期风控包括对借贷人资质审核和账户核实。

随着金融业发展，贷款流程逐渐完善：

2000-2008年后，全球逐步进入大数据时代，随着用户数据整合，诞生央行征信，公安人脸数据，芝麻信用分，同盾分，聚信立蜜罐分，百度黑中介分等参考数据。

银行、消费金融公司、小额贷公司可以利用大数据建模，利用机器智能决策代替绝大部分人工审核，缩短信贷流程，减少贷款风险，实现利润最大化。

用户申请 -> 用户授权 -> 黑名单过滤 -> 查征信 -> 风控强规则过滤 -> 风控模型智能决策

现代的风控部门主要分为贷前、贷中和贷后管理。

分控核心岗位：

模型开发
数据分析

本文是数据分析。以后也会更新模型开发方面的内容。

采用金融科技公司 lending club 的12万真实数据，从客户年龄、收入、工作、住房、信用额度等多个维度完成用户画像。

本文特色，除了数据分析之外，最后也添加了个人和企业风险管理的内容。

好，我们开始吧。

借贷俱乐部：https://www.lendingclub.com/

lending club 是 P2P 鼻祖，我们的数据就来源于这里。

P.S. 图上红色框中的翻译不对，应该是检测您的信用。

数据分析

备用数据下载地址：https://download.csdn.net/download/qq_41739364/21417988

描述性统计

拿到数据后，先做一个观察，分布是怎样的、是否有异常、缺失率高不高、知己知彼。

我们对数据做一个描述性统计，用几个关键的数字（数据量、维度、缺失率、平均数、中位数等）来描述数据集的整体情况。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data=pd.read_excel('data.xlsx') # 读取数据
numbers=data.shape[0]           # 数据总量

print( data.describe() ) # 描述性统计：观察数据的范围、大小、波动趋势等等，为后面的模型选择打下基础。

missing_pct = data.apply(lambda x : (len(x)-x.count())/len(x)) # 统计各个变量缺失率
missing_pct.plot(kind='bar',fontsize=10, rot=0) # 图表可视化各个变量缺失情况

# 对所有变量画一个直方图，看看分布
data.hist(figsize=(20,15))
plt.show()

描述性统计结果：

好坏客户占比情况

业务分析，建模之前需要观察是否存在好坏客户占比严重失衡的问题。

如果好坏客户比例偏差大，那训练出来的模型偏差也大。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data=pd.read_excel('data.xlsx') # 读取数据
numbers=data.shape[0]           # 数据总量，numbers = 128412

print( data.describe() ) # 描述性统计：观察数据的范围、大小、波动趋势等等，为后面的模型选择打下基础。

missing_pct = data.apply(lambda x : (len(x)-x.count())/len(x)) # 统计各个变量缺失率
missing_pct.plot(kind='bar',fontsize=10, rot=0) # 图表可视化各个变量缺失情况

# 对所有变量画一个直方图，看看分布
data.hist(figsize=(20,15))
plt.show()

# 好坏客户占比情况
n_bad=data[data.target==1].shape[0]         # 坏客户数量（target字段0和1组成）
n_good=data[data.target==0].shape[0]        # 好客户数量（target字段0和1组成）
percentage_bad=round((n_bad/numbers)*100,2) # 好坏客户占比，小数取俩位
value_count=data['target'].value_counts()   # 对好坏客户做一个计数统计

# 图表可视化
plt.style.use('ggplot')
plt.figure(figsize=(10,5))
ax=plt.subplot(1,2,1)
value_count.plot(kind='bar',fontsize=20,rot=0,title='图1.好坏客户数量分布')  # 中文可能不会显示，要额外设置一下
ax=plt.subplot(1,2,2)
value_count.plot(kind = "pie", autopct = "%0.1f%%", title= "图2.好坏客户占比分布", fontsize=20)

好客户：126584

坏客户：1828

若中文不能显示，添加：

plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

变量相关性分析

相关性判断有俩种方法：皮尔森、斯皮尔曼。

当数据呈现正态分布时，用皮尔森方法更准确。

但很多数据不呈现正态分布，这时斯皮尔曼更合适。

所以，我们再测量相关性时，需要看数据分布，是否是正态分布或者俩种方法都跑一遍。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

data=pd.read_excel('data.xlsx') # 读取数据
numbers=data.shape[0]           # 数据总量

print( data.describe() ) # 描述性统计：观察数据的范围、大小、波动趋势等等，为后面的模型选择打下基础。

missing_pct = data.apply(lambda x : (len(x)-x.count())/len(x)) # 统计各个变量缺失率
missing_pct.plot(kind='bar',fontsize=10, rot=0) # 图表可视化各个变量缺失情况

# 对所有变量画一个直方图，看看分布
data.hist(figsize=(20,15))
plt.show()

n_bad=data[data.target==1].shape[0]         # 坏客户数量（target字段0和1组成），1828人
n_good=data[data.target==0].shape[0]        # 好客户数量（target字段0和1组成），126584人
percentage_bad=round((n_bad/numbers)*100,2) # 好坏客户占比，小数取俩位，1.42
value_count=data['target'].value_counts()   # 对好坏客户做一个计数统计

# 图表可视化
plt.style.use('ggplot')
plt.figure(figsize=(10,5))
ax=plt.subplot(1,2,1)
value_count.plot(kind='bar',fontsize=20,rot=0,title='图1.好坏客户数量分布')
ax=plt.subplot(1,2,2)
value_count.plot(kind = "pie", autopct = "%0.1f%%", title= "图2.好坏客户占比分布", fontsize=20)


matrix_cor=data.corr().round(2)   # 相关性矩阵，展现各变量之间的相关程度，保留俩位小数

# 可视化：把相关性矩阵绘制成热力图
plt.figure(figsize=(12, 12))
sns.heatmap(matrix_cor, annot=True, linewidths = 0.05, annot_kws={'size':10,'weight':'bold'}) 
# annot是注解，annot_kws，当annot为True时，可设置各个参数，包括大小，颜色，加粗，斜体字等，linewidths热力图矩阵之间的间隔大小

# 封装一个相关性函数
def Relation(df1, method, fileName):          # fileName 数据保存的文件
    cor=df1.corr(method)                      # 生成变量的相关性矩阵
    cor.to_excel("correlation_table.xlsx")    # 把相关性矩阵存到 correlation_table.xlsx （相关性表）
    cor.loc[:,:]=np.tril(cor,k=-1)            # 对结构改变和优化
    cor=cor.stack()
  
    high_cor=cor[(cor>0.6)|(cor<-0.6)]        # 挑选高相关系数，正相关0.6以上、负相关0.6以下
    df_high_cor=pd.DataFrame(high_cor)        # 数据呈现结构化
    df_high_cor.to_excel(fileName)            # 保存到（高相关性表）文件
    return df_high_cor                        # 返回高相关性的矩阵

# 皮尔斯方法
cor_pearson=Relation(data,'pearson',"high_correlation_pearson.xlsx")
print(cor_pearson)

# 斯皮尔曼方法
cor_spearman=Relation(data,'spearman',"high_correlation_spearman.xlsx")
print(cor_spearman)

贷款金额和趋势分析

贷款金额有几个重要的指标：

installment 单笔分期金额
loan_amnt贷款总额

loan_amnt贷款总额（估算）= installment 单笔分期金额 * 贷款期数 term。

# 分期付款金额情况，我们使用直方图可视化
data['installment'].hist()
plt.show()

# 贷款总额情况，我们使用直方图可视化
data['loan_amnt'].hist()
plt.show()

我们也可以用Seaborn来画。

from scipy.stats import norm   
sns.distplot(data.loan_amnt,kde=True,color='blue',fit=norm) # distplot核密度估计是在概率论中用来估计未知的密度函数，属于非参数检验方法之一
sns.despine(top=True)

除了直方图，还有核密度函数、高斯分布函数。

······

通过图表分析，发现单笔分期金额在 300美元 范围内占比较多，较高金额的贷款数量较少，也间接证明了 lending club 主营小额度的贷款项目。

单笔贷款金额在 1万~2万美元范围内占比较多，较高金额的贷款数量较少，也间接证明了lending club 主营小额度的贷款项目。

我们看一下，2018年4季度贷款笔数和贷款金额统计。

# groupby+agg 可以对groupby的结果（2018年、总金额）同时应用多个函数（计数、求和函数）
perform_data = data.groupby('issue_d')['loan_amnt'].agg(['count','sum'])

接下来，绘图。

# 绘图
f, (ax1, ax2) = plt.subplots(2, 1, sharex=True)
# DatetimeIndex(['2018-10-01', '2018-11-01', '2018-12-01'], dtype='datetime64[ns]', name='issue_d', freq=None
x = perform_data.index  # 月份month
y1 = perform_data['count'] # 贷款笔数
sns.barplot(x, y1, ax=ax1)
y2 = perform_data['sum'] # 贷款金额
ax1.set_xlabel("")
ax1.set_ylabel("放款笔数")
sns.barplot(x, y2,ax=ax2)
ax2.set_ylabel("放款金额")
# 下边线隐藏
sns.despine(bottom=True)

从结果看，贷款笔数与放贷金额，都在减少，lendingclub在2018年4季度略有下滑趋势 — 业务上，年底坏账增多，放款缩紧，可以理解。

产品周期分析

贷款周期分行业看：房地产，车贷固定资产投资周期性较强。一个周期一般是一个月，借贷人也不会不还钱，因为会把房子给扣押。

贷款周期分为 36 个月与 60 个月，主要以 36 个月为主，不过 60 个月的比重也不小。

在 p2p 平台上以短期贷款为主，长期贷款也有，利率较高，但周期较长。借出人收获利息，承担风险，而借入人到期要偿还本金。贷款周期越长，对借出人来说风险越高。

在国内的环境下，借出人不仅要承担推迟还款的风险，还要担心平台跑路、本息全无的高风险；对借入人来说，因为国内缺少健全的征信体系，借款方违约及重复违约成本低。

国外的部分国家已有健全的征信体系，一旦违约还款，违约率不断上涨，个人征信也会保留记录，对后序的贷款、买房有很大的影响。

所以如果贷款周期较长，且如果没有固定的工作和固定的收入的话（即使有未定收入也不一定如期偿还），偿还本金充满变数，很有可能违约。

贷款期数 term

term_counts=data.term.value_counts()
term_counts.plot.pie(autopct='%.2f',figsize=(10, 10),fontsize=20,colors = ['green','lightblue'])
data.term.value_counts().plot.pie(autopct='%.2f',figsize=(10, 10),fontsize=20,colors = ['green','lightblue'])

总结：小额贷 + 短周期为主

所以通过上图可以看出几个信息：

短期贷款（36个月）占比重较大，长期贷款（60个月）占比也不低
鸡蛋不放在一个篮子里，小额贷分散风险，贷款周期长，违约率高，风险大，贷款周期短，风险相对小

用户工龄分析

不同场景平台用户工龄分布差异大，医美主要为16-30岁群体，lendingclub针对工作时长高群体，这样收入会稳定一些。

data.emp_length.value_counts().plot.pie(autopct='%.2f',figsize=(10,10),fontsize=20)

data.emp_length.value_counts().plot(kind='bar',fontsize=20,rot=0,title='用户工龄柱状图')

value_count=data["emp_length"].value_counts()

plt.style.use('ggplot')
plt.figure(figsize=(10,5))
ax=plt.subplot(1,2,1)
value_count.plot(kind='bar',fontsize=20,rot=0,title='用户工龄数量分布')
ax=plt.subplot(1,2,2)
value_count.plot(kind='pie',fontsize=20,rot=0,title='用户工龄占比分布')
plt.show()

住房情况与贷款等级

美国有房产税，对抑制炒房有很好作用，中国房产税雨声小，雷声大，炒房非常严重。

data.home_ownership.value_counts().plot.pie(autopct='%.2f', figsize=(10, 10),fontsize=20)

MORTGAME：按揭贷款
RENT：租房
OWN：自由租房
ANY：其他

analysis_data_home = data.groupby(['grade','home_ownership'])[['issue_d']].count().apply(lambda x:x/x.sum(level=0)) 
# 对需要分析的俩个字段进行分类
print(analysis_data_home)

这是堆的数据结构。

常见的数据格式化结构有俩种：

堆叠
表格

在用 pandas 进行数据重排时，经常用到 stack 和 unstack 两个函数。

stack 的意思是 “堆叠”，堆积，unstack 即 “不要堆叠”。

stack( )：把表格数据转化为堆叠数据
unstack( )：把堆叠数据转化为表格数据

analysis_data_home1=analysis_data_home.unstack(level=1) # 以第二列（从0开始数）的名字变成表格里面行的名称
analysis_data_home2=analysis_data_home1.stack(level=0)
analysis_data_home3=analysis_data_home2.reset_index(level=1,drop=True)

# （横向）树状图可视化
analysis_data_home3.plot.barh(figsize=(15,8)).legend(loc='center left',bbox_to_anchor=(1,0.5))

意外的发现，贷款等级越高的人群，他们的住房情况是抵押贷款的几率越高，而租房的几率越低。

而拥有完全产权的人群在各个贷款等级的人群中占比差不多。

贷款人年收入分析

income_count=data['annual_inc'].value_counts()
print(income_count)  # 查看各个贷款人年收入情况

# 方法一
data['annual_inc']=np.where(data['annual_inc']<=50000,'0-50000',data['annual_inc'])
print(data['annual_inc'])

# 方法二
data = pd.read_excel('data.xlsx')
bins = [0,50000,60000,70000,80000,90000,100000,110000,120000,130000,140000,150000,160000,170000,180000,190000,200000,300000]
data['annual_inc']=pd.cut(data['annual_inc'],bins)
income_counts=data.annual_inc.value_counts()
plt.figure(figsize=(15,15))
income_counts.plot(kind='bar',fontsize=10,rot=0,title="收入数量分布")

income_counts.plot.pie(autopct='%.2f',figsize=(10,10),fontsize=20)

80% 的财富掌握在 20% 的人手里。

贷款人收入水平

之前我们分析的是单因子，我们可以多因子组合分析，以收入水平和贷款等级为例。

数据如下：

annual_inc：年收入水平
grade：贷款分类
verification_status：对收入是否进行核实

因为收入是用户自己填的，不一定真实，所以会请第三方数据员核实，由此分为核实到、没核实到。

sns.factorplot(x="grade", y="annual_inc", data=data,order=list('ABCDEFG'),size=7,palette="Paired")

如图所示，等级A的年收入最高且分布最小，等级G的年收入最低且分布最大。

sns.factorplot(x="grade", y="annual_inc",data=data,order=list('ABCDEFG'),size=7,palette="Paired",hue="verification_status")

not verified（没有核实过）、source verified（有来源的核实）、verified（核实过了）。

这俩个因子一起分析可以排除垃圾数据（因为年收入是用户填的，一些人为了贷款成功说不定会虚报）

只要你的年收入越高，那你就是高等级客户，贷款的等级也越高，反之亦然。

贷款用途

sns.countplot(y=data.purpose) # purpose是贷款用途

第一是 debt_consolidation（债务重组，借新债还旧债）。

第二是 credit_card（还信用卡）。

这是美国2018年的数据，说明钱大部分都在新债还旧债，说明2018年有结构性的问题，很有可能会引发金融危机。

咱们再来看看贷款目的和人均收入水平，这俩个因子有什么关系吗？

sns.factorplot(x="purpose", y="annual_inc",  data=data, size=15, palette="Paired")

发现人均收入水平较高的人群贷款用于小生意，家庭生活改善，房子等。

而贷款为了债务整合（占比最高）的人群的人均收入水平在整体的中下。

新债还旧债，多头借贷会引发一个高债务的问题，意味着金融风险。

因为人有不愿意还钱倾向，债务越高，金融危机就越大。

多头借贷就是金融危机的黄色预警，当利息还不上的时候，就是破产的时候。

多头借贷里套路贷是破产的终极杀手，套路贷是不正规的平台利用高利息 + 黑社会恐吓，目的就是让人还不起利息。

最开始的时候我们只是线上贷款，如在花呗上贷款消费，满满形成贷款消费的习惯，慢慢就变成套路贷了·····

金融活动对整个社会的影响，大概是从有了银行、资本市场开始，可以借钱了，也就是信贷。

企业可以向别人借钱，比如发行股票、债券等从市场筹集资金、投入生产；
个人也可以向未来的自己借钱，以时间换空间，比如买房贷款。

现代产业模式就是：先借钱，再建设，赚钱后还借款，相当于把未来的钱搬到现在用，或者说把大洋彼岸的英国闲置资金搬到美国来用。

这也是金融最大的功能，可以跨时间跨空间配置资源。

有了技术突破、新需求的时候，大家一片乐观，借钱生产、借钱消费，前期欠钱太多，玩得太激进，或者叫做，杠杆率太高，等到大家意识到风险，银行开始不再随意放款，还不上了，破产倒闭，遣散工人，经济危机也就来了。

等到该破产的已经破产完了，该还的钱也都还上了，杠杆率下去了，银行自然会调低利率，等待着下一次喷发。

一次牛市一次熊市，这就形成了一个周期。

可以发现，信贷的扩张和收缩周期与经济的繁荣和衰退周期重合，并且是相互促进的关系。

黑天鹅的来源

9·11之后，美国为了提振经济，把利息降到了接近零。这种情况下，大家肯定是抓紧时间买房、买车、买吉娃娃，企业肯定扩大再生产，银行也会尽量多往外出贷款赚利息。

大家都在贷款买房，房价一直涨，没买房的人看着房价一直涨，也憋不住赶紧去贷款买房。全社会买房，等到美联储一拉高利息，立刻有一大堆人还不上贷款。

贷款断供，银行拍卖房子，房价进一步暴跌，加上美国巨大的金融衍生品挖出来的坑，引发了危机。

所以说，经济危机的本质都是债务危机。

为了理解这个概念，我们试着把自己当作美联储。

假如你是美联储的主席，平时给大家放贷为生。有段时间大家说贷款养猪，你也觉得这事能成，不断贷款给大家，慢慢有一天你开始担心大家贷款太多，万一还不上怎么办？

你准备把贷款回收回来。怎么操作呢？很简单，你说利息变高了，原来大家借你的钱每月利息一万块，一夜之间变成利息十万块，大家可不就着急给你把钱还回来了？

加息之后经济体里的现金会急剧减少，很多在投的，或者要投资的项目只能砍掉，一些初创公司可能就倒闭了，员工下岗了，可能为了省钱，不去宠物店给家里的宠物狗理发，自己拿个剪子在那里折腾，反正宠物狗也不介意。

时间长了，宠物店可能也要裁掉一个宠物理发工，店长觉得反正来的人少了，不如自己亲自上。

你看，加息后所有的行业都在收缩。同理可推导到其他领域，一片肃杀。

像现在的投资人、投资机构，包括文艺复兴科技公司，都是在市场平稳的时候赚钱，遇到经济危机别说收益，只要能不亏太多已经烧香拜佛了。

比如2008年美国金融危机，著名的金融机构，像雷曼兄弟甚至倒闭了，贝尔斯登也被其他金融机构接管了，就连向来稳健的股神巴菲特旗下的基金也遭受了高达9.6%的损失。

顺势看股神，逆势学桥水

早在70年代，桥水公司创始人达里奥就认为判断宏观经济形势不能靠“人”，必须得算法化。

公司还很小的时候他就买了特别贵的计算机，自己弄了一套系统让计算机做判断。

桥水有一整套的经济分析方法，这套方法和主流的宏观经济分析方法是完全不同的，他们就是依靠这套方法预测了几次的经济危机。

比如在2008年金融危机之前半年，桥水的宏观经济判断系统已经判断出债务危机，而当时美国政府的参谋专家们还一无所知。

主流的宏观经济预测模型无非是两大类：

向量自回归
结构化模型

不管是哪一种，其实说起来无非就是用一套方程去描述过去的历史数据，而后用这套方程再进行简单的趋势外推，进行预测。

既然是趋势外推，TA就预测不到那些拐点，但是经济危机恰恰就是拐点，以前的规律就不再适用了。

当这个宏观经济预测模型用过去的规律去推测未来的变化时，其实就已经放弃了预测经济危机，在方法论上就已经背道而驰了。

不是我黑宏观经济学，只是宏观经济学成立100多年以来，TA就从来没有成功地预测过一次经济危机，而TA预测到的危机都往往不是危机，究其原因就是所谓的危机就是拐点，是不能用过去的趋势进行外推来预测的。

那么到底怎么样才能够预测经济危机呢？

预测经济危机一定要抓住危机的本质，而不是危机的形式。

不管是向量自回归还是结构化模型，这些都过于注重危机的形式了，TA用一系列宏观经济指标去刻画这个形式，反而是错过了危机的本质。

那危机的本质到底是什么呢？

根据桥水的分析，危机的本质在于债务。日常生活当中人们都会负债，当债务负担不重，人们能够偿还债务的时候，债务其实是个好事情，它活跃了经济；但是当债务负担过重，人们的收入没法还债的时候，危机就开始了，就产生了坏账。然后就引起了资产价格的下跌，进一步引起信心的崩塌，一连串的连锁反应之后，危机就像雪球越滚越大了。

桥水就是依据刚才这套逻辑准确预测了2008年的金融危机。

那次危机是房地产泡沫，2004年、2005年的时候，很多买不起房的中低收入人口负债买了房，而且是零首付低利率，前两年的还本付息压力很小，很多人甚至前两年根本不用还本付息。

到了2006、2007年的时候，越来越多的购房者需要开始还本付息了，债务负担就开始体现出来，越来越多的人付不起，坏账就开始出现，房价就开始下跌。

雪上加霜的是美联储从2004年6月开始加息，一连加了17次，利率水平从1%一直加到5.25%，这么大幅度的加息就大大提高了还本付息的压力。

所谓是屋漏偏逢连夜雨，本来很多人就还不起钱，这时候还遭遇了加息，还本付息的压力就越来越大了，很多人就开始赖账。

这个赖账就引发了一连串的连锁反应，包括房屋的拍卖、房价的下跌以及和住房有关的一系列投资工具都大幅贬值，产生了很多的坏账。

这时候其实很多金融机构的资产负债表都在恶化，大家也不知道彼此的情况到底是什么样的，于是大家就争相持有现金，谁也不愿意把钱往外借，这样就导致经济活动进一步萎缩，这就陷入了一个恶性的循环。

在2008年的时候，桥水就是准确地计算了当时的债务情形，并以此预测到了当时的金融危机。

到了2010年桥水又用相同的方法同样预测到了欧洲的主权债务危机，并且取得了史上最好的投资业绩。

桥水基金对于经济的统计分析甚至比美联储的还要靠谱。

桥水的这套分析方法的核心在于债务的负担是否过重，是否可以支撑下去，这个就要求一套准确的计算方法，是需要下细功夫的，不能停留在概念上。

很多人都懂得债务的重要性，但是能够预测金融危机的人很少，为什么呢？就是计算的功夫不够细。

比如说过去好几年很多人都说我国也存在严重的债务危机，地方债问题也引起了广泛的讨论，居民的负债问题也被说得很严重。

但其实我国居民部门的负债率还很低，中央部门的债务负担也很低，因此我国既不存在欧洲意义上的主权债务危机，也不存在美国意义上的房地产债务危机。

随着2016年我国经济的大幅回暖，对我国债务危机的讨论就慢慢烟消云散了。

所以这个债务的分析方法除了了解债务的重要性，还要把债务的负担算对算准，是需要有细功夫的。

风控学院

风险管理是金融学的几个基石之一，具体就是各种衍生品（如期权）的使用。

在江湖里，股票和债券就像刀和剑，ta们是最基础的武器。

衍生品在金融江湖里的地位，就像江湖里的暗器一样，用的人很多，评价却总是呈现一个两极化的趋势。

天使的一面，比如现在有好多全球化公司，每个国家收到的货币都不一样，人民币、美元、马克各种货币都有波动，货币就有贬值的风险，什么都不做都会白白损失一大笔钱，而通过金融衍生品公司，就不用承担汇率变动带来的风险，所有货币都等值了（农产品类似，受天气影响也有波动）。

比如个人投资时，我们总说高风险、高收益，好像风险就是必须要承受的。但事实上，在很多情况下不是这样的。

可怕的不是风险，而是你根本不知道你本来可以不必承担这些风险。

更何况有些时候一个风险能否被规避掉，对于一笔投资来说，就是生与死的差别。

风险管理就是用金融工具来管理你的风险。你要选对、用对金融工具，那就可以让风险变大、变小，甚至变为零，这取决于你个人的风险偏好。

套期保值是衍生品存在的核心逻辑，ta可以锁定未来的价格波动，很多经济学诺奖得主都认为衍生品是金融领域最重要的创新。

魔鬼的一面，ta除了套期保值，还可以投机套利，是金融界的大规模杀伤武器。

如果你没有接受过投资教育（投资最重要的是避险），你跟着感觉走（幻想、贪婪），哪怕所有钱 all in，也就赚了几千美元 —— 你会觉得这好像没什么意思，不刺激。

怎么才能让回报配得上你的野心呢？去买衍生品，因为涨价无上限，所以损失也是上不封顶！

所以，目前中国股市还不允许交易个股期权（衍生品），但一直以来都有呼声，将来可能会开放，而美国和香港股市都有期权（这样的股市就好多一夜暴富、一夜沉沦）。

我自己也试了一下，我选择了 all in。

押上了全部，并且成功获利。

但是后面再一次做空的时候，连本带利都没了。

靠运气赚的钱，最后靠凭自己的实力亏掉了。

我也有反思，喜欢冒险，做事冲动的人归根结底是思维懒惰的人。

整个投机过程就是这样一个游戏：

假如硬币是正面，我赢，赚两万块。假如是反面，我输，我只要赔一万块；

我当时算期望值，算下来每一局的期望值是正的5千块（平均每局赢5千块）。从数学角度看，这是一场非常有概率优势的游戏。

但一开始尝到了 all in 的甜头，那就一发不可收拾了。

现在因为我的疯狂游戏多了一条规则：

不仅你每一次要全部压上，而且只要你还有钱，就不能停止这个游戏，除非你没钱玩儿了。

这个游戏不能停啊，不管你赢多少回，只要你输一把，你就归零了。

即使你一直在做大概率成功的事，如果总是all in，早晚有一天你会爆掉。

法则1：投资最重要的是避险，你不是赌神的料，你要对自己的未来充满信心。

你并不是一无所有，你不是靠赌才能成功，你的时间、机会、创新，其实都是让人羡慕的本钱。

法则2：在冒险的时候，不要拿全部家当下注。

赌会上瘾，总是赌输，连自暴自弃也会上瘾。行为会融入血液，最终铸就了宿命 —— 到了那一天，你就真的成了职业韭菜了。

法则3：做好及时撤退的准备，剩者为王

你要想成功，必须要 all in。但 all in 的应该是一个人的激情、专注、专业，而非赌上自己的全部资产，押上自己的车，押上自己的房子。

……

脑外科手术医生做开颅手术的时候，TA的每一个动作 “看起来” 都是 “危险” 的，一点点的失误就可能造成很严重的后果……可这是观察者的角度。

从行动者的角度来看，首先，TA的目标是成功而不是冒险；其次，TA就是被高强度训练来完成观察者不可能完成的工作的；还有就是，TA是专家，他知道什么危险什么不危险，TA知道怎么做是真正的冒险，TA更应该知道怎么做才能有效地避险……

于是，在整个过程中，观察者时时刻刻 “体会得到” 各种危险，心惊胆战，觉得行动者在不断冒险，最后因为冒险而成功。

可实际上，行动者的所有注意力都放在如何避险上，而不是如何冒险上。

于是，请你仔细想想，当我们看到有人完成高难度动作的时候 —— 我们是观察者，他们是行动者——他们若是 “经验丰富” ，那所谓的 “经验”，更可能是 “避险经验”，而不是 “冒险经验”；而如若不经提醒，我们这些观察者就可能出现理解偏差，误以为人家所拥有的那丰富的东西是 “冒险经验”。

为什么要说这样一番话呢～

有一句话说，机遇只偏爱有准备的头脑，但其实，现实世界是有准备的头脑太多，而机遇太少。

所以对机遇光有思想准备不行，你得有动作才行，期权就是我们锁定机遇的动作。

其实期权不是不能用来投机，但首先你得是一个专家呀，你别什么都不懂就来投机，专家和韭菜之间的 “避险经验” 差别，不仅是各种衍生品的使用，还有最为主要的风险管理的框架，这也是最前沿的内容，一线科学家一直再研究的风险管理框架。

整篇博客除了数据分析之外，就是这俩样衍生品、风险管理框架。

衍生品：期货和远期

衍生品：期权和花样期权

风险管理框架

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。