机器学习不是万能的,不能解决所有的问题。机器学习擅长的是通过已知
经验找到规律去解决问题。如果我们面对的问题没有任何规律可循,完全是
一个随机事件,那么使用再复杂的机器学习算法也无济于事 。值得注意的
是,很多问题看似没有规律,实际上是人类处理不了太大的数据量,看起来杂
乱的数据掩盖了背后的规律,这类问题并非无迹可寻,只是需要用正确的方
法。所以面对问题,产品经理首先要分析可行性,想清楚数据背后的关联关
系,透过数据现象看到问题本质。
当银行决定某个客户的贷款额度时,可以根据过往成功放贷的数据找出每
个贷款区间的人群特点、自身的房车资产状况等,然后再根据这个客户的信息
进行计算。
每天我们的邮箱都会收到大量的邮件,其中包含了不少垃圾邮件。我们可
以根据过往垃圾邮件的特点、经常出现的关键字和IP地址等,做一个能够自动
识别垃圾邮件的程序。
一些产品线众多的企业早已开始利用客户购买记录以及行为特点来优化不
同产品线的交?销售策略,例如研究同时购买“啤酒”和“尿布”的男性顾
客、同时购买“面包”和“打折商品”的女性顾客的特点。
上述例子都展示了适合用机器学习解决的问题,它们主要有以?三个必备
条件,如图1-4所示。

1. 有规律可以学习
申请贷款、识别垃圾邮件和购买东西,这三者都不是随机事件,它们存在
共性,有内在的规律等待被发现。
2. 编程很难做到
利用编程把上面的规律都写?来的难度非常大,比如银行面对的客户数据
维度非常多,数据与数据之间的联系也非常复杂,我们很难通过穷举的方式把
规则全都列清楚,并且这样的规则在面对异常数据时也没办法自我修正,对新
数据的适应性也会变得越来越差;反之,机器学习可以通过对大量的数据学习
形成模型,实现规则的自我学习,不断提升模型的准确率。
3. 有足够多能够学习到其中规律的数据
银行有大量历史上申请过贷款的客户可以参考,邮件程序有大量垃圾邮件
的范本可以参考,企业也有大量成交客户数据可以供模型训练学习。最后这一
点非常重要,谈机器学习而没有数据的支撑就像建造房子时没搭房梁便想砌砖
加瓦一样。
1.2.2 机器学习可解决的问题
满足这三个条件的问题,我们都可以尝试使用合适的算法去解决。如图1-
5所示,通常我们可以使用机器学习解决以?五类问题。 

1. 回归
回归任务是机器学习最典型的应用场景,是一种预测场景。在这类任务
中,计算机程序会通过输入数据的属性值(特征)找出规律来预测新的输出数
值。就像是在二维平面中根据一些连续的点构建出一个函数方程,然后通过方
程画出?一个点的位置。因此,通常我们把通过连续值构建模型的任务称为回
归任务。常见的回归算法包括线性回归、逻辑回归、多项式回归以及岭回归,
等等。
这类任务在日常生活中随处可见,例如保险公司通过历史保费数据去预测
新投保人的索赔金额,以设置更合理的保险费,以及投资公司通过股票历史数
据预测未来的价格等。这类预测也用在银行放贷交易中,根据已知数据和模
型,评估应该给不同客户发放的贷款额度是多少。
2. 分类
上面的预测任务是通过连续值构建函数从而找到下一个预测值,分类任
务则是对离散值进行分类并判断预测值的所属类别 。在这类任务中,输入的
训练数据不但要有属性值(特征),还需要有对应的标签(类别)。所谓的学
习,本质就是找到这一堆特征值和标签之间的关系。这样当?次遇到有特征而
无标签的未知数据输入时,我们就可以通过已有的关系预测出它们的标签是什
么。常见的分类算法包括决策树、逻辑回归、朴素贝叶斯以及神经网络算法
等。
分类任务不但在日常生活中很常见,在互联网领域也有着极为广泛的应
用,典型场景有商品图片的自动识别分类、广告点击行为的预测,以及基于文
本内容的垃圾短信、垃圾邮件识别,等等。在电商及金融领域常用的客户画像
精准营销也是一种综合性的分类任务。
另外,我们在电商领域中经常看到的推荐系统实际上是一个分类结合回归
的复杂场景。推荐系统通常利用客户的历史行为、当前用户所处的环境以及商
品的特点来决定推荐的内容。所以,当我们设计规则的时候可以从商品出发,
找到其受众特点,也可以从人群出发,找到他们的商品偏好。值得一提的是,
电商的推荐系统往往是由模型以及业务规则叠加组合而成的,并非单纯依靠算
法计算适合推荐的商品。
3. 聚类
聚类是指根据“物以类聚”的原理,将样本聚集成不同组的过程,这样的
一组数据对象集合叫作簇。聚类的目的是使得属于同一个簇的样本相似,而
属于不同簇的样本应该足够不相似 。与分类不同,我们进行聚类前并不知道
将要划分成几个组以及是什么样的组,训练数据不需要带有标签,完全依靠算
法聚集成簇。
产品经理经常做的用户行为分类就是一个典型的聚类场景,事先我们并不
知道用户会进行什么操作,完全根据用户的使用情况对用户进行分类。在这个
场景?往往根据运营人员所能接受的运营数目,给定聚类数来使用聚类。完成
后为每个结果标注变量的大小,告诉运营人员每个类别的属性,然后分别制定
不同的运营策略。
4. 寻找关键因素(归因)
机器学习的另一个用处是帮助我们找到影响某个问题的重要因素。比如上
述银行放贷的例子中,客户的属性非常多,通过模型我们可以找出对放贷影响
最大的因素,以便指导业务同事重点收集客户与该因素有关的信息。
5. 异常检测
在这类任务中,机器需要识别其特征显著不同于其他数据的异常值,并标
记为不正常的数据。异常检测任务的一个典型应用场景是信用卡欺诈检测。通
过对用户的购买习惯建模,信用卡公司可以检测到用户的卡是否被盗用。一旦
发现某张卡出现大量和平时购买习惯不同的交易,信用卡公司会判定这张卡发
生了不正常的消费行为,此时可以尽快冻结该卡以防欺诈。另外,在网络攻
击、疾病的病因寻找、工厂的质量检测中也会大量运用机器学习的异常检测技
术。
产品经理拿到需求后,在构想整个使用场景的时候,应首先想这个问题到
?适不适合用机器学习的方式去解决,同时还需要思考怎么拿到有效的数
据,如果有数据缺失如何补充,数据类型是什么样的,是否有合适的算法可
以支持实现 。在心里有了初步的答案后,再和开发工程师进行交流。这种对
数据的提前考虑能够极大地提高沟通效率。 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐