有监督学习的归纳偏置简述
有监督学习Supervised Learning中归纳偏置的简单讨论
一、归纳偏置
Mitchell [1] 定义偏置为选择一种泛化方法的基础,而不是与观察到的训练实例严格一致。而文献 [2] [3] 认为,偏置是所有共同影响假设选择的因素的集合,这些因素包括假设空间的定义和概念空间搜索算法的定义。简而言之,给定训练数据集的情况下,通过添加额外的限制条件或标准去帮助模型更好地拟合训练集,同时还促使模型在未知样本数据集上也有很好的预测能力(即泛化能力),那么这些额外的限制条件或标准就是偏置。
二、为什么需要归纳偏置
对于任意一个高效的机器学习算法而言,偏置是至关重要的。以下两个原因说明了为什么机器学习算法需要偏置。一方面,文献 [1] 和文献 [4] 指出,无偏置的机器学习任务实际上是不存在的。另一方面,文献 [5] 指出,用于训练模型的样本数据集本身就存在偏置,但是我们无法消除这些偏置。从有偏置的数据中学习得到的模型会导致不公平或者不准确的预测。所以,我们需要归纳偏置,以提高模型的泛化能力。
三、有监督学习的归纳偏置
实际上,归纳偏置的方法非常繁多,不仅仅是有监督学习,无监督学习,强化学习也有很多。这里暂且介绍有监督学习的偏置,并且这些偏置,我相信在机器学习领域里面,你们都非常熟悉。有监督学习的归纳偏置包括
正则化 [6] 、
正则化 [7] 、Dropout [8] 、最大条件独立性 [9] 、最小交叉验证误差 [10] 、最大间隔 [11] 、最近邻 [12] 等。
参考文献
- Mitchell, Tom M. The need for biases in learning generalizations. New Jersey: Department of Computer Science, Laboratory for Computer Science Research, Rutgers Univ., 1980.
- Utgoff, Paul E. "Shift of bias for inductive concept learning." Machine learning: An artificial intelligence approach 2 (1986): 107-148.
- Utgoff, Paul E. Machine learning of inductive bias. Vol. 15. Springer Science & Business Media, 2012.
- Hildebrandt, Mireille. "Privacy as protection of the incomputable self: From agnostic to agonistic machine learning." Theoretical Inquiries in Law 20.1 (2019): 83-121.
- Mehrabi, Ninareh, et al. "A survey on bias and fairness in machine learning." arXiv preprint arXiv:1908.09635 (2019).
- Tikhonov, Andrey N., and Vasiliy Y. Arsenin. "Solutions of ill-posed problems." New York 1 (1977): 30.
- Combettes, Patrick L., and Valérie R. Wajs. "Signal recovery by proximal forward-backward splitting." Multiscale Modeling & Simulation 4.4 (2005): 1168-1200.
- Srivastava, Nitish, et al. "Dropout: a simple way to prevent neural networks from overfitting." The journal of machine learning research 15.1 (2014): 1929-1958.
- Rish, Irina. "An empirical study of the naive Bayes classifier." IJCAI 2001 workshop on empirical methods in artificial intelligence. Vol. 3. No. 22. 2001.
- Moore, Andrew W., and Mary S. Lee. "Efficient algorithms for minimizing cross validation error." Machine Learning Proceedings 1994. Morgan Kaufmann, 1994. 190-198.
- Cortes, Corinna, and Vladimir Vapnik. "Support-vector networks." Machine learning 20.3 (1995): 273-297.
- Cover, Thomas, and Peter Hart. "Nearest neighbor pattern classification." IEEE transactions on information theory 13.1 (1967): 21-27.
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)