深度学习数学基础之最大似然估计

假设有一个包含无数个小球的袋子，小球标记为1和2，标记1的小球占比为θ\thetaθ，标记2的小球占比为1−θ1-\theta1−θ。我们的目标是估计θ\thetaθ的值，但实际上这个比例是未知的。

YRr YRr

1096人浏览 · 2024-10-30 22:32:39

YRr YRr · 2024-10-30 22:32:39 发布

深度学习数学基础之最大似然估计

最大似然估计原理

在这里插入图片描述

最大似然估计（MLE, Maximum Likelihood Estimation）是统计学中一种基于概率模型的参数估计方法。其核心思想是：给定一个概率模型和一组观测数据，通过找到能使这组数据出现概率最大的参数值，从而估计模型参数。这种方法在众多领域内被广泛应用，尤其是在参数估计问题中。

最大似然估计的定义和原理

假设有一个包含无数个小球的袋子，小球标记为1和2，标记1的小球占比为 $θ\theta$ ，标记2的小球占比为 $1−θ1-\theta$ 。我们的目标是估计 $θ\theta$ 的值，但实际上这个比例是未知的。

抽样过程

考虑一个具体的抽样情况：连续抽取五个小球，观测到的结果序列为1、1、2、1、2。在这种情况下，我们可以认为每次抽取小球是独立的，因为球数众多，单次抽取对整体分布的影响微乎其微。

似然函数的构建

给定上述观测结果，似然函数（即这组观测数据的联合概率函数）表达为：
$L(\theta) = \theta^3 (1-\theta)^2$
这表示在参数为 $θ\theta$ 的条件下，观测到这一序列的概率。

最大化似然函数

最大似然估计的目的是找到能使 $L(θ)L(\theta)$ 最大的 $θ\theta$ 值。由于 $L(θ)L(\theta)$ 涉及到次方，直接求导并不直观，因此我们通常对 $L(θ)L(\theta)$ 取对数转化为对数似然函数，简化计算：
$\ln L(\theta) = 3 \ln \theta + 2 \ln(1-\theta)$
这步转换利用了对数函数的性质，将乘法转换为加法，使得求导和求解过程更为简单。

求解过程

对 $ln⁡L(θ)\ln L(\theta)$ 求关于 $θ\theta$ 的导数，并令导数为零求解 $θ\theta$ ：
$\frac{d}{d\theta} \ln L(\theta) = \frac{3}{\theta} - \frac{2}{1-\theta} = 0$
解这个方程可得 $θ=35\theta = \frac{3}{5}$ 。因此，根据最大似然估计， $θ=35\theta = \frac{3}{5}$ 是使得观测数据出现概率最大的参数估计值。

结论和合理性

这一结果意味着，如果我们抽取的五个小球中有3个标记为1，2个标记为2，那么最有可能的标记1的小球比例为 $35\frac{3}{5}$ ，标记2的小球比例为 $25\frac{2}{5}$ 。这种估计是基于已观测样本的最有可能的解释，虽然它并不能保证绝对准确，但在给定数据和模型下，是最合理的估计。

这个方法的优势在于它提供了一种客观的方式来从数据中估计未知参数。然而，它也依赖于模型的假设正确性，例如这里假设的独立同分布条件，以及对数似然函数单峰性（确保局部最大值即全局最大值）等。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

pry-rails源码探秘：Rails控制台增强插件的实现原理

pry-rails是一款为Rails >= 3应用提供Pry控制台支持的增强插件，它通过替换默认的IRB控制台，为开发者带来更强大的交互式编程体验。本文将深入剖析pry-rails的实现原理，帮助开发者理解其工作机制和核心功能。## Railtie：Rails集成的核心pry-rails的核心集成逻辑位于[lib/pry-rails/railtie.rb](https://link.git