概率潜在语义分析（Probabilistic Latent Semantic Analysis，PLSA）

文章目录1. 概率潜在语义分析模型1.1 基本想法概率潜在语义分析（probabilistic latent semantic analysis，PLSA），也称概率潜在语义索引（probabilistic latent semantic indexing，PLSI）利用概率生成模型对文本集合进行话题分析的无监督学习方法最大特点：用隐变量表示话题整个模型表示文本生成话题，话题生成单词，...

Michael阿明

3457人浏览 · 2020-05-01 18:08:49

Michael阿明 · 2020-05-01 18:08:49 发布

文章目录

概率潜在语义分析（probabilistic latent semantic analysis，PLSA），也称概率潜在语义索引（probabilistic latent semantic indexing，PLSI）

利用概率生成模型对文本集合进行话题分析的无监督学习方法
最大特点：用隐变量表示话题
整个模型表示 文本生成话题，话题生成单词，从而得到单词-文本共现数据的过程
假设每个文本由一个话题分布决定，每个话题由一个单词分布决定

1. 概率潜在语义分析模型

概率潜在语义分析模型有生成模型，以及等价的共现模型

1.1 基本想法

给定文本集合，每个文本讨论若干个话题，每个话题由若干个单词表示
对文本集合进行概率潜在语义分析，就能够发现每个文本的话题，以及每个话题的单词
话题是不能从数据中直接观察到的，是潜在的

1.2 生成模型

在这里插入图片描述
文本-单词共现数据 $T$ 的生成概率为 $\prod\limits_{(w,d)} P(w,d)^{n(w,d)}$
$P(d)\sum\limits_z P(w,z|d) = P(d)\sum\limits_z P(z|d)P(w|z)$

1.3 共现模型

在这里插入图片描述
文本-单词共现数据 $T$ 的生成概率为 $\prod\limits_{(w,d)} P(w,d)^{n(w,d)}$
$\sum\limits_{z\in Z} P(z)P(w|z)P(d|z)$
文本数据基于如下的概率模型产生（共现模型）：

首先有话题 z 的概率分布
然后有话题 z 给定条件下文本的条件概率分布
以及话题 z 给定条件下单词的条件概率分布

1.4 模型性质

在这里插入图片描述
概率潜在语义分析通过话题对数据进行了更简洁地表示，减少了学习过程中过拟合的可能性

2. 概率潜在语义分析的算法

概率潜在语义分析模型是含有隐变量的模型，其学习通常使用 EM算法。

模型参数估计的EM算法：

输入：单词集合 $W=\{w_1,w_2,...,w_M\}$ ，文本集合 $D=\{d_1,d_2,...,d_N\}$ ，话题集合 $Z=\{z_1,z_2,...,z_K\}$ ，共现数据 ${n(w_i,d_j)\},i=1,2,...,M; j=1,2,...,N$

输出： $P(w_i|z_k)$ ， $P(z_k|d_j)$

设置参数 $P(w_i|z_k)$ ， $P(z_k|d_j)$ 的初始值
迭代执行以下 E 步， M 步，直到收敛为止
E 步：
$P(z_k|w_i,d_j) = \frac{P(w_i|z_k)P(z_k|d_j)}{\sum\limits_{k=1}^K P(w_i|z_k)P(z_k|d_j)}$
M 步：
$P(w_i|z_k) = \frac{\sum\limits_{j=1}^N n(w_i,d_j)P(z_k|w_i,d_j)}{\sum\limits_{m=1}^M \sum\limits_{j=1}^N n(w_m,d_j)P(z_k|w_m,d_j)}$
$P(z_k|d_j) = \frac{\sum\limits_{i=1}^M n(w_i,d_j)P(z_k|w_i,d_j)}{n(d_j)}$

给定文本集合，通过概率潜在语义分析，可以得到 各个文本生成话题的条件概率分布，以及各个话题生成单词的条件概率分布

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r