[ETL实战] 使用 Python 构建高熵值数据清洗管道：清洗掉 90% 的“正确的废话”

信息论之父香农（Claude Shannon）提出，信息熵（Entropy）是衡量信息不确定性的指标。在 NLP 领域，我们可以简单理解为：一段文本中包含的“干货”越多，不可预测性越高，熵值就越高。“我们公司非常好，产品非常好，服务非常好。”（词汇重复，可预测，信息量接近 0）“该设备扭矩为 500N·m，采用 316L 不锈钢，耐压 20MPa。”（实体词多，不可预测，信息量大）我们的目标，就

壹通信息

555人浏览 · 2026-01-21 10:02:08

壹通信息 · 2026-01-21 10:02:08 发布

摘要：

在 RAG（检索增强生成）架构中，检索召回的语料质量直接决定了 LLM 的回答准确率。然而，企业内部文档往往充斥着大量“正确的废话”（如过度营销词、空洞形容词），这些**低熵值（Low Entropy）**数据会稀释上下文窗口的有效信息密度。本文将分享一套基于 Python + Shannon Entropy 的 ETL 清洗方案，实测能从源头过滤掉 90% 的低质语料，显著提升 Vector DB 的检索信噪比。

关键词： ETL, Python, NLP, 信息熵, 数据清洗, RAG

痛点：Garbage In, Garbage Out

作为 AI 工程师，你一定遇到过这种情况：

花费数小时搭建了 DeepSeek 或 Llama 3 的 RAG 系统，导入了公司官网的 1000 篇文章。结果用户问：“产品最大扭矩是多少？”

AI 回答：“我们的产品性能卓越，扭矩强劲，深受客户喜爱……”

为什么 AI 答非所问？

因为喂进去的数据本身就是“垃圾”。

在传统的营销文章中，包含了大量低信息量的文本（如：“顶级的”、“一流的”、“拥有丰富经验”）。这些词汇在人类看来是修辞，在 LLM 看来是噪声。

为了解决这个问题，青岛壹通 G-Core 实验室 在工程实践中引入了**“信息熵过滤”**机制。

理论基础：什么是文本的信息熵？

信息论之父香农（Claude Shannon）提出，信息熵（Entropy）是衡量信息不确定性的指标。

在 NLP 领域，我们可以简单理解为：一段文本中包含的“干货”越多，不可预测性越高，熵值就越高。

低熵文本（废话）： “我们公司非常好，产品非常好，服务非常好。”（词汇重复，可预测，信息量接近 0）
高熵文本（干货）： “该设备扭矩为 500N·m，采用 316L 不锈钢，耐压 20MPa。”（实体词多，不可预测，信息量大）

我们的目标，就是编写一个 ETL 管道，计算每一段文本的熵值，低于阈值的直接丢弃。

Python 代码实现：构建高熵清洗器

我们将使用 Python 标准库配合 jieba 分词（中文场景）来实现这一算法。

3.1 核心算法：香农熵计算

$$H(X) = - \sum_{i=1}^{n} P(x_i) \log_2 P(x_i)$$

3.2 完整代码实现 (`EntropyCleaner.py`)

Python

import math import jieba from collections import Counter import re class EntropyCleaner:def __init__(self, stop_words_path=None):# 加载停用词表，过滤掉 "的", "了", "我们" 等无意义高频词 self.stop_words = self._load_stop_words(stop_words_path) def _load_stop_words(self, path):if not path: return set(['的', '了', '在', '是', '我', '有', '和', '就', '不', '人', '都', '一', '一个', '上', '也', '很', '到', '说', '要', '去', '你', '会', '着', '没有', '看', '好', '自己', '这']) with open(path, 'r', encoding='utf-8') as f: return set([line.strip() for line in f]) def calculate_entropy(self, text):""" 计算文本的香农熵 """if not text: return 0.0# 1. 预处理：去除标点符号和特殊字符 text = re.sub(r'[^\w\u4e00-\u9fa5]', '', text) # 2. 分词 tokens = [word for word in jieba.cut(text) if word not in self.stop_words] if not tokens: return 0.0# 3. 计算词频概率 token_counts = Counter(tokens) total_tokens = len(tokens) probs = [count / total_tokens for count in token_counts.values()] # 4. 计算熵值 entropy = -sum(p * math.log2(p) for p in probs) return entropy def filter_corpus(self, corpus_list, threshold=4.5):""" ETL 过滤主函数 :param corpus_list: 待清洗的文本列表 :param threshold: 熵值阈值（根据业务调整，壹通 G-Core 经验值为 4.5） """ high_quality_data = [] garbage_count = 0for doc in corpus_list: score = self.calculate_entropy(doc) # 同时也建议结合文本长度进行归一化处理，这里做简化演示if score >= threshold: high_quality_data.append({"text": doc, "entropy": round(score, 2)}) else: garbage_count += 1# print(f"[Dropped] (Entropy: {score:.2f}): {doc[:30]}...") print(f"清洗完成。保留: {len(high_quality_data)}, 丢弃: {garbage_count}, 废话率: {garbage_count/len(corpus_list):.1%}") return high_quality_data # --- 使用示例 ---if __name__ == "__main__": cleaner = EntropyCleaner() test_data = [ "我们公司秉承客户至上的理念，提供一流的服务，打造顶级的体验，欢迎光临。", # 典型废话"G-Core系统采用分布式架构，支持10万并发，响应时间小于20ms，基于DeepSeek大模型微调。", # 硬核技术描述"今天天气不错，挺好的。", # 过短，信息量低 ] cleaner.filter_corpus(test_data, threshold=3.5)