spaCy自然语言处理实战:spaCy基础与实践-自然语言处理入门

本文介绍了使用spaCy进行文本分析的基本方法。主要内容包括：1）实验环境准备，安装spaCy离线包和模型；2）文本预处理步骤如清洗、标准化和分词；3）分词与词性标注的实现及结果解析；4）命名实体识别(NER)功能的应用。通过示例代码演示了如何使用spaCy的预训练模型完成这些基础NLP任务，包括显示分词、词性标注和识别文本中的实体信息。这些技术为后续更复杂的自然语言处理任务奠定了基础。

WSSWWWSSW

447人浏览 · 2025-09-04 17:36:25

WSSWWWSSW · 2025-09-04 17:36:25 发布

使用spaCy进行文本分析

学习目标

本课程将深入介绍自然语言处理（NLP）的基础概念，特别是通过使用spaCy库来实现文本预处理、分词、词性标注和命名实体识别。通过本课程的学习，你将能够掌握使用spaCy进行基本NLP任务的方法，为更深入的学习和实践打下坚实的基础。

学习内容

1 spaCy进行文本分析

1.1 实验环境准备(`上面安装完成后，这里可以跳过`)

运行以下命令下载spaCy离线安装包，安装实验所需的python依赖和spaCy模型。

!wget https://model-community-picture.obs.cn-north-4.myhuaweicloud.com/ascend-zone/notebook_codes/0e49210a2fd911f0990ffa163edcddae/en_core_web_sm-3.7.1.tar.gz

pip install wheel==0.44.0
pip install en_core_web_sm-3.7.1.tar.gz

1.2 文本预处理

在自然语言处理中，文本预处理是一个非常重要的步骤，它直接影响到后续处理的效果。文本预处理主要包括文本清洗、标准化、分词等步骤。文本清洗是指去除文本中的噪声，如HTML标签、特殊字符等；标准化则是将文本转换成统一的格式，如将所有字母转换为小写；分词则是将连续的文本分割成有意义的单元，如单词或短语。

在spaCy中，文本预处理可以通过加载预训练的模型来实现。这些模型已经包含了分词、词性标注、命名实体识别等功能，可以直接应用于文本数据。下面是一个简单的例子，展示如何使用spaCy进行文本预处理：

import spacy

# 加载预训练的英文模型
nlp = spacy.load('en_core_web_sm')

# 示例文本
text = "Steve Jobs introduced the iPhone in 2007."


# 使用模型处理文本
doc = nlp(text)

# 输出分词结果
print("分词结果：")
for token in doc:
    print(token.text)

# 输出词性标注
print("\n词性标注：")
for token in doc:
    print(f"{token.text}: {token.pos_}")

# 输出命名实体识别结果
print("\n命名实体识别：")
for entity in doc.ents:
    print(f"{entity.text}: {entity.label_}")

分词结果：
Steve
Jobs
introduced
the
iPhone
in
2007
.

词性标注：
Steve: PROPN
Jobs: PROPN
introduced: VERB
the: DET
iPhone: PROPN
in: ADP
2007: NUM
.: PUNCT

命名实体识别：
Steve Jobs: PERSON
iPhone: ORG
2007: DATE

1.3 分词与词性标注

分词是将文本分割成单词或短语的过程，而词性标注则是为每个单词分配一个词性标签，如名词、动词、形容词等。这两个步骤是自然语言处理中非常基础且重要的任务，它们为后续的文本分析提供了结构化的信息。

在spaCy中，分词和词性标注是通过加载预训练模型来实现的。这些模型已经训练好了分词和词性标注的规则，可以直接应用于新的文本数据。下面是一个更详细的例子，展示如何使用spaCy进行分词和词性标注：

import spacy

# 加载预训练的英文模型
nlp = spacy.load('en_core_web_sm')

# 示例文本
text = "SpaCy is an open-source software library for advanced natural language processing."

# 使用模型处理文本
doc = nlp(text)

# 输出分词结果
print("分词结果：")
for token in doc:
    print(token.text)

# 输出词性标注
print("\n词性标注：")
for token in doc:
    print(f"{token.text}: {token.pos_}")

# 输出详细的词性信息
print("\n详细的词性信息：")
for token in doc:
    print(f"{token.text}: {token.tag_} ({token.pos_})")

分词结果：
SpaCy
is
an
open
-
source
software
library
for
advanced
natural
language
processing
.

词性标注：
SpaCy: PROPN
is: AUX
an: DET
open: ADJ
-: PUNCT
source: NOUN
software: NOUN
library: NOUN
for: ADP
advanced: ADJ
natural: ADJ
language: NOUN
processing: NOUN
.: PUNCT

详细的词性信息：
SpaCy: NNP (PROPN)
is: VBZ (AUX)
an: DT (DET)
open: JJ (ADJ)
-: HYPH (PUNCT)
source: NN (NOUN)
software: NN (NOUN)
library: NN (NOUN)
for: IN (ADP)
advanced: JJ (ADJ)
natural: JJ (ADJ)
language: NN (NOUN)
processing: NN (NOUN)
.: . (PUNCT)

在这个例子中，token.pos_返回的是词性的通用标签，而token.tag_返回的是更详细的词性标签。通过这些信息，可以更准确地理解文本的结构和内容。

1.4 命名实体识别

命名实体识别（NER）是自然语言处理中的一个重要任务，它旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。命名实体识别在信息提取、问答系统、情感分析等领域有着广泛的应用。

在spaCy中，命名实体识别是通过加载预训练模型来实现的。这些模型已经训练好了识别各种实体的规则，可以直接应用于新的文本数据。下面是一个例子，展示如何使用spaCy进行命名实体识别：

import spacy

# 加载预训练的英文模型
nlp = spacy.load('en_core_web_sm')

# 示例文本
text = "Apple is looking at buying U.K. startup for $1 billion."

# 使用模型处理文本
doc = nlp(text)

# 输出命名实体识别结果
print("命名实体识别：")
for entity in doc.ents:
    print(f"{entity.text}: {entity.label_}")

命名实体识别：
Apple: ORG
U.K.: GPE
$1 billion: MONEY

在这个例子中，entity.label_返回的是实体的类型，如ORG表示组织名，GPE表示地名，MONEY表示金额。通过这些信息，可以快速地从文本中提取出重要的实体信息。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

提升Angular2-HN性能的7个实用技巧：让新闻加载速度飞起来

Angular2-HN是一款基于Angular构建的Progressive Hacker News客户端，专为追求高效新闻浏览体验的用户设计。本文将分享7个实用技巧，帮助你优化Angular2-HN的性能，让新闻加载速度显著提升，带来更流畅的阅读体验。## 1. 启用Service Worker缓存关键资源Service Worker是提升Angular应用性能的强大工具，它可以在后台缓存