Hazm命名实体识别（NER）实战：从训练到部署的完整指南

Hazm是一款强大的波斯语自然语言处理工具包，提供了全面的命名实体识别（NER）功能。本文将带你通过简单步骤掌握从数据准备到模型部署的完整流程，轻松实现波斯语文本中的实体提取任务。## 快速入门：Hazm NER工具包简介Hazm的NER模块基于条件随机场（CRF）算法，专为波斯语优化。项目核心代码位于[hazm/corpus_readers/ner_reader.py](https://

gitblog_00022

368人浏览 · 2026-02-28 01:13:45

gitblog_00022 · 2026-02-28 01:13:45 发布

Hazm命名实体识别（NER）实战：从训练到部署的完整指南

【免费下载链接】hazm Persian NLP Toolkit 项目地址: https://gitcode.com/gh_mirrors/ha/hazm

Hazm是一款强大的波斯语自然语言处理工具包，提供了全面的命名实体识别（NER）功能。本文将带你通过简单步骤掌握从数据准备到模型部署的完整流程，轻松实现波斯语文本中的实体提取任务。

快速入门：Hazm NER工具包简介

Hazm的NER模块基于条件随机场（CRF）算法，专为波斯语优化。项目核心代码位于hazm/corpus_readers/ner_reader.py，提供了高效的语料读取和处理功能。通过NerReader类，你可以轻松加载波斯语NER语料库，该语料库包含2500万标记 token 和约100万句子，涵盖人名、地名、组织等多种实体类型。

核心功能亮点

支持IOB标签格式（如B-PER、I-ORG等实体标记）
内置特征工程模块，自动提取词形、词性等上下文特征
提供完整的模型训练、评估和部署工具链
兼容波斯语复杂 morphology和句法结构

环境准备：5分钟安装指南

1. 克隆项目仓库

git clone https://gitcode.com/gh_mirrors/ha/hazm
cd hazm

2. 安装依赖

pip install -r requirements.txt

3. 验证安装

from hazm import NerReader
ner = NerReader("path/to/corpus")
print(next(ner.sents()))  # 应输出带实体标签的句子示例

数据准备：高效处理波斯语NER语料

语料格式说明

Hazm NER语料采用每行一个token的格式，包含词与实体标签两列，空行分隔句子：

ویکی‌پدیای	O
انگلیسی	O
در	B-DAT
تاریخ	I-DAT
۱۵	I-DAT
ژانویه	I-DAT
۲۰۰۱	I-DAT
(	O
میلادی	B-DAT
)	O
...

使用NerReader加载数据

from hazm.corpus_readers.ner_reader import NerReader

# 初始化阅读器
ner_reader = NerReader("path/to/ner_corpus_folder")

# 迭代获取句子
for sentence in ner_reader.sents():
    # sentence格式: [(' token1 ', ' tag1 '), (' token2 ', ' tag2 '), ...]
    print(sentence)
    break  # 仅显示第一句

模型训练：构建自定义NER模型

Hazm提供hazm/sequence_tagger.py模块实现CRF模型训练，支持自定义特征和超参数调优。

完整训练代码

from hazm import SequenceTagger
from hazm.corpus_readers.ner_reader import NerReader

# 1. 加载训练数据
ner = NerReader("path/to/train_corpus")
train_data = list(ner.sents())

# 2. 初始化序列标注器
tagger = SequenceTagger()

# 3. 训练模型（可调整超参数）
tagger.train(
    tagged_list=train_data,
    c1=0.4,          # L1正则化系数
    c2=0.04,         # L2正则化系数
    max_iteration=400, # 最大迭代次数
    file_name="persian_ner.model"  # 模型保存路径
)

# 4. 评估模型性能
test_ner = NerReader("path/to/test_corpus")
test_data = list(test_ner.sents())
accuracy = tagger.evaluate(test_data)
print(f"模型准确率: {accuracy:.4f}")

关键参数调优建议

c1和c2：控制正则化强度，值越大模型越简单
max_iteration：迭代次数不足会欠拟合，过多可能过拟合
特征工程：可通过自定义data_maker函数添加领域特定特征

模型部署：3种实用集成方式

1. 基础Python API调用

from hazm import SequenceTagger

# 加载训练好的模型
tagger = SequenceTagger(model="persian_ner.model")

# 预测新句子
tokens = ["محمدرضا", "در", "تهران", "زندگی", "می‌کند"]
result = tagger.tag(tokens)
print(result)
# 输出: [('محمدرضا', 'B-PER'), ('در', 'O'), ('تهران', 'B-LOC'), ('زندگی', 'O'), ('می‌کند', 'O')]

2. 批量处理文本

# 处理多个句子
sentences = [
    ["سلمان", "رجبی", "در", "کشور", "ایران", "زنده", "است"],
    ["شرکت", "الکتریک", "کشور", "موسسه", "برق", "است"]
]
results = tagger.tag_sents(sentences)
for res in results:
    print(res)

3. 集成到生产系统

将模型封装为API服务：

# 使用Flask构建简单API
from flask import Flask, request, jsonify

app = Flask(__name__)
tagger = SequenceTagger(model="persian_ner.model")

@app.route('/ner', methods=['POST'])
def ner_endpoint():
    data = request.json
    tokens = data.get('tokens', [])
    result = tagger.tag(tokens)
    return jsonify(result)

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

高级技巧：提升NER性能的5个秘诀

1. 数据增强

通过hazm/normalizer.py和hazm/informal_normalizer.py处理波斯语特殊字符和非正式表达，扩充训练数据多样性。

2. 特征工程

自定义特征函数增强模型表示能力：

def custom_features(sent, index):
    features = {
        "word": sent[index],
        "is_capital": sent[index][0].isupper(),
        "suffix": sent[index][-2:],  # 词尾特征
        # 添加更多领域相关特征
    }
    return features

3. 领域适应

使用特定领域语料微调模型：

# 加载预训练模型
tagger = SequenceTagger(model="general_ner.model")
# 使用医学领域数据微调
medical_data = list(NerReader("medical_corpus").sents())
tagger.train(medical_data, max_iteration=100, file_name="medical_ner.model")

4. 模型融合

结合多个模型输出提高鲁棒性：

# 加载不同参数训练的模型
tagger1 = SequenceTagger(model="model1.model")
tagger2 = SequenceTagger(model="model2.model")

# 投票机制融合结果
def ensemble_predict(tokens):
    pred1 = dict(tagger1.tag(tokens))
    pred2 = dict(tagger2.tag(tokens))
    return [(tok, pred1[tok] if pred1[tok]==pred2[tok] else 'O') for tok in tokens]

5. 错误分析

通过分析模型错误案例持续改进：

# 获取错误样本
test_data = list(NerReader("test_corpus").sents())
errors = []
for sent in test_data:
    tokens = [t for t, _ in sent]
    gold_tags = [tag for _, tag in sent]
    pred_tags = [tag for _, tag in tagger.tag(tokens)]
    for t, g, p in zip(tokens, gold_tags, pred_tags):
        if g != p:
            errors.append((t, g, p))

# 分析常见错误类型
from collections import Counter
error_types = Counter((g, p) for _, g, p in errors)
print(error_types.most_common(10))

常见问题与解决方案

Q: 模型训练时报内存不足错误？

A: 尝试分批次训练或减少特征维度，可修改hazm/sequence_tagger.py中的特征生成函数，减少特征数量。

Q: 如何处理罕见实体类型？

A: 增加该类型实体的训练样本，或使用hazm/utils.py中的数据平衡工具进行样本增强。

Q: 模型在非正式文本上表现不佳？

A: 使用informal_normalizer.py预处理文本，将非正式表达标准化后再输入模型。

总结与下一步学习

通过本文，你已掌握使用Hazm进行波斯语NER任务的完整流程，包括数据准备、模型训练和部署。建议进一步探索：

研究hazm/sequence_tagger.py中的CRF实现细节
尝试结合预训练语言模型提升NER性能
参与项目贡献，改进corpus_readers模块支持更多语料格式

Hazm项目持续更新，更多功能可查阅documentation/content/hazm/index.md获取最新信息。立即开始你的波斯语NLP之旅吧！

【免费下载链接】hazm Persian NLP Toolkit 项目地址: https://gitcode.com/gh_mirrors/ha/hazm

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模