Elasticsearch 7.X 自然语言处理分词器 hanlp 使用

小毕超

9057人浏览 · 2022-01-02 20:37:36

小毕超 · 2022-01-02 20:37:36 发布

一、hanlp分词器

上篇文章我们讲解pinyin分词器的使用，本篇文章我们学习下业界公认的hanlp分词器。

上篇文章地址：https://blog.csdn.net/qq_43692950/article/details/122277313

hanlp是一个自然语言处理包，能更好的根据上下文的语义，人名，地名，组织机构名等来切分词。其中hanlp在业界的名声最响。

其中hanlp内置分词器：

分析器(Analysis)

hanlp_index：细粒度切分
hanlp_smart：常规切分
hanlp_nlp：命名实体识别
hanlp_per：感知机分词
hanlp_crf：CRF分词
hanlp：自定义

分词器(Tokenizer)

hanlp_index：细粒度切分
hanlp_smart：常规切分
hanlp_nlp：命名实体识别
hanlp_per：感知机分词
hanlp_crf：CRF分词
hanlp：自定义

注意：hanlp没有和es同步更新，使用es高版本会出现各种各样的错误，本篇文章使用es7.8.0版本的es

二、hanlp分词器的编译和安装

下载hanlp插件

https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases

在这里插入图片描述

下载完之后，修改pom文件，将es的版本，修改为7.8.0，和你当前es的版本一致即可。

在这里插入图片描述
下载完成后，进入es安装目录的bin下，加载插件：

elasticsearch-plugin install file:///D:/ABCTopBXCLearn/shangguigu/7.8.0/elasticsearch-analysis-hanlp-7.8.0.zip

在这里插入图片描述

重新启动es。

三、分词测试

向es服务器发送Get请求：

http://127.0.0.1:9200/_analyze

请求体内容为：

{
  "text": "使用hanlp进行中文分词演示",
  "analyzer":"hanlp"
}

在这里插入图片描述

四、数据包的更新

release包中存放的为HanLP源码中默认的分词数据。下载最新的数据模型可进入hanlp的github中下载：

https://github.com/hankcs/HanLP/releases

在这里插入图片描述
将两个目录直接覆盖到es安装目录下plugins\analysis-hanlp\data

在这里插入图片描述
喜欢的小伙伴可以关注我的个人微信公众号，获取更多学习资料！

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模