命名实体识别（NER）任务的几种处理思路（自然语言处理项目感悟）

今天和华泰总部的陈姓算法总监聊天，聊到了当前较为实用的处理NER任务的算法方案；今天借着这个机会和大家简单交流下，有心的小伙伴拿好小本子，要开始记笔记了！！！我们算法组陆陆续续做了HTZQ的81个大类的序列标注任务，个人这边做了接近30个类别的NER任务，属实是试验了多种多样的NER方案，感受颇多。接下来我这边针对金融领域上市公司的公告数据中的实体识别任务，进行简单总结：1、金融领域数据特点：数据

福将～白鹿

2120人浏览 · 2021-12-02 18:01:11

福将～白鹿 · 2021-12-02 18:01:11 发布

今天和华泰总部的陈姓算法总监聊天，聊到了当前较为实用的处理NER任务的算法方案；今天借着这个机会和大家简单交流下，有心的小伙伴拿好小本子，要开始记笔记了！！！

在这里插入图片描述

我们算法组陆陆续续做了HTZQ的81个大类的序列标注任务，个人这边做了接近30个类别的NER任务，属实是试验了多种多样的NER方案，感受颇多。接下来我这边针对金融领域上市公司的公告数据中的实体识别任务，进行简单总结：

1、金融领域数据特点：

数据稀缺，金融领域的数据稀缺程度超出了我的想象，在我亲自操刀处理的近30个类别中，数据较为充盈的训练集+验证集+测试集全部数据也就300-400条，例如：股份转让、借款类的关联交易等；而更多的是数据稀缺的类别，例如：申请破产清算和法院受理破产清算等，全量数据仅50-60条；
数据标注质量参差不齐，其实这个问题也可以理解，一共就这么点数据，还没标顺手呢，就结束了…，还有一个问题就是各个类别之间要素标注差异较大，很难确定一个一锤定音的标准。

2、个人尝试NER方案包括：