TinyBERT 数据增强

TinyBERT: Distilling BERT for Natural Language Understanding

github

关于论文的解读已经有很多文章了,本文仅仅说明数据增强的步骤。

数据增强步骤
1.mask句子中的一个字词

​ 1) 如果该单词的只有一个字

​ 使用语言模型BERT预测出这个位置最有可能的m个词,作为候选集。

​ 2)如果该单词含有多个字

​ 使用GloVe的相似词向量的词汇进行组合,作为候选集。

2. 使用一个阈值p决定,是否将这个被mask的字词随机替换为候选集中的词汇。
3. 对文本中的每个词,重复地执行以上步骤,得到一个新的文本加入增强的数据集。

在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐