TinyBERT 数据增强
关于tinyBERT论文的解读已经有很多文章了,本文仅仅说明数据增强的步骤。
·
TinyBERT 数据增强
TinyBERT: Distilling BERT for Natural Language Understanding
关于论文的解读已经有很多文章了,本文仅仅说明数据增强的步骤。
数据增强步骤
1.mask句子中的一个字词
1) 如果该单词的只有一个字
使用语言模型BERT预测出这个位置最有可能的m个词,作为候选集。
2)如果该单词含有多个字
使用GloVe的相似词向量的词汇进行组合,作为候选集。
2. 使用一个阈值p决定,是否将这个被mask的字词随机替换为候选集中的词汇。
3. 对文本中的每个词,重复地执行以上步骤,得到一个新的文本加入增强的数据集。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)