(Pandas: How to prepare a Multi-Label Dataset? )

 

当进行mutli-class多标签分类任务的数据集构建时,通常我们会需要对如下这样的csv进行处理:

使用sklearn中MultiLabelBinarizer,只需简单的四行代码,即可转换成模型所需要的数据集格式,具体代码如下:

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
mlb_result = mlb.fit_transform([str(df.loc[i,'categories']).split(' ') for i in range(len(df))])
df_final = pd.concat([df['text'],pd.DataFrame(mlb_result,columns=list(mlb.classes_))],axis=1)
df_final

操作完毕并保存,即可直接输入多标签分类bert模型中进行fine-tuning。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐