paddlepaddle百度飞浆使用体验二----中文文本分类
1 相关链接ERNIE代码:https://github.com/PaddlePaddle/ERNIE/tree/develop/ERNIE2 具体使用2.1 使用步骤下载数据:下载模型(含配置文件及词典)以及任务数据。解压模型和任务数据,开始训练,执行bash script/run_ChnSentiCorp.sh,附上修改后的run_ChnSentiCorp.shset -e...
·
1 相关链接
ERNIE代码:https://github.com/PaddlePaddle/ERNIE/tree/develop/ERNIE
2 具体使用
2.1 使用步骤
- 下载数据:

下载模型(含配置文件及词典)以及任务数据。 - 解压模型和任务数据,开始训练,执行bash script/run_ChnSentiCorp.sh,附上修改后的run_ChnSentiCorp.sh
set -eux
export FLAGS_sync_nccl_allreduce=1
export CUDA_VISIBLE_DEVICES=0
export TASK_DATA_PATH=/path/to/task_data
export MODEL_PATH=/path/to/ERNIE_STABLE
python -u run_classifier.py \
--use_cuda true \
--verbose true \
--do_train true \
--do_val true \
--do_test true \
--batch_size 24 \
--init_pretraining_params ${MODEL_PATH}/params \
--train_set ${TASK_DATA_PATH}/chnsenticorp/train.tsv \
--dev_set ${TASK_DATA_PATH}/chnsenticorp/dev.tsv \
--test_set ${TASK_DATA_PATH}/chnsenticorp/test.tsv \
--vocab_path config/vocab.txt \
--checkpoints ./checkpoints \
--save_steps 1000 \
--weight_decay 0.01 \
--warmup_proportion 0.0 \
--validation_steps 100 \
--epoch 10 \
--max_seq_len 256 \
--ernie_config_path config/ernie_config.json \
--learning_rate 5e-5 \
--skip_steps 10 \
--num_iteration_per_drop_scope 1 \
--num_labels 2 \
--random_seed 1
- 代码解读

2.2 结果

对于简单的中文文本二分类效果还是挺好的。
3 总结
- 百度把基本框架都给搭好了,总体上使用体验还是蛮好的,总之再熟悉下其函数的API就可以利用这些基础模型在中文数据集上大展身手了。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)