大赛介绍

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。

大赛迄今已成功举办九届,累计吸引全球25个国家,1500余所高校、1800余家企事业单位及80余所科研机构的16万余人参与,已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。2022年,我们将迎来第十届CCF BDCI,十年磨砺,创新聚力再出发,CCF BDCI将进一步扩大影响力,关注数字经济技术发展与人才培养,助力推动我国大数据技术及产业生态发展。

本赛题为大赛赛题之一,另含算法赛道、自主平台赛道、系统赛道、训练赛道等二十余道竞技及训练赛题,查看全部赛题可点击进入 2022 CCF大数据与计算智能大赛(CCF BDCI) 官网。

赛题任务

本任务为信息抽取中的关系抽取任务,如图所示,带抽取的文本语料为工业制造领域的相关故障案例文本。

通过从大量故障案例文本抽取出部件单元、性能表征、故障状态、检测工具等实体及其关系,可以为后续高端装备制造业故障知识图谱构建和故障智能检修和实时诊断打下坚实基础。本任务需要从故障案例文本自动抽取4种类型的关系和4种类型的实体。关系类型为:部件单元的故障状态、性能表征的故障状态、部件单元和性能表征的检测工具、部件单元之间的组成关系。
具体定义如下:
实体类型

实体类型名称 说明 示例
部件单元 高端装备制造领域中的各种单元、零件、设备 “燃油泵”、“换流变压器”、“分离器”
性能表征 部件的特征或者性能描述 “压力”、“转速”、“温度”
故障状态 系统或部件的故障状态描述,多为故障类型 “漏油”、“断裂”、“变形”、“卡滞”
检测工具 用于检测某些故障的专用仪器 “零序互感器”、“保护器”、“漏电测试仪”

关系类型

主体 客体 关系 主体示例 客体示例
部件单元 故障状态 部件故障 发动机盖 抖动
性能表征 故障状态 性能故障 液面 变低
检测工具 性能表征 检测工具 漏电测试仪 电流
部件单元 部件单元 组成 断路器 换流变压器

数据简介

本次评测任务的数据采用人工标注和专家复核的方式,确保语料标注样本质量。本任务提供的训练数据集和评测数据集均为文本文件格式。

数据说明

• 训练集

每行为一个关系样本(Json格式,ID,样本id,A榜训练集为AT开头,评测集为AE开头,B榜评测集为BE开头;text:故障文本内容;spo_list:三元组信息;h:头实体;t:尾实体;name:实体名;pos:实体在文本中的位置,前开后闭;relation:关系名),评测集每行为一个案例样本,案例样本既有长文本,也有短文本。
示例如下:

故障案例样例:


{
	"ID": "AT0001",
	"text":"故障现象:车速到100迈以上发动机盖后部随着车速抖动。故障原因简要分析:经技术人员试车;怀疑发动机盖锁或发动机盖铰链松旷。",
	"spo_list":[
		{"h": {"name": "发动机盖", "pos": [14, 18]},
		"t": {"name": "抖动", "pos": [24, 26]},
		"relation": "部件故障"},
		{"h": {"name": "发动机盖锁", "pos": [46, 51]},
		"t": {"name": "松旷", "pos": [58, 60]},
		"relation": "部件故障"},
		{"h": {"name": "发动机盖铰链", "pos": [52, 58]},
		"t": {"name": "松旷", "pos": [58, 60]},
		"relation":"部件故障"}
	]
}

• 测试集

A榜测试集:

{“ID”: “AE0001”,
“text”:“燃油泵的作用是将燃油加压输送到喷油器,当燃油泵损坏后,燃油将不能正常喷入发动机气缸,因此将影响发动机的正常运转,使得发动机出现加速不良的症状,情况严重时将导致发动机无法起动。”}

B榜测试集:

{“ID”: “BE0001”,
“text”:“减振器活塞与缸体发卡,工作阻力过大诊断排除。”}

提交要求

• 初赛阶段

参赛者将结果以单个json文件提交到平台,平台进行在线评分,实时排名。以截止日排名决出入围决赛的队伍;
模型的数据输入格式必须为评测集的数据格式。举办方通过后台运行选手程序验证评测集。评测结果文件以json格式提交,并且文件内容格式要和提交示例严格一致。
在线评估提交限制:每个参赛团队每天最多提交3次结果文件,如果新提交结果好于之前提交结果,排行榜中的成绩将自动进行更新覆盖。

• 复现阶段
初赛B榜TOP5队伍进入复现阶段,需要按照要求提提交复现资料,复现结束后公布入围决赛团队名单。
参赛者将所需要的各类文档、源代码等压缩打包后提交,要求源码可以复现榜单结果。
提交的资料包括但不限于:模型源代码、评测结果文件、模型运行方式readme文件、所需包的requirements.txt文件(以实际通知为准)。

官方基线

赛题合作单位【达观数据】为参赛选手提供官方baseline以供参考,参赛选手可点击 【下载查看官方baseline】

提交示例

• 初赛阶段
评测结果文件命名方式为evalResult.json;编码格式为UTF-8,并且无BOM头。文件格式如下:

{
	"ID":"AE0002",
	"text":"故障现象:车速到100迈以上发动机盖后部随着车速抖动。故障原因简要分析:经技术人员试车;怀疑发动机盖锁或发动机盖铰链松旷。",
	"spo_list":[
		{"h": {"name": "发动机盖", "pos": [14, 18]},
		"t": {"name": "抖动", "pos": [24, 26]},
		"relation": "部件故障"},
		{"h": {"name": "发动机盖锁", "pos": [46, 51]},
		"t": {"name": "松旷", "pos": [58, 60]},
		"relation": "部件故障"},
		{"h": {"name": "发动机盖铰链", "pos": [52, 58]},
		"t": {"name": "松旷", "pos": [58, 60]},
		"relation":"部件故障"}
	]
}

• 复现阶段

参赛者提交方案压缩包的目录结构以及文件如下, “.”表示根目录:
./model
./code
./evalResult.json
./requirements.txt
./Readme
参赛者最后提交的requirements文件格式为txt,每行有对应的包以及版本;
requirements文件示例:
pdfplumber==0.7.1
python-pptx==0.6.21

备注:复现资料以实际通知为准

评测标准

本次评测任务采用微F1 值(micro-F1)来评估关系抽取效果。对于每一种关系,相关的定义如下:
识别关系的精确率 = 识别关系与标注相同的数量 / 识别关系总数量
识别关系的召回率 = 识别关系与标注相同的数量 / 标注关系总数量

关系抽取的F1 = 2 * (识别关系的精确率* 识别关系的召回率)/(识别关系的精确率+ 识别关系的召回率)
识别关系与标注相同指两个三元组的h.name、t.name、h.pos、t.pos和relation都相同,即主体、客体、关系类型都需要识别正确。

最终结果F1定义为各个实体的F1的微平均:
F1 = (部件故障关系F1*部件故障关系数 + 性能故障关系F1*性能故障关系数 + 检测工具关系F1*检测工具关系数 + 组成关系F1*组成关系数)/所有的关系数

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐