基于Python的汽车知识图谱问答系统
因为不同的车型热度,关系热度不同,尽管按照特定关系构建query,但是抓取的数据却并不一定正确,但是直接用关系名字取过滤而得到的数据则会比较特定,后续会影响模型性能。关系识别分为四个模块,关系分类,简单关系匹配,复杂关系匹配与关系链接。关系分类模块应用机器学习分类的方法,对用户的问题进行分类,若分类结果置信度高于阈值,则输出对应的分类记过即可。关于汽车问答的问答数据没有公开的数据集,因此需要进行构
目录
1 技术路线 1
2 实体识别与实体链接 4
2.1 实体识别 4
2.2 实体链接 11
3 关系识别 19
3.1 关系分类 20
3.2 简单关系匹配 28
3.3 复杂关系匹配 31
3.4 关系链接 33
4 sparql 查询 33
4.1 汽车品牌关系查询 33
4.2 汽车车系关系查询 35
4.3 汽车车型关系查询 40
4.4 复杂关系查询 41
3 关系识别
关系识别在系统中主要应用于识别用户提问的问题是在问什么类型的问题,是问汽车的厂商指导价,上市时间还是问百米加速的速度等。关系识别分为四个模块,关系分类,简单关系匹配,复杂关系匹配与关系链接。
3.1 关系分类
关系分类模块应用机器学习分类的方法,对用户的问题进行分类,若分类结果置信度高于阈值,则输出对应的分类记过即可。阈值选择0.6。
3.1.1 数据准备
关于汽车问答的问答数据没有公开的数据集,因此需要进行构建,构建思路为定向爬取特定关系下的问题,然后通过人工标注的方法进行标注。
3.1.1.1 数据爬取
爬取方法见2.1.1.1和2.1.1.2即可,共爬取95种关系,共63057条数据。因为不同的车型热度,关系热度不同,尽管按照特定关系构建query,但是抓取的数据却并不一定正确,但是直接用关系名字取过滤而得到的数据则会比较特定,后续会影响模型性能。
3.1.1.2 人工标注
爬取数据带有关系标签,但是标签可能不准,所以要经过人工审核选择标注准确的数据。考虑到效率问题,先对数据进行一次聚类,将相似数据归类,便于审核。
首先将所有数据转化为一个tfidf矩阵,根据每种标签将数据分为对应的类别。对于每一个类别进行类别内的聚类,聚类方法使用kmeans,簇数量选择10。因为该工作的目的只为了方便筛选,所以考虑到每种关系数据不超过1000条,因此选择了10个簇,每个簇100左右。
import logging
# now we patch Python code to add color support to logging.StreamHandler
def add_coloring_to_emit_windows(fn):
# add methods we need to the class
def _out_handle(self):
import ctypes
return ctypes.windll.kernel32.GetStdHandle(self.STD_OUTPUT_HANDLE)
out_handle = property(_out_handle)
def _set_color(self, code):
import ctypes
# Constants from the Windows API
self.STD_OUTPUT_HANDLE = -11
hdl = ctypes.windll.kernel32.GetStdHandle(self.STD_OUTPUT_HANDLE)
ctypes.windll.kernel32.SetConsoleTextAttribute(hdl, code)
setattr(logging.StreamHandler, '_set_color', _set_color)
def new(*args):
FOREGROUND_BLUE = 0x0001 # text color contains blue.
FOREGROUND_GREEN = 0x0002 # text color contains green.
FOREGROUND_RED = 0x0004 # text color contains red.
FOREGROUND_INTENSITY = 0x0008 # text color is intensified.
FOREGROUND_WHITE = FOREGROUND_BLUE | FOREGROUND_GREEN | FOREGROUND_RED
# winbase.h
STD_INPUT_HANDLE = -10
STD_OUTPUT_HANDLE = -11
STD_ERROR_HANDLE = -12
# wincon.h
FOREGROUND_BLACK = 0x0000
FOREGROUND_BLUE = 0x0001
FOREGROUND_GREEN = 0x0002
FOREGROUND_CYAN = 0x0003
FOREGROUND_RED = 0x0004
FOREGROUND_MAGENTA = 0x0005
FOREGROUND_YELLOW = 0x0006
FOREGROUND_GREY = 0x0007
FOREGROUND_INTENSITY = 0x0008 # foreground color is intensified.
BACKGROUND_BLACK = 0x0000
BACKGROUND_BLUE = 0x0010
BACKGROUND_GREEN = 0x0020
BACKGROUND_CYAN = 0x0030
BACKGROUND_RED = 0x0040
BACKGROUND_MAGENTA = 0x0050
BACKGROUND_YELLOW = 0x0060
BACKGROUND_GREY = 0x0070
BACKGROUND_INTENSITY = 0x0080 # background color is intensified.
levelno = args[1].levelno
if (levelno >= 50):
color = BACKGROUND_YELLOW | FOREGROUND_RED | FOREGROUND_INTENSITY | BACKGROUND_INTENSITY
elif (levelno >= 40):
color = FOREGROUND_RED | FOREGROUND_INTENSITY
elif (levelno >= 30):
color = FOREGROUND_YELLOW | FOREGROUND_INTENSITY
elif (levelno >= 20):
color = FOREGROUND_GREEN
elif (levelno >= 10):
color = FOREGROUND_MAGENTA
else:
color = FOREGROUND_WHITE
args[0]._set_color(color)
ret = fn(*args)
args[0]._set_color(FOREGROUND_WHITE)
# print "after"
return ret
return new
def add_coloring_to_emit_ansi(fn):
# add methods we need to the class
def new(*args):
levelno = args[1].levelno
if (levelno >= 50):
color = '\x1b[31m' # red
elif (levelno >= 40):
color = '\x1b[31m' # red
elif (levelno >= 30):
color = '\x1b[33m' # yellow
elif (levelno >= 20):
color = '\x1b[32m' # green
elif (levelno >= 10):
color = '\x1b[35m' # pink
else:
color = '\x1b[0m' # normal
try:
args[1].msg = color + args[1].msg + '\x1b[0m' # normal
except Exception as e:
pass
# print "after"
return fn(*args)
return new
import platform
if platform.system() == 'Windows':
# Windows does not support ANSI escapes and we are using API calls to set the console color
logging.StreamHandler.emit = add_coloring_to_emit_windows(logging.StreamHandler.emit)
else:
# all non-Windows platforms are supporting ANSI escapes so we use them
logging.StreamHandler.emit = add_coloring_to_emit_ansi(logging.StreamHandler.emit)
# log = logging.getLogger()
# log.addFilter(log_filter())
# //hdlr = logging.StreamHandler()
# //hdlr.setFormatter(formatter())

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)