基于Python的汽车知识图谱问答系统

因为不同的车型热度，关系热度不同，尽管按照特定关系构建query，但是抓取的数据却并不一定正确，但是直接用关系名字取过滤而得到的数据则会比较特定，后续会影响模型性能。关系识别分为四个模块，关系分类，简单关系匹配，复杂关系匹配与关系链接。关系分类模块应用机器学习分类的方法，对用户的问题进行分类，若分类结果置信度高于阈值，则输出对应的分类记过即可。关于汽车问答的问答数据没有公开的数据集，因此需要进行构

biyezuopin

798人浏览 · 2023-10-12 09:10:11

biyezuopin · 2023-10-12 09:10:11 发布

目录
1 技术路线 1
2 实体识别与实体链接 4
2.1 实体识别 4
2.2 实体链接 11
3 关系识别 19
3.1 关系分类 20
3.2 简单关系匹配 28
3.3 复杂关系匹配 31
3.4 关系链接 33
4 sparql 查询 33
4.1 汽车品牌关系查询 33
4.2 汽车车系关系查询 35
4.3 汽车车型关系查询 40
4.4 复杂关系查询 41
3 关系识别
关系识别在系统中主要应用于识别用户提问的问题是在问什么类型的问题，是问汽车的厂商指导价，上市时间还是问百米加速的速度等。关系识别分为四个模块，关系分类，简单关系匹配，复杂关系匹配与关系链接。
3.1 关系分类
关系分类模块应用机器学习分类的方法，对用户的问题进行分类，若分类结果置信度高于阈值，则输出对应的分类记过即可。阈值选择0.6。
3.1.1 数据准备
关于汽车问答的问答数据没有公开的数据集，因此需要进行构建，构建思路为定向爬取特定关系下的问题，然后通过人工标注的方法进行标注。
3.1.1.1 数据爬取
爬取方法见2.1.1.1和2.1.1.2即可，共爬取95种关系，共63057条数据。因为不同的车型热度，关系热度不同，尽管按照特定关系构建query，但是抓取的数据却并不一定正确，但是直接用关系名字取过滤而得到的数据则会比较特定，后续会影响模型性能。
3.1.1.2 人工标注
爬取数据带有关系标签，但是标签可能不准，所以要经过人工审核选择标注准确的数据。考虑到效率问题，先对数据进行一次聚类，将相似数据归类，便于审核。

首先将所有数据转化为一个tfidf矩阵，根据每种标签将数据分为对应的类别。对于每一个类别进行类别内的聚类，聚类方法使用kmeans，簇数量选择10。因为该工作的目的只为了方便筛选，所以考虑到每种关系数据不超过1000条，因此选择了10个簇，每个簇100左右。

import logging


# now we patch Python code to add color support to logging.StreamHandler
def add_coloring_to_emit_windows(fn):
    # add methods we need to the class
    def _out_handle(self):
        import ctypes
        return ctypes.windll.kernel32.GetStdHandle(self.STD_OUTPUT_HANDLE)

    out_handle = property(_out_handle)

    def _set_color(self, code):
        import ctypes
        # Constants from the Windows API
        self.STD_OUTPUT_HANDLE = -11
        hdl = ctypes.windll.kernel32.GetStdHandle(self.STD_OUTPUT_HANDLE)
        ctypes.windll.kernel32.SetConsoleTextAttribute(hdl, code)

    setattr(logging.StreamHandler, '_set_color', _set_color)

    def new(*args):
        FOREGROUND_BLUE = 0x0001  # text color contains blue.
        FOREGROUND_GREEN = 0x0002  # text color contains green.
        FOREGROUND_RED = 0x0004  # text color contains red.
        FOREGROUND_INTENSITY = 0x0008  # text color is intensified.
        FOREGROUND_WHITE = FOREGROUND_BLUE | FOREGROUND_GREEN | FOREGROUND_RED
        # winbase.h
        STD_INPUT_HANDLE = -10
        STD_OUTPUT_HANDLE = -11
        STD_ERROR_HANDLE = -12

        # wincon.h
        FOREGROUND_BLACK = 0x0000
        FOREGROUND_BLUE = 0x0001
        FOREGROUND_GREEN = 0x0002
        FOREGROUND_CYAN = 0x0003
        FOREGROUND_RED = 0x0004
        FOREGROUND_MAGENTA = 0x0005
        FOREGROUND_YELLOW = 0x0006
        FOREGROUND_GREY = 0x0007
        FOREGROUND_INTENSITY = 0x0008  # foreground color is intensified.

        BACKGROUND_BLACK = 0x0000
        BACKGROUND_BLUE = 0x0010
        BACKGROUND_GREEN = 0x0020
        BACKGROUND_CYAN = 0x0030
        BACKGROUND_RED = 0x0040
        BACKGROUND_MAGENTA = 0x0050
        BACKGROUND_YELLOW = 0x0060
        BACKGROUND_GREY = 0x0070
        BACKGROUND_INTENSITY = 0x0080  # background color is intensified.

        levelno = args[1].levelno
        if (levelno >= 50):
            color = BACKGROUND_YELLOW | FOREGROUND_RED | FOREGROUND_INTENSITY | BACKGROUND_INTENSITY
        elif (levelno >= 40):
            color = FOREGROUND_RED | FOREGROUND_INTENSITY
        elif (levelno >= 30):
            color = FOREGROUND_YELLOW | FOREGROUND_INTENSITY
        elif (levelno >= 20):
            color = FOREGROUND_GREEN
        elif (levelno >= 10):
            color = FOREGROUND_MAGENTA
        else:
            color = FOREGROUND_WHITE
        args[0]._set_color(color)

        ret = fn(*args)
        args[0]._set_color(FOREGROUND_WHITE)
        # print "after"
        return ret

    return new


def add_coloring_to_emit_ansi(fn):
    # add methods we need to the class
    def new(*args):
        levelno = args[1].levelno
        if (levelno >= 50):
            color = '\x1b[31m'  # red
        elif (levelno >= 40):
            color = '\x1b[31m'  # red
        elif (levelno >= 30):
            color = '\x1b[33m'  # yellow
        elif (levelno >= 20):
            color = '\x1b[32m'  # green
        elif (levelno >= 10):
            color = '\x1b[35m'  # pink
        else:
            color = '\x1b[0m'  # normal
        try:
            args[1].msg = color + args[1].msg + '\x1b[0m'  # normal
        except Exception as e:
            pass
        # print "after"
        return fn(*args)

    return new


import platform

if platform.system() == 'Windows':
    # Windows does not support ANSI escapes and we are using API calls to set the console color
    logging.StreamHandler.emit = add_coloring_to_emit_windows(logging.StreamHandler.emit)
else:
    # all non-Windows platforms are supporting ANSI escapes so we use them
    logging.StreamHandler.emit = add_coloring_to_emit_ansi(logging.StreamHandler.emit)
    # log = logging.getLogger()
    # log.addFilter(log_filter())
    # //hdlr = logging.StreamHandler()
    # //hdlr.setFormatter(formatter())

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。