ACM(Association for Computing Machinery)数据集是计算机科学领域常用于研究学术论文、作者关系、引文网络、推荐系统、图神经网络(GNN)等任务的数据集之一。该数据集通常包含学术论文、作者、研究领域以及它们之间的关系,并在许多机器学习、数据挖掘和社交网络分析任务中广泛使用。


1. ACM数据集的版本和来源

ACM数据集的版本较多,不同版本的数据来源和内容可能有所不同,常见的版本包括:

  • ACM Citation Network Dataset:由Microsoft Academic Graph(MAG)或DBLP提取的ACM引用网络数据,包含论文及其引用关系。
  • ACM Author-Paper Dataset:用于学术社交网络分析,包含作者、论文及其关系信息。
  • ACM数据集(ACM-DBLP):用于异质图神经网络(Heterogeneous Graph Neural Networks, HGNN)研究,包括论文、作者和研究领域。

2. 数据结构

不同的ACM数据集包含不同的信息,以下是常见的数据组织形式:

(1) 节点类型

ACM数据集通常包含以下几类节点:

  • Paper(论文):包括论文ID、标题、摘要、发表年份、会议等信息。
  • Author(作者):包括作者ID、姓名、单位等信息。
  • Conference/Venue(会议或期刊):论文发表的会议或期刊信息。
  • Field(研究领域):论文所属的计算机科学研究方向。

(2) 边类型(关系)

  • (Author, writes, Paper):作者撰写论文的关系。
  • (Paper, cites, Paper):论文引用其他论文的关系。
  • (Paper, published_in, Conference):论文发表在会议上的关系。
  • (Paper, belongs_to, Field):论文所属的研究领域。

(3) 典型数据格式

ACM数据集通常以CSV、JSON、Graph(图数据格式,如Neo4j、DGL、PyG)存储。常见的数据示例如下:

论文表 (Papers.csv)
PaperID Title Year Conference
P001 "Deep Learning for NLP" 2018 NeurIPS
P002 "Graph Neural Networks" 2019 ICML
P003 "A Survey on Recommender Sys" 2017 WWW
作者表 (Authors.csv)
AuthorID Name Affiliation
A001 John Smith MIT
A002 Alice Brown Stanford
A003 Bob Johnson Harvard
论文-作者关系 (Paper_Author.csv)
PaperID AuthorID
P001 A001
P002 A002
P002 A003
论文引用关系 (Paper_Citation.csv)
CitingPaperID CitedPaperID
P002 P001
P003 P001

3. ACM数据集的用途

ACM数据集常用于以下研究领域:

(1) 论文推荐系统

  • 基于协同过滤的推荐:使用论文-作者-领域关系构建推荐模型。
  • 基于图神经网络(GNN)的论文推荐:利用异构图神经网络(Heterogeneous GNN)建模论文、作者和领域之间的关系。

(2) 学术社交网络分析

  • 研究作者合作关系,分析学术合作模式。
  • 识别学术领域的关键作者、影响力最大论文等。

(3) 计算机科学研究趋势分析

  • 通过论文发表年份和研究领域分析不同方向的发展趋势。
  • 利用文本挖掘技术提取研究热点。

(4) 引文网络分析

  • 分析论文的影响力和被引次数,研究学术传播模式。
  • 计算论文PageRank值,发现高影响力论文。

(5) 机器学习与深度学习实验

  • 异构图表示学习:Heterogeneous Graph Embedding (如metapath2vec)。
  • 图神经网络:Graph Neural Networks (如 GCN, GAT, HAN) 在学术网络中的应用。

4. 相关研究与数据集下载

ACM数据集的不同版本可以从以下渠道获取:


5. 代码示例

使用Python和NetworkX分析ACM引文网络的示例:

import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

# 读取数据
papers = pd.read_csv("Papers.csv")  # 论文数据
authors = pd.read_csv("Authors.csv")  # 作者数据
citations = pd.read_csv("Paper_Citation.csv")  # 论文引用关系

# 创建有向图
G = nx.DiGraph()

# 添加论文节点
for _, row in papers.iterrows():
    G.add_node(row["PaperID"], label="Paper", title=row["Title"])

# 添加引用关系
for _, row in citations.iterrows():
    G.add_edge(row["CitingPaperID"], row["CitedPaperID"], relation="cites")

# 绘制引文网络
plt.figure(figsize=(10, 8))
nx.draw_networkx(G, with_labels=True, node_size=500, font_size=8)
plt.show()

该代码读取ACM数据集的论文和引文关系,并用 NetworkX 绘制引文网络。


数据集特点

  1. 异构性(Heterogeneity):ACM 数据集包含 论文-作者-会议-研究领域 之间的复杂关系,适用于 异构图分析
  2. 高质量学术数据:数据来源于 ACM、DBLP、Microsoft Academic Graph (MAG) 等权威数据库,适用于学术网络分析和推荐系统研究。
  3. 大规模 & 小规模数据版本
    • 大规模 ACM-MAG 数据集 适用于大规模引文网络分析(论文数百万级)。
    • 小规模 ACM-DBLP 数据集 适用于 Heterogeneous Graph Neural Networks (HGNN) 研究(论文数万级)。
  4. 适用于机器学习 & 深度学习
    • 可用于 论文推荐系统学术影响力分析知识图谱构建
    • 可用于 图神经网络(GNN)训练,如 GCN、GAT、HAN 等。


常用子集

下载地址:ACM Dataset | Papers With Code

ACM数据集包含了发表在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB等顶级会议上的论文,并根据研究领域分为三大类:数据库(Database)、无线通信(Wireless Communication)和数据挖掘(Data Mining)。该数据集构建了一个异质图(heterogeneous graph),其中包含以下实体和关系:

  • 论文(Paper):3025篇论文,每篇论文的特征通过关键词的词袋模型(bag-of-words)表示。

  • 作者(Author):5835位作者,与论文之间存在撰写关系。

  • 主题(Subject):56个主题,与论文之间存在分类关系。

数据集的核心特点:

  1. 异质图结构

    • 图中包含多种类型的节点(论文、作者、主题)和边(论文-作者、论文-主题)。

    • 这种异质图结构适合用于图神经网络(GNN)等图数据分析任务。

  2. 论文特征

    • 每篇论文的特征通过关键词的词袋模型表示,即用一组关键词的向量来描述论文内容。

    • 这种表示方法适用于文本挖掘、分类和推荐等任务。

  3. 类别划分

    • 论文被划分为三大类:数据库、无线通信和数据挖掘。

    • 这种分类信息可用于监督学习任务,如论文分类或领域预测。

应用场景:

  • 论文分类:基于论文的关键词特征和异质图结构,对论文进行领域分类。

  • 作者推荐:通过分析作者与论文的关系,推荐潜在的合作者。

  • 主题挖掘:从论文与主题的关系中挖掘热门研究领域或趋势。

  • 图神经网络研究:作为异质图的典型数据集,用于验证图神经网络算法的性能。

数据集的挑战:

  • 异质图复杂性:由于包含多种类型的节点和边,图的构建和分析较为复杂。

  • 特征稀疏性:词袋模型表示的关键词特征可能较为稀疏,需要特征工程或嵌入表示来优化。

  • 类别不平衡:三大类论文的数量可能不均衡,需注意分类任务中的数据平衡问题。


ACM数据集是学术论文推荐、学术网络分析和图机器学习研究的重要数据集,广泛用于学术社交网络分析、推荐系统、文本挖掘、知识图谱等领域。它不仅提供了学术论文的详细信息,还通过引文、作者和研究领域的关系构建了一个复杂的学术网络,适用于多种机器学习和数据挖掘任务。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐