【数据集】ACM数据集

ACM（Association for Computing Machinery）数据集是计算机科学领域常用于研究学术论文、作者关系、引文网络、推荐系统、图神经网络（GNN）等任务的数据集之一。该数据集通常包含学术论文、作者、研究领域以及它们之间的关系，并在许多机器学习、数据挖掘和社交网络分析任务中广泛使用。ACM数据集通常以CSV、JSON、Graph（图数据格式，如Neo4j、DGL、PyG）存

dundunmm

3087人浏览 · 2025-03-01 23:24:34

dundunmm · 2025-03-01 23:24:34 发布

1. ACM数据集的版本和来源

ACM数据集的版本较多，不同版本的数据来源和内容可能有所不同，常见的版本包括：

ACM Citation Network Dataset：由Microsoft Academic Graph（MAG）或DBLP提取的ACM引用网络数据，包含论文及其引用关系。
ACM Author-Paper Dataset：用于学术社交网络分析，包含作者、论文及其关系信息。
ACM数据集（ACM-DBLP）：用于异质图神经网络（Heterogeneous Graph Neural Networks, HGNN）研究，包括论文、作者和研究领域。

2. 数据结构

不同的ACM数据集包含不同的信息，以下是常见的数据组织形式：

(1) 节点类型

ACM数据集通常包含以下几类节点：

Paper（论文）：包括论文ID、标题、摘要、发表年份、会议等信息。
Author（作者）：包括作者ID、姓名、单位等信息。
Conference/Venue（会议或期刊）：论文发表的会议或期刊信息。
Field（研究领域）：论文所属的计算机科学研究方向。

(2) 边类型（关系）

(Author, writes, Paper)：作者撰写论文的关系。
(Paper, cites, Paper)：论文引用其他论文的关系。
(Paper, published_in, Conference)：论文发表在会议上的关系。
(Paper, belongs_to, Field)：论文所属的研究领域。

(3) 典型数据格式

ACM数据集通常以CSV、JSON、Graph（图数据格式，如Neo4j、DGL、PyG）存储。常见的数据示例如下：

论文表 (Papers.csv)

PaperID	Title	Year	Conference
P001	"Deep Learning for NLP"	2018	NeurIPS
P002	"Graph Neural Networks"	2019	ICML
P003	"A Survey on Recommender Sys"	2017	WWW

作者表 (Authors.csv)

AuthorID	Name	Affiliation
A001	John Smith	MIT
A002	Alice Brown	Stanford
A003	Bob Johnson	Harvard

论文-作者关系 (Paper_Author.csv)

PaperID	AuthorID
P001	A001
P002	A002
P002	A003

论文引用关系 (Paper_Citation.csv)

CitingPaperID	CitedPaperID
P002	P001
P003	P001

3. ACM数据集的用途

ACM数据集常用于以下研究领域：

(1) 论文推荐系统

基于协同过滤的推荐：使用论文-作者-领域关系构建推荐模型。
基于图神经网络（GNN）的论文推荐：利用异构图神经网络（Heterogeneous GNN）建模论文、作者和领域之间的关系。

(2) 学术社交网络分析

研究作者合作关系，分析学术合作模式。
识别学术领域的关键作者、影响力最大论文等。

(3) 计算机科学研究趋势分析

通过论文发表年份和研究领域分析不同方向的发展趋势。
利用文本挖掘技术提取研究热点。

(4) 引文网络分析

分析论文的影响力和被引次数，研究学术传播模式。
计算论文PageRank值，发现高影响力论文。

(5) 机器学习与深度学习实验

异构图表示学习：Heterogeneous Graph Embedding (如metapath2vec)。
图神经网络：Graph Neural Networks (如 GCN, GAT, HAN) 在学术网络中的应用。

4. 相关研究与数据集下载

ACM数据集的不同版本可以从以下渠道获取：

Microsoft Academic Graph (MAG)：Microsoft Academic Graph - Microsoft Research
DBLP (计算机科学论文库)：dblp: computer science bibliography
OGB (Open Graph Benchmark)：Open Graph Benchmark | A collection of benchmark datasets, data-loaders and evaluators for graph machine learning in PyTorch.
Graph Learning Benchmarks (GLB)：https://graphlearning.io/

5. 代码示例

使用Python和NetworkX分析ACM引文网络的示例：

import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

# 读取数据
papers = pd.read_csv("Papers.csv")  # 论文数据
authors = pd.read_csv("Authors.csv")  # 作者数据
citations = pd.read_csv("Paper_Citation.csv")  # 论文引用关系

# 创建有向图
G = nx.DiGraph()

# 添加论文节点
for _, row in papers.iterrows():
    G.add_node(row["PaperID"], label="Paper", title=row["Title"])

# 添加引用关系
for _, row in citations.iterrows():
    G.add_edge(row["CitingPaperID"], row["CitedPaperID"], relation="cites")

# 绘制引文网络
plt.figure(figsize=(10, 8))
nx.draw_networkx(G, with_labels=True, node_size=500, font_size=8)
plt.show()

该代码读取ACM数据集的论文和引文关系，并用 NetworkX 绘制引文网络。

数据集特点

异构性（Heterogeneity）：ACM 数据集包含 论文-作者-会议-研究领域 之间的复杂关系，适用于 异构图分析。
高质量学术数据：数据来源于 ACM、DBLP、Microsoft Academic Graph (MAG) 等权威数据库，适用于学术网络分析和推荐系统研究。
大规模 & 小规模数据版本：
- 大规模 ACM-MAG 数据集 适用于大规模引文网络分析（论文数百万级）。
- 小规模 ACM-DBLP 数据集 适用于 Heterogeneous Graph Neural Networks (HGNN) 研究（论文数万级）。
适用于机器学习 & 深度学习：
- 可用于 论文推荐系统、学术影响力分析、知识图谱构建。
- 可用于 图神经网络（GNN）训练，如 GCN、GAT、HAN 等。

常用子集

下载地址：ACM Dataset | Papers With Code

ACM数据集包含了发表在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB等顶级会议上的论文，并根据研究领域分为三大类：数据库（Database）、无线通信（Wireless Communication）和数据挖掘（Data Mining）。该数据集构建了一个异质图（heterogeneous graph），其中包含以下实体和关系：

论文（Paper）：3025篇论文，每篇论文的特征通过关键词的词袋模型（bag-of-words）表示。
作者（Author）：5835位作者，与论文之间存在撰写关系。
主题（Subject）：56个主题，与论文之间存在分类关系。

数据集的核心特点：

异质图结构：
- 图中包含多种类型的节点（论文、作者、主题）和边（论文-作者、论文-主题）。
- 这种异质图结构适合用于图神经网络（GNN）等图数据分析任务。
论文特征：
- 每篇论文的特征通过关键词的词袋模型表示，即用一组关键词的向量来描述论文内容。
- 这种表示方法适用于文本挖掘、分类和推荐等任务。
类别划分：
- 论文被划分为三大类：数据库、无线通信和数据挖掘。
- 这种分类信息可用于监督学习任务，如论文分类或领域预测。