跟我一起学Python数据处理（九十八）：利用Tweepy库在Twitter上进行高级数据收集

大家好！在学习Python数据处理的漫漫长路上，我深知其中的艰辛与乐趣。每掌握一个新的知识点，就像解锁了游戏中的新关卡，那种成就感无与伦比。我希望能把自己的所学所得分享出来，和大家一起学习进步，共同探索Python数据处理的奇妙世界。今天，咱们就接着上次的内容，深入学习如何利用Tweepy库在Twitter上进行高级数据收集

lilye66

3927人浏览 · 2025-02-27 22:53:16

lilye66 · 2025-02-27 22:53:16 发布

跟我一起学Python数据处理（九十八）：利用Tweepy库在Twitter上进行高级数据收集

一、为什么要用Tweepy库

上次我们用了一种方法从Twitter拉取数据，但它有个小缺点，就是只能返回大约15条推文。对于我们想要深入分析某个话题来说，这远远不够。就好比你想了解一片森林里的树木情况，只看15棵树肯定没办法全面了解。所以，这次我们引入Tweepy库，它就像是一个强大的工具，可以帮助我们执行一连串的查询，收集尽可能多关于特定话题的推文，让我们能更全面地了解相关信息。

二、Tweepy库的安装与基础配置

（一）安装Tweepy库

要使用Tweepy库，首先得把它安装到我们的开发环境中。这就好比给电脑安装一个新软件一样简单，打开命令行工具，输入以下命令：

pip install tweepy

耐心等待安装完成，就像等待软件下载和安装好一样，之后我们就能在代码里使用这个库啦。

（二）基础配置

安装好之后，我们在Python脚本里先导入Tweepy库，同时还要设置我们之前申请到的Twitter API的相关密钥信息，这些信息就像是进入Twitter数据宝库的通行证。示例代码如下：

import tweepy

# 填写申请到的API key和secret
consumer_key = '你的API_KEY'
consumer_secret = '你的API_SECRET'
# 填写申请到的访问token和secret
access_token = '你的TOKEN_KEY'
access_token_secret = '你的TOKEN_SECRET'

这里的consumer_key、consumer_secret、access_token和access_token_secret都需要你替换成自己在Twitter开发者平台申请到的真实密钥。

三、使用Tweepy进行数据收集

（一）认证与创建API对象

有了密钥和Tweepy库，接下来就要进行认证，让Twitter知道我们是合法的访问者。代码如下：

auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth)

这段代码里，tweepy.OAuthHandler就像是一个认证官，拿着我们的consumer_key和consumer_secret去验证我们的身份。验证通过后，再用set_access_token方法设置我们的访问令牌，这样就完成了认证过程。最后创建的api对象，就像是我们在Twitter数据世界里的“魔法棒”，用它可以实现各种数据操作。

（二）利用Cursor进行数据查询

接下来我们要用Cursor来创建和Twitter API的连接。Cursor这个概念可能有点抽象，简单来说，它就像一个指针，能帮助我们在大量的数据中按顺序查找和获取信息。假设我们想收集关于“#机器学习”话题的推文，可以这样写代码：

query = '#机器学习'
cursor = tweepy.Cursor(api.search, q=query, lang="zh")

这里我们先定义了一个query变量，指定要搜索的话题是“#机器学习”。然后用Cursor结合api.search方法创建了一个cursor对象，q参数指定搜索关键词，lang="zh"表示我们只获取中文的推文。

（三）遍历数据并保存

创建好cursor后，就可以遍历它返回的数据并保存了。在保存之前，我们先在脚本里导入json库，因为我们要把获取到的推文数据以JSON格式保存。同时，在脚本所在目录下创建一个文件夹，用来存放数据文件。假设这个文件夹叫“tweet_data”，可以在命令行用mkdir tweet_data命令来创建。下面是遍历并保存数据的代码：

import json

tweets = []
for page in cursor.pages():
    for tweet in page:
        tweets.append(tweet._json)

with open('tweet_data/ml_tweets.json', 'w', encoding='utf-8') as outfile:
    json.dump(tweets, outfile, ensure_ascii=False, indent=4)

在这段代码里，我们先创建了一个空列表tweets，用来存储推文数据。然后通过两层循环，外层循环遍历cursor.pages()返回的每一页数据，内层循环遍历每一页里的每一条推文。把每条推文的JSON格式数据添加到tweets列表中。最后，用json.dump方法把tweets列表里的数据保存到一个名为“ml_tweets.json”的文件里，ensure_ascii=False保证文件里的中文能正常显示，indent=4让文件内容的格式更美观，方便我们查看。

四、数据保存的更多选择与处理

（一）不同的数据保存方式

文档里提到了几种保存数据的方式，这里也给大家分享一下不同思路。第一种是打开一个文件，永远不关闭它，或者每次都在文件末尾追加信息。这种方式虽然简单，但会让文件变得非常大，管理起来不太方便。就好比把所有东西都一股脑地堆在一个大箱子里，找东西的时候会很麻烦。第二种方式是将每一页保存到自己的文件中，比如可以用时间戳来保证每个文件有不同的文件名，这样每个文件相对较小，管理起来会清晰一些，但文件数量会很多。还有一种方式是把数据保存到数据库里，这是比较推荐的方法，尤其是当数据量比较大的时候，数据库可以更好地组织和管理数据。

（二）保存数据到数据库的示例

下面以保存到SQLite数据库为例，给大家展示一下代码。先导入dataset库，这个库可以让我们方便地操作数据库。假设我们要把推文数据保存到一个名为“tweet_database.db”的SQLite数据库里，代码如下：

import dataset

def store_tweet(tweet):
    db = dataset.connect('sqlite:///tweet_database.db')
    table = db['tweets']
    tweet_json = tweet._json.copy()

    for k, v in tweet_json.items():
        if isinstance(v, dict):
            tweet_json[k] = str(v)

    table.insert(tweet_json)

在这个代码里，store_tweet函数负责把每条推文保存到数据库中。dataset.connect方法连接到指定的SQLite数据库，db['tweets']表示在数据库里创建或访问一个名为“tweets”的表。然后检查推文中是否有字典类型的数据，因为SQLite不支持直接保存Python字典，所以要把它转换成字符串。最后用table.insert方法把处理好的推文数据插入到表中。

在遍历推文数据的时候，就可以调用这个函数来保存数据了，示例如下：

for page in cursor.pages():
    for tweet in page:
        store_tweet(tweet)

这样，每一条推文都会被保存到数据库里，方便我们后续进行更复杂的数据分析和处理。

写作不易，希望这篇博客能对大家在Python数据处理的学习道路上有所帮助。如果觉得内容还不错，恳请各位读者点赞、评论，并且关注我的博客。你们的支持是我持续创作的动力，后续我还会分享更多关于Python数据处理的实用知识，咱们一起进步！

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。