为了好玩,我尝试用python编写一个脚本,该脚本将遍历给定子版本首页上的所有帖子。我有以下代码:from lxml import html

import requests

subredditURL = "https://www.reddit.com/r/" + "pics/"

subredditPage = requests.get(subredditURL)

subredditTree = html.fromstring(subredditPage.content)

subreddit_rows_xpath = subredditTree.xpath('//*[@id="siteTable"]')

for div in subreddit_rows_xpath:

print(div)

现在,我认为for循环将打印出与我所看到的页面上的帖子一样多的div。我认为对于一个典型的reddit subreddit的首页,这将是25个帖子。我认为这会起作用的原因是当我手动检查siteTable div时,它似乎包含一系列25个div,其中x_路径的格式如下:

^{pr2}$

其中id似乎是一个随机字符串,首页上的每个帖子都有一个div,它们包含我可以研究的帖子的相关信息。在

上面的代码不是打印出25个div,而是返回:

意味着只有一个div,而不是我预期的25。我怎么会错了?在

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐