python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决

前言

按理来说,selenium可以获取当前页面的所有源代码,但却爬不到frame 的tag标记下#document= ,=0的内容。我理解为#document==0下的内容可能算是另一个页面了。说是页面中的嵌入页面更好一些。所以我们爬不到他里面的内容。

frame标签有frameset、frame、iframe三种,frameset跟其他普通标签没有区别,不会影响到正常的定位,而frame与iframe对selenium可能定位到。

因为frame 的tag标记下#document==0的内容刚也是一个完整的页面源代码格式。

image-20201108203427653

selenium操作frame

如上图,我们想获取#document下面body的内容。

driver.get(url)打开浏览器,并充分加载内容后。

操作流程是

进入frame框架内,获取frame框架页面源码,(解析frame源代码),退出frame框架

代码如下

from selenium import webdriver
driver = webdriver.Chrome()
url = XXXXXXXXXXX  #自己把地址补充
driver.get(url)
#############流程1
# 通过switch_to.frame进入frame框架页面,有下面四种情况
driver.switch_to.frame(driver.find_elements_by_tag_name("iframe")[0])  # 1.用WebElement对象来定位,发现所有iframe,并把第一个赋值

# driver.switch_to.frame("frame1")  # 2.用id来定位
# driver.switch_to.frame("myframe")  # 3.用name来定位
# driver.switch_to.frame(0)  # 4.用frame的index来定位,第一个是0

##############流程2
frame_html = driver.page_source
# 切换为frame框架页面后,可以通过BeatifulSoup等工具解析frame_html网页代码

##############流程4
# 从frame中切回主文档(switch_to.default_content())
driver.switch_to.default_content()

html = driver.page_source
# 这里的html变回主页面的了

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐