python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决
python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决前言按理来说,selenium可以获取当前页面的所有源代码,但却爬不到frame 的tag标记下#document= ,=0的内容。我理解为#document==0下的内容可能算是另一个页面了。说是页面中的嵌入页面更好一些。所以我们爬不到他里面的内容。frame标签有frameset、frame、if
·
python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决
前言
按理来说,selenium可以获取当前页面的所有源代码,但却爬不到frame 的tag标记下#document= ,=0的内容。我理解为#document==0下的内容可能算是另一个页面了。说是页面中的嵌入页面更好一些。所以我们爬不到他里面的内容。
frame标签有frameset、frame、iframe三种,frameset跟其他普通标签没有区别,不会影响到正常的定位,而frame与iframe对selenium可能定位到。
因为frame 的tag标记下#document==0的内容刚也是一个完整的页面源代码格式。

selenium操作frame
如上图,我们想获取#document下面body的内容。
在driver.get(url)打开浏览器,并充分加载内容后。
操作流程是
进入frame框架内,获取frame框架页面源码,(解析frame源代码),退出frame框架
代码如下
from selenium import webdriver
driver = webdriver.Chrome()
url = XXXXXXXXXXX #自己把地址补充
driver.get(url)
#############流程1
# 通过switch_to.frame进入frame框架页面,有下面四种情况
driver.switch_to.frame(driver.find_elements_by_tag_name("iframe")[0]) # 1.用WebElement对象来定位,发现所有iframe,并把第一个赋值
# driver.switch_to.frame("frame1") # 2.用id来定位
# driver.switch_to.frame("myframe") # 3.用name来定位
# driver.switch_to.frame(0) # 4.用frame的index来定位,第一个是0
##############流程2
frame_html = driver.page_source
# 切换为frame框架页面后,可以通过BeatifulSoup等工具解析frame_html网页代码
##############流程4
# 从frame中切回主文档(switch_to.default_content())
driver.switch_to.default_content()
html = driver.page_source
# 这里的html变回主页面的了
。
。
。
。
。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)