爬虫之数据处理(HTML)----bs4(css选择器)
BeautifulSoup用来解析HTML比较简单,API非常热人性化,支持css选择器,python标准库中的HTML解释器,也支持lxml的xml解释器。BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库。.→class选择器。>→子代后代选择器。#→id选择器。
·
一.安装与功能概述
1.安装
pip install beautifulSoup4
2.功能
BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库
BeautifulSoup用来解析HTML比较简单,API非常热人性化,支持css选择器,python标准库中的HTML解释器,也支持lxml的xml解释器
二.常用规则和方法
soup.标签 #获取第一个标签
soup.标签.attrs #获取标签的所有属性
soup.标签.attrs['指定属性'] #获取标签的第一个属性
soup.标签.get('指定属性') #获取标签的第一个属性
soup.标签.text/soup.标签.get_text() #获取一个标签中的所有文本内容,包括子孙节点的内容
soup.标签.string #获取一个标签下的文本内容,只有在此标签没有子标签,或者只有一个子标签的情况下才能返回其中的内容,否则返回的就是None
soup.find_all(标签) #获取一个标签中的所有文本内容,包括子孙节点的内容
soup.find_all(标签,'指定属性'='指定值') #限定 注:eg 'class'→'class_'(关键字)
soup.select()#写css选择器规则匹配符合规则的数据
三.css选择器
1.回顾
# → id选择器
. → class选择器
> → 子代后代选择器
2.eg
print(soup.select('p.story>a')) #筛选父辈为story p标签的a标签

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)