一.安装与功能概述

1.安装

pip install beautifulSoup4

2.功能

BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库

BeautifulSoup用来解析HTML比较简单,API非常热人性化,支持css选择器,python标准库中的HTML解释器,也支持lxml的xml解释器

二.常用规则和方法

soup.标签                  #获取第一个标签
soup.标签.attrs            #获取标签的所有属性
soup.标签.attrs['指定属性'] #获取标签的第一个属性
soup.标签.get('指定属性')   #获取标签的第一个属性
soup.标签.text/soup.标签.get_text()  #获取一个标签中的所有文本内容,包括子孙节点的内容
soup.标签.string    #获取一个标签下的文本内容,只有在此标签没有子标签,或者只有一个子标签的情况下才能返回其中的内容,否则返回的就是None
soup.find_all(标签)        #获取一个标签中的所有文本内容,包括子孙节点的内容
soup.find_all(标签,'指定属性'='指定值') #限定  注:eg  'class'→'class_'(关键字)
soup.select()#写css选择器规则匹配符合规则的数据


三.css选择器

1.回顾

#   →   id选择器

.   →   class选择器

>   →   子代后代选择器

2.eg

print(soup.select('p.story>a'))   #筛选父辈为story p标签的a标签  

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐