爬虫之数据处理（HTML）----bs4（css选择器）

BeautifulSoup用来解析HTML比较简单，API非常热人性化，支持css选择器，python标准库中的HTML解释器，也支持lxml的xml解释器。BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库。.→class选择器。>→子代后代选择器。#→id选择器。

D18346

338人浏览 · 2024-10-08 17:22:19

D18346 · 2024-10-08 17:22:19 发布

一.安装与功能概述

1.安装

pip install beautifulSoup4

2.功能

BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库

BeautifulSoup用来解析HTML比较简单，API非常热人性化，支持css选择器，python标准库中的HTML解释器，也支持lxml的xml解释器

二.常用规则和方法

soup.标签                  #获取第一个标签
soup.标签.attrs            #获取标签的所有属性
soup.标签.attrs['指定属性'] #获取标签的第一个属性
soup.标签.get('指定属性')   #获取标签的第一个属性
soup.标签.text/soup.标签.get_text()  #获取一个标签中的所有文本内容，包括子孙节点的内容
soup.标签.string    #获取一个标签下的文本内容，只有在此标签没有子标签，或者只有一个子标签的情况下才能返回其中的内容，否则返回的就是None
soup.find_all(标签)        #获取一个标签中的所有文本内容，包括子孙节点的内容
soup.find_all(标签,'指定属性'='指定值') #限定  注：eg  'class'→'class_'(关键字)
soup.select()#写css选择器规则匹配符合规则的数据

三.css选择器

1.回顾

# → id选择器

. → class选择器

> → 子代后代选择器

2.eg

print(soup.select('p.story>a'))   #筛选父辈为story p标签的a标签

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

大数据毕业设计选题推荐-基于大数据的农作物产量数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData

魔乐社区

大模型推理适配实战：手把手带你完成vLLM Ascend迁移实操

魔乐社区

基于python大数据的汽车数据分析系统设计与实现

魔乐社区

所有评论(0)

查看更多评论

D18346

@D18346

已为社区贡献1条内容