【python】爬虫练习1——小说

【代码】【python】爬虫练习1——小说。

董开朗

252人浏览 · 2023-06-13 00:19:00

董开朗 · 2023-06-13 00:19:00 发布

import requests #需要 pip install request先下载
import re
from bs4 import BeautifulSoup #需要pip install bs4 或者 pip3 install bs4先下载

# url = "https://www.XXX&chapterid=1"
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"#登录网页-右键“检查"-刷新后查看Network中的User_agent
cookie = "balabala"#登录网页-右键“检查"-刷新后查看Network中的Cookie

headers = {
"User-Agent": user_agent,
"Cookie": cookie
}
for chapter in range(1,2,1):#range区间左闭右开，步长为1
    content = requests.get(f"https://www.XXX&chapterid={chapter}", headers=headers)
    # print("改前编码：" + content.encoding)
    content.encoding = "GBK"
    # print("改后：" + content.encoding)
    html = content.text

    soup = BeautifulSoup(html, "html.parser")
    title = soup.find("h2")
    txt = soup.find("div",attrs={"onselectstart":"return false"})
    with open("tanxulin.txt", "a", encoding="GBK") as f:
        f.write(f"第 {chapter} 章 {title.string}")
        for txt_content in txt:
            # txt_content = re.compile(u'[\u4e00-\u9fa5]')
            readling = txt_content.string
            if readling != None:
                f.write(readling + '\n')
                # print(readling)

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

ThingsBoard终极数据库分区策略：提升大数据量表查询性能的完整指南

在物联网（IoT）平台的应用中，随着设备数量和数据量的爆炸式增长，数据库性能往往成为系统瓶颈。ThingsBoard作为开源的IoT平台，提供了强大的设备管理、数据收集和可视化功能，但面对海量时序数据时，合理的数据库分区策略是确保系统高效运行的关键。本文将详细介绍如何通过数据库分区优化ThingsBoard的查询性能，帮助你轻松应对大数据量挑战。## 为什么数据库分区对ThingsBoard至