python下载电影_python爬取电影并下载

一、概述对于一个宅男，喜欢看电影，每次打开电影网站，各种弹出的广告，很是麻烦，还是要自己去复制下载链接到迅雷上粘贴并下载，这个过程中还有选择困难症;这一系列的动作让人甚是不爽，不如有下好的，点着看就好了;作为一个python爱好者，结合对爬虫的一点小了解，于是周末花了点时间用python写了一个爬取某电影网站上的最新电影板块;思路：爬虫针对某电影网站，收集电影名，下载链接，评分，等信息;当天更新的

weixin_39624094

1673人浏览 · 2020-11-20 21:17:34

weixin_39624094 · 2020-11-20 21:17:34 发布

一、概述

对于一个宅男，喜欢看电影，每次打开电影网站，各种弹出的广告，很是麻烦，还是要自己去复制下载链接到迅雷上粘贴并下载，这个过程中还有选择困难症;这一系列的动作让人甚是不爽，不如有下好的，点着看就好了;作为一个python爱好者，结合对爬虫的一点小了解，于是周末花了点时间用python写了一个爬取某电影网站上的最新电影板块;

思路：

爬虫针对某电影网站，收集电影名，下载链接，评分，等信息;当天更新的电影，特别的打印出来;同时通过评分调用迅雷下载，当然先判断下，是否已经下载过了，再决定是否下载;然后，就是可以看了～

本次版本是基于python3.x下通过，在windows上才能调用迅雷～linux平台只能获取相关信息！

python安装和相关的模块安装这里不讲述，如有不明白请留言我～

jupyter上运行如下：

二、代码

废话不多说上代码吧～

# coding:utf-8

# version 20181027 by san

import re,time,os

from urllib import request

from lxml import etree # python xpath 单独使用导入是这样的

import platform

import ssl

ssl._create_default_https_context = ssl._create_unverified_context # 取消全局证书

#爬虫电影之类

class getMovies:

def __init__(self,url,Thuder):

''' 实例初始化 '''

self.url = url

self.Thuder = Thuder

def getResponse(self,url):

url_request = request.Request(self.url)

url_response = request.urlopen(url_request)

return url_response #返回这个对象

def newMovie(self):

''' 获取最新电影下载地址与url '''

http_response = self.getResponse(webUrl) #拿到http请求后的上下文对象(HTTPResponse object)

data = http_response.read().decode('gbk')

#print(data) #获取网页内容

html = etree.HTML(data)

newMovies = dict()

lists = html.xpath('/html/body/div[1]/div/div[3]/div[2]/div[2]/div[1]/div/div[2]/div[2]/ul/table//a')

for k in lists:

if "app.html" in k.items()[0][1] or "最新电影下载" in k.text:

continue

else:

movieUrl = webUrl + k.items()[0][1]

movieName = k.text.split('《')[1].split("》")[0]

newMovies[k.text.split('《')[1].split("》")[0]] = movieUrl = webUrl + k.items()[0][1]

return newMovies

def Movieurl(self,url):

''' 获取评分和更新时间 '''

url_request = request.Request(url)

movie_http_response = request.urlopen(url_request)

data = movie_http_response.read().decode('gbk')

if len(re.findall(r'豆瓣评分.+?.+users',data)): # 获取评分;没有评分的返回null

pingf = re.findall(r'豆瓣评分.+?.+users',data)[0].split('/')[0].replace("\u3000",":")

else:

pingf = "豆瓣评分:null"

desc = re.findall(r'简\s+介.*',data)[0].replace("\u3000","").replace('
',"").split("src")[0].replace('&ldquo',"").replace('&rdquo',"").replace('

times = re.findall(r'发布时间.*',data)[0].split('\r')[0].strip() # 获取影片发布时间

html = etree.HTML(data)

murl = html.xpath('//*[@id="Zoom"]//a')

for k in murl:

for l in k.items():

if "ftp://" in l[1]:

return l[1],times,pingf,desc

def check_end(self,fiename,path):

''' 检测文件是否下载完成 '''

return os.path.exists(os.path.join(save_path,fiename))

def check_start(self,filename):

''' 检测文件是否开始下载 '''

cache_file = filename+".xltd"

return os.path.exists(os.path.join(save_path,cache_file))

def DownMovies(self,name,url):

''' windows下载 '''

PlatForm = platform.system()

print("即将下载的电影是：%s" %name)

if PlatForm == "Windows":

try:

print(r'"{0}" "{1}"'.format(self.Thuder,url))

os.system(r'"{0}" {1}'.format(self.Thuder,url))

except Exception as e:

print(e)

else:

print("当前系统平台不支持")

def Main(self):

''' 最终新电影存储在字典中 '''

NewMoveis = dict()

Movies = self.newMovie() # 获取电影的字典信息

for k,v in Movies.items():

NewMoveis[k] = self.Movieurl(v),v

return NewMoveis

def NewMoives(self):

''' 查看已经获取到的电影信息 '''

Today = time.strftime("%Y-%m-%d")

print("今天是：%s" %Today)

Movies = self.Main()

print("最近的 %s 部新电影：" % len(Movies.keys()))

for k,v in Movies.items():

# print(v[0][1].split(":")[0])

if Today in v[0][1].split(":")[0]:

print("++++++++++++++++今天刚更新++++++++++++++：","\n",k,"-->",v,"\n")

else:

print("========================================")

print(k,"-->",v,"\n")

if __name__ == '__main__':

# 以下依据您个人电影迅雷的相关信息填写即可

save_path="O:\迅雷下载" # 电影下载保存位置（需要填写）

Thuder = "O:\Program\Thunder.exe" #Thuder: 迅雷Thuder.exe路径（需要填写）

webUrl = 'http://www.dytt8.net' # 电影网站

test = getMovies(webUrl,Thuder) # 实例化

test.NewMoives()

Movies = test.Main()

for k,v in Movies.items():

movies_name = v[0][0].split('/')[3]

socre = v[0][2].split(":")[1]

check_down_status = test.check_end(movies_name,save_path)

# print(check_down_status)

if check_down_status:

print("电影: %s 已经下载" %movies_name)

continue

elif socre == 'null':

continue

elif float(socre) > 7.0:

print(movies_name,socre)

test.DownMovies(k,v[0][0])

time.sleep(10)

注意：以上代码是针对windows平台下，迅雷版本为非极速版本，本次使用的是9.14 如图：

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

另外需要勾选以下配置项，否则程序调用迅雷下载时会有提示框：

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

程序运行效果如图：

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

再看下O盘下载的目录：

watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=

至此自动获取最新电影并下载指定评分电影完成～再也不用担心选择困难了，下好看就行了～

补充说明：

这只是一个基本的获取并下载电影的程序，也可能扩充成下载好发邮件，或不想下载，定时运行，有新电影发邮件提示的功能～更功能自行发挥吧，如有那位大牛知道linux下自行下载的方法，欢迎留言交流，谢谢～如果觉得还可以，不要忘记点个赞哦～

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r