一、背景

豆瓣电影 Top 250 是根据豆瓣平台海量用户的评分和评论数据,通过加权算法(如评分高低和评价人数综合计算)生成的电影排行榜。作为中国最具影响力的影视评分平台之一,豆瓣覆盖了不同国家、类型、年代的经典电影,兼具大众性和专业性。该榜单不仅包含商业大片,也有独立电影和艺术电影,能够全面反映影迷群体的审美偏好。

二、目的

为挖掘大众审美偏好和电影文化的发展趋势,本文对豆瓣电影 Top 250 榜单进行了多维分析(包括类型、年代、地区分布等),旨在揭示高评分电影的共性特征及其背后的文化动因。分析结果可为电影从业者提供市场参考,同时帮助观众更好地理解影迷群体的兴趣变化。

三、数据来源

数据来源于豆瓣网,具体地址:https://movie.douban.com/top250

通过数据采集工具(后裔采集器)进行数据爬取。将爬取的数据存储到csv文件中进行后续的分析。数据截止至2025年6月30日。

四、数据展示和清理

(一)数据展示

在Jupyter notebook上读取数据,并查看基本信息。

# 导入要用到的库
import pandas as pd
import numpy as np
# 读取数据
data = pd.read_csv(r'D:\Data\豆瓣电影TOP250.csv')
# 查看前10行
data.head(10)

data.info()

# 查看矩阵形状
data.shape

# 查看缺失值情况
data.isnull().sum()

# 查看重复值情况
print(data.duplicated().value_counts())

 (二)数据清理

1、【quote】字段

quote字段含有114个缺失值,分析不会用到该字段,遂删除。

del data['quote']

 2、【评价人数】字段

提取纯数字,并转换为int类型

data['评价人数'] = data['评价人数'].str.replace('人评价','').astype(int)

3、【bd】字段

分为5列:导演、主演、年龄、国家、类型

pattern = r'导演:\s*(.*?)\s*主演:\s*(.*?)\s*(\d{4})\s*/\s*(.*?)\s*/\s*(.*)'
extracted = data['bd'].str.extract(pattern)
extracted.columns = ['导演', '主演', '年份', '国家', '类型']

 4、数据整合

# 将提取出来的数据集合并到原来的数据集上
data1 = pd.concat([data,extracted],axis=1)
# 删除【bd】列
del data1['bd']
data1.isnull().sum()

 整合后的数据还有16行存在缺失值,原因是这16条数据在【bd】列分列时没有成功。将整合后的数据输出到excel中,人工清理,并保存为movies1.xlsx.

清理后的数据展示:

五、数据分析与可视化

可视化工具:Tableau

1、各年份高分电影数量

从1931年的《城市之光》到近年新片,豆瓣TOP250涵盖了近一个世纪以来不同时期的代表性作品,进一步体现了榜单的时空多样性。数据显示,1991年至2018年是电影上榜的高峰期,其中2010年以14部电影位居榜首,2004年(13部)、1994年及2013年(各12部)紧随其后,反映了这一时期电影创作的繁荣。值得注意的是,2020年和2021年,上榜电影数量又回归到1931年(仅1部)的水平,彼时,新冠疫情在全世界范围内蔓延,这给电影行业带来惨烈的冲击。

2、电影评价人数TOP10

在豆瓣TOP250中,《肖申克的救赎》堪称"双冠王":不仅以318万条评论成为最受热议的电影,9.7分的超高评分也无人能及。同样引发观影热潮的还有9部佳作,包括《泰坦尼克号》《霸王别姬》等经典,它们的评论数都突破了200万大关。这些经久不衰的高分电影,印证了"好作品永远不缺观众"的道理。

3、 电影类型柱状图

上榜电影中,最受欢迎的三种电影类型是:剧情、爱情、喜剧。剧情片凭借深刻的故事内核独占鳌头,浪漫的爱情片和欢乐的喜剧片紧随其后,共同撑起TOP250的半壁江山。而纪录片、运动、恐怖类型的电影则比较小众,堪称榜单上的“稀有物种”。

4、电影地区分布

数据显示,美国电影以37.77%的占比领跑榜单,印证其全球电影产业的主导地位;中国大陆及香港地区电影占比14.89%,位列第二;英国和日本分别以10.37%和9.57%的占比紧随其后,四国合计贡献榜单超70%的作品。

5、 最受欢迎导演

在豆瓣电影TOP250榜单中,日本动画大师宫崎骏凭借《千与千寻》《龙猫》等8部经典作品成为榜单上最受欢迎的导演。美国导演史蒂文·斯皮尔伯格(《辛德勒的名单》、《头号玩家》)和英国导演克里斯托弗·诺兰(《星际穿越》、《盗梦空间》)均以6部作品并列第二。中国台湾导演李安凭借《饮食男女》《少年派的奇幻漂流》等5部作品位列第三。此外,中国大陆的王家卫(《春光乍泄》)、日本的是枝裕和(《海街日记》)、今敏(《红辣椒》)与美国的大卫·芬奇(《七宗罪》)、彼特·道格特(《心灵奇旅》)均以4部作品入选,共同构成了这份榜单的中坚力量。

6、最受欢迎主演

在豆瓣电影TOP250榜单中,丹尼尔·雷德克里夫(《哈利·波特》系列)、周星驰(《功夫》《喜剧之王》)以6部作品并列榜首,张国荣(《霸王别姬》)、梁朝伟(《花样年华》)、汤姆·汉克斯(《阿甘正传》)、莱昂纳多·迪卡普里奥(《泰坦尼克号》)和马特·达蒙(《心灵捕手》)各以5部作品紧随其后,而伊桑·霍克(《爱在》三部曲)、张曼玉(《甜蜜蜜》)和林青霞(《东邪西毒》)则以4部佳作共同构成了这份实力派演员阵容,共同书写了世界电影艺术的辉煌篇章。

六、结论

通过以上分析可以看到,电影的黄金发展年代是1991年至2018年,在这期间,有很多优质的影片走入大众视野。从电影类型来看,剧情类、爱情类与喜剧类作品更受观众青睐;在电影产地上,美国作为“现代电影工业的摇篮”,产出38%的高分电影;在电影创作领域,日本动画大师宫崎骏以其卓越的动画创作能力,成为极具影响力的导演;英国演员丹尼尔・雷德克里夫与中国香港喜剧演员周星驰,则凭借精湛的演技,成为备受瞩目的演员。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐