2025年华中杯C题第一版本超详细解题思路+数据集收集分享
问题一的主要目的是通过筛选,从50+个变量中,选出对失业就业状态最有影响的几个以便进行后续建模。因此,通过统计人员按照年龄、性别、学历、专业、行业与失业的关系即可。当前就业状态判定,我们以表格中“失业注销时间”为标准,存在注销时间我们认为该人已经是就业状态,无失业注销时间记录则为失业状态(5000个样本都是最开始失业的样本)根据问题三需求,在国家统计局下载了2000-2025年各指标数据,我们利用
C 题 就业状态分析与预测
本文将为大家来带2025年华中杯C题超详细解题思路+初步代码分享,以便大家可以尽快上手C题。对于数据类型题目,首先需要进行数据清洗工作。 基于给出的下述各项指标,数据清洗主要分析 缺失值处理、异常值处理、描述性分析
缺失值处理:
以下为初步筛选的缺失数据
具体名称 |
缺失项数 |
具体内容 |
户籍地址 |
3 |
1145 6601958 郑** |
专业 |
1146 |
3 4928113 赵** |
毕业学校 |
1 |
4188 629904 饶** |
异常数据处理:
1、逻辑异常
示例1 出生年份 计算填写人信息 是否年龄真实
示例2 户籍地址 无效信息
具体名称 |
异常项数 |
具体内容 |
户籍地址 |
3 |
1411 6459331 谭** |
文化程度 |
1 |
5957676 张** |
就业时间 |
1 |
1905/7/10 0:00 |
1、边缘值异常
当前就业状态判定,我们以表格中“失业注销时间”为标准,存在注销时间我们认为该人已经是就业状态,无失业注销时间记录则为失业状态(5000个样本都是最开始失业的样本)
最终清洗后,得到3827个样本,后续可以进行必要的描述性分析
问题一:数据特征分析
问题一的主要目的是通过筛选,从50+个变量中,选出对失业就业状态最有影响的几个以便进行后续建模。因此,通过统计人员按照年龄、性别、学历、专业、行业与失业的关系即可。下面是,基于上述数据清洗后的数据进行的统计分析。
变量名 |
值 |
描述 |
变量名 |
值 |
描述 |
性别 |
1 |
男 |
婚姻状态 |
10 |
未婚 |
2 |
女 |
20 |
已婚 |
||
民族 |
1 |
汉族 |
30 |
丧偶 |
|
2 |
蒙古族 |
40 |
离婚 |
||
3 |
回族 |
政治面貌 |
0 |
群众 |
|
6 |
苗族 |
1 |
中国共产党党员 |
||
11 |
满族 |
3 |
中国共产主义青年团团员 |
||
15 |
土家族 |
9 |
中国致公党党员 |
||
97 |
其他 |
文化程度 |
31 |
大学专科 |
|
婚姻状态 |
10 |
未婚 |
41 |
中等专科 |
|
20 |
已婚 |
21 |
大学本科 |
||
30 |
丧偶 |
14 |
硕士研究生 |
||
40 |
离婚 |
90 |
其他 |
整体就业状态分析:
就业人数:3122
失业人数:705
按性别分析就业状态:
Gender Employed Unemployed
______ ________ __________
1 1444 274
2 1678 1431
AgeGroup Employed Unemployed
_________ ________ __________
{'20-29'} 1549 290
{'30-39'} 1354 312
{'40-49'} 169 79
{'50-59'} 40 24
{'60-69'} 10 0
{'70-79'} 0 0
按学历分析就业状态:
EducationLevel Employed Unemployed
______________ ________ __________
14 8 1
21 1733 278
31 1968 398
41 12 5
90 106 23
问题二:就业状态预测
根据分析结果,我们可以看出年龄 性别 学历 专业 婚姻状态都能够对失业与否产生较大影响。使用机器学习模型(具体模型大纲,可看文末),如 决策树、随机森林、支持向量机(SVM) 或 逻辑回归 来建立预测模型。
这里以逻辑回归模型为例进行示例说明,后续将加入多模型精度对比进一步丰富
问题三:就业状态预测模型优化
除了个人层面因素影响外,宏观经济、政策、劳动力市场状况、宜昌市居民、消费价格指数、招聘信息等也可能会影响就业状态。因此,我们从国家统计局收集了近20年每个月的各种指标
指标 |
国民总收入(亿元) |
劳动力(万人) |
居民消费价格指数(1978=100) |
年末总人口(万人) |
2024年 |
1339672 |
140828 |
||
2023年 |
1283680.3 |
77216 |
708 |
140967 |
2022年 |
1223706.8 |
76863 |
706.6 |
141175 |
2021年 |
1165816.8 |
78024 |
692.7 |
141260 |
2020年 |
1026751.9 |
78392 |
686.5 |
141212 |
根据问题三需求,在国家统计局下载了2000-2025年各指标数据,我们利用居民失业就业时间识别对应时刻下的各项指标数据,作为模型输入变量进行输入
|
|
|
失业、就业分析对比 |
各年龄段人数统计 |
各指标数据相关性热分析 |
|

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)