C 题 就业状态分析与预测

本文将为大家来带2025年华中杯C题超详细解题思路+初步代码分享,以便大家可以尽快上手C题。对于数据类型题目,首先需要进行数据清洗工作。 基于给出的下述各项指标,数据清洗主要分析 缺失值处理、异常值处理、描述性分析

图片

缺失值处理:

以下为初步筛选的缺失数据

具体名称

缺失项数

具体内容

户籍地址

3

1145 6601958 郑**
1297 6771653 兰**
4263 5818097 徐**

专业

1146

3 4928113 赵**
4 7042187 张**
14 6028911 孔**等

毕业学校

1

4188 629904 饶**

异常数据处理:

1、逻辑异常

示例1 出生年份 计算填写人信息 是否年龄真实

示例2 户籍地址 无效信息

具体名称

异常项数

具体内容

户籍地址

3

1411 6459331 谭**
1881 1698033 吴**
3205 5445632 陈**

文化程度

1

5957676 张**

就业时间

1

1905/7/10 0:00

1、边缘值异常

当前就业状态判定,我们以表格中“失业注销时间”为标准,存在注销时间我们认为该人已经是就业状态,无失业注销时间记录则为失业状态(5000个样本都是最开始失业的样本)

最终清洗后,得到3827个样本,后续可以进行必要的描述性分析

问题一:数据特征分析

问题一的主要目的是通过筛选,从50+个变量中,选出对失业就业状态最有影响的几个以便进行后续建模。因此,通过统计人员按照年龄、性别、学历、专业、行业与失业的关系即可。下面是,基于上述数据清洗后的数据进行的统计分析。

变量名

描述

变量名

描述

性别

1

婚姻状态

10

未婚

2

20

已婚

民族

1

汉族

30

丧偶

2

蒙古族

40

离婚

3

回族

政治面貌

0

群众

6

苗族

1

中国共产党党员

11

满族

3

中国共产主义青年团团员

15

土家族

9

中国致公党党员

97

其他

文化程度

31

大学专科

婚姻状态

10

未婚

41

中等专科

20

已婚

21

大学本科

30

丧偶

14

硕士研究生

40

离婚

90

其他

整体就业状态分析:

就业人数:3122

失业人数:705

按性别分析就业状态:

Gender    Employed    Unemployed

______    ________    __________

1         1444         274   

2         1678         1431    

AgeGroup     Employed    Unemployed

_________    ________    __________

{'20-29'}      1549         290    

{'30-39'}      1354         312    

{'40-49'}       169          79    

{'50-59'}        40          24    

{'60-69'}        10           0    

{'70-79'}         0           0    

按学历分析就业状态:

EducationLevel    Employed    Unemployed

______________    ________    __________

14               8            1   

21            1733          278    

31            1968          398    

41              12            5   

90             106           23   

图片

问题二:就业状态预测

根据分析结果,我们可以看出年龄 性别 学历 专业 婚姻状态都能够对失业与否产生较大影响。使用机器学习模型(具体模型大纲,可看文末),如 决策树、随机森林、支持向量机(SVM) 或 逻辑回归 来建立预测模型。

这里以逻辑回归模型为例进行示例说明,后续将加入多模型精度对比进一步丰富

图片

问题三:就业状态预测模型优化

除了个人层面因素影响外,宏观经济、政策、劳动力市场状况、宜昌市居民、消费价格指数、招聘信息等也可能会影响就业状态。因此,我们从国家统计局收集了近20年每个月的各种指标

指标

国民总收入(亿元)

劳动力(万人)

居民消费价格指数(1978=100)

年末总人口(万人)

2024年

1339672

140828

2023年

1283680.3

77216

708

140967

2022年

1223706.8

76863

706.6

141175

2021年

1165816.8

78024

692.7

141260

2020年

1026751.9

78392

686.5

141212

根据问题三需求,在国家统计局下载了2000-2025年各指标数据,我们利用居民失业就业时间识别对应时刻下的各项指标数据,作为模型输入变量进行输入

图片

图片

图片

失业、就业分析对比

各年龄段人数统计

各指标数据相关性热分析

图片

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐