代码题:

1)加载数据集并指定编码为gbk

题目:data = _________

关键字加载数据集,想到pandas函数里面的read函数(最基础的,最常见的)

所以最后填入data = pd.read_csv('medical_data.csv')

2)查看表结构基本信息

题目:print(_________)
查看结构基本信息,想到data.info()函数(查看表结构都使用info),使用head()函数有些地方也能用,但是info()为最正确的答案,想不到的时候去使用head()函数
所以最后填入:print(data.info())

3)修改列名

题目:_________(_________, inplace=True)

修改列名,想到rename函数,这个其实比较好想重命名的英文就是rename嘛,然后需要修改列,想到colums=列名

所以最后填入:data.rename(columns={'病人ID': '患者ID'}, inplace=True)

4)增加诊断延迟和病程列
题目:data['诊断延迟'] = _________.dt.days

诊断延迟,从题目中能看出来是诊断日期-就诊日期,

所以最后填入:data['诊断延迟'] = (data['诊断日期'] - data['就诊日期']).dt.days

5)删除不合理的数据

题目:data = _________[(_________ >= 0) & (_________ > 0) & (_________ < 120)]

看到删除会立马想到drop函数,dropna是删除空值,drop_duplicates是删除重复值

但是这里不太一样,这里的这个格的形式更像重新赋值,将data内对应符合条件的内容筛选出来,以此来达到删除的目的

所以最后其实里面只要把题目中的筛选条件放入其中就行

最后填入:data = data[(data['诊断延迟'] >= 0) & (data['年龄'] > 0) & (data['年龄'] < 120)]

6)删除重复值并记录删除的行数

题目:_________(inplace=True)

删除重复值:看到这个就该联想到drop_duplicates

所以填入:data.drop_duplicates(inplace=True)

7)对需要归一化的列进行处理

题目:scaler = MinMaxScaler()
columns_to_normalize = [_________]
data[columns_to_normalize] = _________

归一化需要联想到fit_transform

第一空是先从题目中找到需要归一化的列:'年龄', '体重', '身高'

然后第二空就是直接套语法就好了:scaler.transform(归一化数据)

所以最后填入
scaler = MinMaxScaler()
columns_to_normalize = ['年龄', '体重', '身高']
data[columns_to_normalize] = scaler.fit_transform(data[columns_to_normalize])

8)绘制柱状图

题目:_________(_________, stacked=True)

这个会比较难,首先需要找到需要进行柱状图绘制的数据

从题目和上文的题目中可以知道是:统计治疗结果分布treatment_outcome_distribution

然后背一下柱状图的函数是.plot

所以最后填入:treatment_outcome_distribution.plot(kind='bar', stacked=True)

9)绘制散点图

题目:_________(_________, _________)

从后面的代码和题目中可以看出来这个是年龄与疾病严重程度的散点图

所以后面两空就填入data['年龄'], data['疾病严重程度']

散点图是函数.scatter

所以最后填入:plt.scatter(data['年龄'], data['疾病严重程度'])

10)保存处理后得数据

题目:output_path = '2.1.4_cleaned_data.csv'
_________(_________, index=False)

保留处理后的数据,直接想到data.to_csv(文件名,index=False)

所以最后填入

data.to_csv(output_path,index=False)

主观题:

制定数据清洗和数据标注规范,将答案写到答题卷文件中,答题卷文件命名为“2.1.4.docx”,保存到考生文件夹;

从题干里写数据清洗规范和数据标注规范。

数据清洗规范,至少2点。

1 加载数据集,查看表的数据类型,表结构。

2 删除不合理的数据

3 检查并删除重复值

4 归一化处理

5 顺带写上,保存清洗后的数据

注意,别带业务。

数据标注规范:

1 标注特征值和目标值。

2 数据划分: 将数据分为训练集和测试集

标注规范要写3点,所以还可以写如下的几点。

1 标注数据来源,具体可以标注数据的提供者,数据集文件名和文件大小,以及数据提供的日期。

2 标注数据描述信息,具体可以标注每个字段的含义,单位和数据范围。

3 保存处理后的数据,标注存储位置和文件名。

4 用文档来记录标准流程和要点。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐