人工智能备考——2.1.4题解

查看结构基本信息，想到data.info()函数（查看表结构都使用info），使用head（）函数有些地方也能用，但是info（）为最正确的答案，想不到的时候去使用head（）函数。题目：data = _________[(_________ >= 0) & (_________ > 0) & (_________ < 120)]所以最后填入：plt.scatter(data['年龄'], dat

m0_63174442

1029人浏览 · 2025-11-13 19:00:20

m0_63174442 · 2025-11-13 19:00:20 发布

代码题：

1)加载数据集并指定编码为gbk

题目：data = _________

关键字加载数据集，想到pandas函数里面的read函数（最基础的，最常见的）

所以最后填入data = pd.read_csv('medical_data.csv')

2)查看表结构基本信息

题目：print(_________)
查看结构基本信息，想到data.info()函数（查看表结构都使用info），使用head（）函数有些地方也能用，但是info（）为最正确的答案，想不到的时候去使用head（）函数
所以最后填入：print（data.info()）

3)修改列名

题目：_________(_________, inplace=True)

修改列名，想到rename函数，这个其实比较好想重命名的英文就是rename嘛，然后需要修改列，想到colums=列名

所以最后填入：data.rename(columns={'病人ID': '患者ID'}, inplace=True)

4)增加诊断延迟和病程列
题目：data['诊断延迟'] = _________.dt.days

诊断延迟，从题目中能看出来是诊断日期-就诊日期，

所以最后填入：data['诊断延迟'] = (data['诊断日期'] - data['就诊日期']).dt.days

5)删除不合理的数据

题目：data = _________[(_________ >= 0) & (_________ > 0) & (_________ < 120)]

看到删除会立马想到drop函数，dropna是删除空值，drop_duplicates是删除重复值

但是这里不太一样，这里的这个格的形式更像重新赋值，将data内对应符合条件的内容筛选出来，以此来达到删除的目的

所以最后其实里面只要把题目中的筛选条件放入其中就行

最后填入：data = data[(data['诊断延迟'] >= 0) & (data['年龄'] > 0) & (data['年龄'] < 120)]

6)删除重复值并记录删除的行数

题目：_________(inplace=True)

删除重复值：看到这个就该联想到drop_duplicates

所以填入：data.drop_duplicates(inplace=True)

7)对需要归一化的列进行处理

题目：scaler = MinMaxScaler()
columns_to_normalize = [_________]
data[columns_to_normalize] = _________

归一化需要联想到fit_transform

第一空是先从题目中找到需要归一化的列：'年龄', '体重', '身高'

然后第二空就是直接套语法就好了：scaler.transform(归一化数据)

所以最后填入
scaler = MinMaxScaler()
columns_to_normalize = ['年龄', '体重', '身高']
data[columns_to_normalize] = scaler.fit_transform(data[columns_to_normalize])