1.  首先导入所需数据,了解每个csv文件存储了哪些数据。
 2.  将人口数据pop 和 各州简称数据abb 进行合并:

        如果想保证数据的完整性,需要使用外连接。

3. 将合并之后重复的一列abbreviation删除: 

4. 查看讯在缺失数据的列:(说明abb_pop数据中有缺失值)

5. 找到哪些state/region 使得state的值为NaN,进行去重操作:

         将state中空值对应的简称找到,然后对state/region进行去重操作。

        思路:将state这一列中的空值所对应的行数据找到,然后在这些行数据中找到对应的简称的值

 6.  为找到的这些state/region 的state项补上正确的值,从而去除掉state中这一列的所有空值:

        fillna 是给全体空值进行填充,但是这里需要给固定的两个'PR'和'USA'所对应的state进行填充,可以使用元素赋值的方法。

         检查是否赋值成功:    得到剩下'PR'对应的state为空。,说明‘USA’赋值完成。

         同理,对‘PR’对应的state进行赋值:

 7. 合并各州面积数据,并找出area中哪些行有缺失数据:

 8. 去除一些含有缺失数据的行:

9. 找出2010年全名人口数据: 

 10.  计算各洲的人口密度= 总人口/面积,并将密度这一列汇总到原表中。 

11. 排序,并找出人口密度最高的州:   

 

         先排序(sort_value),然后再找出最大的行数据( iloc[0] ) 对应的state。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐