Excel实战第1章数据处理

数据处理

赵孝正

1605人浏览 · 2023-01-13 21:50:07

赵孝正 · 2023-01-13 21:50:07 发布

1 数据规范

2. 导入数据

3. 数据清洗

3.1 重复数据处理

数据透视表法（首选）
选中A、B两列，点击【插入】–》【数据透视表】

把号码拉到【行】，这时候就给出了去重的结果，把【号码】拉到【行】标签的意思是按【号码】进行分组（即然是分组，就是去重后的结果，一个号码只有一个

再将【号码】拉入【 $\sum值$ 】（汇总区）进行计数，这就给出了每个号码出现的次数

对结果区右键，进行排序，选择降序，就可以看出次数最多的号码，计数为 1 的代表不重复。
菜单删除法
第一步：选中数据区域

第二步：点击【数据】-》【数据工具】–》【删除重复项】
在这里插入图片描述

这个方法可以给出去重的结果，但是不会给出那个【号码】重复了，不会给出重复了几次

条件格式标识法
第一步：选中【号码】列，单击【开始】–》【条件格式】–》【突出显示单元格规则】–》【重复值】

图中，重复的数据都被标红了

这个方法告诉你哪些数据重复了，但是，没有给你去重的结果、没告诉你重复了几次

高级筛选法
选中【号码】列，【数据】–》【筛选】边上的【高级】按钮

点击【将筛选结果复制到其他位置】，勾选【选择不重复的记录】，点击【确定】即可

给出了去重的结果，但是不会告诉你重复了几次
函数法（CountIF）
可以给出重复了几次

Range这个值，选择完之后，按F4固定，然后进行第 2 步操作

这个方法告诉你重复了几次，但是没有告诉你去重的结果

3.2 缺失数据处理

数据表中不能有合并单元格存在，将合并单元格拆分后，会出现很多空值，本节介绍空值补全
在这里插入图片描述
批量填充缺失的数据
取消合并单元格

定位条件：Ctrl+G或者F5，调出定位对话框，单击【定位条件】，
在这里插入图片描述
选择【空值】，

这时空值都被选中

然后按=，再按【向上箭头】

自动填充：Ctrl+Enter
在这里插入图片描述
就批量填充完毕

3.3 空格数据处理

3.3.1 Ctrl + H

在这里插入图片描述

在这里插入图片描述
3.3.2 Trim函数

在这里插入图片描述

4. 数据抽取

包括字段拆分（截取某一字段中的某一信息）和记录拆分（包括随机抽样、按某个分类字段进行记录分割）

4.1 字段拆分

在这里插入图片描述
Mid 是从字符串的中间第几位取几位字符，Left 和 Right 分别是从字符串的左边或右边取几位字符
假设【号码】的前 7 位是号段，包含特殊信息，需要提取

函数法
下面介绍 left 函数（right和left很类似，不做重新介绍）

Mid 函数
菜单法

在这里插入图片描述

更换为G1单元格

在这里插入图片描述

选择新的【目标区域】单元格，避免数据覆盖
在这里插入图片描述

没有多余列生成

4.2 随机抽样

本节介绍记录抽取的第2种方法，记录拆分
在这里插入图片描述
有 19648 个号码，从中随机抽取100个

首先，用Rand函数生成随机数
在这里插入图片描述
点击确定

双击小十字，完成批量计算

再用Rank函数进行排序

根据随机数进行排序，

双击小十字

完成

然后，再用填充的方式生成序列号
因为要抽取 100 个号码，就生成 1~100 的序列号，拖动小十字向下填充
在这里插入图片描述
直接松开的话，整列都是 1（相当于复制），松开鼠标前，点击 Ctrl ，就会变成1~100的序列

为了避免Rand函数每次点击鼠标都重新计算的问题，需要将其去公式（复制–>无公式粘贴值）。随机数和排名列都已经完成使命，所以我们将其去除公式，改为粘贴值的方式：
在这里插入图片描述

再用，Vlookup 函数进行匹配，进行随机抽样
在这里插入图片描述
0 代表精确匹配

5. 数据合并

5.1 字段合并

5.2 字段匹配

6. 数据计算

在这里插入图片描述

6.2 日期计算 Datedif

该函数在 EXCEL 函数库中无法查找，需要手动收入，
在这里插入图片描述
计算工龄，

回车后，双击 + 即可（批量完成），计算出工龄后，就可以进行工龄分布的分析，查看员工主要集中在什么分布

6.3 数据标准化

将数据按比例缩放，使之落入一个特定区间，消除不同量纲的不同
在这里插入图片描述

注意，F4 固定的作用在此体现，就是在点击 + 的时候（延续到整列），每行的计算都是选择这个范围。

在这里插入图片描述
再输入右括号

回车

点击 + ，批量完成，最大值为 1，最小值为 0。注意，F4 固定的作用在此体现，就是在点击 + 的时候，每行的计算都是选择这个范围。

公式引用单元格，有“相对引用”与“绝对引用”

美元符号“ $ ”在excel公式中的作用是在“绝对引用”时，锁定行号或列标（单元格地址由列标+行号组成，如A1，A为列标，1为行号），“$”在哪个前边就锁定哪一个：

“A1”样式为“相对引用”，行号与列标都不锁定，横向拖动公式时，变为“B1”，竖向拖动公式时，变为“A2”；

“$ A$ 1”样式，锁定行号与列标，不管公式如何拖动，公式引用的$A$1都不会变化；

“$A1”样式，只锁定列标，公式竖向拖动时，引用变为“A$2”，横向拖动时，不变化；

“A$1”样式，只锁定行号，公式竖向拖动时，不变化，横向拖动时，引用变为“B$1”。

6.4 加权求和

某指标的权重，指该指标在整体评价体系中的相对重要程度，它表示，在其它结果不变的情况下，该指标的变化对结果的影响程度。
在这里插入图片描述
数据介绍

计算

6.5 数据分组1——IF函数

缺点

IF 函数嵌套有层数限制（2007–2013为 64层，100层以上无法使用）

在这里插入图片描述

6.6 数据分组2——Vlookup函数

使用 Vlookup 函数时，首先要准备数据分组对应表，主要由阈值和分组标签组成，阈值需要进行升序排序（不是升序的话，结果不正确）。

模糊匹配：原理是查找区的首列，返回小于等于查找区的最大值，

下图为查找区，首列为【阈值】列，比如查找 35， 35 就是查找值，查找区的首列返回小于等于 35 的值中的最大值，下图中，小于等于 35 的有[0, 20]，其中最大值为 20 ，且 20 对应的消费分组值为 [20, 40)，恰好，35 就是在这个区间内。

下图分组标签为【消费分组】
在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r