Excel数据分析(基础篇):数据分析全流程
目录
0 数据分析全流程1 明确问题2 理解数据3 数据清洗4 数据分析/构建模型5 数据可视化拓展:Excel常用技巧
0 数据分析全流程
明确问题理解数据数据清洗数据分析/构建模型数据可视化
以招聘网站数据-原始数据为例,进行上述步骤。
1 明确问题
去哪个城市工作?发展前途如何?薪水高吗?
养成良好习惯,将原始数据复制一份,命名为清洗数据再进行后续操作。
2 理解数据
该数据集共有6875条记录,每条记录有14个属性。
城市公司全名公司ID(唯一标识该公司)公司简称公司大小公司所在商区职位所属(公司哪个部门)教育要求公司所属领域职位ID(唯一标识该职位)职位福利职位名称薪水工作年限要求
3 数据清洗
3.1 Excel的数据类型
Excel中的数据类型可归纳为3种类型:字符串、数值、逻辑常规代表所有数据类型字符串类型的数字会左对齐,数值类型的数字会右对齐
3.2 使用Excel进行数据清洗
(1)选择子集:利用隐藏功能,从原始数据中选择部分数据(即子集)作为分析对象。
(2)列名重命名:双击单元格,修改列名。
(3)删除重复值:选择能够唯一标识该行记录的属性列进行操作。
操作示意操作结果
(4)缺失值处理
第一步:确定缺失值数量
在已知某列数据完整无缺失的情况下,选中该列查看计数(表示该列有多少行数据),再查看其他列的计数进行对比。
即,【其他列的缺失数量 = 该列的计数 - 其他列的计数】
查看计数
第二步:定位缺失值
定位缺失值定位条件为空值
第三歩:处理缺失值
手动补全缺失值删除缺失值所在行用平均值代替缺失值用统计模型计算所得值代替缺失值手动补全缺失值
(5)一致化处理(一致化是指数据是否有统一的标准或者命名)
A. 分列
B. Excel常用函数
FIND(要查找的字符串,字符串所在单元格)LEFT(字符串所在单元格,从左开始到X位置进行截取)RIGHT(字符串所在单元格,从右开始到X位置进行截取)MID(字符串所在单元格,开始位置,截取长度)
C. 筛选出不正常的数值(VALUE!)
最低薪水存在VALUE!:查找和替换,把K替换为k最高薪水存在VALUE!:错误值处理,使最高薪水等于最低薪水
D. 转换数据类型(字符串->数字):利用分列功能
(6)数据排序
按平均薪水降序排列
(7)异常值处理
A. 数据透视表的原理
数据分组(split)应用函数(apply)组合结果(combine)按职位名称的数量降序排序
B. 利用函数判断异常值
COUNT(value1, value2, ...):对给定数据集合或者单元格区域中数据的个数进行计数,错误值、空值、逻辑值、文字则被忽略。例如,COUNT(VALUE!) = 0IF(logical_test,value_if_true,value_if_false):例如,IF(测试条件,结果1,结果2),即如果满足测试条件则显示结果1,如果不满足测试条件则显示结果2
4 数据分析/构建模型
解决某一类问题的办法,都可以叫模型。Q1:去哪个城市工作?A1:北京的数据分析师相关职位最多。利用分析工具库进行描述统计分析Q2:不同城市的平均薪水比较?A2:深圳、北京、上海等一线城市的平均薪水在15k左右。Q3:工作经验不同,薪水是怎样变化的?A3:工作经验越丰富,薪水越多。
5 数据可视化
数据可视化探索步骤excel数据收集
你所拥有的数据你想从数据中获取什么信息你该使用什么样的可视化方法你看到的可视化结果是否有意义
不同类型的图表
6个图表元素:图表标题、纵横轴标题、类别名称、图例、网格线、数据来源4种常用图表:散点图、折线图、柱状图、条形图其它图表:饼图、箱线图、热力图、雷达图、词云图、AARRR漏斗图
如何选择图表?
表格:展示排名前n的数据散点图:展示两个变量的相关关系折线图:展示数据随时间的变化趋势柱形图或条形图:展示不同类别数据的对比尽量避免使用令用户从视觉上难以理解的饼图、3D图表
图表设计原则
去掉增加认知负荷的网格线、数据标记避免使用倾斜的文字去掉小数点后无意义的位数删去不必要的图例,直接在图中标记巧用颜色,如使得图和标记的颜色一致避免使用居中对齐的文字,建议左对齐使用Excel制作图表
6 拓展:Excel常用技巧
6.1 日期数据
Q1:如何处理不同格式的日期数据?A1:分列+设置单元格格式原始数据
第一步:使用分列功能,前2步不做设置,第3歩选择列数据格式为日期
第一步操作结果
第二步:选中日期列,右击设置单元格格式,选择自定义下的yyyy/m/d
第二步 操作结果Q2:如何按月汇总数据?第一步:右击日期,点击组合第二步:选择年、月按月汇总结果Q3:如何按周汇总数据按周汇总结果Q4:如何汇总每月最大值?
6.2 多表关联查询(VLOOKUP函数)
函数说明
VLOOKUP(lookup_value找什么, table_array在哪找, col_index_num第几列, range_lookup精确找还是模糊找)lookup_value找什么参照地址的单元格格式类别与去搜寻的单元格格式的类别要一致有时需要使用$符号,将lookup_value的值固定在一个格子内有时可以用&" 连接若干个单元格的内容作为查找的参数table_array在哪找lookup_value的值必须在table_array中处于第一列有时可以用&" 连接若干个单元格的内容作为辅助列range_lookup精确找还是模糊找0表示精确找,即完整寻找,找不到就传回错误值N/A1表示模糊找,先是找一模一样的,找不到再去找很接近的值,还找不到也只好传回错误值N/A如果有若干个相同值,0会从头开始找到第一个值,1会全部遍历找到最后一个值
功能一:数据查找(精确匹配)
功能二:数据分组(模糊匹配)
6.3 三种引用方式
相对引用: A1绝对引用: $A$1混合引用: $A1 A$1
ps:可使用快捷键F4,进行快速设置
6.4 数据计算常用函数【待补充】
MAXMINDATEIFORCOUNTIF
最后,教大家一个简单拖拽创建表单和生成报表的方法。使用简道云表单在线创建“云表格”,通过简单拖拽,即可制作出一个个柱形图、折线图、饼图等图表,1分钟实现数据可视化分析!非常方便~