python基于pandas数据分析实例——FIFA球员数据简单分析

admin 9个月前 (02-16) 阅读数 75 #实时赛事

  最近在学习数据分析,这也是python比较热门的一个方向,结合爬虫能分析许多东西,数据是在kaggle上找到的,上面很多实用性很强的数据,每个数据也有国外大佬做的分析实例,可以借鉴

  kaggle

  本文的分析有两部分:一、运动员的年龄分布。二、运动员能力与薪资的分布关系

  !!!本文所有代码都是在python交互模式jupyter下完成的,只是不会用CSDN写入=.=!!!

  这个例子用到的库很简单,但这两个库也是用处很大的库

  在这里插入图片描述

  读取文件后用head()方法可以查看csv文件的前5行,包括索引、标头等信息

  在这里插入图片描述

  这种很大的数据集很容易有缺失值,所以在进行数据判断之前,一定要判断是否有缺失值,会对分析结果造成影响,如图出现了True证明数据是有缺失的

  在这里插入图片描述

  判断有缺失值之后有两种解决方案,删去缺失值或者用另一个数值补充,这里选择对结果影响较小的填充数据,填充之后再用info()判断是否填充成功,并且可以看到每一列值的类型

  在这里插入图片描述

  第一个例子就是运动员的年龄分布,先将划分后的等级组成一列并入csv文件中,这里也可以再次保存一个新的csv文件方便调用

  在这里插入图片描述

  用value_counts()方法可以知道在每个年龄段的人数,然后绘制饼图,显示每个部分所占百分比

  在这里插入图片描述

  可见运动员在20-30之间是状态最好的年龄段

  第二个例子是利用散点图了解运动员能力和薪资的关系

  先通过索引将需要的两列值调出来再生成一个新的dataframe

  在这里插入图片描述

  再调用出来之后会发现一个问题,再Value里有欧元的符号还有K,因为要看两者的分布关系,所以两者必须都要为数字类型,所以我们用replace()方法将两个符号去掉

  在这里插入图片描述

  在这里插入图片描述

  可是再去掉符号之后,Value里的值还是为object类型,还没有达到我们需要的,接下来我们要用astype强制转化一下类型

  应该还记得再前面我们再处理缺失值的时候填充了零,但是在只在这两列数据之间是将零删去更好的,所以删去含有零的每一行

  在这里插入图片描述

  这样散点图的数据也清洗完成,下面就进行绘制散点图,要先将两列值转换为列表,作为散点图的数据

  在这里插入图片描述

  什么都不知道,但那两个孤立的点一定是梅西和C罗

  python菜鸟=。=请多见谅~

python基于pandas数据分析实例——FIFA球员数据简单分析

python基于pandas数据分析实例——FIFA球员数据简单分析

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门