8.1 基本统计分析(描述性统计分析)
一般统计某个变量的最小值,第一个四分位值,中值,第三个四分位值,以及最大值
均值(Mean),中位数(Median)和众数(Mode)
其中均值和中位数用于定量的数据,众数用于定性的数据
对于定 量数据( Data )来说,均值是总和除以总量 N,中位数是数值大小位于中间(奇偶总量处理不同)的值,均值相对中位位数来说,包含的信息量更大,但是容易受异常的影响。
描述性统计分析函数为 describe 。该函数返回值有均值、标准差、最大 值、最小值、分位数等。括号中可以带一些参数,
size计数(此函数不需要括号),sum()求和,mean()平均值, var()方差,std()标准差,median()中位数,mode()众数
8.2 分组分析
根据字段将分析对象分成不同的部分,以对比分析各组之间差异性的一种方法 常用的统计指标: 计数,求和,平均值 命令: df.groupby(by=["分类1","分类2",...])["被统计的列"].agg({列别名1:统计函数1,列别名:统计函数2,...})
其中agg最后不好写成字典格式 FutureWarning: using a dict with renaming is deprecated and will be removed
8.3 分布分析 cut==>分组最好理解 将数据(定量数据)进行等距 或 不等距的分组,研究各组分布规律的一种分析方法
8.4 交叉分析 分析两个或者两个以上分组变量之间的关系,以交叉表形式进行变量间关系的对比分析,一般分为定量、定量分组交叉; 定量、定性分组分析;定性、定性分组交叉
8.5 结构分析 在分组分析以及交叉分析的基础之上,计算各组成部分所占的比重,进而分析总体的内部特征的一种交叉分析方法 这里主要指定性分组,定性分组一般看结构,它的重点在于计算个组成部分占总体的比重.
8.6 相关分析 是否存在某种依赖关系==> 是否线性相关 ==>
两个变量 ==> 散点图.看变量之间是否符合某个变化规律
多个变量间 ==> 散点矩阵图 + 各变量间的散点图
||
相关系数:
Pearson相关系数:一般用于分析两个变量间的关系,要去连续变量的取值服从正态分布
Spearman秩相关系数和判定系数(等级相关系数):不符合Peason的
8.7 实际案例:电商数据分析
数据如图,对各产品之间的销售情况做相关分析
参照:《基于Python的大数据分析基础及实战》