大数据特点(数据库类型)
常见的两种数据
类别型数据:
取值优先,
例如,性别、男性、女性。
教育水平:小学、中学、高中、大学、硕士、博士等。
数字数据
取值的是莫氏范围内的任意点,没有明显的边界,可以是区间内的任意值。
概率:测量事件发生的可能性的百分比
除以发生事件的次数的所有事件总数。
型数据的具体应用是、
如果100个客人进入店里,50个客人消费了,那么转化率可以说是50%。 来店里的客人有消费
因为不消费和2种,所以是互斥的事件,概率都是50%。
也就是说,用户来店概率为0.5,只有消费和非消费两种决定,相互独立。
三个人去店里的可能性有几个?
有以下四种可能性
无人值守费用为12.5%
一个人支付37.5%
2人支付37.5%
3人支付12.5%
这样的问题被称为二项式概率分布,对于大量的事件,最终某个特定的时间发生的概率有多少?
数字型变量的概率为分布,多为正态分布,中间高左右对称。
使用z分数法快速计算数据的概率分布。 例如,有同学本年度的成绩平均值为70,标准偏差为8,被要求
成绩大于75的概率。
使用z分数快速计算概率:
Z=(目标值-平均值) /标准偏差
z=(75-70 )/8=0.625
使用这个网站快速查看概率,
也就是说,这个同学的成绩超过75分的概率是26.5%。
如果只知道平均值和方差,就可以得到数据的全貌。
在一个标准偏差内覆盖68.2%的数据
在两个标准偏差内涵盖95.5%的数据
在3个标准偏差内涵盖99.7%的数据
68.2%、95.5%、99.7%也经常被称为信任水平。
概率分布对数据分析中预测的目标和误差进行特定的分布假设,并通过分析软件验证这些假设。