Login
欢迎来到未来世界

您现在的位置是: 首页 > 计算机 > 区块链

区块链

正态分布意味着什么(符合正态分布意味着什么)

区块链 加入收藏
导读:为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式来介绍正态分布。在机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分
导读:为什么正态分布如此特殊?为什么很多数据科学和机器学习的文章都把重点放在正态分布上?我决定写一篇文章,用通俗易懂的方式介绍一下正态分布。 在机器学习的世界里,大部分关注概率分布的研究都集中在正态分布上。 本文将解释正态分布的概率,并解释为什么它被广泛应用,尤其是在数据科学和机器学习领域,它几乎无处不在。 我将从基本概念解释正态分布的一切,并揭示它为什么如此重要。 ▲1893年人类身高分布图,Alphonse Bertillon著。本文主要内容如下:什么是概率分布?正态分布是什么意思?正态分布的变量有哪些?如何用Python测试数据的分布?如何用Python参数化产生正态分布?正态分布问题的简单背景介绍。首先,正态分布又称高斯分布,是以数学天才卡尔·弗里德里希·高斯命名的。正态分布越简单的模型越常用,因为可以很好的解释和理解。 正态分布非常简单,这也是它如此常用的原因。 因此,有必要了解正态分布。 概率分布是什么? 先介绍一些相关概念。 考虑一个预测模型,它可以是我们数据科学研究的一个组成部分。 如果我们想要准确的预测一个变量的值,那么我们首先要做的就是了解这个变量的潜在特征。 首先,我们需要知道这个变量的可能值,还要知道这些值是连续的还是离散的。 简单来说,如果我们要预测一个骰子的值,那么第一步就是要了解它的值是1到6(离散)。 第二步是确定每个可能值(事件)的概率 如果某个值永远不会出现,那么该值的概率为0。 事件发生的概率越大,发生的可能性就越大。 在实践中,我们可以大量重复一个实验,记录下该实验对应的输出变量的结果。 我们可以将这些值分成不同的集合类。在每个类中,我们记录结果属于该类的次数。 比如我们可以掷骰子10000次,每次有6个可能的值。我们可以将类别数设置为6,然后开始统计每个类别的出现次数。 我们可以画出上述结果的曲线,这就是概率分布曲线。 目标变量的每个值的概率由其概率分布决定。 一旦我们知道了变量的概率分布,我们就可以开始估计事件的概率。我们甚至可以使用一些概率公式。 至此,我们可以更好地理解变量的特性。 概率分布取决于样本的一些特征,如均值、标准差、偏度和峰度。 如果对所有概率值求和,求和结果将是100%。世界上有很多不同的概率分布,应用最广泛的是正态分布。 当我们第一次遇到正态分布 时,我们可以画出正态分布的概率分布曲线,可以看做一条钟形曲线。 如果一个变量的均值、模数和中值相等,那么这个变量就呈现正态分布。 如下图所示,是正态分布的概率分布曲线:了解和估计变量的概率分布非常重要。 下面列出的变量的分布都接近正态分布:人群的身高,成年人血压传递中质点的位置测量误差,回归中的残差,人群的鞋码,员工一天回家的总耗时教育指数。另外,生活中的大量变量是正态变量,具有x%的置信度,其中x < 100 什么是正态分布? 正态分布只取决于数据集的两个特征:样本的均值和方差。 均值-样本所有值的平均方差-该指标衡量样本与均值的偏差。正态分布的这种统计特性使问题变得极其简单。任何具有正态分布的变量都可以被高精度地预测。 值得注意的是,自然界中发现的大部分变量近似服从正态分布。 正态分布很好解释,因为正态分布的均值、模数、中位数是相等的。 我们只需要均值和标准差来解释整个分布。 正态分布是一种常见的正态行为。 为什么那么多变量大致服从正态分布? 这个现象可以用下面的定理来解释:在大量随机变量上重复多次时,它们的分布之和会非常接近正态分布。 因为一个人的身高是一个随机变量,并且基于其他随机变量,比如一个人摄入的营养素量,所处的环境,遗传等等。,这些变量的总分布最终非常接近正态。 这就是中心极限定理。 本文的核心:我们从上面的分析中得出结论:正态分布是许多随机分布之和。 如果我们绘制正态分布密度函数,它的曲线会有如下特征:如上图所示,钟形曲线的均值为100,标准差为1:均值是曲线的中心。 这是曲线的最高点,因为大多数点都是平均值。 曲线两边的点相等。 曲线的中心点最多。 曲线下的总面积是变量所有值的总概率。 所以总曲线面积是100% nbsp; nbsp此外,如上图所示,约68.2%的点在-1到1的标准差范围内。 大约95.5%的点在-2到2个标准偏差的范围内。 大约99.7%的点在-3到3个标准差的范围内。 这使得我们可以很容易地估计变量的可变性,并给出相应的置信水平。它的可能价值是什么? 比如上面的灰色钟形曲线,变量值在99到101之间的概率是68.2%。 正态概率分布函数 正态概率分布函数的形式如下:概率密度函数基本上可以看作是一个连续随机变量的值的概率。 正态分布是一个钟形曲线,其中均值=众数=中位数。 如果用概率密度函数画变量的概率分布曲线,给定范围的曲线下面积表示目标变量在此范围内取值的概率。 概率分布曲线是以概率分布函数为基础的,概率分布函数本身是根据几个参数计算出来的,比如平均值或者标准差。 我们可以用概率分布函数求出随机变量范围内的值的相对概率。 例如,我们可以记录股票的每日收益,将其分组到适当的集合类中,然后计算股票在未来获得20-40%收益的概率。 标准偏差越大,样本的可变性越大。 如何用Python探索变量的概率分布 最简单的方法是加载data frame中的所有特征,然后运行以下脚本(使用熊猫库):data frame . hist(bins = 10)# make:a nbsp;直方图 nbsp属于 nbsp nbsp数据框。这个函数向我们展示了所有变量的概率分布。 变量服从正态分布意味着什么? 如果我们把大量不同分布的随机变量加起来,新的变量最终会有一个正态分布。 这就是上面提到的中心极限定理。 服从正态分布的变量总是服从正态分布。 比如,假设A和B是两个正态分布的变量,那么:A×B是正态分布,A+B是正态分布。所以利用正态分布,预测变量,找到它在一定范围内的概率,会非常简单。 样本不服从正态分布怎么办? 我们可以将变量的分布转化为正态分布。 我们有很多方法将非正态分布转化为正态分布:1。线性变换一旦我们收集了变量的样本数据,就可以对样本进行线性变换,计算Z得分:计算平均值,计算标准差。对于每个x,使用以下方法计算Z: 2。利用Boxcox变换,我们可以用SciPy包将数据转换成正态分布:scipy.stats.boxcox(x, nbsplmbda =无, nbspAlpha =无)3。使用yeo-johnson:另外,我们可以使用Yeo-Johnson变换。 Python的sci-kit learn库提供了相应的函数:sk learn . preprocessing . power transformer(method = ' Yeo Johnson ',standardize = true, nbspCopy=True)正态分布的问题 正态分布由于简单易懂,在预测研究中也被过度使用。 假设变量服从正态分布,会有一些明显的缺陷。 比如我们不能假设股价服从正态分布,因为价格不可能是负的。 因此,我们可以假设股价服从对数正态分布,以确保它永远不会低于零。 我们知道股票收益可能是负的,所以可以假设收益服从正态分布。 不做任何分析就假设变量服从正态分布是愚蠢的。 变量可以服从泊松、Student-t或二项分布,盲目假设变量服从正态分布可能导致结果不准确。 1摘要本文阐述了正态分布的概念和性质以及它如此重要的原因。 希望对你有帮助。
图集详情底部广告位