您现在的位置是：首页 > 计算机 > 区块链

区块链

正态分布意味着什么(符合正态分布意味着什么)

2023-02-19 23:13:02 区块链加入收藏

导读：为什么正态分布如此特殊？为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论？我决定写一篇文章，用一种简单易懂的方式来介绍正态分布。在机器学习的世界中，以概率分布为核心的研究大都聚焦于正态分

导读:为什么正态分布如此特殊？为什么很多数据科学和机器学习的文章都把重点放在正态分布上？我决定写一篇文章，用通俗易懂的方式介绍一下正态分布。在机器学习的世界里，大部分关注概率分布的研究都集中在正态分布上。本文将解释正态分布的概率，并解释为什么它被广泛应用，尤其是在数据科学和机器学习领域，它几乎无处不在。我将从基本概念解释正态分布的一切，并揭示它为什么如此重要。 ▲1893年人类身高分布图，Alphonse Bertillon著。本文主要内容如下:什么是概率分布？正态分布是什么意思？正态分布的变量有哪些？如何用Python测试数据的分布？如何用Python参数化产生正态分布？正态分布问题的简单背景介绍。首先，正态分布又称高斯分布，是以数学天才卡尔·弗里德里希·高斯命名的。正态分布越简单的模型越常用，因为可以很好的解释和理解。正态分布非常简单，这也是它如此常用的原因。因此，有必要了解正态分布。概率分布是什么？先介绍一些相关概念。考虑一个预测模型，它可以是我们数据科学研究的一个组成部分。如果我们想要准确的预测一个变量的值，那么我们首先要做的就是了解这个变量的潜在特征。首先，我们需要知道这个变量的可能值，还要知道这些值是连续的还是离散的。简单来说，如果我们要预测一个骰子的值，那么第一步就是要了解它的值是1到6(离散)。第二步是确定每个可能值(事件)的概率如果某个值永远不会出现，那么该值的概率为0。事件发生的概率越大，发生的可能性就越大。在实践中，我们可以大量重复一个实验，记录下该实验对应的输出变量的结果。我们可以将这些值分成不同的集合类。在每个类中，我们记录结果属于该类的次数。比如我们可以掷骰子10000次，每次有6个可能的值。我们可以将类别数设置为6，然后开始统计每个类别的出现次数。我们可以画出上述结果的曲线，这就是概率分布曲线。目标变量的每个值的概率由其概率分布决定。一旦我们知道了变量的概率分布，我们就可以开始估计事件的概率。我们甚至可以使用一些概率公式。至此，我们可以更好地理解变量的特性。概率分布取决于样本的一些特征，如均值、标准差、偏度和峰度。如果对所有概率值求和，求和结果将是100%。世界上有很多不同的概率分布，应用最广泛的是正态分布。当我们第一次遇到正态分布时，我们可以画出正态分布的概率分布曲线，可以看做一条钟形曲线。如果一个变量的均值、模数和中值相等，那么这个变量就呈现正态分布。如下图所示，是正态分布的概率分布曲线:了解和估计变量的概率分布非常重要。下面列出的变量的分布都接近正态分布:人群的身高，成年人血压传递中质点的位置测量误差，回归中的残差，人群的鞋码，员工一天回家的总耗时教育指数。另外，生活中的大量变量是正态变量，具有x%的置信度，其中x < 100 什么是正态分布？正态分布只取决于数据集的两个特征:样本的均值和方差。均值-样本所有值的平均方差-该指标衡量样本与均值的偏差。正态分布的这种统计特性使问题变得极其简单。任何具有正态分布的变量都可以被高精度地预测。值得注意的是，自然界中发现的大部分变量近似服从正态分布。正态分布很好解释，因为正态分布的均值、模数、中位数是相等的。我们只需要均值和标准差来解释整个分布。正态分布是一种常见的正态行为。为什么那么多变量大致服从正态分布？这个现象可以用下面的定理来解释:在大量随机变量上重复多次时，它们的分布之和会非常接近正态分布。因为一个人的身高是一个随机变量，并且基于其他随机变量，比如一个人摄入的营养素量，所处的环境，遗传等等。，这些变量的总分布最终非常接近正态。这就是中心极限定理。本文的核心:我们从上面的分析中得出结论:正态分布是许多随机分布之和。如果我们绘制正态分布密度函数，它的曲线会有如下特征:如上图所示，钟形曲线的均值为100，标准差为1:均值是曲线的中心。这是曲线的最高点，因为大多数点都是平均值。曲线两边的点相等。曲线的中心点最多。曲线下的总面积是变量所有值的总概率。所以总曲线面积是100% nbsp； nbsp此外，如上图所示，约68.2%的点在-1到1的标准差范围内。大约95.5%的点在-2到2个标准偏差的范围内。大约99.7%的点在-3到3个标准差的范围内。这使得我们可以很容易地估计变量的可变性，并给出相应的置信水平。它的可能价值是什么？比如上面的灰色钟形曲线，变量值在99到101之间的概率是68.2%。正态概率分布函数正态概率分布函数的形式如下:概率密度函数基本上可以看作是一个连续随机变量的值的概率。正态分布是一个钟形曲线，其中均值=众数=中位数。如果用概率密度函数画变量的概率分布曲线，给定范围的曲线下面积表示目标变量在此范围内取值的概率。概率分布曲线是以概率分布函数为基础的，概率分布函数本身是根据几个参数计算出来的，比如平均值或者标准差。我们可以用概率分布函数求出随机变量范围内的值的相对概率。例如，我们可以记录股票的每日收益，将其分组到适当的集合类中，然后计算股票在未来获得20-40%收益的概率。标准偏差越大，样本的可变性越大。如何用Python探索变量的概率分布最简单的方法是加载data frame中的所有特征，然后运行以下脚本(使用熊猫库):data frame . hist(bins = 10)# make:a nbsp；直方图 nbsp属于 nbsp nbsp数据框。这个函数向我们展示了所有变量的概率分布。变量服从正态分布意味着什么？如果我们把大量不同分布的随机变量加起来，新的变量最终会有一个正态分布。这就是上面提到的中心极限定理。服从正态分布的变量总是服从正态分布。比如，假设A和B是两个正态分布的变量，那么:A×B是正态分布，A+B是正态分布。所以利用正态分布，预测变量，找到它在一定范围内的概率，会非常简单。样本不服从正态分布怎么办？我们可以将变量的分布转化为正态分布。我们有很多方法将非正态分布转化为正态分布:1。线性变换一旦我们收集了变量的样本数据，就可以对样本进行线性变换，计算Z得分:计算平均值，计算标准差。对于每个x，使用以下方法计算Z: 2。利用Boxcox变换，我们可以用SciPy包将数据转换成正态分布:scipy.stats.boxcox(x， nbsplmbda =无， nbspAlpha =无)3。使用yeo-johnson:另外，我们可以使用Yeo-Johnson变换。 Python的sci-kit learn库提供了相应的函数:sk learn . preprocessing . power transformer(method = ' Yeo Johnson '，standardize = true， nbspCopy=True)正态分布的问题正态分布由于简单易懂，在预测研究中也被过度使用。假设变量服从正态分布，会有一些明显的缺陷。比如我们不能假设股价服从正态分布，因为价格不可能是负的。因此，我们可以假设股价服从对数正态分布，以确保它永远不会低于零。我们知道股票收益可能是负的，所以可以假设收益服从正态分布。不做任何分析就假设变量服从正态分布是愚蠢的。变量可以服从泊松、Student-t或二项分布，盲目假设变量服从正态分布可能导致结果不准确。 1摘要本文阐述了正态分布的概念和性质以及它如此重要的原因。希望对你有帮助。

区块链

正态分布意味着什么(符合正态分布意味着什么)

什么叫模式币(什么是模式币交易)

股票市场指数有哪几种类型(股票市场指数有哪几种类型的)

相关文章