“机器学习知识体系”的版本间的差异

来自DataFocus资料库
跳到导航 跳到搜索
概率统计
概率统计
第8行: 第8行:
 
*'''分布'''
 
*'''分布'''
 
统计分布(frequency distribution)亦称“次数(频数)分布(分配)”。在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体单位在各组间的分布。分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比,称为比率或频率。将各组别与次数依次编排而成的数列就叫做统计分布数列,简称分布数列或分配数列。它可以反映总体中所有单位在各组间的分布状态和分布特征,研究这种分布特征是统计分析的一项重要内容。
 
统计分布(frequency distribution)亦称“次数(频数)分布(分配)”。在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体单位在各组间的分布。分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比,称为比率或频率。将各组别与次数依次编排而成的数列就叫做统计分布数列,简称分布数列或分配数列。它可以反映总体中所有单位在各组间的分布状态和分布特征,研究这种分布特征是统计分析的一项重要内容。
 +
*'''概率分布'''
 +
概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。如果试验结果用变量X的取值来表示,则随机试验的概率分布就是随机变量的概率分布,即随机变量的可能取值及取得对应值的概率。通过概率分布我们可以得到概率密度函数,根据随机变量所属类型的不同,概率分布取不同的表现形式。
 +
*'''累积分布函数'''
 +
累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X,随着变量的增大函数值也增大。一般以大写CDF标记,,与概率密度函数probability density function(小写pdf)相对。
 +
*'''独立'''
 +
如果一个事件的发生不影响另一个事件的概率,则两个事件是独立的,统计独立的或随机独立的。有如下公式: p(x,y)=p(x)∗p(y)
 +
*'''条件分布'''
 +
对于二维随机变量(X,Y),可以考虑在其中一个随机变量取得(可能的)固定值的条件下,另一随机变量的概率分布,这样得到的X或Y的概率分布叫做条件概率分布,简称条件分布。 P(A|B)=P(AB)/P(B)
 +
*'''贝叶斯准则'''
 +
贝叶斯准则的一般形式与条件分布类似 P(A|B)=P(AB)/P(B) ,其中展开形式如下:P(B)=∑P(B|Aj)P(Aj)P(Aj|B)=P(B|Aj)P(Aj)∑P(B|Aj)P(Aj)
  
 
===线性代数===
 
===线性代数===

2019年5月24日 (五) 03:25的版本

数学基础

概率统计

  • 频率学派与贝叶斯学派

频率学派亦称古典概型,是使用随机事件的发生的频率描写叙述概率的方法。在贝叶斯学派的观点下概率表示的是事件的不确定性大小,参数被预设为概率分布。在频率学观点中,参数被当做是一个需要我们求的确定的參数。而在贝叶斯观点中,參数的情况来自于一个预设的分布而不是一个确定的值。贝叶斯观点的优势在于在模型中引入参数的先验知识。比如在抛硬币的试验中。假设抛三次硬币出现了三次都是正面。那么依据频率学的观点,使用最大似然进行预计那么得到出现正面的可能性为1。这就是说以后都是以1的概率出现正面。相反在贝叶斯的理论中,引入一个合理的先验将会避免这样极端的结论。

  • 随机变量

随机变量(random variable)表示随机试验各种结果的实值单值函数,体现了随机试验与唯一实值的映射关系,并且随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达随机试验的发生。

  • 分布

统计分布(frequency distribution)亦称“次数(频数)分布(分配)”。在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体单位在各组间的分布。分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比,称为比率或频率。将各组别与次数依次编排而成的数列就叫做统计分布数列,简称分布数列或分配数列。它可以反映总体中所有单位在各组间的分布状态和分布特征,研究这种分布特征是统计分析的一项重要内容。

  • 概率分布

概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。如果试验结果用变量X的取值来表示,则随机试验的概率分布就是随机变量的概率分布,即随机变量的可能取值及取得对应值的概率。通过概率分布我们可以得到概率密度函数,根据随机变量所属类型的不同,概率分布取不同的表现形式。

  • 累积分布函数

累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X,随着变量的增大函数值也增大。一般以大写CDF标记,,与概率密度函数probability density function(小写pdf)相对。

  • 独立

如果一个事件的发生不影响另一个事件的概率,则两个事件是独立的,统计独立的或随机独立的。有如下公式: p(x,y)=p(x)∗p(y)

  • 条件分布

对于二维随机变量(X,Y),可以考虑在其中一个随机变量取得(可能的)固定值的条件下,另一随机变量的概率分布,这样得到的X或Y的概率分布叫做条件概率分布,简称条件分布。 P(A|B)=P(AB)/P(B)

  • 贝叶斯准则

贝叶斯准则的一般形式与条件分布类似 P(A|B)=P(AB)/P(B) ,其中展开形式如下:P(B)=∑P(B|Aj)P(Aj)P(Aj|B)=P(B|Aj)P(Aj)∑P(B|Aj)P(Aj)

线性代数

信息论

损失函数

损密度估计

最优化

正则化

机器学习概念

机器学习问题

机器学习方法

机器学习调参

评价准则

算法

机器学习算法

深度学习算法

机器学习流程

数据获取

特征工程

模型选取与调优

模型验证与分析

开发框架

ensorFlow

Pytorch

Keras

Scikit-Learn

Numpy

Pandas

Matplotlib