【概率论】正态分布的叠加性和正态分布的标准化
1 引言
正态分布又称为高斯分布,它在机器学习和深度学习中非常常用。如正态分布的叠加性和正态分布的标准化等,在VAE模型中重参技巧就用到了正态分布知识,特别是在高维数据中高维的正态分布更是常用。因此,准备梳理一下相应的知识,其中内容多有参考其他博客,一并在参考文献中给出链接。
2 什么是正态分布
  正态分布(Normal distribution),又名高斯分布(Gaussian distribution)。若随机变量 
     
      
       
       
         X 
        
       
      
        X 
       
      
    X服从一个数学期望(均值)为 
     
      
       
       
         μ 
        
       
      
        μ 
       
      
    μ、方差为 
     
      
       
        
        
          σ 
         
        
          2 
         
        
       
      
        σ^2 
       
      
    σ2的正态分布,记为 
     
      
       
       
         N 
        
       
         ( 
        
       
         μ 
        
       
         , 
        
        
        
          σ 
         
        
          2 
         
        
       
         ) 
        
       
      
        N(μ, σ^2) 
       
      
    N(μ,σ2)。其概率密度函数为正态分布的期望值 
     
      
       
       
         μ 
        
       
      
        μ 
       
      
    μ决定了其位置,其标准差 
     
      
       
       
         σ 
        
       
      
        σ 
       
      
    σ决定了分布的幅度。当 
     
      
       
       
         μ 
        
       
         = 
        
       
         0 
        
       
      
        μ = 0 
       
      
    μ=0,  
     
      
       
       
         σ 
        
       
         = 
        
       
         1 
        
       
      
        σ = 1 
       
      
    σ=1时的正态分布是标准正态分布。
 一维正态分布的概率密度函数为:
  
      
       
        
        
          f 
         
        
          ( 
         
        
          x 
         
        
          ) 
         
        
          = 
         
         
         
           1 
          
          
           
            
            
              2 
             
            
              π 
             
            
           
          
            σ 
           
          
         
        
          exp 
         
        
           
         
         
         
           ( 
          
          
           
           
             − 
            
           
             ( 
            
           
             x 
            
           
             − 
            
           
             μ 
            
            
            
              ) 
             
            
              2 
             
            
           
           
           
             2 
            
            
            
              σ 
             
            
              2 
             
            
           
          
         
           ) 
          
         
        
       
         f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right) 
        
       
     f(x)=2πσ1exp(2σ2−(x−μ)2)
 高维正态分布后面再补坑…
2 正态分布的叠加性
理论:相互独立的正态分布的线性组合仍然服从正态分布。
给定两个独立的正态分布 X 1 ∼ N ( μ 1 , σ 1 2 ) X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right) X1∼N(μ1,σ12) 和 X 2 ∼ N ( μ 2 , σ 2 2 ) X_{2} \sim N \left( \mu_{2}, \sigma_{2}^{2}\right) X2∼N(μ2,σ22),且 a a a b b b均为实数
则
  
      
       
        
         
         
           a 
          
         
           X 
          
         
        
          + 
         
         
         
           b 
          
         
           Y 
          
         
        
          ∼ 
         
        
          N 
         
         
         
           ( 
          
         
           a 
          
          
          
            μ 
           
          
            1 
           
          
         
           + 
          
         
           b 
          
          
          
            μ 
           
          
            2 
           
          
         
           , 
          
          
          
            a 
           
          
            2 
           
          
          
          
            σ 
           
          
            1 
           
          
            2 
           
          
         
           + 
          
          
          
            b 
           
          
            2 
           
          
          
          
            σ 
           
          
            2 
           
          
            2 
           
          
         
           ) 
          
         
        
       
         \mathrm{aX}+\mathrm{bY} \sim {N}\left(\mathrm{a} \mu_1+b \mu_2,\mathrm{a}^{2} \sigma_1^2+b^2\sigma_2^2\right) 
        
       
     aX+bY∼N(aμ1+bμ2,a2σ12+b2σ22)
a X + b ∼ N ( a μ 1 + b , a 2 σ 1 2 ) \mathrm{aX}+\mathrm{b} \sim {N}\left(\mathrm{a} \mu_1+b ,\mathrm{a}^{2} \sigma_1^2 \right) aX+b∼N(aμ1+b,a2σ12)
3 正态分布的标准化
  正态分布是由两个参数 
     
      
       
       
         μ 
        
       
      
        \mu 
       
      
    μ与 
     
      
       
       
         σ 
        
       
      
        \sigma 
       
      
    σ确定的。对于任意一个服从 
     
      
       
       
         N 
        
       
         ( 
        
       
         μ 
        
       
         , 
        
       
         σ 
        
       
         2 
        
       
         ) 
        
       
      
        N ( μ , σ 2 ) 
       
      
    N(μ,σ2) 分布的随机变量 
     
      
       
       
         X 
        
       
      
        X 
       
      
    X,经过下面的变换以后都可以转化为 
     
      
       
       
         μ 
        
       
         = 
        
       
         0 
        
       
      
        \mu=0 
       
      
    μ=0和 
     
      
       
       
         σ 
        
       
         = 
        
       
         1 
        
       
      
        \sigma=1 
       
      
    σ=1的标准正态分布。转换公式为:
  
      
       
        
        
          z 
         
        
          = 
         
         
          
          
            X 
           
          
            − 
           
          
            μ 
           
          
         
           σ 
          
         
        
       
         \mathrm{z}=\frac{\mathrm{X}-\mu}{\sigma} 
        
       
     z=σX−μ
 举个例子:
 假设公共汽车门的高度按成年男性碰头机会小于 
     
      
       
       
         1 
        
       
      
        1 
       
      
    1%来设计。又假设成年男性的身高服从正态分布 
     
      
       
       
         X 
        
       
         ∼ 
        
       
         N 
        
       
         ( 
        
       
         170 
        
       
         , 
        
       
         62 
        
       
         ) 
        
       
      
        X ∼ N ( 170 , 6 2 ) 
       
      
    X∼N(170,62),求问车门的高度 
     
      
       
       
         h 
        
       
      
        h 
       
      
    h为多少?
假设身高这一随机变量为 
     
      
       
       
         X 
        
       
      
        X 
       
      
    X,那么要求的问题为:
  
     
      
       
       
         P 
        
       
         ( 
        
       
         x 
        
       
         > 
        
       
         h 
        
       
         ) 
        
       
         = 
        
       
         0.01 
        
       
      
        P(x > h)= 0.01 
       
      
    P(x>h)=0.01
 即
  
     
      
       
       
         1 
        
       
         − 
        
       
         P 
        
       
         ( 
        
       
         x 
        
       
         ≤ 
        
       
         h 
        
       
         ) 
        
       
         = 
        
       
         0.01 
        
       
      
        1 − P ( x ≤ h ) = 0.01 
       
      
    1−P(x≤h)=0.01
P ( x ≤ h ) = 0.99 P ( x ≤ h ) = 0.99 P(x≤h)=0.99
因为 X ∼ N ( 170 , 62 ) X ∼ N ( 170 , 6 2 ) X∼N(170,62), 所以 h − 170 62 ∼ N ( 0 , 1 ) \frac{h - 170}{62} \sim N(0, 1) 62h−170∼N(0,1)
通过查标准正态分布表可知, 
     
      
       
       
         P 
        
       
         ( 
        
       
         z 
        
       
         ≤ 
        
       
         2.33 
        
       
         ) 
        
       
         = 
        
       
         0.99 
        
       
      
        P ( z ≤ 2.33 ) = 0.99 
       
      
    P(z≤2.33)=0.99
 因此  
     
      
       
       
         h 
        
       
         = 
        
       
         170 
        
       
         + 
        
       
         6 
        
       
         ∗ 
        
       
         2.33 
        
       
         = 
        
       
         183.98 
        
       
         c 
        
       
         m 
        
       
      
        h = 170 + 6 * 2.33 = 183.98cm 
       
      
    h=170+6∗2.33=183.98cm
4 参考文献
[1]均匀分布叠加与正态分布叠加
 [2]正态分布,正态分布如何变换为标准正态分布
 [3]普通正态分布如何转换到标准正态分布
 [4]PRML笔记 第二章 (多维)高斯分布