Probability and Statistics

Table of Contents

Bernoulli: X ~ B(1, p): discrete

  • P(X=1): 丢一个正面朝上概率为p的硬币,结果head的概率是多少。
  • P(X=0): 丢一个正面朝上概率为p的硬币,结果tail的概率是多少。
  • sample output: 0 or 1

Binomial: X ~ B(n, p): discrete

  • P(X=k): 丢n个正面朝上概率为p的硬币,结果有k个正面朝上的概率是多少。
  • sample output: N

Multinomial: X ~ M(n, p1, p2, …, pk)

  • P(X=(x1, x2, x3, …)): 丢n个k面的骰子(每个面的分布是p1, …, pk),结果有x1个1st面, x2个2nd面,。。。,xk个kth面的概率。
  • output: (x1, x2, …, xk), xi is N

Geometric: X ~ Geo(p): discrete

  • P(X=k): 一直丢一个硬币,第一次出现1是第k次的概率。
  • sample output: N

Poisson: X ~ Pois(λ): discrete

  • P(X=k): λ=rt, 在时间t内,事件发生有且仅有k次的概率,r是事件发生平均速率
  • Pois(λ) = limn->infBinomial(n, p), where p*n = λ. n > 100, np < 10.
    • think of it at toss a coin per 1 second. The event is the head of the coin. p is r; n is t.
  • Sample output: 0, 1, 2, 3

Exponential: X ~ Exp(λ): Continuous

  • f(X=x): pdf of poisson process event interval is x.
  • Sample output: [0, inf)

What is t-test and f-test

在H0 hypothesis下,如果能推导出某个统计量服从T(df1)的分布,那么你可以知道这个T分布的形状,并且通过查表,可以算出你对这个统计量的这次测量(一个样本)在这个T分布的什么位置,以及比你这个测量值更极端的情况的总体概率(单边或双边面积),这个面积叫做p-value。如果你的这个测量值查表对应的p-value小于你预先设置的alpha,那么你可以拒绝原假设H0。整个过程叫做t-test(拒绝是我们希望看到的,因为这次测量不能拒绝并不代表原假设就成立,而一次测量的反例作用就可以说明原假设不成立。)

f-test于上面的几乎一样,只不过F(df1, df2)分布有两个参数。

那么,就有很多情况下,别人已经推导出某个统计量服从T/F分布了,比如:

  1. 一个whole population的mean=他的一个subset/sample的平均值 => sample的均值和whole poulation的mean的差成T分布
  2. 两个whole population的mean相等,当已知他们各自的一个subset/sample的平均值时 => 两个sample均值的差成T分布
  3. GLM中(y=beta0+beta1*x1+beta2*x2+…+betak*xk+epsilon),多加一项因素xi的作用是否可以忽略不计,即betai=0。这个案例可以用来算tfMRI activation map(因素xi就是那个task的pattern)。=> T-test
  4. GLM中,多个(大于1)个因素的影响是否可以忽略,即betai=betaj=…=0. => F-test