Programming Serendipity

気まぐれに大まかに生きるブログ

wiisメモ(確率~漸近理論)

前回の続き

mathjax

  • コピペ用ゼロ幅空白「​」

確率

  • 標本点(sample point): 試行の個別の結果。通例表記 $\omega$
  • 標本空間(sample space): 標本点からなる集合。通例表記 $\Omega$
  • 事象(event): 標本空間の部分集合。通例表記 $A$
  • 根元事象(elementary event): 標本点1つのみからなる事象
  • 部分事象(sub event): 事象の部分集合
  • 真部分事象(proper sub event): 部分事象かつ等しくない場合。 $A \subsetneq B$
  • 全事象(sure event): 標本空間全体を事象とみなした場合。 $\Omega \subset \Omega$
  • 空事象(empty event): 空集合を事象とみなした場合。 $\phi \subset \Omega$
  • 余事象(complementary event): 事象の補集合。 $A^{c} = \Omega \setminus A$
  • 積事象(intersection of events): 事象の共通部分。 $A \cap B$
  • 事象族: 事象の集合族
  • 排反事象(disjoint events): 2つの事象が決して同時に起こらないこと、つまり $A \cap B = \phi$
  • 和事象(union of events): 事象の和集合。 $A \cup B$
  • 差事象(difference of events): 事象の差集合。 $A \setminus B$
  • 対称差事象(symmetric difference of events): 事象の対象差集合 $A \triangle B = (A \setminus B) \cup (B \setminus A)$
  • 先験的確率(a priori probability)or ラプラスの確率(Laplace’s probability): 直感的確率で、全事象分の事象 $$ {|A|\over|\Omega|}={x\over n} $$
  • ただし、先験的確率は、事象がすべて同じ程度の確かさで(equally likely)起こることを前提にしていて、実際の試行で事象がすべて同じ程度の確かさで起こることの根拠を先験性に頼っているという欠点がある。また、e.l.でない場合に議論を進めることができなくなってしまうという欠点もある
  • 順列(permutation)${}_{n}P_{k}$ : 重複を許す組み合わせ
  • 組合せ(combination)${}_{n}C_{k}$ : 重複を許さない組み合わせ
  • 相対頻度(relative frequency): n回試行して該当する事象がx回出た場合の比 ${x \over n}$
  • 経験的確率(empirical probability): 試行を無限回繰り返したときの相対頻度、つまり

$$ \lim_{n\to\infty}{x \over n}=\alpha $$

  • ↑は、同様に確からしいことを仮定せずに使えるメリットがある一方、実際には無限回の試行はできないので有限な試行回数を設定する必要があったり、収束の許容範囲をどのように設定するかという問題がある
  • 公理主義的確率論: 確率の取り方はどれも一長一短で決定打がない。そこで、直接的解決をいったん諦め、確率に関するいくつかの公理を設定したうえで、それを満たすものを確率とする考えが提案された。始祖はコルモゴロフ。
  • 事象空間(event space)$\mathcal{F}$ : すべての事象からなる集合族
  • 確率関数(probability function): 事象に対して、その事象の確立を導き出す関数 $P:\mathcal{F}\to \mathbb{R}$
  • 確率空間(probability space): ここまでに登場した標本空間、事象空間、確率関数の3要素の集まり $(\Omega, \mathcal{F}, P)$
  • 標本空間が有限集合の場合、事象空間 $\mathcal{F}$ にはベキ集合 $2^{\Omega}$ を採用して問題ない
  • この時、公理として、標本点1つからなる1点集合の確率は非負であること、すべての根元事象の確率の和は1になること、事象の確率は、その事象に含まれる根元事象の確率の総和に等しいことを公理として定める、つまり

$$\displaylines{ P(\{\omega_{i}\})\geq0 \\
\sum_{i=1}^{n} P(\{\omega_{i}\})=1 \\
P(A)=\sum_{\omega_{i} \in A} P(\{\omega_{i}\}) }$$

  • ↑を確率論の公理(axioms of probability)という
  • ボンフェローニの不等式(Bonferroni’s inequality): $$P(A\cap B) \geq P(A)+P(B)-1$$
  • 標本空間が加算集合であっても、事象空間にベキ集合を採用することができて、同様の議論が可能
  • ただし、根元事象の確率の総和が1となる部分について、そのままだと加算個の実数を足すことができないので、無限級数の部分和の極限が1になることとして定める、つまり

$$ \lim_{N\to\infty}\left[\sum_{n=1}^{N} P(\{\omega_{n}\}) \right] =1 $$

  • しかし、標本空間が非加算集合の場合は、根元事象の確率が0になってしまって、確率の総和を1にすることができないので、追加の公理が必要
  • 可測空間の公理(axiom of measurable space): 事象空間がnon-emptyで、complementaryとunionについて閉じていること
  • 和集合の場合は、各事象の確率を足し、2個選んでできる確率を引き、3個選んでできる確率を足し…と続けて計算する。一般化すると、

$$\displaylines{ \begin{align} P\left(\bigcup_{i=1}^{n}A_{i}\right) &= \sum_{i=1}^{n}P(A_{i}) \\
&-\sum_{1\leq i<j \leq n}P(A_{i}\cap A_{j}) \\
&+\sum_{1\leq i<j<k \leq n}P(A_{i}\cap A_{j} \cap A_{k}) \\
&- \dots \\
&+(-1)^{n+1} \cdot P(A_{1}\cap A_{2}\cap \dots \cap A_{n}) \end{align} }$$

  • ボンフェローニの不等式は3個以上の事象についても拡張可能で、

$$ P\left( \bigcap_{i=1}^{n} A_{i} \right) \geq \sum_{i=1}^{n} P(A_{i}) - (n-1) $$

  • 対象差事象の確率は、 $P(A\triangle B) = P(A)+P(B)-2P(A\cap B)$
  • 事象列の上極限(limit superior)

$$ \lim_{n\to\infty}\sup A_{n} = \bigcap_{n=1}^{\infty} \bigcup_{k=n}^{\infty} A_{k} $$

  • また、infinity often(無限回)の略i.o.を使って、 $\displaystyle \{A_{n} \text{ i.o.}\} = \lim_{n\to\infty}\sup A_{n} $ とも書く
  • 下極限(limit inferior)

$$ \lim_{n\to\infty}\inf A_{n} = \bigcup_{n=1}^{\infty} \bigcap_{k=n}^{\infty} A_{k} $$

  • こちらは、almost alwaysの略a.a.を使って、 $\displaystyle \{A_{n} \text{ a.a.}\} = \lim_{n\to\infty}\inf A_{n} $ とも書く
  • ボレル・カンテリの第1補題(Borel-Cantelli lemma): 個々の事象の確率の総和が有限な実数に定まるなら、無限個の番号kに対して事象Akが起こる確率は0になる、つまり $$ \sum_{n=1}^{\infty}P(A_{n})<+\infty \implies P\left(\lim_{n\to\infty}\sup A_{n}\right)=P\left(\bigcap_{n=1}^{\infty}\bigcup_{k=n}^{\infty}A_{k}\right)=0 $$ 下極限に関しては、同じように個々の事象の確率の総和が有限な実数に定まるなら、無限個の番号kに対して事象Akが起こらない確率は1になる、つまり $$ \sum_{n=1}^{\infty}P(A_{n})<+\infty \implies P\left(\lim_{n\to\infty}\inf A_{n}^{c}\right)=P\left(\bigcup_{n=1}^{\infty}\bigcap_{k=n}^{\infty}A_{k}^{c}\right)=1 $$
  • 条件付き確率(conditional probability)$P(A|B)$ : Bが起きたという条件の下でのAの確率
  • ↑はたとえば、2回試行を行う場合で、先に1回目の結果を確定させた場合など
  • 式としては

$$ P(A|B)={P(A\cap B)\over P(B)} $$

  • ↑の両辺にPBをかけてを変形させると $$P(A\cap B) = P(A|B) \cdot P(B)$$
  • ↑は積の法則(multiplication rule for conditional probabilities)という
  • 例題として、子供2人の性別が分からないものとする。ここで「上の子の性別が女の子であることがわかっている」場合に、2人とも女である確率は直感通り ${1\over 2}$ だが、「少なくともどちらかの子が女の子であることがわかっている」場合に、2人とも女である確率を考えると、$P(B)=3 \cdot {1 \over 4}, P(A\cap B)=1\cdot {1 \over 4}$ なので ${1\over 3}$ になる。要点としては、「すくなくともどちらかが」という条件は、上のこと下の子の両方の場合を拾っているので、カバー範囲が広くなっている
  • (※ただし、実際のところそのようなケースを考えたい実需は存在するか?)
  • 積の法則は任意の事象に対して拡張できる。つまり

$$\displaylines{ P(A_{1} \cap A_{2} \cap \dots \cap A_{n})=\\
P(A_{1}) \cdot P(A_{2}|A_{1}) \cdot P(A_{3}|A_{1} \cap A_{2}) \cdot \ldots \cdot P(A_{n}|A_{1} \cap A_{2} \cap \dots \cap A_{n-1}) }$$

  • ↑の例としては単純で、例えば箱の中の色の違うボールを箱に戻さずに3回引いて、赤青黄色になっている確率などは、母数を減らしながらそのまま掛け算すればよい
  • 全確率の定理(law of total probability): 事象Aの確率は、標本空間全体を有限個に分割したBを使って、Bとの共通部分の総和として表現可能、つまり

$$ P(A)=\sum_{i=1}^{n}P(A\cap B_{i}) $$

  • また↑を積の法則を使って書き換えると、

$$ P(A)=\sum_{i=1}^{n}[P(A\cap B_{i} \cdot P(B_{i})] $$

  • ベイズの定理(Bayes’ rule): AとBの確率がともに正のとき、それぞれに条件付き確率を作ってから一部を消去した式

$$ P(A|B)={P(B|A)\cdot P(A) \over P(B)} $$

  • ↑を使えば、Aの条件付確率を使ってBの条件付確率を求めることができる
  • ↑はP(B)を全確率の定理を使ってさらに書き換えができて、 $$ P(A|B)={P(B|A)\cdot P(A) \over P(B|A)\cdot P(A) + P(B|A^{c})\cdot P(A^{c})} $$
  • ↑は任意個のAに一般化可能で、 $$ P(A_{i}|B)={P(B|A_{i})\cdot P(A_{i}) \over \displaystyle \sum_{j=1}^{n} [P(B|A_{j})\cdot P(A_{j})]} $$ 分母と分子の添え字の違いに注意。
  • ↑の意味するところは、Ajが起こった後にBが起こる確率が分かっている場合、BによってAiが起こっていた可能性が導けるということ
  • 独立(independent): AとBの間に影響がないこと、つまり $P(A\cap B)=P(A) \cdot P(B)$. 逆は従属(dependent)
  • ↑は、積の法則 $P(A\cap B) = P(A|B) \cdot P(B)$ において $P(A|B) =P(A)$ の場合と同等
  • 3個の独立性の場合は、 $A\cap B\cap C$ だけでは不十分で、 $A\cap B, B\cap C, C\cap A$ の3つの条件が追加で必要
  • 4個以上についても同様に、全体の個数の中の任意個の任意の組み合わせでそれぞれ独立であることが条件として必要。式でいうと

$$ \forall J \in \{1,2,\dots,n\}: P\left( \bigcap_{i \in J} A_{i} \right) = \prod_{i\in J} P(A_{i}) $$

  • ボレル・カンテリの第2補題(second Borel-Cantelli lemma): 各事象が独立で、各事象の確率の総和が無限大に発散する場合、事象Akが無限回発生する確率は1、つまり $$ \sum_{n=1}^{\infty}P(A_{n})=\infty \implies P\left(\lim_{n\to\infty}\sup A_{n}\right)=P\left(\bigcap_{n=1}^{\infty}\bigcup_{k=n}^{\infty}A_{k}\right)=1 $$ 下極限に関しては、同じように個々の事象の確率の総和が無限大に発散するなら、無限個の番号kに対して事象Akが起こらない確率は0になる、つまり $$ \sum_{n=1}^{\infty}P(A_{n})=\infty \implies P\left(\lim_{n\to\infty}\inf A_{n}^{c}\right)=P\left(\bigcup_{n=1}^{\infty}\bigcap_{k=n}^{\infty}A_{k}^{c}\right)=0 $$
  • 無限の猿定理(infinite monkey theorem): キーボードをサルが無秩序に打ち続けても、いつかハムレットが完成する

  • 事象族の独立性とは、2つの事象族からそれぞれどのような組み合わせで事象を選んでも独立であること、つまり $\forall A \in \mathcal{A}, \forall B \in \mathcal{B}: P(A\cap B) = P(A) \cdot P(B)$

  • 事象族 $\mathcal{A}$ から生成される最小の $σ$-代数(smallest $σ$-algebra generated by $\mathcal{A}$): 事象空間 $\mathcal{F}$ の部分集合であるような $σ$-代数すべてを集めた集合族 $\{\mathfrak{A}_{\lambda}\}_{\lambda \in \Lambda}$ の共通部分、つまり

$$ σ(A)=\bigcap_{\lambda \in \Lambda} \mathfrak{A}_{\lambda} $$

  • 有限n個の事象族が独立であるためには、すべての事象族のすべての事象が独立であること、つまり

$$ \forall A_{1} \in \mathcal{A}_{1}, \forall A_{2} \in \mathcal{A}_{2}, \dots, \forall A_{n} \in \mathcal{A}_{n}, \forall J \in \{1,2,\dots,n\}: P\left(\bigcap_{i \in J} A_{i}\right) = \prod_{i\in J} P(A_{i}) $$

  • ↑は、すべての事象族が全体集合 $\Omega$ を含んでいる場合は簡略化できて、

$$ \forall A_{1} \in \mathcal{A}_{1}, \forall A_{2} \in \mathcal{A}_{2}, \dots, \forall A_{n} \in \mathcal{A}_{n}: P\left(\bigcap_{i \in J}^{n} A_{i}\right) = \prod_{i\in J}^{n} P(A_{i}) $$

  • σ-代数同士が独立であるためには、すべての事象族が全体事象 $\Omega$ を要素に持ち、↑の意味で独立で、なおかつ積集合について閉じていること
  • 末尾事象族(family of tail events): 事象族のm番目以降すべての事象からなる事象族を考えると、1番目以降、2番目以降、…という事象族を作ることができ、それらのσ代数も取ることができる。そのようにして取られたσ代数すべての共通部分、つまり

$$ \mathcal{T}(\{A_{n}\}_{n \in \mathbb{N}})=\bigcap_{m\in\mathbb{N}} σ(A_{m}, A_{m+1}, \dots) $$

  • 末尾事象は、それ以前の無限個の事象と関連はあるものの、あまりにも先のことであるため、有限個の手前の事象を選んで検討した程度では影響がないものとみなせる事象と解釈可能
  • 例:コイントスを行って裏が無限回出続ける確率、サイコロを無限回振って6が1度も出ない確率…など
  • コルモゴロフの0-1の法則(Kolmogorov’s Zero-One Law): 末尾事象の確率は0か1のどちらかであること

    確率変数

  • 確率変数(random variable): 標本点に対して実数を定める写像 $X:\Omega \to \mathbb{R}$ 。ただし条件として、Xの逆写像も可測であること、つまり元は可測空間から可測空間 $(\Omega, \mathcal{F}) \to (\mathbb{R}, \mathcal{B})$ への写像だったものを逆に向けても可測であること、式でいうと

$$ \forall B \in \mathcal{B}: X^{-1}(B) \in \mathcal{F} $$

  • ↑を満たすXを $\mathcal{F}$-可測($\mathcal{F}$-measurable)という
  • さらに、事象空間 $\mathcal{F}$ を $σ(X)$ に縮小すればXが確率変数であることが保証できる
  • 分布(distribution)$\mu:\mathcal{B}\to\mathbb{R}$ : 確率変数Xの値がBに属する確率 $$\displaylines{ \begin{align} \mu(B)&=P(X \in B) \\
    &=P(X^{-1}(B)) \end{align} }$$
  • 無限個の目を持つサイコロを1回振るというのは、1回の試行なので標本空間が有限集合?

  • 拡大実数値確率変数(extended real-valued random variable)$X:\Omega\to\overline{\mathbb{R}}$

  • 指示関数(indicator function): 事象Eが起きたとき1、起きなかったとき0になる関数 $$ 1_{E}(\omega)= \begin{cases} 1 & \text{if } \omega \in E \\
    0 & \text{if } \omega \notin E \end{cases} $$

  • 確率変数は定数倍・四則演算などの操作を加えても確率変数だが、拡大実数において不定形になる場合は定義できない

  • 確率変数の満たすべき、値域がボレル集合に含まれるという条件 $$\forall B \in \mathcal{B}: \{\omega \in \Omega \mid X(\omega) \in B\} \in \mathcal{F}$$ は $X(\omega) \in (-\infty, x]$ と必要十分であるため、確率変数Xがx以下になる確率を特定する関数 $$F_{X}(x)=P(X^{-1}( (-\infty, x]) )$$ が定義できる。これを分布関数(distribution function)という
  • ↑の値は0から1の間
  • 分布関数は右側連続だが左側連続とは限らない。ただし、左側連続ではない点の集合は高々加算
  • 同時確率変数(joint random variable): 2つの事象の逆像が可測であること、つまり

$$ \forall A \times B \in \mathcal{B}^{2}: X^{-1}(A) \cap Y^{-1}(B) \in \mathcal{F} $$

  • $(\Omega, \mathcal{F})$ から $(\mathbb{R}, \mathcal{B})$ への写像が2つX,Yとして定義されていて、これを使って$(\Omega, \mathcal{F})$ から $(\mathbb{R}^{2}, \mathcal{B}^{2})$ への写像 $(X,Y): \Omega \to \mathbb{R}^{2}$ を定義すると、以下が成り立つ $$σ( (X,Y))=σ(σ(X)\cup σ(Y))$$

  • 可測空間 $(\Omega, \mathcal{F})$ を $(\Omega, σ( (X,Y)))$ に縮小すればX,Yは確率変数になるので、同時確率変数 (X,Y) の値が (A×B) に属する確率を求める関数が以下のように定義できる $$\displaylines{ \begin{align} \mu(A \times B)&=P( (X,Y) \in (A \times B)) \\
    &= P(X^{-1}(A) \cap Y^{-1}(B)) \end{align} }$$

  • ↑を同時分布(joint distribution)という
  • 2つの確率変数X,Yが独立であることは、分布を使って書くと $$ \forall A \times B \in \mathcal{B}^{2}: P( (X,Y) \in (A \times B))=P(X \in A) \cdot P(Y \in B) $$
  • ただし、実際に無数にあるすべてのボレル集合について↑の条件に当てはまるか調べるのは現実的ではないため、これと必要十分な以下を調べるのがよい $$ \forall x, y \in \mathbb{R}: P(X \leq x \land Y \leq y) = P(X \leq x) \cdot P(Y \leq y) $$

  • 確率ベクトル(random vector)$(X_{1}, X_{2},\dots,X_{n}): \Omega \to \mathbb{R}^{n}$ : 確率変数の複数バージョンで、$(\mathbb{R}^{n}, \mathcal{B}^{n})$ での可測な事象の $(\Omega, \mathcal{F})$ への逆像も可測であるもの、つまり $$ \forall A_{1},\dots,A_{n}\in \mathcal{B}^{n}: X_{1}^{-1}(A_{1}) \cap \dots\cap X_{n}^{-1}(A_{n}) \in\mathcal{F} $$

  • 写像が生成するσ代数については、以下が成り立つ $$ σ( (X_{1}, \dots, X_{n})) = \{X_{1}^{-1}(A_{1}) \cup\dots\cup X_{n}^{-1}(A_{n}) \mid A_{1} \times\dots\times A_{n} \in \mathcal{A} \} $$ ただし、 $\mathcal{A}\subset 2^{\mathbb{R}^{2}} \land σ(\mathcal{A})=\mathcal{B}^{n}$
  • また、 $$ σ( (X_{1}, \dots, X_{n})) = σ(σ(X_{1})\cup\dots\cup σ(X_{n})) $$
  • 独立性についても1変数の確率変数の議論を延長出来て、以下が成り立つとき独立という $$ \forall A_{1} \in σ(X_{1}), \dots, \forall A_{n} \in σ(X_{n}): P(A_{1} \cap\dots\cap A_{n}) = P(A_{1}) \times\dots\times P(A_{n}) $$
  • 分布を用いると、 $$ \forall B_{1}\times\dots\times B_{n} \in\mathcal{B}^{n}: P( X_{1},\dots,X_{n} \in B_{1}\times\dots\times B_{n}) = P(X_{1} \in B_{1}) \times\dots\times P(X_{n}\in B_{n}) $$
  • さらに、ここでも網羅的にボレル集合を調べ上げるのは現実的でないが、解決策も同じで、以下を示してもよい $$ \forall x_{1},\dots,x_{n}\in\mathbb{R}\cup\{+\infty\}: P(X_{1}\leq x_{1}\land\dots\land X_{n}\leq x_{n}) = P(X_{1}\leq x_{1}) \times\dots\times P(X_{n}\leq x_{n}) $$
  • (後半よくわかってない。要再調査)

離散型の確率分布

  • 離散型の確率変数(discrete random variable): 確率変数Xの値域が高々加算集合であること
  • 確率変数Xの標準形(canonical representation): 事象の値と指示関数の積の総和で、

$$ \left(\sum_{n=1}^{N}(x_{n}\cdot 1_{\{X=x_{n}\}})\right)= x_{1}\cdot 1_{\{X=x_{1}\}}(\omega)+\dots+x_{N}\cdot 1_{\{X=x_{N}\}}(\omega) $$

  • 分布関数はその地点までの確率の総和
  • 確率質量関数(probability mass function): 入力した値が、何らかの事象が持つ値にぴったり一致する確率

$$ f_{X}(x)=P(X=x)=P(\{ \omega \in \Omega \mid X(\omega)=x \}) $$

  • 確率質量関数の、ある数値までの総和を出せば分布関数になる。また、逆もできる。
  • 離散型確率変数の実現値が集合に属する確率というのは、たとえばコインを3回投げるということのなかで表が奇数回出るという集合に属する確率などで、 $$ P(X\in A)=\sum_{x\in A}f_{X}(x) $$ は具体的には $$\displaylines{ \begin{align} P(X\in \{1,3\})&=f_{X}(1)+f_{X}(3) \\
    &={1\over 8}+{3\over 8} \\
    &={1\over 2} \end{align} }$$
  • 確率質量関数は非負かつ総和が1
  • 期待値(expectation): $X(\Omega)$ に属するそれぞれの値 $x$ とその値が実現する確率 $f_{X}(x)$ の積の総和
  • ただし、値域が可算集合の場合は期待値の計算に注意が必要で、正の項と負の項に分けて、両方有限な実数に収束すればそれを期待値としてよいが、片方が無限大に発散する場合は期待値は(正の項が発散するなら正の、負の項が発散するなら負の)無限大として扱い、両方無限大に発散する場合は、期待値は存在しないものとする
  • 不注意な統計学者の法則(law of the unconscious statistician, LOTUS): 確率変数Xと関数gの合成関数 $Y(\omega)=(g\circ X)(\omega)$ を考えるとき、期待値が存在する場合は、確率質量関数とgの積の総和として表現できる、つまり $$ E(Y)=\sum_{x\in X(\Omega)} [g(x)\cdot f_{X}(x)] $$
  • ↑の名前の由来は、本来証明されるべきこの性質が、統計学の教科書では自明のこととして紹介されていることから
  • 分散(variance): 期待値からの散らばり具合を示す指標で、式としては各値と期待値との差の2乗の総和、つまり $$ \text{Var}(X)=E\left[[X-E(X)]^{2}\right]=\sum_{x\in X(\Omega)} [x-E(X)]^{2}f_{X}(x) $$
  • ↑の式ではLOTUSを使用している
  • 標準偏差(standard deviatioin): 分散の平方根で、$σ_{X}, SD(X)$ のように書かれる。つまり $$ σ_{X}=\sqrt{\text{Var}(X)} $$
  • ↑は逆に言うと2乗すれば分散なので、分散を $σ_{X}^{2}$ と書くこともできる
  • 分散は負数を出さないために2乗していて単位がそろわないため、平行根を取って単位がそろった標準偏差のほうが好んで使われる
  • 分散は別解がある: $\text{Var}(X)=E(X^{2})-E(X)^{2}$
  • 確率変数のそれぞれの値から、その確率変数の期待値を引くことで期待値を0にできる。この操作を中央化(centering)という
  • 中央化された確率変数から標準偏差を引くことで、期待値が0かつ分散が1の確率変数を作ることができる。この操作を標準化(standardizing)という
  • 確率変数が取る値を0から1の範囲に収める操作を正規化(normalizing)といい、以下を指す $$ Y(\omega)={X(\omega)-\min X(\Omega)\over\max X(\Omega)-\min X(\Omega)} $$
  • 狭義単調増加関数 $g$ と合成された確率変数 $g\circ X$ の確率質量関数 $f_{g\circ X}$ が定める値は $$ f_{g\circ X}(y)= \begin{cases} f_{X}(g^{-1}(y) & \text{if } y\in g(X(\Omega)) \\
    0 & \text{if } y\notin g(X(\Omega)) \end{cases} $$

  • 分布関数 $F_{g\circ X}$ でも同様で、

$$ F_{g\circ X}(y)= \begin{cases} 0 & \text{if } \forall y' \in g(X(\Omega): y' > y) \\
F_{X}(g^{-1}(y) & \text{if } y\in g(X(\Omega)) \\
1 & \text{if } \forall y'\in g(X(\Omega): y'<y) \end{cases} $$

  • ↑2つは狭義単調減少関数でも同様
  • また、単調関数だけでなく単射の関数でも同様
  • m次のモーメント(m-th moment): 期待値の算出過程で各事象の値をm乗したもの、つまり $$ E(X^{m})=\sum_{x\in X(\Omega)}x^{m} f_{X}(x) $$
  • モーメントは積率ともいう
  • 1次のモーメントは期待値と一致
  • 期待値が有限な実数に定まるとは限らないのと同様に、モーメントも有限な実数に定まるとは限らない。そこで、条件として、
    • m次の絶対値のモーメントがあれば(絶対値でない)m次のモーメントもある
    • m次の絶対値のモーメントがあれば、m次以下の絶対値モーメントがある
    • これらを合わせて、m次の絶対値のモーメントがあれば、m次以下の(絶対値でない)モーメントがある
  • 各事象の値からaを引いて導いたモーメントを aまわりのm次モーメント(m-th moment about the point a)といい、LOTUSを使って以下のように書ける $$ E( (X-a)^{m})=\sum_{x\in X(\Omega)}(x-a)^{m} f_{X}(x) $$
  • m次の中心モーメント(m th central moment): 期待値まわりのm次モーメント $$ E( [X-E(X)]^{m})=\sum_{x\in X(\Omega)}[x-E(X)]^{m} f_{X}(x) $$
  • 2次の中心モーメントは分散と一致し、しかもそれは2次のモーメントの中で最小
  • モーメント母関数(moment generating function): 実数tと変数xを使って定義した確率変数 $e^{tx}\in\mathbb{R}$ の期待値 $$ E(e^{tx})=\sum_{x\in X(\Omega)} e^{tx}f_{X}(x) $$ を考えたときに、期待値それ自体が有限な実数に定まるとは限らないものの、tの範囲を0を中心とした近傍 $N_{\varepsilon}(0)=(-\varepsilon,\varepsilon)$ に縮めると期待値が出るという条件のもとでの元の期待値のこと、つまり $$ M_{X}(t)=E(e^{tx}) $$
  • モーメント母関数が存在する場合、m次のモーメントが存在し、なおかつその値はモーメント母関数の点0でのm次微分係数と一致する、つまり $$ E(X^{m})=\left.{d^{m}M_{X}(t)\over dt^{m}} \right|_{t=0} $$
  • 2つの確率変数が同じモーメント母関数を持つことと、同じ確率分布を持つことは必要十分
    • まず、確率質量関数が一致することとモーメント母関数が一致することは必要十分
    • なぜなら、モーメント母関数は期待値であり、期待値はLOTUSにより確率変数と確率質量関数によって表現できるから、構成要素が一致する
    • ここから、確率分布は分布関数で表現できるので、合わせて(※再調査)
  • ↑を使って、2つの確率変数の確率分布が一致することの代わりに、同じモーメント母関数を持つことを示してもよい
  • マルコフの不等式(Markov’s inequality): 確率変数Xの各値が非負で、期待値が有限な実数に定まる場合、Xの値が正の実数c以上になる確率は、期待値÷c以下、つまり

$$ P(X\geq c)\leq{E(X)\over c} $$

  • これは、値が一定以上になる確率の上限を特定するのに役立つ
  • 非負でなくても絶対値を取れば同様の主張が成り立つ
  • また、絶対値でなくても、非負値を出力するなんらかの関数との合成関数でもよい
  • マルコフの不等式は期待値を使っているので、分散が大きいほど誤差も大きくなる。このようなケースでも値に対して示唆を与えてくれる指標が欲しい
  • 自乗可積分(square integrable): 確率変数Xの各値の2乗の期待値が有限な実数に定まること
  • Xが自乗可積分のとき、Xの期待値と分散も有限な実数に定まる
  • チェビシェフの不等式(Chebyshev’s inequality): Xが自乗可積分のとき、期待値との距離がk以上になる確率は、Xの分散をkの2乗で割った数以下、つまり

$$ P(|X-E(X)|\geq k)\leq {V(X) \over k^{2}} $$

同時確率変数

  • 離散型の同時確率変数(discrete joint random variable): $(X,Y): \Omega \to\mathbb{R}^{2}$
  • 同時確率分布(joint probability distributioin): $$P( (X,Y)\in A \times B) = P( \{\omega \in \Omega \mid X(\omega) \in A \land Y(\omega) \in B\})$$
  • 同時確率質量関数(joint probability mass function): $$f_{XY}(x)=(X=x\land Y=y)$$
  • 同時分布関数(joint distribution function)or 同時累積分布関数(joint cumulative distribution function): $$F_{XY}(x,y)=P(X\leq x\land Y\leq y)$$
  • 同時分布関数は同時確率質量関数から導出可能。具体的には $$F_{XY}(x,y)=\sum_{x_{i}\leq x}\sum_{y_{i}\leq y}f_{XY}(x_{i},y_{i})$$
  • 周辺確率分布(marginal probability distribution): 同時確率変数で片方の分布が分かっている場合 $$P(X\in A)=P(\{\omega \in \Omega \mid (X,Y)\in A \times Y(\Omega) \})$$
  • 周辺確率質量関数(marginal probability mass function): 同時確率質量関数のうち、片方を固定して1つの確率質量関数を取り出したもの $$\displaylines{ f_{X}(x)= \begin{cases}\displaystyle \sum_{(x_{i},y_{i})\in(X,Y)(\Omega)\text{ s.t. } x_{i}=x} f_{XY}(x_{i},y_{y}) & \text{if }x \in X(\Omega) \\
    0 & \text{if }x \notin X(\Omega) \end{cases} }$$
  • ↑を導くことを周辺化(marginalizing)という
  • 周辺分布関数(marginal distribution function)or 周辺累積分布関数(cumulative marginal distribution function): $$F_{X}(x)=P(X\leq x)$$
  • 離散型の確率変数が独立であることはいくつかの方法によって表現できる $$\displaylines{ \forall A,B \subset \mathbb{R}: P( (X,Y)\in A \times B)=P(X\in A) \cdot P(Y\in B) \\
    \forall A,B \subset \mathbb{R}: \sum_{(x,y)\in A \times B}f_{XY}(x,y) = \sum_{x\in A}f_{X}(x) \cdot \sum_{y\in B}f_{Y}(y) \\
    \forall x,y \in \mathbb{R}: f_{XY}(x,y) = f_{X}(x) \cdot f_{Y}(y) \\
    \forall x,y \in \mathbb{R}: F_{XY}(x,y) = F_{X}(x) \cdot F_{Y}(y) }$$
  • 同一分布にしたがう(identically distributed): これも、確率、確率質量関数、確率分布で表現可能 $$\displaylines{ \forall A \subset \mathbb{R}: P(X\in A)=P(Y\in A) \\
    \forall A \subset \mathbb{R}: \sum_{x\in A}f_{X}(x)=\sum_{y\in A}f_{Y}(y) \\
    \forall x \in \mathbb{R}: f_{X}(x)=f_{Y}(x) }$$
  • 独立かつ同一分布に従うことを、独立同一分布にしたがう(independent and identically distributed)といい、略して i.i.d.と書く
  • 2つの確率変数X,Yで試行を行ってそれぞれ値x,yを取り出したとき、両方ともそれぞれの期待値より大きい値か、両方とも期待値より小さい値のとき、同じ方向にある(concordant)といい、そうでない場合反対方向にある(discordant)という
  • 共分散(covariance): 2つの確率変数の分散の積の期待値、つまり $$\text{Co​v}(X,Y)=E([X-E(X)][Y-E(Y)])$$
  • 共分散が正なら同じ方向、負なら反対方向
  • 期待値が有限な実数に定まるとは限らないので、共分散も同様。ただ、X,Yの分散がともに有限な正の実数に定まるなら、共分散も有限な実数に定まる
  • ↑の条件を満たすとき、共分散の導出は簡略化できて、 両者の積の期待値から期待値の積を引くと出せる、つまり $$\text{Co​v}(X,Y)=E(XY)-E(X)E(Y)$$
  • XとYが独立なら共分散は0。ただし逆は成り立つとは限らない
  • 同じ確率変数同士の共分散は、自身の分散と一致する
  • 双線型性(bilinearity): 確率変数X,Y,Zがあるとき、以下が成り立ち、 $$\text{Co​v}(X+Y,Z)=\text{Co​v}(X,Z)+\text{Co​v}(Y,Z)$$ 定数をつけても成り立つ性質が、 $$\text{Co​v}(aX+bY,Z)=a\text{Co​v}(X,Z)+b\text{Co​v}(Y,Z)$$ 第2引数についても成り立つこと $$\text{Co​v}(Z,aX+bY)=a\text{Co​v}(Z,X)+b\text{Co​v}(Z,Y)$$
  • 和の分散が分散の和で表される以下の性質 $$\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)$$ は独立である場合にのみ成り立つ
  • ただし、独立でなくても、以下は常に成り立つ $$\text{Var}(X+Y)=\text{Var}(X)+\text{Var}(Y)+2\text{Co​v}(X,Y)$$
  • 相関係数(correlation): 共分散を標準偏差の積で割ったもの、つまり $$\text{Corr}(X,Y)={\text{Co​v}(X,Y)\over σ_{X}σ_{Y}}$$
  • 相関係数は、cmとkmなど、単位が違っても約分されて同じ値が出てくるので、異なる単位間での比較に便利
  • 相関係数は[-1,1]の間に収まる
  • 相関係数が正のとき正の相関がある(positively correlated)、負のとき負の相関がある(negatively correlated)、0なら無相関である(uncorrelated)などという
  • 独立なら相関係数は0
  • 自身との相関係数は1
  • 条件付き確率質量関数(conditional probability mass function): Yがyである条件の下でのXの確率、つまり $$\displaylines{ \begin{align} f_{X|Y=y}(x)&=P(X=x|Y=y) \\
    &= {P( (X,Y)\in\{x\}\times\{y\}) \over P(Y=y)} \\
    &= {f_{XY}(x,y)\over f_{Y}(y)} \end{align} }$$ ただし、 $f_{Y}(y)>0$
  • xが1点集合のときだけでなく集合Aに含まれる場合でも同様で、 $$ P(X\in A|Y=y)=\sum_{x \in A} f_{X|Y=y}(x) $$
  • 条件付き分布関数(conditional distribution function): $$\displaylines{ \begin{align} F_{X|Y=y}(x)&=P(X\leq x|Y=y) \\
    &= {P( \omega\in\Omega\mid X(\omega)\leq x \land Y(\omega)=y ) \over P(\omega\in\Omega\mid Y(\omega)=y)} \\
    &= \sum_{x_{i}\leq x}f_{X|Y}(x_{i}) \\
    &= {1\over f_{Y}(y)}\sum_{x_{i}\leq x}f_{XY}(x_{i},y) \end{align} }$$
  • 条件付き期待値(conditional expectation): $$\displaylines{ \begin{align} E(X|Y=y)&=\sum_{x\in X(\Omega)}[x\cdot f_{X|Y=Y}(x)] \\
    &= \sum_{x\in X(\Omega)}\left[x\cdot {f_{XY}(x,y)\over f_{Y}(y)}\right] \end{align} }$$

離散型の確率ベクトル

  • 対象の確率変数が3つ以上になった時でも、同時確率分布、同時確率質量関数、非負性、総和=1、右側連続性、などの特徴は同様

確率変数列

  • 確率変数の列(sequence of random variables): 無限個の確率変数を並べたもの
  • 確率変数列が独立であることは、その列の中から任意に有限個の項を選んだ時にそれぞれ独立であること、つまり $$ \forall A_{1},\dots,A_{N}\subset\mathbb{R}, \forall J \subset \{1,\dots,N\}: P\left( (X_{n})_{n\in J} \in \prod_{n\in J} A_{n} \right) = \prod_{n\in J}P(X_{n}\in A_{n}) $$
  • 確率質量関数を使って表現すると $$ \forall (x_{1},\dots,x_{N})\in\mathbb{R}^{N}: f_{X_{1}\dots X_{N}}(x_{1},\dots, x_{N})=f_{X_{1}}(x_{1}) \times\dots\times f_{X_{N}}(x_{N}) $$
  • 分布関数を使って表現すると $$ \forall (x_{1},\dots,x_{N})\in\mathbb{R}^{N}: F_{X_{1}\dots X_{N}}(x_{1},\dots, x_{N})=F_{X_{1}}(x_{1}) \times\dots\times F_{X_{N}}(x_{N}) $$
  • 同一分布に従うことは $$\forall A \subset\mathbb{R}: P(X_{1}\in A) = \dots = P(X_{N} \in A)$$

    連続型の確率分布

  • 連続型の確率変数(continuous random variable): 値域が区間などの場合
  • 連続型の確率変数においてそれが確率変数であるためには、事象が可測であること、言い換えると逆写像が可測、すなわち $\mathcal{F}$-可測であることが必要十分、つまり $$\forall x \in \mathbb{R}: X^{-1}( (-\infty,x])\in\mathcal{F}$$
  • 連続型の場合は、離散型のように確率質量関数を使うと、各事象の確率が0になってしまって総和が1という条件を満たさなくなってしまう。そこで、以下の概念を導入する
  • 確率密度関数(probability density function): 任意の区間Iに対して、確率を積分として定義し、すべての事象は非負で、全区間の総和が1であるもの、つまり $$\displaylines{ \begin{align} \text{(a) } P(X\in I)=\int_{I}f_{X}(x)dx \\
    \text{(b) } \forall x\in\mathbb{R}: f_{X}(x)\geq 0 \\
    \text{(c) } \int_{-\infty}^{+\infty} f_{X}(x)dx=1 \end{align} }$$

  • 確率分布の台(support): 0より大きい値を取る点からなる集合、つまり $$\{x\in\mathbb{R}\mid f_{X}(x)>0\}$$

  • 分布関数(distribution function)or 累積分布関数(cumulative distribution function): 特定の値以下である確率 $$ F_{X}(x)=P(X\leq x)=\int_{-\infty}^{x}f_{X}(t)dt $$
  • 離散型の分布関数は右側連続である一方左側連続とは限らなかったが、連続型の分布関数は左右両方で連続、つまり普通の連続関数
  • 分布関数を微分すれば確率密度関数が得られる
  • 微分可能でない点は導出できない。ただし、特定の値を取る確率は0なので、その値はこちら側で勝手に決めても影響がない
  • 期待値は、 $$ E(X)=\int_{x\in X(\Omega)} xf_{X}(x)dx=\int_{-\infty}^{+\infty} xf_{X}(x)dx $$
  • 期待値の定数倍、定数プラスは外に出せる、つまり $$E(cX+d)=cE(X)+d$$
  • 分散は $$ \int_{-\infty}^{+\infty} [x-E(X)]^{2}f_{X}(x)dx $$
  • 期待値や分散の和は分解可能
  • 分散の定数倍は定数倍を2乗して外に出せる、つまり $$\text{Var}(cX+d)=c^{2}\text{Var}(X)$$
  • 確率変数 Xとgの合成関数を考えると、gが狭義単調増加で逆関数が $C^{1}$ 級のとき、その合成関数による確率密度関数 $f_{g\circ X}(y)$ は $$ f_{g\circ X}(y)= \begin{cases} \displaystyle f_{X}(g^{-1}(y))\cdot {dg^{-1}(y)\over dy} & \text{if } y\in g(X(\Omega)) \\
    0 & \text{if } y\notin g(X(\Omega)) \end{cases} $$
  • gが狭義単調減少のときは、符号を反転させれば同様の主張が可能
  • m次モーメント $$E(X^{m})=\int_{-\infty}^{+\infty} x^{m}f_{X}(x)dx$$
  • モーメント母関数 $$M_{X}(t)=E(e^{tX})=\int_{-\infty}^{+\infty} e^{tx}f_{X}(x)dx$$
  • 同時確率密度関数は以下の3条件を満たす $$\displaylines{ \begin{aligned} &\text{(a) } P( (X,Y)\in I\times J)=\int\int_{(x,y)\in I\times J} f_{XY}(x,y)dxdy \\
    &\text{(b) } \forall (x,y) \in \mathbb{R}^{2}: f_{XY}(x,y)\geq 0 \\
    &\text{(c) } \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f_{XY}(x,y)dxdy=1 \end{aligned} }$$
  • 同時分布関数は同時確率密度関数から導出可能 $$ F_{XY}(x,y)=\int_{-\infty}^{x}\int_{-\infty}^{y} f_{XY}(s,t)dsdt $$
  • 同時確率密度関数の2階導関数を取ると同時分布関数になる $$ {\partial^{2}\over\partial x\partial y} F_{XY}(x,y)=f_{XY}(x,y) $$
  • 独立性 $$ \forall I,J\subset\mathbb{R}: \int\int_{(x,y)\in I\times J} f_{XY}(x,y)dxdy=\int_{x \in I}f_{X}(x)dx \cdot\int_{y \in J}f_{Y}(y)dy $$
  • 条件付き確率密度関数 $P(X\in I|Y=y)$ は、$P(Y=y)$ が0になってしまって分母に取れないので、かわりに正の値hを使って $$ P(X\in I|Y\in[y,y+h])=\int_{I}{f_{XY}(x,y+\theta_{1}h)\over f_{Y}(y+\theta_{2}h)}dx $$ を満たす $\theta_{1}, \theta_{2}\in(0,1)$ が存在することが保証される

    代表的な確率分布

    ベルヌーイ分布

  • ベルヌーイ試行(Bernoulli trial): 0と1だけを取る離散型の確率変数
  • ベルヌーイ分布(Bernoulli distribution): ベルヌーイ試行の確率質量関数が以下を満たすこと $$ f_{X}(x)= \begin{cases} p & \text{if } x=1 \\
    1-p & \text{if } x=0 \\
    0 & \text{otherwise} \end{cases} $$
  • ↑を指して次のように書く $$X\sim Bi(1,p)$$
  • ↑の例:コイントス、男女、偶奇、などなど
  • 分布関数は $$ F_{X}(x)= \begin{cases} 0 & \text{if } x<0 \\
    1-p & \text{if } 0\leq x < 1 \\
    1 & \text{if } 1 < x \end{cases} $$
  • 分散は $\text{Var}(X)=p(1-p)$
  • モーメント母関数は $M_{X}(t)=1-p+e^{t}p$

二項分布

  • ベルヌーイ試行をn回行ったとき、成功の回数 $X(\omega)=X_{1}(\omega)+\dots+X_{n}(\omega)$ は二項分布に従うといい、それを次のように書く $$X\sim B_{i}(n,p)$$
  • ↑の確率質量関数は $$ f_{X}(x)= \begin{cases} \displaystyle {n \choose x}p^{x}(1-p)^{n-x} & \text{if } x \in X(\Omega) \\
    0 & \text{otherwise} \end{cases} $$
  • 分布関数は $$ F_{X}(x)= \begin{cases} 0 & \text{if } x<0 \\
    \displaystyle \sum_{y=0}^{k}{n \choose y}p^{y}(1-p)^{n-y} & \text{if } k\leq x < k + 1 \land k\in\{0,1,\dots,n-1\} \\
    1 & \text{if } n \leq x \end{cases} $$
  • 期待値は $np$
  • 分散は $np(1-p)$
  • モーメント母関数は $M_{X}(t)=(1-p+e^{t}p)^{n}$

離散型一様分布

  • すべて均等に分布する場合一様分布といい、 $X\sim U(x_{1},\dots,x_{n})$
  • モーメント母関数は $$M_{X}(t)={1\over n}\sum_{i=1}^{n}(e^{t})^{x_{i}}$$

ポアソン分布

  • 一定時間内にある事象が起きる確率を表すとき、確率λを使って次のように書けると仮定する $$P(1,[s,s+\Delta s])=\lambda \Delta s + o(\Delta s) \quad (\Delta s\to 0)$$ すると、高位の無限小の定義から、 $$\displaylines{ \lim_{\Delta s\to 0}{P(1,[s,s+\Delta s]) -\lambda\Delta s \over \Delta s}=0 \\
    \lim_{\Delta s\to 0}{P(1,[s,s+\Delta s]) \over \Delta s}=\lambda }$$ つまり $$ {P(1,[s,s+\Delta s]) \over \Delta s} $$ が確率λに相当するものとする。sに依存しないのでどのsでもよい、つまりどの地点で観測しても確率は一定とする。さらに2回以上起こる確率を無限小にする、つまり $$ P(x,[s,s+\Delta s])=o(\Delta s)\quad (\Delta s\to 0) \quad (x\geq 2) $$ で、limを取ると0になる。以上を前提にすると、時間tまでの間に事象がx回起こる確率は、 $$ P(x,[0,t])={(\lambda t)^{x}\over x!}e^{-\lambda t} $$ ここで $t=1$ を代入したものを確率質量関数で使ったとき、つまり $$ f_{X}(x)= \begin{cases} \displaystyle {\lambda^{x}\over x!}e^{-\lambda} & \text{if } x\in X(\Omega) \\
    0 & \text{if } x\notin X(\Omega) \end{cases} $$ と表せるときXはポアソン分布に従うといい、次のように書く $$X\sim P_{oisson}(\lambda) $$
  • 分布関数は $$ F_{X}(x)= \begin{cases} 0 & \text{if } x < 0 \\
    \displaystyle e^{-\lambda}\sum_{s=0}^{k}{1\over s!}\lambda^{s} & \text{if } k \leq x < k+1 \land k \in \mathbb{Z}_{+} \end{cases} $$
  • 期待値、分散はともに $\lambda$
  • モーメント母関数は $$ M_{X}(t)=\exp{\lambda(e^{t}-1)} $$
  • ポアソン分布の例:来店客数の確率など

連続型の一様分布

  • モーメント母関数は $$ M_{X}(t)= \begin{cases} \displaystyle {e^{tb}-e^{ta}\over t(b-a)} & \text{if } t \neq 0 \\
    1 & \text{if } t = 0 \end{cases} $$

指数分布

  • 事象が起きるまでの時間がtになる確率を $$ P(t<X\leq t+\Delta t | X > t) = \lambda\Delta t + o(\Delta t)\quad(\Delta t\to 0) $$ と表記できると仮定する。ポアソン分布と同様の議論によって、 $$ {P(t<X\leq t+\Delta t | X > t)\over\Delta t} $$ を $t$ から $t+\Delta t$ の間に事象が発生する確率となる。そこで確率質量関数 $$ f_{X}(x)= \begin{cases} \lambda e^{-\lambda x} & \text{if } x \in X(\Omega) \\
    0 & \text{if } x \notin X(\Omega) \end{cases} $$ は指数分布に従うといい、以下のように書く $$X\sim E_{XP}(\lambda)$$
  • 分布関数 $$ F_{X}(x)= \begin{cases} 0 & \text{if } x < 0 \\
    1-e^{-\lambda x} & \text{if } x \geq 0 \end{cases} $$
  • 期待値: $$E(X)={1\over \lambda}$$
  • 分散: $$\text{Var}(X)={1\over \lambda^{2}}$$
  • モーメント母関数: $$M_{X}(t)={\lambda\over\lambda-t}$$
  • 指数分布の例:客が来店するまでの時間の確率、地震が来るまでの確率

正規分布

  • 正規分布(normal distribution)or ガウス分布(Gaussian distribution)$X\sim N(\mu,σ)$ : $$ f_{X}(x)={1\over\sqrt{2\pi}}{1\over σ}\exp{\left(-{1\over 2}{(x-\mu)^{2}\over σ^{2}}\right)} $$
  • 実は正規分布は特殊な性質を持ち、期待値がμ、標準偏差がσ、つまり $$\displaylines{ \begin{align} E(X)&=\mu \\
    \sqrt{\text{Var}(X)}&=σ \end{align} }$$
  • 正規分布の例:身長の分布、得点の分布など
  • 標準正規分布(standard normal distribution): $X\sim N(0,1)$ で、具体的には $$ f_{X}(x)={1\over\sqrt{2\pi}} \exp{\left(-{1\over 2}x^{2}\right)} $$
  • 分布関数: $$ F_{X}(x)={1\over 2}\left[1+\text{erf}\left({x-\mu\over\sqrt{2}σ}\right)\right] $$ ただし、erfは誤差関数で $$ \text{erf}(x)={2\over\sqrt\pi}\int_{0}^{x}\exp{(-s^{2})}ds $$
  • モーメント母関数: $$ M_{X}(t)=\exp{\left(\mu t+{1\over 2}σ^{2}t^{2}\right)} $$
  • 確率変数X1,X2,...がi.i.dで、期待値と分散が有限な実数に定まるとき、すべての確率変数でその期待値と分散が共有されるため、その期待値を母平均、分散を母分散という
  • 標本平均: n回試行した結果の平均 $$ \overline{X}_{n}(\omega)={X_{1}(\omega)+\dots+X_{n}(\omega)\over n} $$
  • 中心極限定理(central limit theorem): 標本平均のnを限りなく大きくすると正規分布に近づくこと、つまり $$ \overline{X}_{n}\sim N\left(\mu,{σ^{2}\over n}\right) $$

漸近理論

  • 確率変数列Xnが各点収束する(pointwise convergent)とは、確率変数列の極限が有限な実数に定まること、つまり $$\lim_{n\to\infty}X_{n}(\omega)\in\mathbb{R}$$
  • 概収束する(convergent almost surely)or ほとんど確実に収束する(almost sure convergent): 各点収束する事象の確率が1であること、つまり $$P\left(\left\{ \omega\in\Omega\mid\lim_{n\to\infty}X_{n}(\omega)\in\mathbb{R} \right\}\right)=1$$
  • というのも、標本空間が非加算集合の場合、そのうち特定の値の実現可能性は0とみなせるので、標本空間の中の加算集合が収束しない場合でも、それ以外が収束するなら概収束するといえる
  • 別の定義として、各点とXとの距離が0に近づくとしてもよい、つまり $$P\left(\left\{ \omega\in\Omega\mid\lim_{n\to\infty} |X_{n}(\omega)-X(\omega)|=0 \right\}\right)=1$$
  • 以下2つの確率変数列は一致する $$\displaylines{ A=\left\{\omega\in\Omega\mid\lim_{n\to\infty}X_{n}(\omega)=X(\omega) \right\} \\
    B=\bigcap_{k\in\mathbb{N}}\bigcup_{m\in\mathbb{N}}\bigcap_{m=n}^{+\infty}\left\{\omega\in\Omega\mid|X_{n}(\omega)-X(\omega)| < {1\over k}\right\} }$$
  • 事象列Aの一般項を $$A_{n}(\varepsilon)=\{\omega\in\Omega\mid |X_{n}(\omega)-X(\omega)|<\varepsilon\}$$ と定義すると、XnがXに概収束することは以下と必要十分 $$ \forall \varepsilon>0:P\left(\lim_{n\to\infty}\inf A_{n}(\varepsilon)\right)=1 $$
  • ボレル・カンテリの第1補題を使うことで、↑は、その補集合の確率の総和が有限な実数に定まることを言えればいい、つまり $$ \sum_{n=1}^{+\infty}P(\{\omega\in\Omega\mid|X_{n}(\omega)-X(\omega)|\geq\varepsilon\})<+\infty $$
  • 同様に、ボレル・カンテリの第2補題を使って概収束しないことも示せる
  • 確率収束する(converge in probability)$X_{n}\to X \quad \text{c.p.}$ : 確率変数列Xnの添え字nを限りなく大きくすればXとの距離がε未満になる確率が1になること、つまり $$ \lim_{n\to\infty}P(\{\omega\in\Omega\mid|X_{n}(\omega)-X(\omega)|<\varepsilon\})=1 $$
  • r次平均収束する(convergence in r-th mean)$X_{n}\to X \quad \text{r.m.}$ : rを1以上の実数としたとき、XnとXの距離のr乗の期待値が0に収束すること、つまり $$ \lim_{n\to\infty}E(|X_{n}-X|^{r})=0 $$
  • r次平均収束するとき、rより小さい値でも平均収束する
  • 分布収束する(converge in distribution)や法則収束(converge in law)$X_{n}\to X\quad \text{c.d.}$ : 分布関数が収束すること、つまり $$ \lim_{n\to\infty}F_{X_{n}}(x)=F_{X}(x) $$
  • 分布収束の検討においては、標本空間が異なっていても比較可能
  • 収束の関係性は $$ \begin{array}{ccc} 各点収束\implies & 概収束 &\implies &確率収束 \implies 分布収束 \\
    &平均収束&\nearrow& \end{array} $$

  • チェビシェフの大数の弱法則(Chebyshev’s weak law of large numbers): 標本平均列 $\left\{\overline{X}_{n}\right\}$ は期待値 $\mu$ に確率収束する、つまり $$\left\{\overline{X}_{n}\right\} \overset{p}{\to}\mu $$

  • ↑は2乗平均収束としても成り立つ、つまり$$\left\{\overline{X}_{n}\right\} \overset{L^{2}}{\to}\mu $$
  • コルモゴロフの最大不等式(Kolmogorov’s maximal inequality): 期待値が0で分散が有限のとき、有限n回の試行で最大到達点がε以上になる確率は、その分散をεの2乗で割った値が最大である、つまり $$ P\left( \max_{1\leq k \leq n}|S_{k}|\geq\varepsilon \right) \leq {\text{Var}(S_{n})\over\varepsilon^{2}} $$
  • チェビシェフの不等式に「期待値が0で分散が有限」という条件を加えて変形するとコルモゴロフの最大不等式が得られる、つまり両者は本質的に同一
  • ヒンチン=コルモゴロフの収束定理(Khintchine-Kolmogorov convergence theorem): 確率変数列の総和が収束するとき、それは末尾事象のためコルモゴロフの0-1定理から0か1であることが言えるが、独立で期待値が0、分散の総和が有限のとき、これが1になること、つまり $$ P\left(\left\{\omega\in\Omega\mid\sum_{n=1}^{\infty}X_{n}(\omega)<\infty\right\}\right)=1 $$
  • コルモゴロフの二級数定理(Kolmogorov’s two series theorem): ↑の命題で、期待値が0の代わりに、期待値の総和が有限としたもの
  • コルモゴロフの三級数定理(Kolmogorov’s three series theorem): 二級数のほうは無限級数が収束するための十分条件のみを与える一方、こちらはその必要十分条件を与える。各事象が任意の定数c以上になる確率の総和が有限な実数に定まることと、Xnの値がc以下であるかどうかの指示関数の期待値の総和が有限な実数に定まることと、それの分散の総和が有限な実数に定まること、つまり $$\displaylines{ \begin{aligned} &\text{(a) } \sum_{n=1}^{+\infty}P( \{\omega\in\Omega\mid |X_{n}(\omega)|>\varepsilon \})<+\infty \\
    &\text{(b) } \sum_{n=1}^{+\infty} E(Y_{n})<+\infty \\
    &\text{(c) } \sum_{n=1}^{+\infty} \text{Var}(Y_{n})<+\infty \\
    \end{aligned} }$$
  • コルモゴロフの大数の強法則(Kolmogorov’s strong law of large numbers): i.i.d.に従い、期待値が有限の確率変数列が母平均に収束する確率は、末尾事象なので0か1だが、この場合1になることが確定する、つまり $$ P\left(\left\{\omega\in\Omega\mid \lim_{n\to\infty}\overline{X}_{n}(\omega)=\mu\right\}\right)=1 $$