多變量分析

前言

本課程為多變量分析,從名字看來就可以知道,這堂課是在教我們在面對多個變量時應該要怎麼符合邏輯以及科學知識的方式
去分析我們的資料並得出有條理的推論的成果(雖然我還是不會實作orz)。
最後,我不知道是我太笨還是怎麼樣,每次修統計都聽不太懂,並且會有很大一部分的用語方面的混亂~~
希望這次能好好地拿到學分也學會如何分析和分析中的想法。

第一堂課

本堂課著重於介紹多變量分析是什麼,多變量分析的手法有哪些的概要。

什麼是多變量分析

多變量分析的目的在於能以數學方式完整地去解釋並且套用模型來分析大量的參考資料與變數。

多變量分析主要有以下的手法(分類方式有分析手法以及對應的資料型態來做分類)

  1. 判別分析
    • 数量化2類
  2. 主成分分析
  3. クラスター分析
  4. 数量化3類
  5. 因子分析
  6. 回帰分析
    • 重回帰分析
    • 数量化1類
    • ロジスティック回帰分析
    • Cox 回帰分析

等等為常見的多變量分析手法(説明変数がカテゴリカルデータ)

第二堂課

本堂課著重於介紹多次元的機率分佈,好為接下來的多變數分析的數學模型打底(我這個最爛了orz)

機率分佈

第三堂課

本課內容為重回歸分析,介紹回歸分析以及交絡要因等分析時的手法以及想法。

回歸模型(Regression mode

回歸模型就如同國高中所學,將統計資料以回歸線的方式來做表達。
回歸的中心思想是利用資料中的平均值,計算出哪個回歸線的誤差是
最小的,並以這條回歸線作為分析的結果。例如

μ=α+βx\mu = \alpha + \beta x

可以說是最為印象深刻的表達方式。在這裡β\beta代表為回歸係數,也就是回歸線的斜率。

將剛剛的數學式擴張為多變量的模型時,我們可以得出我們心中所想。

μ=γ0+γ1z1+γ2z2++γk+zk\mu = \gamma_0 + \gamma_1 z_1 + \gamma_2 z_2 + \cdots + \gamma_k+z_k

交絡要因

要如何正確的分析資料?當我們已回歸分析分析資料時,我們得出的結果可能出乎我們意料,或許這個分析結果是真相,也有可能我們的分析結果是錯誤的。交絡要因,代表著我們資料中被當作變數的資料是有互相影響作用的關係的。當我們出現互相激烈影響的資料時,我們的回歸分析就很有可能因為這些影響使我們做出錯誤的判斷。
因此我們需要更精簡的方式來判斷以及衡量變數之間的影響。

為了簡單說明,我們以下面簡單的公式來做介紹。

μ=α+βx\mu = \alpha + \beta x

μ=α+βx+γz\mu = \alpha + \beta x + \gamma z

  • $\mu $ :變數y的平均值
  • x 暴露的變數
  • z : 交絡要因的變數

第三堂課總結

平均值的差是我們在推論回歸模型的一種方式,透過平均值的差,我們可以量化,這個分析結果的差距,比如說一邊是有吃飯,一邊是沒吃飯,做一個回歸模型,兩者得平均值的差可以幫助我們去分析差距。

  1. 交絡調整後表達「平均值的差」的回歸模型基本式

    μ=α+βx+γz\mu = \alpha + \beta x + \gamma z

  2. 回歸模型可以用來分析出「平均值的差」
  3. 回歸模型經過交絡調整後,一樣也可以以「平均值的差」來表達。

第四堂課

本課內容為Logistict回歸分析的特徵以及與重回歸分析的分析手法差異。

Logistic回歸分析特徵

  • 變數 y 在二元分析(0,1)的時候使用
  • 在使用Logistic分析時,將會用比值來做分析,例如對數Odds比與Odds比
  • Logistic回歸也可以向重回歸分析一樣進行交絡調整並且以「Odds比」來評估差異

什麼是Odds

p+1p=1p + 1- p = 1

比值則為

p1\frac{p}{1}

Odds比則為

p1p\frac{p}{1-p}

相對於重回歸分析可以歸類出以下的表格

重回歸分析 Logistict回歸分析
變數Y 連續值 二元
要約指標 平均值 比值

最為著名的Logistict回歸曲線

π=expα+βx1+expα+βx \pi = \frac{\exp{\alpha + \beta x }}{1 + \exp{\alpha + \beta x}}

對此曲線取log我們將可以得到一個線性的結果

logit(π)=logπ1π=logOdds=α+βxlogit(\pi) = \log{\frac{\pi}{1-\pi}} = \log{Odds} = \alpha + \beta x

將logistict回歸取log之後我們可以找出回歸分析的特性,正如重回歸分析一樣,我們可以進行交絡要因的調整,並得出相似的結果

第四堂總結

  1. 交絡要因調整後的Odds比

    log(Odds)=α+βx+γz\log(Odds) = \alpha + \beta x + \gamma z

  2. exp(β)\exp(\beta)是變數z被調整後的Odds比
  3. Logistict回歸分析也可以使用交絡要因調整的手法

第五堂課

本課內容為Dummy變數的介紹,目的為在回歸分析時資料為category的時候要如何使用。

Category資料意思為不連續,依據自我的定義來決定的資料,比如說 高,中, 低等已經被分類過的數據。

第六堂課

本課內容為變數的選擇,交叉檢證法與AIC。

變數選擇前言

當我們分析資料時,要使用資料的哪個部分來當作我們的說明變數。
當變數的關係為以下所示時,我們不必考量變數選擇。

  1. 一定會使用的變數,就不用變數選擇
  2. 變數之間的關係已經非常明顯(?沒看懂

為了要分析我們可以使用哪些變數我們可以使用以下的方式分析。

  1. 統計模型
  2. 機率分佈之間的距離