Regresja liniowa

Dwuwymiarowy wykres punktowy, przedstawiający przykładowe obserwacje i dopasowaną linię trendu.
Przykład danych z modelem liniowym dopasowanym metodą najmniejszych kwadratów

Regresja liniowa – w modelowaniu statystycznym, metody oparte o liniowe kombinacje zmiennych i parametrów dopasowujących model do danych. Dopasowana linia lub krzywa regresji reprezentuje oszacowaną wartość oczekiwaną zmiennej y {\displaystyle y} przy konkretnych wartościach innej zmiennej lub zmiennych x . {\displaystyle x.} W najprostszym przypadku dopasowana jest stała lub funkcja liniowa, na przykład:

y = β 0 + β 1 x . {\displaystyle y=\beta _{0}+\beta _{1}x.}

Zmienna y {\displaystyle y} jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Zmienne x {\displaystyle x} nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.

Model regresji liniowej

Niech dany będzie zbiór danych zaobserwowanych { y i , x i 1 , , x i p } i = 1 n . {\displaystyle \{y_{i},\,x_{i1},\dots ,x_{ip}\}_{i=1}^{n}.} Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną y i {\displaystyle y_{i}} a wektorem p × 1 {\displaystyle p\times 1} regresorów x i . {\displaystyle \mathbf {x} _{i}.} Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) ε i , {\displaystyle \varepsilon _{i},} który jest zmienną losową. Dokładniej, model ten jest postaci

y i = β 0 1 + β 1 x i 1 + + β p x i p + ε i = x i β + ε i , i = 1 , , n , {\displaystyle y_{i}=\beta _{0}1+\beta _{1}x_{i1}+\ldots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\dots ,n,}

gdzie {\displaystyle ^{\top }} oznacza transpozycję, tj. x i β {\displaystyle \mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}} jest iloczynem skalarnym wektorów x i {\displaystyle \mathbf {x} _{i}} oraz β . {\displaystyle {\boldsymbol {\beta }}.}

Powyższe n {\displaystyle n} równań można zapisać w sposób macierzowy:

y = X β + ε , {\displaystyle \mathbf {y} =X{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},}

gdzie:

y = ( y 1 y 2 y n ) , X = ( x 1 x 2 x n ) = ( 1 x 11 x 1 p 1 x 21 x 2 p 1 x n 1 x n p ) , β = ( β 0 β 1 β 2 β p ) , ε = ( ε 1 ε 2 ε n ) . {\displaystyle \mathbf {y} ={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\qquad X={\begin{pmatrix}\mathbf {x} _{1}^{\top }\\\mathbf {x} _{2}^{\top }\\\vdots \\\mathbf {x} _{n}^{\top }\end{pmatrix}}={\begin{pmatrix}1&x_{11}&\ldots &x_{1p}\\1&x_{21}&\ldots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\ldots &x_{np}\end{pmatrix}},\qquad {\boldsymbol {\beta }}={\begin{pmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{pmatrix}},\qquad {\boldsymbol {\varepsilon }}={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.}

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to odporne metody statystyczne, do których należy regresja medianowa i algorytmy z regularyzacją.

Kwartet Anscombe’a

Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) mimo znacząco różnego charakteru danych.

Testy oparte o model liniowy

Wiele klasycznych narzędzi statystycznych opatrzonych własnymi nazwami, takich jak współczynnik korelacji r {\displaystyle r} Pearsona, ANOVA czy test t Studenta jest szczególnymi przypadkami lub aspektami modelu liniowego. Dotyczy to również licznych testów nieparametrycznych, w których przypadku zamiast surowych wartości zmiennych stosuje się rangi obserwacji[1].

Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku[2][3].

Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń[2][3][4][5][6].

Poniższa tabela – oparta o pracę Lindeløva[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie D {\displaystyle D} reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji, r a n g a ( ) {\displaystyle ranga()} to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a ϵ {\displaystyle \epsilon } to wyraz błędu.

Klasyczne testy statystyczne jako szczególne przypadki regresji liniowej
Nazwa zwyczajowa Równoważny model liniowy Opis słowny
test t Studenta dla jednej próby y = β 0 + ϵ {\displaystyle y=\beta _{0}+\epsilon } Czy średnia (lub mediana) obserwacji
jest ich dobrym predyktorem?
test Wilcoxona dla jednej próby r a n g a + ( y ) = β 0 + ϵ {\displaystyle \mathrm {ranga} _{-}^{+}(y)=\beta _{0}+\epsilon }
test t Studenta dla par obserwacji y 2 y 1 = β 0 + ϵ {\displaystyle y_{2}-y_{1}=\beta _{0}+\epsilon } Czy średnia (lub mediana) różnic obserwacji
jest ich dobrym predyktorem?
test Wilcoxona dla par obserwacji r a n g a + ( y 2 y 1 ) = β 0 + ϵ {\displaystyle \mathrm {ranga} _{-}^{+}(y_{2}-y_{1})=\beta _{0}+\epsilon }
korelacja r Pearsona y = β 0 + β 1 x + ϵ {\displaystyle y=\beta _{0}+\beta _{1}x+\epsilon } Czy model liniowy
jest dobrym predyktorem obserwacji (lub ich rang)?
korelacja Spearmana r a n g a ( y ) = β 0 + β 1 r a n g a ( x ) + ϵ {\displaystyle \mathrm {ranga} (y)=\beta _{0}+\beta _{1}\mathrm {ranga} (x)+\epsilon }
test t {\displaystyle t} Studenta dla dwóch prób y = β 0 + β 1 D + ϵ {\displaystyle y=\beta _{0}+\beta _{1}D+\epsilon } Czy średnie grup
są dobrym predyktorem obserwacji (lub ich rang)?
test Manna-Whitneya r a n g a + ( y ) = β 0 + β 1 D + ϵ {\displaystyle \mathrm {ranga} _{-}^{+}(y)=\beta _{0}+\beta _{1}D+\epsilon }
jednoczynnikowa ANOVA y = β 0 + β 1 D 1 + β 2 D 2 + + β n D n + ϵ {\displaystyle y=\beta _{0}+\beta _{1}D_{1}+\beta _{2}D_{2}+\ldots +\beta _{n}D_{n}+\epsilon }
test Kruskala-Wallisa r a n g a + ( y ) = β 0 + β 1 D 1 + β 2 D 2 + + β n D n + ϵ {\displaystyle \mathrm {ranga} _{-}^{+}(y)=\beta _{0}+\beta _{1}D_{1}+\beta _{2}D_{2}+\ldots +\beta _{n}D_{n}+\epsilon }
jednoczynnikowa ANCOVA y = β 0 + β 1 D 1 + β 2 D 2 + + β n D n + β x x + ϵ {\displaystyle y=\beta _{0}+\beta _{1}D_{1}+\beta _{2}D_{2}+\ldots +\beta _{n}D_{n}+\beta _{x}x+\epsilon } Czy średnie grup oraz ich liniowy model
są dobrym predyktorem obserwacji (lub ich rang)?
dwuczynnikowa ANOVA y = β 0 + β 1 D 1 + β 2 D 2 + + β n D n + β o E 1 + β p E 2 + + β r E m + β s D 1 E 1 + β t D 1 E 2 + + β u D n E m + ϵ {\displaystyle {\begin{aligned}y=\beta _{0}&+\beta _{1}D_{1}+\beta _{2}D_{2}+\ldots +\beta _{n}D_{n}\\&+\beta _{o}E_{1}+\beta _{p}E_{2}+\ldots +\beta _{r}E_{m}\\&+\beta _{s}D_{1}E_{1}+\beta _{t}D_{1}E_{2}+\ldots +\beta _{u}D_{n}E_{m}+\epsilon \end{aligned}}} Czy średnie grup oraz ich iloczynów
są dobrym predyktorem obserwacji?

Przypisy

  1. W.J.W.J. Conover W.J.W.J., Ronald L.R.L. Iman Ronald L.R.L., Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124–129, DOI: 10.2307/2683975, ISSN 0003-1305, JSTOR: 2683975 [dostęp 2019-03-29] .
  2. a b William W.W.W. Rozeboom William W.W.W., The fallacy of the null-hypothesis significance test., „Psychological Bulletin”, 57 (5), 1960, s. 416–428, DOI: 10.1037/h0042040, ISSN 0033-2909 [dostęp 2019-03-29]  (ang.).
  3. a b GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2019-03-29]  (ang.).
  4. AndrewA. Gelman AndrewA., Analysis of variance – why it is more important than ever, „The Annals of Statistics”, 33 (1), 2005, s. 1–53, DOI: 10.1214/009053604000001048, ISSN 0090-5364 [dostęp 2019-03-29]  (ang.).
  5. 5: Fitting models to data, [w:] Russell A.R.A. Poldrack Russell A.R.A., Statistical Thinking for the 21st Century, 2019 [dostęp 2019-03-29] [zarchiwizowane z adresu 2019-03-29] .
  6. William W.W.W. Rozeboom William W.W.W., Good Science Is Abductive, not Hypothetico-Deductive, [w:] Lisa L.L.L. Harlow, Stanley A.S.A. Mulaik, James H.J.H. Steiger (red.), What If There Were No Significance Tests?, 1997 .
  7. Jonas KristofferJ.K. Lindeløv Jonas KristofferJ.K., Common statistical tests are linear models (or: how to teach stats) [online], Tabela udostępniona na licencji CC-BY, lindeloev.github.io, 2019 [dostęp 2019-03-29] .
  • GND: 4167709-2
  • BNCF: 15574