Tartalmi kivonat
Többváltozós statisztikai módszerek (elektronikus tananyag) Bolla Marianna, Krámli András, Nagy-György Judit Tartalomjegyzék 1. El®ismeretek 1: valószín¶sgelmélet 1.1 Elméleti háttér 9 . 9 1.11 Valószín¶ségelméleti alapismeretek . 9 1.12 Feltételes várható érték . 12 1.13 A normális eloszlásból származtatott eloszlások . 15 1.14 Többváltozós ismeretek . 18 . 20 . 28 1.2 Feladatok 1.3 Tesztek 2. El®ismeretek 2: statisztikai alapok 2.1 Elméleti háttér 31 . 31 2.11 Az egyváltozós statisztika alapfogalmai . 31 2.12 Becsléselmélet . 39 2.13 Hipotézisvizsgálat . 45 . 53 . 77 2.2 Feladatok 2.3 Tesztek 3. A
többdimenziós normális eloszlás, Wishart eloszlás 3.1 Elméleti háttér 81 . 3.11 Többdimenziós normális eloszlás 3.12 Wishart eloszlás 81 . 81 . 86 . 90 . 95 3.2 Feladatok 3.3 Tesztek 4. Paraméterbecslés és hiptézisvizsgálat többdimenziós normális modellben 99 4.1 Elméleti háttér . 99 4.11 Paraméterbecslés többdimenziós normális modellben . 99 4.12 Hipotézisvizsgálat többdimenziós normális modellben 4.2 Feladatok 4.3 Tesztek . 103 . 107 5. Lineáris módszerek 1: f®komponensanalízis, faktoranalízis 5.1 Elméleti háttér 5.11 . 101 109 . 109 F®komponensanalízis . 109 3 4 TARTALOMJEGYZÉK 5.12 Faktoranalízis . 113 5.2
Feladatok 5.3 Tesztek . 116 . 120 6. Lineáris módszerek 2: regresszióanalízis, a legkisebb négyzetek módszere121 6.1 Elméleti háttér . 121 6.11 Regresszióanalízis . 121 6.12 Legkisebb négyzetek módszere 6.2 Feladatok 6.3 Tesztek . 123 . 128 . 133 7. Lineáris módszerek 3: Egy- és többszempontos varianciaanalízis135 7.1 Elméleti háttér . 135 7.11 Egyszempontos varianciaanalízis 7.12 Többszempontos varianciaanalízis interakcióval . 140 7.2 Feladatok 7.3 Tesztek . 135 . 144 . 146 8. Kontingenciatáblák elemzése: diszkriminanciaanalízis, korrespondenciaanalízis, informác 8.1 Elméleti háttér . 147 8.11
Diszkriminanciaanalízis 8.12 Korrespondanciaanalízis . 153 8.13 Információelméleti módszerek . 156 8.14 Az I-vetület numerikus meghatározása 8.2 Feladatok 8.3 Tesztek . 147 . 164 . 164 . 166 9. Klaszteranalízis, többdimenziós skálázás 9.1 Elméleti háttér 169 . 169 9.11 Klaszteranalízis . 169 9.12 Többdimenziós skálázás 9.2 Feladatok 9.3 Tesztek . 172 . 173 . 173 10.Többváltozós küszöbmodellek, logit, probit 10.1 Elméleti háttér 10.2 Feladatok 10.3 Tesztek . 179 . 179 11.Randomizált módszerek nagyméret¶ problémákra 11.1 Elméleti háttér 11.2 Feladatok 11.3 Tesztek 179 . 179 181 .
181 . 182 . 182 5 TARTALOMJEGYZÉK 12.Algoritmikus modellek 12.1 Elméleti háttér 183 . 183 12.11 ACE-algoritmus (általánosított regresszióra) 183 12.12 Jackknife eljárás . 187 12.13 Bootstrap eljárás 189 12.2 Feladatok . 191 12.3 Útmutatások . 193 12.4 Végeredmények 193 13.Függelék 195 13.1 Lineáris algebra 195 13.2 Függelék 2: Valószín¶ségelméleti képletgy¶jtemény . 201 13.21 Kolmogorov axiómái: 201 13.22 Szitaformula: . 201 13.23 Események függetlensége, feltételes valószín¶ség 201 13.24 Valószín¶ségi változó 202 13.25 Valószín¶ségi változó momentumai:
203 13.26 A generátorfüggvény: . 204 13.27 A karakterisztikus függvény: 204 13.28 Nevezetes diszkrét eloszlások: 205 13.29 Nevezetes abszolút folytonos eloszlások: . 205 13.210Sztochasztikus konvergencia, majdnem biztos konvergencia:206 13.211Nevezetes összefüggések . 207 13.212Spektrálel®állítási tétel 207 6 TARTALOMJEGYZÉK Annotáció Jelen elektronikus tananyag els®sorban alkalmazott matematikus szakos hallgatók számára készült, de mindazok számára hasznos segédanyag, akik valamelyik természettudományi szakot hallgatják, vagy már elvégezték azt, rendelkeznek a középiskolai tanyagot jelent®sen nem meghaladó matematikai m¶veltséggel (a dierenciál- és integrálszámítás elemeivel), munkájuk során szembetalalálják magukat statisztikai problémákkal, és ambícionálják az általuk használt statisztikai programcsomagok
mögött álló elmélet alapelveinek megértését. Bevezetés Jelen elektronikus Tananyag célja a többváltozós statisztikai módszerek bemutatása, illusztrálása statikus ábrákkal és animációkkal, valamint számos a megértést segít® és ellen®rz® feladattal. A többváltozós statisztikai módszereket természetesen nem lehet megérteni a matematikai statisztika alapfogalmainak és a valószín¶ségszámítás elemeinek ismerete nélkül. A tananyag felhsználói munkájának megkönnyítése céljából az el®zetes tudnivalókat függelékben valamint részletes fogalom- és képletgy¶jteményben összefoglaltuk. Az általános statisztikai tudnivalókat is illusztráltuk ábrákkal, és számos e tárgykörbe tartozó feladatot is kit¶ztünk. A Tananyag összeállítása során szembesültünk azzal a ténnyel, hogy olyan látszólag nyilvánvaló fogalomnak mint pl. a marginális eloszlás kett®nél több valószín¶ségi változó együttes eloszlása
esetén az egzakt deniciója már reménytelenül bonyolult. Ilyenkor az ábra sem segít: számpéldákkal illusztráltuk a fogalmat A többváltozós statisztika klasszikus módszereit (ilyenek a regresszióanalízis, a legkisebb négyzetek módszere, a varianciaanalízis és a diszkriminanciaanalízis) együttesen normális (Gauss) eloszlású valószín¶ségi változókra dolgozták ki a XX. század els® felében Ezek a módszerek er®sen építenek a lineáris algebrának azon eredményeire, amelyek talán látszólagos egyszer¶ségük miatt kisebb hangsúlyt kapnak a matematikai képzésben, pedig a legkiválóbb matematikusok is komoly munkát fektetnek a lineáris algebra modern módszereinek tankönyvekben való feldolgozására; csak egy példa a sok közül: Lax Péter Abel-díjas matematikus rendkívül élvezetes, és számos új matematikai eredményt tartalmazó, magyarul is olvasható könyvet írt e témakörr®l, A Tananyag feladatai között is számos
statisztikai eredet¶, a lineáris algebra segítségével megoldható feladat van. Már itt gyelmeztetjük a felhasználót, hogy ezen feladatok megoldásához fejlett térszemléletre van szükség. A modern módszerek (pl. a klaszteranalízis) inkább épülnek a heurisztikára, noha ezek elméleti megalapozásának is nagy és mély matematikai eszköztárat igényl® irodalma van. Éppen emiatt ebben a tárgykörben gyakorlatilag nem lehet vonzó és elemi eszközökkel megoldható feladatokat kit¶zni. 7 TARTALOMJEGYZÉK Vannak olyan új módszerek, amelyekkel jelen sorok írója nem tud mit kezdeni, ilyen a gyakoriságtáblák közelítése alacsonyabb rangú mátrixokkal (korrespondenciaanalízis), ugyanis a lineáris algebra módszereit mechanikusan alkalmazva negatív valószín¶ségeket is kaphatunk eredményként. Ugyanakkor számos statisztikus sikerrel alkalmazza ezt a módszert, mi sem hagyhattuk ki a Tananyagból. Ezzel szemben a gyakoriságtáblák
elemzésének információelméleti módszereit, amelyeknek a kidolgozásában nagy szerepe van a magyar matematikusoknak els®sorban Csiszár Imrének részletesen ismertetjük, és ebben a tárgykörben feladatokat is kit¶zünk. Egy másik általunk csak érintett módszer a rendkívül nagyméret¶ mátrixokkal kapcsolatas (spektrálfelbontási) feladatok véletlen kiválasztással történ® közelítése. Itt az a probléma, hogy kisméret¶ bemutatható példát nem találtunk. Zárszóként két megjegyzés: 1. A statisztika legnevesebb m¶vel®i, Kolmogorovtól a vezet® magyar statisztikusokig egybehangzóan állítják, hogy vakon nem lehet statisztikát csinálni, azaz az adatok kritikus megszemlélése nélkül már értelmes hipotézist sem lehet föltenni. Erre nyújt lehet®séget az ún többdimenziós skálázás, azaz az adatok optimalis beágyazása lehet®leg minél kisebb dimenziós euklideszi térbe. 2. Bármilyen látványos is egy elektronikus tananyag,
csupán a képerny® nézésével és kattintásokkal nem lehet elmélyülni egyetlen tudományágban sem. Az nem várható el egy felhasználótól, hogy az elmélet részleteit megjegyezze, de nem hagyható ki a papírral-ceruzával, ha úgy nem megy kalkulátorral, esetleg formulakezel® programok használatával történ® aktív részvétel a tanulási folyamatban. Végül néhány szó a Tananyag forrásairól. A közvetlen statisztikai ismeretek forrása a két szerz® (Bolla Marianna és Krámli András, A statisztikai következtetések elmélete, Typotex 2005) könyve, valamint az irodalomjegyzékben idézett néhány eredeti folyóiratcikk. Innen csak az alapvet® deníciókat és tételeket vettük át, a hangsúly a feladatokon és az illusztációkon van. A feladatok nagy részét a harmadik szerz® (Nagy-György Judit) t¶zte ki a gyakorlatokon. A teljes ábra- és animacióanyagot is ® készítette. Ezek jelent®s része ma már közkinccsé vált eredményeket
ilusztrál, néhány bonyolultabb ábra Bolla Marianna javaslatára készült, az eredeti dolgozatok alapján újraszerkesztve. Az el®szóhoz tartozik két videó is, az els®n látható animáció a GlivenkoCantelli tételt (a matematikai statisztika alaptételét) szemlélteti, a másodikon felrajzolt ábra pedig a MarcsenkoPasztur-tételben szerepl® függvényt ábrázolja. Szeged, 2012. december 17 Krámli András 1. fejezet El®ismeretek 1.: valószín¶sgelmélet 1.1 Elméleti háttér 1.11 Valószín¶ségelméleti alapismeretek Ebben a paragrafusban a valószín¶ségelméletKolmogorov-féle felépítését ismertetjük, különös kiemelve a feltéles várható érték Kolmogorov-féle denícióját és annak a statisztikában használatos tulajdonságait. Hangsúlyozzuk, hogy a feltételes várható érték (és a feltételes valószín¶ség is) valószín¶ségi változó, amely bizonyos optimum tulajdonsággal rendelkezik. A nem matematikus szakos
hallgatóknak elegend® annyit tudni az alábbi absztrakt deníciók nagy részér®l, hogy léteznek. Az alkalmazó természettudományi hallgatók számára is feltétlenül tudnivaló deníciókat és állításokat *-gal megjelöljük. Mindenek el®tt vezessük be a valószín¶ségimez® Kolmogorov féle denícióját. 1. Deníció (Kolmogorov-féle (Ω, A, P) valószín¶ségi mez®) (i) Adva van egy nem üres Ω halmaz (eseménytér), Ω elemeit elemi eseményeknek nevezzük, és ω -val jelöljük. (ii) Ki van tüntetve az Ω részhalmazainak egy A algebrája (Ω ∈ A, A ∈ A ⇒ Ω A ∈ A, A ∈ A B ∈ A ⇒ A ∪ B ∈ A.) ∞ (iii) A σ -algebra, azaz Ak ∈ A (k = 1, 2, . ) ⇒ ∪k=1 ∈ A (iv) minden A ∈ A eseményhez hozzá van rendelve egy P(A) nemnegatív szám, az A esemény valószín¶sége. (v) P(Ω) = 1. ∞ (vi) Ha Ak ∈ A, páronkent egymást kizáró események, akkor P(∪k=1 ) = 9 ∑∞ k=1 P(Ak ). 10 FEJEZET 1.
ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 2. Állítás (szita-formula*). P(A1 ∪ · · · ∪ An ) = n ∑ (n) (−1)k−1 Sk , k=1 n ≥ k és (n) Sk ∑ := P(Ai1 ∩ · · · ∩ Aik ). 1≤i1 <···<ik ≤n 3. Deníció (események függetlensége*). Az A1 , , An események páronként (illetve teljesen) függetlenek, ha minden 1 ≤ j < k ≤ n párra P(Aj ∩ Ak ) = P(Aj ) · P(Ak ) (illetve minden 1 ≤ k ≤ n egészre és i1 < · · · < ik ε ≤ n idexsorozatra P(Ai1 ∩· · ·∩Aik ) = P(Ai1 )·· · ··P(Aik )). A teljes függtelenség implikálja a páronkénti függetlenséget. Fordítva ez nem igaz! 4. Deníció (feltételes valószín¶ség*). P(A|B) := P(A ∩ B) , P(B) ha P(B) > 0. 5. Deníció (teljes eseményrendszer*). A1 , , An ∈ A, P(Ai ∩ Aj ) = 0, ha P(B) > 0. 6. Állítás (Bayes tétele*). Ha A1 , , An teljes eseményrendszer és P(B) > 0, akkor P(B|Aj ) · P(Aj ) P(Aj |B) = ∑n k=1 P(B|Ak ) ·
P(Ak ) 7. Deníció (valószín¶ségi változó*). Az Ω halmazon értelmezett olyan X(ω) valós érték¶ függvény, amelyre {ω : X(ω) ≤ x} minden valós x-re esemény. Ha X értékkészlete megszámlálható halmaz, akkor diszkrét valószín¶ségi változóról beszélünk. 8. Deníció (valószín¶ségi változók függetlensége*). Az X1 , , Xn valószín¶ségi változók páronként (illetve teljesen) függetlenek, ha az {X1 (ω) ≤ x1 }, . , {Xn (ω) ≤ xn } események páronként (illetve teljesen) függetlenek, x1 , . , xn minden értékére 9. Deníció (valószín¶ségi változók eloszlásfüggvénye*). Az X valószín¶ségi változó eloszlásfüggvénye FX (x) := P(X ≤ x). FX (x) monoton nemcsökken®, jobbról folytonos függvény. lim FX (x) = 0 lim FX (x) = 1. n−∞ n∞ (i) Diszkrét eset. Ha az X valószín¶ségi változó értékkészlete {x0 , x1 , }, akkor eloszlása: pj := P(xj ) 1.1 11 ELMÉLETI HÁTTÉR (ii)
Abszolút folytonos eset. Ha van olyan f (t) függvény amelyre FX (x) = ∫x f (t)dt. Ekkor az f (t) függvényt az X valószín¶ségi változó s¶r¶ségfüg−∞ gvényének nevezzük. 10. Deníció (valószín¶ségi változó momentumai, absztrakt deníció). ∫ Az X valószín¶ségi változó várható értéke E(X) := X(ω)dP, ha ez az integrál Ω létezik. Az X valószín¶ségi változó n-edik momentuma (abszolút) monteuma Mn := ∫ n X(ω) dP, (:= Ω |X(ω)|n dP), ha a fenti integrálok léteznek. Ω Ha Ψ(x) tetsz®leges Borel-mérhet® valós függvény (azaz a {x : Ψ(x) ≤ y} ∫ halmaz minden y ∈ R-re Borel-mérhet®), akkor E(Ψ(X)) := Ω Ψ(X(ω))dP. 2 2 2 Az X valószín¶ségi változó D szórásnégyzete D := E[(X − E(X)) ] = 2 2 E(X ) − [E(X)] . ∫ 11. Deníció (kovariancia, korreláció, absztrakt deníció) Két valószín¶ségi változó, X és Y kovarianciája: Cov(X, Y ) := E[(X − E(X))(Y − E(Y ))]. Két valószín¶ségi
változó, X és Y korrelációja: rX,Y := Cov(X, Y ) D(X) · D(Y ) 12. Deníció (valószín¶ségi változó várható értékének kiszámítása*). (i) Diszkrét eset. Ha az X valószín¶ségi változó értékkészlete {x0 , x1 , }, akkor várhtó értéke: E(X) := ∞ ∑ xj P(xj ) = j=0 ∞ ∑ xj pj , j=0 amennyiben a fenti sor abszolút konvergens (ii) Abszolút folytonos eset. Ha az X valószín¶ségi változó s¶r¶ségfüggvénye f (t) akkor várhtó értéke: E(X) := ∫ ∞ xf (x)dx −∞ amennyiben a fenti integrál létezik. Ha ismerjük a várható érték kiszámítási módját, a magasabb momentumok és szórásnégyzet kiszámítási módja már könnyen adódik: (i) n-edik momentum: Mn := E(Mn ), (ii) szórásnégyzet: D 2 := E(X 2 ) − [E(X)]2 . Hasonlóan számítható ki két valószín¶ségi változó kovarianciája és korrelációja. Ez természetesen nem azt jelenti, hogy a tényleges számolás elvégzése is könny¶. 12
FEJEZET 1. 1.12 ELISMERETEK 1.: VALÓSZÍNSGELMÉLET Feltételes várható érték A fent ismertetett valószín¶ségelmélet alapismeretek már elegend®ek a feltételes várható érték fogalmának bevezetéséhez, tulajdonságaik, valamint diszkrét és abszolút folytonos esetben kiszámítási módjuk ismertetéséhez. 13. Deníció (egy σ -algebrára nézve vett feltételes várható érték) Az X valószín¶ségi változónak az A1 ⊆ A σ -algebrára nézve akkor vehet® az X1 := E(X|A1 ) feltételes várható értéke, ha E(X) létezik. X1 -et az alábbi két tulajdonság deniálja 1. X1 A1 -mérhet®, azaz minden valós x-re {ω : X1 ≤ x} ∈ A1 2. Minden A ∈ A1 halmazra E(1A · X) = E(1A · X1 ) vagy másképpen írva ∫ A XdP = ∫ A X1 dP, ahol 1A jelenti az A halmaz indikátorfüggvényét. Bebizonyítható, hogy 1. es 2 feltételek teljesíthet®k, és X1 majdnem biztosan egyértelm¶. 14. Megjegyzés Ha A1 valamely Y valószín¶ségi
változó{Y (ω) ≤ x} x ∈ R nívóhalmazai által generált σ -algebra, akkor van értelme az E(X|Y ) feltételes várható értéknek. 15. Állítás Felsoroljuk a feltételes várható érték alapvet® tulajdonságait 1. A feltételes várható érték vétel lineáris operáció, azaz E((a · X + b · Y )|A1 ) = a · E(X|A1 ) + b · E(Y |A1 ). 2. Ha az Y valószín¶ségi változó A1 -mérhet®, akkor E(Y · X|A1 ) = Y E(X|A1 ). 3. Ha az X valószín¶ségi változó független Y -tól, akkor E(X|Y ) = E(X). 4. Toronyszabály: E(Y ) = E[E(Y |X)] A statisztika egyik alapvet® feladata az ún. regresszió, azaz egy Y valószín¶ségi változó egy X valószín¶ségi változó valamilyen Borel-mérhet® f (x) valós függvényével való optimális közelítése (az optimális szó jelentése különböz® esetekben más és más lehet). Az alábbi állítás alapvet® jelent®sg¶ ennek a célnak a megvalósítása szempontjából. 16. Állítás Ha létezik E(Y ) és
Y mérhet® az X valószín¶ségi változó {X(ω) ≤ x} x ∈ R nívóhalmazai által generált Ax σ -algebrára, akkor akkor van olyan Borel-mérhet® t(x) valós függvény, hogy P(Y (ω)) = t(X(ω)) = 1 1.1 13 ELMÉLETI HÁTTÉR A 16. Állítás egy közvetlen alkalmazása a következ® 17. Állítás Ha E(Y 2 ) < ∞, akkor min t : tA-mérhet® E(Y − t(X))2 = E(Y − E(Y |X))2 , azaz az Y valószín¶ségi változó legjobb közelítése X Borel-mérhet® függvényeivel éppen E(Y |X). Most rátérünk a feltételes eloszlás (diszkrét eset), feltételes s¶r¶ségfüggvény, valamint a feltételes várható érték kiszámítási módjára. 18. Deníció (feltételes eloszlás) Legyen az X és Y valószín¶ségi változók értékkészlete x1 , . , xm , illetve y1 , , yn , együttes eloszlásuk (pij ), az X , illetve ∑n Y perem- (vagy marginális) eloszlásai legyenek pi· = j=1 pij , illetve p·j = ∑m p . Ekkor a feltételes
valószín¶ségdeníciója alapján az Y valószín¶ségi ij i=1 változó X = xi melletti feltételes eloszlása: pij pj|i = , j = 1, . , n pi· 19. Deníció (feltételes várható érték, diszkrét eset) A fenti jelölésekkel az Y valószín¶ségi változó X = xi melletti feltételes várható értéke: E(Y |X = xi ) = n ∑ 1 ∑ yj · pij . pi. j=1 n yj · pj|i = j=1 20. Megjegyzés Vegyük észre, hogy sem a (pj|i ) feltételes eloszlás, sem az E(Y |X = xi ) feltételes várható érték nem függ az xi konkrét értékt®l! 21. Deníció (feltételes s¶r¶ségfüggvény) Legyen ∫ f (x, y) az X és Y valószín¶∞ f (x, y)dy pedig az X −∞ valószín¶ségi változó perem- (vagy marginális) s¶r¶sége. Az Y valószín¶ségi vál- ségi változók együttes s¶r¶ségfüggvénye, f1 (x) := tozó X = x feltétel melletti feltételes s¶r¶sége: f2|1 (y|x) = lim ∆x0 ∆y0 = lim P(X ∈ [x, x + ∆x), Y ∈ [y, y + ∆y)) = P(X ∈ [x, x +
∆x)) · ∆y P(X ∈ [x, x + ∆x), Y ∈ [y, y + ∆y)) ∆x0 ∆y0 = P(Y ∈[x,x+∆x)) · ∆x · ∆y ∆x = (1.1) f (x, y) . f1 (x) Most megfogalmazzuk a Bayes-tételnek a statisztikában rendkívül hasznos, abszolút folytonos eloszlásra érvényes alakját. 22. Tétel (Bayes-tétel) Legyenek X , Y , f (x, y), f1 (x) és f2|1 (y|x) ugyanazok, mint a fenti denícióban Ekkor f2|1 (y|x)f1 (x) . f (y|x)f1 (x)dx −∞ 2|1 f1|2 (x|y) = ∫ ∞ 14 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 23. Deníció (feltételes várható érték, abszolút folytonos eset) A fenti jelölésekkel az Y valószín¶ségi változó X = x feltétel melletti feltételes várható értéke: ∫ ∞ 1 E(Y |X = x) = y · f2|1 (y|x)dx = f1 (x) −∞ ∫ ∞ −∞ y · f (x, y)dy. (1.2) Az E(Y |X = x) feltételes várható érték ellentétben a diszkrét esettel függ az x értékt®l; jelölje ezt a függést t(x). A feltételes várható érték szemléletes
jelentése: Az E(Y |X) nem más, mint az Y valószín¶ségi változó integrálközepe az X valószín¶ségi változó nívóhalmazain. Végül deniáljuk a feltételes szórásnégyzetet, kovarianciát, és az ún. parciális korrelációt. 24. Deníció (feltételes szórásnégyzet) Az Y valószín¶ségi változó feltételes szórásnégyzete az X valószín¶ségi változóra nézve: D2 (Y |X) := E[Y − E(Y |X)2 |X]. 25. Deníció (feltételes kovariancia) Az Y és Z valószín¶ségi változók feltételes kovarianciája az X valószín¶ségi változóra nézve: Cov(Y, Z|X) := Cov(Y − E(Y |X), Z − E(Z|X)). 26. Deníció (parciális korreláció) Az Y és Z valószín¶ségi változók feltételes kovarianciája az X valószín¶ségi változóra nézve: rY,Y |X := Cov(Y, Z|X) . D(Y − E(Y |X)) · D(Z − E(Y |Z)) Vegyük észre, hogy míg a feltételes szórásnégyzet és a feltételes kovariancia valószín¶ségi változók, amelyek függenek a
feltételt®l, a parciális korreláció szám, ami csak rY,Z -t®l, rY,X -t®l és rZ,X -t®l függ; igaz az alábbi állítás. 27. Állítás rY,Z − rY,X · rZ,X rY,Z|X := √ . 2 2 (1 − rY,X )(1 − rZ,X ) A parciális korreláció szemléletesen azt a jelenséget írja le, hogy két valószín¶ségi változó (Y és Z ) azért korreláltak er®sen, mert mindketten er®sen korreláltak egy harmadik valószín¶ségi változóval, nevezetesen X -szel. A fenti állítás bizonyítása azon az alapvet® tényen múlik, hogy két valószín¶ségi változó kovarianciája két vektor skaláris szorzatának tekinthet®, és ha ez a kovariancia zérus, akkor a két valószín¶ségi változó mint vektor mer®leges egymásra. 1.1 15 ELMÉLETI HÁTTÉR 1.13 A normális eloszlásból származtatott eloszlások 28. Deníció (normális eloszlás) Az m várható érték¶ és σ 2 szórásnégyzet¶ X valószín¶ségi változó s¶r¶ségfüggvénye f (x) := √ A Φ(x) :=
1 (x − m)2 exp{− }. 2 2πσ (1.3) ∫x f (s)ds eloszlásfügvény nem fejezhet® ki elemi függvényekkel. −∞ 2 2 Az m várható érték¶ és σ szórásnégyzet¶ normális eloszlás jelölése: N (m, σ ). Az alábbi ábra mutatja a standard normális eloszláshoz, azaz N (0, 1)-hez tartozó s¶r¶ségfüggvényt. 1.1 ábra ϕ(x) 29. Deníció (n szabadságfokú χ2 eloszlás) Ha X1 , , Xn független N (m, σ 2 ) valószín¶ségi változók, az Yn := X12 + · · · + Xn2 2 valószín¶ségi változó deníció szerint Yn szabadságfokú centrált χ -eloszlású: 2 Yn ∼ χ (n), melynek s¶r¶ségfüggvénye fn (x) = ∫∞ xn/2−1 e−x/2 , 2n/2 Γ(n/2) ha x > 0. −x xα−1 √ e . Megjegyezzük, hogy Γ(α+1) = αΓ(α), Γ(n) = (n−1)! π és Gamma(1/2) = ahol Γ(α) := 0 16 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 2 1. Az χ (n)-eloszlás G(n/2, 1/2) Gamma-eloszlás 2 2. A χ (n) eloszlás tetsz®leges momentuma
meghatározható, a számolás visszavezethet® a normális eloszlás páros momentumainak meghatározására: E(Yn ) = n, D2 (Yn ) = 2n. 3. Ha X ∼ N (0, σ 2 ), akkor minden n természetes számra E(X 2n ) = n−1 ∏ (2j + 1)σ 2n (1.4) j=0 4. Ha n ∞, Yn eloszlása N (n, 2n)-nel közelíthet® 2 Az alábbi ábrák mutatják az 1, 2, 3, 4, és 5 szabadságfokú χ eloszlásokhoz tartozó s¶r¶ségfüggvényeket. 2 1.2 ábra χ (1-5) s¶r¶ségek 30. Deníció (n szabadságfokú Student-féle eloszlás (t-eloszlás)) Ha X standard normális eloszlású valószín¶ségi változó, és Yn ∼ χ(n) független X -t®l, akkor Zn := √ X X n· √ =√ Yn Yn /n deníció szerint n szabadsági fokú standard Student-eloszlású valószín¶ségi változó: Zn ∼ t(n) 31. Állítás A t(n) eloszlás s¶r¶ségfüggvénye: ∫ ∞ n−1 2 t 2 e−t dt = ( ) n+1 2 n z2 0 π nΓ( 2 ) 1 + n ( ) − n+1 2 1 Γ( n+1 z2 2 ) =√ 1 + . n π n Γ( n2 ) gn (z) = √ (1.5)
1.1 17 ELMÉLETI HÁTTÉR 1.3 ábra t(1) és t(5) s¶r¶ségek Az alábbi ábrák mutatják az 1, és 5 szabadságfokú Student eloszlásokhoz tartozó s¶r¶ségfüggvényeket. A s¶r¶ségfüggvény (1.5) alakjából leolvasható, hogy a Zn eloszlásban tart a standard normális eloszláshoz, ha n ∞. Ezt az alábbi animáció szemlélteti Ugyancsak (1.5)-b®l látható az is, hogy Zn -nek csak n−1 momentuma véges Az 1 szabadságfokú t-eloszlás a Cauchy-eloszlás. 32. Deníció ((n, m) szabadságfokú F -eloszlás) Ha Xn ∼ χ2 (n) és és Ym ∼ χ2 (m), akkor a Xn Zn,m := Ynm m valószín¶ségi változó (n, m) szabadságfokú F -eloszlású: Zn,m ∼ F(n, m). Zn,m változó s¶r¶ségfüggvénye ( ) ( n ) n2 −1 nΓ n+m z 2 ( n ) ( m ) ( m ) n+m . fn,m (z) = mΓ 2 Γ 2 1 + n z 2 m Az alábbi ábrák mutatják az (1,1), (1,2), (1,3), (1,9), (2,1), (2,2), (2,3), (2,9), (3,1), (3,2), (3,3), (3,9), (9,1), (9,2), (9,3) és (9,9) szabadságfokú F eloszlásokhoz
tartozó s¶r¶ségfüggvényeket. 33. Deníció (Béta-eloszlás) Ha X1 , , Xn , , Xn+m független N (0, 1)változók, akkor a ∑n 2 i=1 Xi Z̃n,m = ∑n+m 2 i=1 Xi valószín¶ségi változó B(n/2, m/2)-eloszlású: Zn,m ∼ B(n/2, m/2). A Z̃n,m változó fZn,m (z) s¶r¶ségfüggvénye ( ) Γ n+m n m 2 fZ̃m,n (z) = ( n ) ( m ) z 2 −1 (1 − z) 2 −1 , Γ 2 Γ 2 ha 0 < z < 1. 18 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET ··· ··· ··· . . . ··· 1.4 ábra F s¶r¶ségek n A fenti képletnek akkor is van értelme, ha a kitev®ben szerepl® 2 illetve m helyett tetsz®leges a illetve b pozitív számok állnak. Ez az (a, b)-rend¶béta2 eloszlás s¶r¶ségfüggvénye: fa,b (z) = 1 · z a−1 (1 − z)b−1 , B(a, b) ha 0 < z < 1. Vegyük észre, hogy a B(1, 1)-eloszlás megegyezik a [0, 1] intervallumon egyen- letes U(0, 1)-eloszlással! 1.14 Többváltozós ismeretek Eddig X1 , . , Xn független N (θ, σ 2 )
valószín¶ségi változókat jelentettek. Most kimondunk egy állítást megkönnyíti a normális eloszlású valószín¶ségi változók függetlenségenek ellen®rzését. 34. Állítás Ha Y1 , , Ym az X1 , , Xn független N (θ, σ 2 ) valószín¶ségi változók lineáris kombinációi, akkor Cov(Yi , Yj ) = δij maga után vonja az Y1 , , Ym változók (teljes!) függetlenségét. Most már minden ismeret rendelkezésünkre áll ahhoz, hogy megfogalmazzunk egy, a becsléselméletben és a hipotézisvizsgálatban gyakran használt tételt, ami Lukács Jen® tételének speciális esete (l. [21]) 2 35. Tétel (Lukács Jen®) Legyenek X1 , . Xn független ∑ ∑ N (θ, σ ) valószín¶ségi 1 változók, legyen továbbá X̄ := n n 1 ∗2 i=1 Xi , Sn := n−1 n 2 i=1 (Xi − X̄) . 1.1 19 ELMÉLETI HÁTTÉR 2 1. X̄ ∼ N (θ, σ /n), ∗2 2 2 2. (n − 1)Sn /σ ∼ χ (n − 1), ∗2 3. X̄ és Sn függetlenek 36. Következmény √ Y = n(X̄ − θ)
√ ∼ t(n − 1) . Sn∗2 37. Tétel Ha X1 , , Xn független N (0, ϑ) valószín¶ségi változók, akkor √ n · X̄ Z := √∑ n 2 j=1 Xj ′ és S 2 (X) := n ∑ Xj2 j=1 függetlenek. 38. Következmény A √ nX̄ T =√ Sn∗2 2 Student-statisztika is független S -t®l, ugyanis egyszer¶ számolással adódik, hogy ′ ′ Z a T monoton függvénye: Z = √T 2T+n−1 . ∗ (X̄ és Sn denícióit l. 35 tételben) A varianciaanalízis alapvet® eszköze a következ® meglep® tétel, amely a 35. tétel általánosításának is tekinthet®. 39. Tétel (FisherCochran-tétel) Legyen X = (X1 , , Xn )T ∼ Nn (O, In ) véletlen vektor (komponensei független N (0, 1)-változók) és legyenek a Q = ∑n 2 T XT In X = XT X = i=1 Xi és a Qj = X Aj X (j = 1, . , k) X-szel és a szimmetrikus, n × n-es Aj mátrixokkal (j = 1, . , k ≤ n) képzett kvadratikus alakok olyanok, hogy rájuk Q = Q1 + Q2 + · · · + Qk teljesül. Legyen Qj rangja: rk(Aj ) = nj A Q1
, Q2 , , Qk kvadratikus alakok 2 pontosan akkor független χ -eloszlásúak n1 , n2 , . , nk szabadságfokkal, ha k ∑ nj = n. j=1 A FisherCochran-tétel fontossága miatt kivételesen közöljük annak egy el2 emi bizonyítását. Az egyik irány a χ -eloszlás denícójanak egyszer¶ következménye, a másik meglep® irány az alábbi lineáris algebrai állításból adódik. 20 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 40. Állítás Ha az n-dimenziós egységmátrix I n = A 1 + · · · + Ak (1.6) alakú, ahol az A1 , . , Ak valós szimmetrikus mátrixok és rang(A1 ) + · · · + rang(Ak ) = n, (1.7) akkor ezen mátrixok rang(A1 ), . , rang(Ak ) dimenziós ortogonális alterekre való ortogonális projekciók mátrixai. Az alábbi megjegyzés segít abban, hogy bonyolult számítások elvegzése nélkül is alkalmazzuk a FisherCochran tételt. 41. Megjegyzés A kvadratikus alakok rangját az alábbi heurisztikus formulával
számolhatjuk (Q itt is a kvadratikus alak rövidítése): rang(Q) =a Q-ban szerepl® független azonos eloszlású valószín¶ségi változók száma mínuszaz ugyanezen valószín¶ségi változók alapján függetlenül becsült paraméterek száma. Végül kimondunk egy tételt, ami bizonyos értelemben indokolja, hogy els® közelítésben miért veszünk mindig lineáris regressziót. 42. Állítás Legyenek Y, X1 , , Xn együttesen normális eloszlású valószín¶ségi változók. Az Ŷ := E(Y |X1 , , Xn ) feltételes várható érték az X1 , , Xn valószín¶ségi változók lineáris függvénye. Mivel a 17. állítás szerint Y feltételes várható értéke az X1 , , Xn valószín¶ségi változókra éppen a négyzetes középben való legjobb közelítés a fenti állítás szerint ez a közelítés az X1 , . , Xn valószín¶ségi változók lineáris függvénye 1.2 Feladatok 1. Számítsuk ki a λ paraméter¶ Poisson eloszlás els® négy
momentumát! Tipp: Alkalmazzuk a momentumoknak a generátorfüggvény deriváltjai alapján történ® kiszámítási módját. Válasz: M1 = λ, M2 = λ2 +λ, M3 = λ3 +3λ2 +λ, M4 = λ4 +6λ3 +7λ2 +λ. 2. Legyen X egy (r, p) paraméter¶ (r > 1) negatív binomiális eloszlású 1 X−1 ) várható értéket! valószín¶ségi változó. Számítsuk ki E( Tipp: Használjuk a deníciót képletgy¶jtemény. p . Válasz: A deníció alapján r−1 3. Számoljuk ki az n-edrend¶ λ paraméter¶ Gamma eloszlás −k -adik momentumát, ahol k < n Tipp: deníciót képletgy¶jtemény. k . Válasz: A deníció alapján λ (n−k−1)! (n−1)! 1.2 21 FELADATOK 4. Legyenek X, Y független, azonos eloszlású, véges várható érték¶ valószín¶ségi változók. Határozzuk meg E(X + Y |X) és E(X|X + Y ) feltételes várható értékeket! Tipp: Alkalmazzuk feltételes várható érték tulajdonságait, és vegyük észre, hogy X és Y szerepe szimmetrikus!
Válasz: X + E(Y ) ill. X+Y 2 . 5. Legyen X és Y két független, 1/2 paraméter¶ Bernoulli-eloszlású valószín¶ségi változó. Adjuk meg E(X|X + Y ) által generált σ -algebrát és E(X|X + Y ) eloszlását! Tipp: X + Y által generált σ -algebrát. Válasz: Z := E(X|X + Y ), P (Z = 0) = 1/4, P (Z = 1/2) = 1/2, P (Z = 1) = 1/4. 6. Legyen X nemnegatív valószín¶ségi változó Tegyük fel, hogy léteznek az 1 E(X 2 ) és E( X ) várható értékek! (a) Határozzuk meg E(X 2 |X)-et! 1 (b) Határozzuk meg E( |X)-et! X Tipp: Egy X valószín¶ségi változó f (X) függvényének feltételes várható értéke X -re f (X), ha ez utóbbi várható értéke létezik. Válasz: (a) X 2, (b) 1 X. 7. Legyen X a [−1, 1] intervallumon egyenletes eloszlású valószín¶ségi vál2 tozó. Határozzuk meg E(X|X )-t! Tipp: Használjuk a deníciót és a feltételes várható érték tulajdonságait. Válasz: A deníció alapján: 0. 8. Legyenek X1 , X2 a [0, 1]
intervallumon egyenletes eloszlású független valószín¶ségi változók, továbbá Y := min{X1 , X2 }, valamint Z := max{X1 , X2 }. Határoz- zuk meg (a) E(Y |Z), (b) E(Z|Y ), (c) E(X1 |Z) feltételes várható értékeket! Tipp: Használjuk a feltételes várható érték denícióját! Használjuk ki X1 és X2 szimmetriáját, valamint azt, hogy X1 + X2 = Y + Z ! Válasz: 22 FEJEZET 1. (a) Z/2, (b) (Y + 1)/2, (c) 3 4 Z. 9. Legyenek X, Y R. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET ∼ N (0, 1) független valószín¶ségi változók, továbbá a, b, c ∈ (a) Milyen eloszlású aX + bY + c? (b) Adjuk meg |X| s¶r¶ségfüggvényét! (c) Határozzuk meg X 2 2 s¶r¶ségfüggvényét! Milyen eloszlást követ X ? (d) Milyen eloszlású X 2 + Y 2? Tipp: (c) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változó füg- gvénye eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását. Válasz:
(a) N (c, a2 + b2 ), 2 2 (b) √ exp(− x2 ) ha x ≥ 0 és 0 egyébként, 2π (c) x−1/2 exp(−x/2) 2 √ , azaz χ (1) 2π (d) χ2 (2), ami megegyezik a λ = 1/2 paraméter¶ Exp(1/2) exponenciális eloszlással. 10. Legyenek X, Y ∼ Exp(λ) független valószín¶ségi változók. (a) Milyen eloszlású X + Y ? (b) Adjuk meg Z = X Y s¶r¶ségfüggvényét! Tipp: (a) Alkalmazzuk a képletgy¶jtemény nevezetes abszolút folytonos eloszlások felsorolásását. (b) Alkalmazzuk a képletgy¶jtemény 2 valószín¶ségi változó hányadosának s¶r¶ségfüggvényére eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását. Válasz: (a) G(2, λ). (b) 2 (1+z)2 , ha X ≥ 0 azaz F(2, 2) 1.2 23 FELADATOK 11. * Legyenek N, X1 , X2 . független valószín¶ségi változók, ahol N egy p paraméter¶ geometriai eloszlású, X1 , X2 , . pedig λ paraméter¶ exponen∑N ciális eloszlásúak. Milyen eloszlású
lesz i=1 Xi ? Tipp: Alkalmazzuk a képletgy¶jtemény megfelel® formuláit és írjuk be az exponenciális eloszlás karakterisztikus függvényét az 1, 2, . értékkészlet¶ geometriai eloszlás generátorfüggvényébe. Válasz: Exp(pλ) 12. Mi a kapcsolat az alábbi eloszlásseregek között? (a) Bernoulli, binomiális és Poisson; (b) geometriai és negatív binomiális; (c) exponenciális, χ 2 és Gamma; (d) Student és Cauchy. Tipp: Alkalmazzuk a képletgy¶jteményt, és keressük meg hogy a fel- soroltak között melyik eloszlás speciális esete, ill. határesete egy másik eloszlásnak. Válasz: (a) Bernoulli ⊂ binomiális: a Poisson határesete; (b) geometriai ⊂ negatív binomiális; 2 (c) exponenciális: χ (2) ⊂ Gamma; (d) Cauchy: t(1). 13. Legyen X egy (α, λ), Y pedig (β, λ) paraméter¶ Gamma eloszlású, egymástól független valószín¶ségi változó. Igaz-e, hogy X/Y egy (α, β) paraméter¶ másodfajú Béta eloszlású valószín¶ségi
változó, amely s¶r¶ségfüggvénye f (x) = Γ(α + β) xα−1 · . Γ(α)Γ(β) (x + 1)α+β Tipp: képletgy¶jtemény 2 valószín¶ségi változó hányadosának s¶r¶ségfüggvényére eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását. Válasz: Igaz. 14. * Legyen X egy (α, β) paraméter¶ másodfajú Béta eloszlású valószín¶ségi változó. Igazoljuk, hogy 1 X valószín¶ségi változó (β, α) paraméter¶ másodfajú Béta eloszlású! X (b) 1+X valószín¶ségi változó (α, β) paraméter¶ Béta eloszlású! (a) (c) 1 1+X valószín¶ségi változó (β, α) paraméter¶ Béta eloszlású! 24 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET Tipp: Keressük meg a képletgy¶jteményben a Fischer-féle F eloszlás képletét, vegyük észre, hogy az n/2 m/2 paraméter¶ másodfajú Béta elos2 zlású valószín¶ségi változó az n, m szabadságfokokkal normált χ eloszlású
valószín¶ségi változók hányadosa. Továbbá alkalmazzuk a képletgy¶jtemény valószín¶ségi változó függvényének illetve valószín¶ségi változók hányadosának s¶r¶ségére vonatkozó képletet. Válasz: L. Tipp 15. Legyen X1 , , Xn , Xn+1 , , Xn+m ∼ Exp(λ) független azonos eloszlású valószín¶ségi változók. (a) Milyen eloszlású ∑n i=1 Xi ? (b) Igazoljuk, hogy ∑n i=1 Z = ∑n+m Xi i=n+1 Xi statisztika (n, m) paraméter¶ másodfajú Béta eloszlású! (c) Igazoljuk, hogy ∑n 1 i=1 Xi = ∼ Beta(n, m). ∑n+m 1 + 1/Z X i i=1 Tipp: (a) Keressük meg a képletgy¶jteményben a megfelel® eloszlásokat. (b) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változók hányodosának eloszlására vonatkozó képletét. (c) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változók hányodosának eloszlására vonatkozó képletét. Válasz: (a) G(n, λ). (b) L. Tipp (c) L. Tipp 16. Mi a kapcsolat a Student, F és Béta
eloszlásseregek között? Tipp: Alkalmazzuk a képletgy¶jteményt, és keressük meg, hogy a fel- soroltak között melyik eloszlás speciális esete, ill. melyik eloszláshoz tartozó valószín¶ségi változó függvénye egy másik eloszláshoz tartozó valószín¶ségi változónak. Válasz: Ha X ∼ t(n), akkor X 2 ∼ F(1, n) Ha Zm,n ∼ F(m, n), akkor Y Z m,n ∼ B(m/2 − 1, n/2 − 1) = 1+Z m,n 1.2 25 FELADATOK 17. Legyenek X1 , , Xn ∼ Exp(λ) független azonos eloszlású valószín¶ségi változók. Deniáljuk Y1 , , Yn valószín¶ségi változóket a következ® módon: Y1 = X1 , Y2 = X1 + X2 , . , Yn−1 = X1 + · · · + Xn−1 (a) Legyen Z = X1 +· · ·+Xn . Határozzuk meg az Y1 , , Yn valószín¶ségi változók együttes feltételes s¶r¶ségfüggvényét a Z = z feltétel mellett. (b) Határozzuk meg az Y1 /Z, . , Yn−1 /Z valószín¶ségi változók együttes s¶r¶ségfüggvényét! Tipp: (a) Alkalmazzuk a
képletgy¶jtemény valószín¶ségi változó függvénye eloszlására vonatkozó képletét, kihasznalva, hogy az X és Y valószín¶ségi változók közötti összefüggés lineáris és a Jakobi determináns értéke 1! (b) Alkalmazzuk az el®z® alfeladat eredményét! Válasz: (a) 1 n−1 , azaz n − 1 darab független azonos eloszlású a [0, z] inter(n−1!) z vallumon egyenletes eloszlású valószín¶ségi változó együttes s¶r¶ségfüggvénye. (b) n−1 darab független azonos eloszlású a [0, 1] intervallumon egyenletes eloszlású valószín¶ségi változó együttes s¶r¶ségfüggvénye. 18. Legyenek X1 , , Xn ∼ N (0, 1) és Y1 , , Ym ∼ N (0, 1) független vál2 2 2 2 2 2 tozók, továbbá Tn := X1 + . + Xn és Tm := Y1 + + Ym (a) Alkalmazzuk a képletgy¶jtemény valószín¶ségi változó függvénye eloszlására vonatkozó képletét! (b) Alkalmazzuk az el®z® pont eredményét és a képletgy¶jteményben található abszolút
folytonos eloszlások felsorolását. (c) Alkalmazzuk az el®z® két pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (d) Alkalmazzuk a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. Tipp: Válasz: 19. Legyen X1 , , Xn+1 X12 + . + Xn2 ∼ N (0, 1) független minta, továbbá legyen Yn := 2 (a) Határozzuk meg X1 s¶r¶ségfüggvényét! 26 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 2 (b) Milyen eloszlású a Tn valószín¶ségi változó ? (c) Milyen eloszlású a Zn := √ Y1 Tn2 /n valószín¶ségi változó ? (d) Milyen eloszlású a Zn,m := mTn2 2 nTm valószín¶ségi változó ? Tipp: (a) Alkalmazzuk a képletgy¶jtemény egy valószín¶ségi változó függvénye eloszlásának kiszamítására vonatkozó formuláját. (b) Alkalmazzuk az el®z® pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását.
(c) Alkalmazzuk az el®z® két pont eredményét és a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. (d) Alkalmazzuk képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. Válasz: (a) χ2 (1) (b) n szabadságfokú Student (t(n)) eloszlású. (c) (n, m) szabadságfokú F eloszlású. 20. Legyen X1 , , Xn+1 ∼ N (0, 1) független minta, továbbá legyen Yn = √ √ 2 Milyen eloszlású a Zn = X22 + · · · + Xn+1 nX1 Yn valószín¶ségi változó Tipp: Alkalmazzuk a képletgy¶jteményben található abszolút folytonos eloszlások felsorolását. Válasz: n szabadságfokú Student (t(n)) eloszlású. 2 2 21. Legyenek Xn ∼ chi (n) és Ym ∼ χ (m) független valószín¶ségi változók Milyen eloszlású a Z̃n,m := mXn nYm valószín¶ségi változó (n/2, m/2) paraméter¶ béta eloszlású! Tipp: Alkalmazzuk a képletgy¶jteményben a két valószín¶ségi változó hányadosa eloszlására
vonatkozó képletet és az abszolút folytonos eloszlások felsorolását. Válasz: (n/2, m/2)-paraméter¶ béta eloszlású. 1.2 27 FELADATOK 22. Legyen X1 , , Xn+m független standard normális eloszlású változók Milyen eloszlású a ∑n 2 i=1 Xi Z̃n,m := ∑n+m 2 i=1 Xi valószín¶ségi változó (n/2, m/2) paraméter¶ béta eloszlású! Tipp: Alkalmazzuk a képletgy¶jteményben a két valószín¶ségi változó hányadosa eloszlására vonatkozó képletet és az abszolút folytonos eloszlások felsorolását. Válasz: (n, m)-paraméter¶ F eloszlású. 23. Adjuk meg Xn határeloszlását (n ∞), ha Xn egy n szabadságfokú Stundent eloszlású valószín¶ségi változó! Tipp: Elemi analízis. Válasz: N (0, 1) 24. Adjuk meg X√ n −n határeloszlását (n ∞), ha Xn egy n szabadságfokú n χ2 eloszlású valószín¶ségi változó. Tipp: Alkalmazzuk a centrális határeloszlás-tételt! A szórásnégyzet kiszámításához alkalmazzuk
a képletgy¶jteményben a normális eloszlás páros momentumaira adott formulát. Válasz: N (0, 2) 25. Legyen √X1 , . , Xn ∼ N (0, 1) független azonos eloszlású változók, továbbá T := X12 + . + Xn2 2 2 (a) Legyen Z1 := X1 /T . Bizonyítsuk be, hogy Z1 és T is függetlenek! (b) Legyen Z := X/T . Bizonyítsuk be, hogy Z és T 2 is függetlenek! Tipp: (a) A számoláshoz a Bayes-tételt alkalmazzuk. El®ször meghatározzuk 2 2 a T statisztika f (t|y) feltételes s¶r¶ségfüggvényét adott Y1 = y 2 esetén. Ez nem más, mint a χ (n − 1) eloszlás s¶r¶ségfüggvénye a t − y helyen. 2 Bayes tétele alapján határozzuk meg az Y1 valószín¶ségi változó 2 g(y|t) s¶r¶ségfüggvényét adott T = t helyen! χ2 (n − 1) és a χ2 (1) eloszlás 2 s¶r¶ségfüggvényeinek a konvolúciója áll, ami a χ (n) eloszlás s¶r¶ségfüg- Vegyük észre, hogy a nevez®ben a gvénye. Így adódik a (t − y) 2 −1 y − 2 n t 2 −1 n−1 g(y|t) = C ·
összefüggés (C normáló tényez®). 1 28 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 2 2 A Z1 tört h(y|t) feltételes s¶r¶ségfüggvénye adott T = t helyen: h(y|t) = t · g(ty|t) = C · (1 − y) 2 −1 y − 2 , n−1 ami éppen a B(1/2, n/2)-eloszlású Z 2 1 valószín¶ségi változó feltétel nélküli s¶r¶ségfüggvénye. 2 2 (b) El®ször bizonyítsuk be hogy Z és T függetlenek! Vezessünk be új 2 2 2 2 változókat: Y1 = n(X) , Y2 , . , Yn valószín¶ségi változókat úgy, 2 2 2 2 2 hogy Y1 , . , Yn független ∼ χ (1) eloszlásúak legyenek és az Y1 , , Yn = 2 2 Z1 , . , Zn egyenl®ség teljesüljön Ez mindig megtehet® az Y2 = n ∑ u2j Xj , Y3 = j=1 n ∑ u3j Xj , . Yn = j=1 n ∑ unj Xj j=1 választással, ahol az uij valós számok ortonormált és az azonosan 1 sorvektorra ortogonális sorvektorok koordinátái. Ezután alkalmazzuk az el®z® feladat eredményét Végül a Z etünk 2 és T 2
valószín¶ségi változók függetlenségb®l kovetkezteth- Z és T valószín¶ségi változók függetlenségére, felhasználva hogy a számláló s¶r¶ségfüggvénye páros. Válasz: A fenti számolások valójában fölöslegesek, ha gyelembe vesszük a többdimenziós Ip kovariancia mátrixú normális eloszlás szimmetriatulajdonságát (l. többdimenziós normális eloszlás) 1.3 Tesztek 1. Határozzuk meg E(1/X|X)-et, ha X tetsz®leges véletlen változó és a szükséges várható értékek léteznek (a) Nem feltétlenül létezik. (b) X (c) 1/X (d) −1/X Válasz: (c) 2. Határozzuk meg E(X 2 |X)-et, ha X tetsz®leges véletlen változó és a szük- séges várható értékek léteznek. (a) Nem feltétlenül létezik. (b) √ X (c) X (d) X2 1.3 29 TESZTEK Válasz: (d) 3. Ha X és Y független változók, akkor (ha a szükséges várható értékek léteznek) E(X + Y |X) = (a) X +Y. (b) E(X + Y ). (c) E(X) + Y . (d) X + E(Y ).
Válasz: (d) 4. Legyenek X1 , , Xn független standard normális eloszlású változók Milyen eloszlású X1 + + Xn ? (a) standard normális (b) N (0, n) (c) N (0, n2 ) (d) t(n) Válasz: (b) 2 5. Legyenek X1 , , Xn független χ (m) eloszlású változók Milyen eloszlású X1 + . + X n ? (a) F(n,m) (b) F(m,n) (c) χ2 (mn) (d) χ2 (n + m) Válasz: (c) 6. Legyenek X1 , , Xn független λ paraméter¶ exponenciális eloszlású változók Milyen eloszlású X1 + + Xn ? (a) exp(nλ) (b) Gamma(n, λ) (c) Béta(n,λ) (d) másodfajú Béta(n,λ) Válasz: (b) 7. Melyik igaz? 2 2 (a) A különböz® szabadságfokú χ eloszlások családja (röviden χ eloszlássereg) és exponenciális eloszlássereg a különböz® α, λ paraméter¶ Gamma eloszlások családja (röviden Gamma eloszlássereg) részei. 30 FEJEZET 1. ELISMERETEK 1.: VALÓSZÍNSGELMÉLET 2 (b) A Gamma és χ eloszlásseregek az exponenciális eloszláscsalád részei. 2 (c) Az
exponenciális és Gamma eloszlásseregek a χ eloszlássereg részei. (d) Egyik eloszlássereg sem része a többi. Válasz: (a) 2. fejezet El®ismeretek 2.: statisztikai alapok 2.1 Elméleti háttér 2.11 Az egyváltozós statisztika alapfogalmai Az alábbiakban röviden összefoglaljuk az egyváltozós statisztikai módszereknek a Tananyagban használt alapfogalmait. Az egyváltozós statisztikai feladatokat kissé mesterségesen szokás becsléseleméletre és hipotézisvizsgálatra osztani. Mindkét feladatkörben megkülönböztetnek paraméteres és nemparaméteres módszereket A Tananyag ezek közül csak a paraméteres módszerek többváltozós analogonjait és más az egyváltozós statisztikában fel sem merül® módszereket tárgyal. A Tananyag formálisan nem támaszkodik a rendezett minták elméletére, de a rendezett minták implicit módon szinte minden statisztikai módszerben megjelennek, ezért röviden erre is kitérunk. Alapstatisztikák és
rendezett minták Legyen X1 , . , Xn független azonos eloszlású n-elem¶ minta 43. Deníció Az 1∑ X̄ = Xi n i=1 n statisztikát mintaátlagnak nevezzük. Ha hangsúlyozni szeretnénk a mintaelemszámot, akkor az X̄n jelölést használjuk, ha pedig a konkrét realizációkkal számolunk, akkor x̄-t vagy x̄n -t írunk. 44. Deníció Az 1∑ S = (Xi − X̄)2 n i=1 n 2 31 32 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK statisztikát empirikus (tapasztalati) szórásnégyzetnek nevezzük, az S∗2 = n 1 ∑ n S2 = (Xi − X̄)2 n−1 n − 1 i=1 statisztikát pedig korrigált empirikus (tapasztalati) szórásnégyzetnek. A fenti mennyiségek gyöke az empirikus (tapasztalati) szórás illetve a korrigált empirikus ∗ (tapasztalati) szórás, melyeket S illetve S jelöl. A szórásnégyzet, a második momentum és a várható érték közötti összefüggések az alábbi Álításból (mely a merev testek zikájából jól ismert Steiner-tetel
átfogalmazása) következnek 45. Állítás (Steiner-tétel) Az x1 , , xn ∈ R rögzített értékekkel és tetsz®leges c ∈ R valós számmal n n 1∑ 1∑ (xi − c)2 = (xi − x̄)2 + (x̄ − c)2 n i=1 n i=1 teljesül. 46. Következmény A Steiner tételb®l c = 0 választással következik, hogy az empirikus szórásnégyzetet a következ®képpen is számolhatjuk: 1∑ 2 X − X̄ 2 = X 2 − X̄ 2 . n i=1 i n S2 = 47. Deníció Legyen k rögzített pozitív egész Az 1∑ k X n i=1 i n Mk = statisztikát k-adik empirikus (tapasztalati) momentumnak nevezzük, az 1∑ (Xi − X̄)k n i=1 n Mkc = statisztika pedig a k-adik empirikus (tapasztalati) centrális momentum. Nyilván S 2 = M2c = M2 − M12 . 48. Deníció Legyen (X, Y )T 2-dimenziós valószín¶ségi változó, (X1 , Y1 )T , , (Xn , Yn )T pedig vele azonos eloszlású független azonos eloszlású n-elem¶ minta. Jelölje SX illetve SY a komponensek empirikus szórását! A n n 1∑ 1∑ (Xi
− X̄)(Yi − Ȳ ) = Xi Yi − X̄ Ȳ C= n i=1 n i=1 2.1 33 ELMÉLETI HÁTTÉR statisztikát empirikus (tapasztalati) kovarianciának, az R= C = √(∑ n SX SY ∑n i=1 Xi Yi − nX̄ Ȳ ) (∑n ) 2 2 i=1 Yi − nȲ 2 2 i=1 Xi − nX̄ statisztikát pedig empirikus (tapasztalati) korrelációnak nevezzük. 49. Deníció Az X1 , , Xn mintaelemek értékeit nem-csökken® sorrendben ∗ ∗ ∗ felvev® X1 , X2 , . , Xn valószín¶ségi változókat n-elem¶ rendezett mintának nevez- zük, azaz X1∗ (ω) ≤ X2∗ (ω) ≤ · · · ≤ Xn∗ (ω), Tehát minden konkrét ∀ω ∈ Ω × Ω × · · · × Ω = Ωn . x1 , x2 , . , xn realizáció esetén ezt az n valós számot kell nagyság szerint nem csökken® sorrendbe rendezni, és a nagyság szerint i∗ ediket xi -gal jelölni. Természetesen az Ω különböz® elemeire más és más lesz a mintaelemek sorrendje, és így a rendezés is. Nyilván a rendezett mintaelemek már nem
függetlenek egymástól, és nem is azonos eloszlásúak. 50. Deníció Empirikus mediánon értjük páratlan n (n = 2k + 1) esetén ∗ ∗ ∗ Xk+1 -ot, páros n (n = 2k ) esetén pedig (Xk + Xk+1 )/2-t. Ez valójában a középs® mintaelem, és amennyiben a realizációból számolt értékét m jelöli, ezzel teljesül a Steiner-tétel L1 - normában vett megfelel®je: 51. Állítás n n 1∑ 1∑ |xi − c| = |xi − m|. c∈R n n i=1 i=1 min A fenti minimumot a minta átlagos abszolút eltérésének is szokták nevezni. A mediánnak több el®nye is van a várható értékkel szemben. • Olyan eloszlásoknak is létezik a mediánja, amelyeknek a várható értéke nem létezik. • A minta mediánja (empirikus medián) az eltolási paraméternek a mintaátlagnál stabilabb becslése, érzeketlen egy-két kiugró adatra. A következ®kben egy n-elem¶ minta alapján kívánjuk közelíteni a háttéreloszlást, ezért megkonstruáljuk az ún. empirikus
eloszlásfüggvényt, amir®l belátjuk, hogy elég nagy n-re jól rekonstruálja az ismeretlen eloszlásfüggvényt, akármi is legyen a véletlen minta. Ezt a tényt fogalmazza meg precízen a Glivenko Cantelli-tétel, melyet a statisztika egyik alaptételének is szoktak tekinteni. 52. Deníció (Empirikus (tapasztalati)) eloszlásfüggvény alatt a következ® véletlen függvényt értjük: tetsz®leges x ∈ R számra legyen Fn∗ (x) := 0, i=1 I(Xi < x) = nk , n 1, ∑n ha ha ha x ≤ X1∗ , ∗ Xk∗ < x ≤ Xk+1 ∗ x > Xn . (k = 1, . , n − 1) 34 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK Itt I(·) az argumentumban álló esemény indikátorváltozója. Könny¶ látni, hogy az I(Xi < x) indikátorváltozók független azonos eloszlású Bernoulli eloszlásúak F (x) paraméterrel, ahol F az X háttérváltozó eloszlásfüggvénye. 2.1 ábra empirikus eloszlásfüggvény Megjegyezzük, hogy Fn∗ az x1 , . , xn
realizációra olyan, mint egy Y ∼ U(x1 , . , xn ) diszkrét egyenletes eloszlású valószín¶ségi változó eloszlásfüggvénye 2 2 Nyilván E(Y ) = X̄ és D (Y ) = S . 53. Tétel (GlivenkoCantelli-tétel) Legyen F (x) az elméleti eloszlásfüggvény és x ∈ R rögzített Akkor E(Fn∗ (x)) = F (x), D2 (Fn∗ (x)) = F (x)(1 − F (x)) , n ∗ és limn∞ Fn (x) = F (x), 1 valószín¶séggel. A tételt animáció is szemlélteti. Rendezett mintaelemek eloszlása és együttes s¶r¶sége Legyen most az X háttérváltozó abszolút folytonos eloszlású F eloszlás- és f s¶r¶ségfüggvénnyel. A rendezett mintaelemekre X1∗ < X2∗ < · · · < Xn∗ , 1 valószín¶séggel. 2.1 35 ELMÉLETI HÁTTÉR ∗ El®ször határozzuk meg Xk Fn;k -val jelölt eloszlás-, és fn;k -val jelölt s¶r¶ségfüggvényét! Nyilván Fn;k (x) = P(Xk∗ < x) = P(legalább k db. mintaelem < x) = n ( ) n ( ) ∑ ∑ n n = P(pontosan i db. mintaelem <
x) = [F (x)]i [1 − F (x)]n−i i i i=k i=k (2.1) A s¶r¶ségfüggvényt nem ennek a deriválásával, hanem más meggondolással lehet egyszer¶en kiszámolni, a végeredmény: ( fn;k (x) = n Az ) n−1 [F (x)]k−1 [1 − F (x)]n−k f (x). k−1 (2.2) U[0, 1] egyenletes eloszlásra alkalmazva a (2.1) formulát és (22) formula integrálját 0-tól y -ig a következ® értékes összefüggést nyerjük: ( )∫ y n ( ) ∑ n i n−1 n−i y (1 − y) =n uk−1 (1 − u)n−k du. i k−1 0 i=k Az egyenletes eloszlásból vett 5 elem¶ rendezett minta elemeinek s¶r¶ségeit mutatják az alábbi ábrák. 2.2 ábra 5 elem¶ rendezett minta elemeinek s¶r¶ségei A képletgy¶jtemény alapján láthtó, hogy az egyenletes eloszlásból vett n∗ elem¶ minta Yk k -adik rendezett mintaeleme B(k, n − k + 1) Béta-eloszlású. ∗ Ennek alapján meghatározhatók Yk momentumai. Így: 36 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2.3 ábra Egyenletes minta
hisztogramja, 5 elem¶ rendezett minta 1,3,5 elemének hisztogramjai k n+1 k(k + 1) ∗ 2 E(Yk ) = (n + 1)(n + 2) E(Yk∗ ) = (2.3) D2 (Yk∗ ) = E(Yk∗ )2 − E2 (Yk∗ ) = k(n − k + 1) (n + 1)2 (n + 2) (k = 1, . , n) Végül megadjuk akárhány rendezett mintaelem együttes s¶r¶ségfüggvényét. ∗ ∗ ∗ Legyenek ezek a mintaelemek: Xk , Xk , . , Xk -ét (1 ≤ k1 < k2 < · · · < kr ≤ 1 2 r n). fn;k1 ,.,kr (x1 , , xr ) = n! · (k1 − 1)!(k2 − k1 − 1)! · · · (kr − kr−1 − 1)!(n − kr )! · F (x1 )k1 −1 [F (x2 ) − F (x1 )]k2 −k1 −1 · · · [F (xr ) − F (xr−1 )]kr −kr−1 −1 [1 − F (xr )]n−kr · · f (x1 ) · · · f (xr ), ha x1 ≤ x2 ≤ · · · ≤ xr , (2.4) és nyilván 0 különben. 2.1 37 ELMÉLETI HÁTTÉR Az alábbi szürkeárnyalatos ábra f5,1,5 -öt mutatja egyenletes eloszlásból vett rendezett minta esetén. 1 0.8 0.6 0.4 0.2 0 2.4 ábra f5,1,5 Az r = 1 speciális esetben megkapjuk a
(2.2) képletet Az r = n speciális esetben megkapjuk az összes rendezett mintaelem együttes s¶r¶ségfüggvényét. { n!f (x1 ) · · · f (xn ), fn;1,.,n (x1 , , xn ) = 0, ha x1 ≤ x2 ≤ · · · ≤ xn különben. Az eredmény nem meglep®, hiszen az összes rendezett mintaelem együttes eloszlása olyan, mint az összes (független) mintaelem együttes eloszlása azzal a n különbséggel, hogy a rendezés miatt az el®bbi eloszlás R -nek az x1 ≤ x2 ≤ · · · ≤ xn egyenl®tlenség által meghatározott, 1/n! részarányú szimplexére koncentrálódik. Elégségesség, teljesség, exponenciális eloszláscsalád Legyen Ω, AP statisztikai mez®, ahol P = {Pθ : θ ∈ Θ}. Az X1 , , Xn független azonos eloszlású minta egy T (X1 , . , Xn ) = T (X) statisztikájában a mintaele- mekben rejl® a θ paraméterre vonatkozó informaciót s¶ritjük ösze. 54. Deníció Likelihood-függvényen értjük a mintaelemek együttes valószín¶ség illetve
s¶r¶ségfüggvényét Legyen x = (x1 , , xn ) ∈ R n rögzített, és Lθ (x) a likelihood-függvény az x helyen. Ha a háttéreloszlás diszkrét pθ valószín¶ségfüggvényel, akkor Lθ (x) = Pθ (X = x) = n ∏ Pθ (Xi = xi ) = i=1 n ∏ i=1 ha pedig abszolút folytonos fθ s¶r¶ségfüggvénynyel, akkor Lθ (x) = n ∏ i=1 fθ (xi ). pθ (xi ), 38 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 55. Deníció Azt mondjuk, hogy a T (X) statisztika elégséges a θ paraméterre, ha diszkrét esetben a Pθ (X = x|T (X) = t) = Lθ (x) , Pθ (T (X) = t) ha 0 T (x) = t, (2.5) különben feltételes valószín¶ség, abszolút folytonos esetben pedig az Lθ (x) , fθT (t) fθ (x|T (X) = t) = T (x) = t, ha 0 (2.6) különben T feltételes s¶r¶ség nem függ θ -tól, ∀θ ∈ Θ, ahol fθ (t) jelöli a T (X) statisztika s¶r¶ségfüggvényét a t helyen. A fenti deníció alapján látható, hogy az
elegséges statisztika a mintaelemekben rejl® a θ paraméterre vonatkozó teljes információt tartalmazza. Felmerül a kérdés: hogyan lehetne megsejteni egy elégséges statisztika alakját? A választ a következ® tétel adja meg. 56. Tétel (NeymanFisher faktorizáció) Egy X minta T (X) statisztikája pontosan akkor elégséges, ha létezik olyan gθ (t) (θ ∈ Θ, t ∈ T (=T értékkészlete)) és h(x) (x ∈ X ) mérhet® függvény, hogy Lθ (x) = gθ (T (x)) · h(x) teljesül minden θ ∈ Θ, x ∈ X esetén. Azaz a likelihood-függvény csak a T statisztikán keresztül függ a paramétert®l. Természetesen a teljes minta vagy a rendezett minta is elégséges statisztika, de mi minél egyszer¶bbet szeretnénk kapni. Ezért bevezetünk a valamilyen paraméterre elégséges statisztikák között egy részben rendezést: azt mondjuk, hogy T1 a T2 -nek alárendelt statisztika, ha van olyan mérhet® v függvény, hogy T1 = v(T2 ). Ezt úgy jelöljük, hogy T1 ≤
T2 , és a T1 statisztika gazdaságosabb T2 -nél. Ha T1 és T2 kölcsönösen alárendeltek a másiknak, akkor ekvivalenseknek mondjuk ®ket: T1 = T2 (nyilván ekkor v invertálható függvény). 57. Deníció A T elégséges statisztikát minimális elégséges statisztikának nevezzük, ha alárendelt statisztikája bármely más elégséges statisztikának 58. Deníció A T statisztika teljes, ha a Eθ (g(T )) = 0, ∀θ ∈ Θ összefüggés a g függvényeknek egy elég gazdag (például folytonosan deriválható) osztályára teljesül, akkor g = 0, PTθ (g = 0) = 1, T ahol Pθ jelöli a T statisztika által generált mértéket. 2.1 39 ELMÉLETI HÁTTÉR Ennnek a tulajdonságnak a jelent®sége az, hogy, ha a T statisztika elégséges és teljes akkor minimális elegséges. Ugyanakkor ezt a tulajdonságot nehéz elln®rizni, de az alább deniált ún exponenciális eloszláscsaládra teljesül 59. Deníció Azt mondjuk, hogy az X háttérváltozó
eloszlása tagja az exponenciális eloszláscsaládnak, ha diszkrét esetben a valószín¶ség-, abszolút folytonos esetben a s¶r¶ségfüggvénye a következ® alakban állítható el®: k ∑ c(θ) · exp aj (θ) · Tj (x) · h(x), ∀θ ∈ Θ. (2.7) j=1 Itt k = dim(Θ), c és aj -k véges, mérhet® függvények Θ-n, Tj -k és h pedig véges, mérhet® valós függvények. (A c > 0 ún. súlyfüggvény biztosítja , hogy a ∑ vagy ∫ 1 legyen). 60. Tétel Vegyünk egy n-elem¶ X = (X1 , , Xn ) mintát a fenti eloszlásból Akkor T (X) = ( n ∑ T1 (Xi ), . , i=1 n ∑ ) Tk (Xi ) (2.8) i=1 elégséges statisztika a θ paraméter-vektorra. Ismeretes, hogy a normális-, exponeciális-, Poisson-, Bernoulli-, geometriai- Γ-eloszlások tagjai az exponenciális eloszláscsaládnak. A negatív binomiális (Pascal), binomiális, polinomiális eloszlások csak rögzített rend esetén azok (csak a valószín¶ség(ek) a paraméter(ek)). A
diszkrét és folytonos egyenletes eloszlások viszont nem tagjai. 2.12 Becsléselmélet Pontbecslések, torzítatlanság, hatásosság, konzisztencia Legyen (Ω, A, P) statisztikai mez®, ahol P = {Pθ : θ ∈ Θ}. A θ paramétert vagy annak valamely ψ(θ) függvényét szeretnénk becsülni az X = (X1 , . , Xn ) független azonos eloszlású minta alapján konstruált T (X) statisztika segítségével. Jelölje θ̂ ill. ψ̂ az így kapott becslést! 61. Deníció (Torzítatlanság) T (X) torzítatlan becslés ψ(θ)-ra, ha Eθ (T (X)) = ψ(θ), ∀θ ∈ Θ. Ezt a fogalmat a legegyszer¶bb példán szemléltetjük. 62. Állítás X̄ mindig torzítatlan becslés m(θ) = Eθ (X)-re, ha ez véges 63. Deníció (Aszimptotikus torzítatlanság) A T (Xn ) statisztikasorozat aszimptotikusan torzítatlan becslés ψ(θ)-ra, ha lim Eθ (T (Xn )) = ψ(θ), n∞ ∀θ ∈ Θ. 40 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK A szórásnégyzet becslésén
szemléltetjük mindkét fogalmat. 64. Állítás Legyen X1 , , Xn független azonos eloszlású minta egy tetsz®leges 2 2 olyan eloszlásból, melyre minden θ ∈ Θ esetén σ (θ) = Dθ (X) < ∞. Akkor 1∑ 2 (Xi − X̄) = X − X̄ 2 , n i=1 n i=1 i 1 Sn2 = n ∑ n 2 n Sn2 pedig torzítatlan becslése a szórásnégyzetnek. Sn∗ 2 := n−1 ∗2 Megjegyezzük, hogy az Sn becslés torzítatlansága a Steiner-tétel következménye. Hatásosság (eciencia) 65. Deníció Legyen a T1 és T2 statisztika torzítatlan becslés a θ paraméterre, vagy annak valamely ψ(θ) függvényére. Azt mondjuk, hogy T1 hatásosabb (eciensebb) becslés, mint T2 , ha D2θ (T1 ) ≤ D2θ (T2 ), ∀θ ∈ Θ, és legalább egy θ0 ∈ Θ esetén (2)-ben < teljesül. 66. Deníció Egy torzítatlan becslés hatásos (eciens) becslés, ha bármely más torzítatlan becslésnél hatásosabb. A következ® tétel azt állítja, hogy amennyiben van hatásos becslés, az
egyértelm¶. 67. Tétel (Egyértelm¶ségi) Legyen a T1 és T2 statisztika egyaránt torzítatlan, hatásos becslés ugyanarra a ψ(θ) paraméterfüggvényre Akkor Pθ (T1 = T2 ) = 1, ∀θ ∈ Θ. Tételek garantálják, hogy exponenciális eloszláscsalád esetén X̄ a várható érték hatásos becslése. Nem minden eloszláscsalád esetén igaz ez Az U[0, θ] ∗ egyenletes eloszláscsalád esetén például legyen θ̂ Xn legnagyobb rendezett mintaelem n+1 2n -szerese, ez szintén várható érték torzítatlan becslése (l. (18)), és hatásosabb, mint X̄ Konzisztencia A konzisztencia azt jelenti, hogy a meggyelések számának növelésével javul a becslés pontossága. 68. Deníció A T (Xn ) statisztikasorozat gyengén (er®sen) konzisztens becslés ψ(θ)-ra, ha minden θ ∈ Θ-ra n ∞ esetén T (Xn ) ψ(θ) sztochasztikusan (1 valószín¶séggel). A nagy számok er®s törvénye maga után vonja az alábbi Állítást. 69. Állítás Ha X1 , , Xn
független azonos eloszlású minta X -re és m(θ) = Eθ (X) véges, akkor X̄n er®sen konzisztens becslés m(θ)-ra. 2.1 41 ELMÉLETI HÁTTÉR Ezt szemlélteti az alábbi animáció. 70. Deníció A T (Xn ) statisztikasorozat a ψ(θ) paraméterfüggvény négyzetes 2 középben konzisztens becslése, ha minden θ ∈ Θ-ra Eθ (T (Xn )) < ∞ (∀n ∈ N) és lim Eθ (T (Xn ) − ψ(θ))2 = 0. n∞ 71. Állítás Ha a T (Xn ) statisztikasorozat négyzetes középben konzisztens becslést ad ψ(θ)-ra, akkor a becslés gyengén konzisztens is A szórásnégyzet becslése konzisztenciájának bizonyításának eszköze az alábbi önmagában is érdekes Állítás. 72. Állítás D2 (Sn2 ) = és (n − 1)[(n − 1)M4c − (n − 3)σ 4 ] , n3 1 D (Sn∗ 2 ) = ( 2 n−3 4 M4c − σ ) . n−1 n CramérRao-egyenl®tlenség Legyen (Ω, P, P) statisztikai mez®, ahol P = {Pθ : θ ∈ Θ}. Célunk az, hogy a θ paraméterre vagy annak valamely ψ(θ)
függvényére konstruált torzítatlan becslések szórásnégyzetére alsó korlátot adjunk. Ha egy torzítatlan becslésre ez a korlát eléretik, akkor biztosak lehetünk abban, hogy hatásos becslésünk van, ami az 67 Tétel alapján egyértelm¶. Szükségünk lesz a következ®, R. A Fishert®l származó fogalomra, l[11] 73. Deníció Legyen X = (X1 , , Xn ) független azonos eloszlású minta az X háttérválozó eloszlásából, amely a θ paramétert®l függ (θ ∈ Θ), itt csak a dim(Θ) = 1, Θ konvex esettel foglalkozunk. A fenti minta Fisher-féle információja az ( In (θ) = Eθ ∂ lθ (X) ∂θ )2 ≥0 mennyiséggel van deniálva, ahol lθ (x) = ln Lθ (x) az ún. log-likelihood függvény-t jelöli Az információmennyiségt®l elvárjuk, hogy független valószín¶ségi változók esetén additív legyen. Ez itt nem részletezett regularitási feltételek mellett amelyek fennálnak az exponenciális eloszláscsaládokra, de például az
egyenletes eloszláscsaládra nem állnak fenn igaz is. Így a denícióban szerepl® független azonos eloszlású valószín¶ségi változók esetén igaz az In (θ) = nI1 (θ). 42 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK Ugyanezen regularitási feltételek mellett igaz az I1 (θ) egyszer¶bb kiszámítási módját biztosító ( I1 (θ) = −E ) ∂2 ln L (X) θ ∂θ2 összefüggés. A következ® állítás illusztrálja azt a tényt, hogy az elégséges statisztika tartalmazza a mintában lév®, a paraméterre vonakozó teljes információt. 74. Állítás Legyen X = (X1 , , Xn ) független azonos eloszlású minta egy θ paramétert®l függ® eloszlásból (θ ∈ Θ), és tegyük fel, hogy In (θ) < ∞. Akkor tetsz®leges T (X) elégséges statisztikára IT (θ) = In (θ), ahol IT (θ) ugyanúgy számolható a T statisztika valószín¶ség ill. s¶r¶ségfüggvényéb®l, mint ahogyan a teljes minta információja a mintaelemek együttes
eloszlásából. Miután a CramérRao egyenl®tlenségben szerepl® valamennyi fogalmat deniáltunk, kimondhatjuk magát a tételt. 75. Tétel (CramérRao-egyenl®tlenség) Legyen (Ω, A, P) reguláris statisztikai mez®, ahol P = {Pθ : θ ∈ Θ}, dim(Θ) = 1. Legyen X = (X1 , , Xn ) független azonos eloszlású minta a Pθ eloszlásból, amir®l most tegyük fel, hogy abszolút folytonos. Tegyük fel továbbá, hogy a T (X) statisztika valamely deriválható ψ függvénnyel képzett ψ(θ) paraméterfüggvény torzítatlan becslése, ∀θ ∈ Θ D2θ (T ) < +∞, továbbá teljesülnek az alábbi bederiválhatósági feltételek: ∂ ∂θ és ahol ∫ ∂ ∂θ ··· ∫ ∫ ∫ ∫ ··· Lθ (x) dx = ∫ ··· ∫ ∫ ··· ∫ T (x)Lθ (x) dx = ∂ Lθ (x) dx, ∂θ ∫ ··· T (x) ∂ Lθ (x) dx, ∂θ ∀θ ∈ Θ ∀θ ∈ Θ, n-dimenziós integrálást jelent a likelihood-függvény tartóján. Akkor D2θ (T ) ≥ (ψ ′ (θ))2 ,
In (θ) ∀θ ∈ Θ. 2 2 Példaként megemlítjük, hogy az N (θ, σ ) normális eloszlásra ismert σ es−2 etén I1 = σ , és a θ̂ = X̄ átlagra az egyenl®tlenség helyett egyenl®ség áll, azaz eléretik az információs határ, míg az Exp(λ) exponenciális eloszlásra a torzítatn−1 becslés a következ® tétel miatt hatásos, de az információs határ nX̄ nem éretik el. Ugyanakkor a U(0, θ) egyenletes eloszlás lan λ̂ = θ̂ = Xn∗ (a legnagyobb rendezett mintaelem n+1 -szerese) n 2.1 43 ELMÉLETI HÁTTÉR becslés szórásnégyzete 1/n nagyságrend¶, azaz lényegesen kisebb, mint az in- formációs határ, mert a bederiválhatósági feltételek nem teljesülnek. 76. Tétel (RaoBlackwellKolmogorov-tétel) Legyen (Ω, A, P) statisztikai mez®, ahol P = {Pθ ; θ ∈ Θ}. Legyen X = (X1 , , Xn ) független azonos eloszlású minta valamely Pθ eloszlásból Legyen továbbá (a) T (X) elégséges statisztika, (b) S(X) torzítatlan becslés
a ψ(θ) paraméterfüggvényre. Akkor T -nek van olyan U = g(T ) függvénye, amely (1) szintén torzítatlan becslése a ψ(θ) paraméterfüggvénynek: Eθ (U ) = ψ(θ), ∀θ ∈ Θ, 2 2 (2) U legalább olyan hatásos becslése ψ(θ)-nak, mint S : Dθ (U ) ≤ Dθ (S), ∀θ ∈ Θ. (3) U konstrukciója a következ®: U := Eθ (S|T ) = g(T (X)), ∀θ ∈ Θ (ezt nevezzük blackwellizálásnak). A tétel üzenete: a hatásos becsléseket a minimális elégséges statisztika függvényei közt kell keresni. Becslési módszerek A paraméterek (akár többdimenziós paraméterek) becslésére számos ad hoc módszer ismertes, itt csak az ún. maximum-likelihood becslést ismertetjük els®sorban azért, mert általánosan alkalmazható, és az általa kapott eredmény közel esik a más becslések (például az ún. Bayes-becslés, vagy a momentum módszeren alapuló becslés) által kapott eredményhez. Legyen (Ω, A, P) statisztikai mez®, ahol P = {Pθ ; θ ∈ Θ} (a
paramétertér lehet többdimenziós és legyen konvex). Vegyünk egy X1 , , Xn független azonos eloszlású mintát a Pθ eloszlásból (θ ismeretlen). Az x1 , , xn realizáció birtokában a paraméter becslésének azt a θ̂-ot fogadjuk el, amely mellett an- nak a valószín¶sége, hogy az adott realizációt kapjuk, maximális. Mivel ezt a valószín¶séget a likelihood-függvény tükrözi, a módszer ezt maximalizálja. A maximumhely csak a realizációtól függ, tehát statisztikát kapunk becslésként. 77. Deníció Legyen Lθ (x) : n-elem¶ mintához tartozó likelihood-függvény A θ̂: θ̂(x1 , . , xn ) statisztikát a θ paraméter maximum likelihood (ML-)becslésének nevezzük, ha θ̂ globális maximumhelye a likelihood-függvénynek, azaz Lθ̂(x1 ,.,xn ) (x1 , , xn ) ≥ Lθ (x1 , , xn ) teljesül ∀θ ∈ Θ és (x1 , . , xn ) esetén Megjegyzés. Ha létezik is L-nek globális maximuma minden realizáció esetén, az nem biztos, hogy a
max. helyek egyértelm¶ek Ezesetben választanunk kell a max. helyek között Áltlános tételek biztosítják, hogy n ∞ esetén a külön∗ valódi értékéhez konvergálnak. Tehát a θ̂n √ ∗ M-L becslés aszimptotikusan torzítatlan, s®t n(θ − θn )-nel aszimptotikusan N (01/I1 (θ∗ )) normális eloszlású, azaz aszimptotikusan eciens. böz® maximumhelyek a paraméter θ 44 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK Kondencia intervallum szerkesztés Az eddigiekben ún. pontbecslésekkel foglalkoztunk, vagyis a becsülend® paramétert v. paraméterfüggvényt a mintaelemekb®l képzett egyetlen statisztikával becsültük Most becslésként egy egész intervallumot melynek határait természetesen statisztikák jelölik ki fogunk használni A köznapi beszédben úgy fogalmazunk, hogy a ψ(θ) paraméterfüggvény P valószín¶séggel a Ta és Tf statisztikák által meghatározott intervallumban van. Természetesen ψ(θ) nem
valószín¶ségi változó. Az alábbi kijelentésnek mégis van értelme Legyen X = (X1 , , Xn ) független azonos eloszlású minta a Pθ sokaságból (θ ismeretlen)! 78. Deníció A (Ta (X), Ta (X)) statisztikapárral deniált intervallum legalább 1 − ε szint¶ kondenciaintervallum a ψ(θ) paraméterfüggvényre, ha Pθ (Ta (X) < ψ(θ) < Tf (X)) ≥ 1 − ε, (2.9) ahol ε el®re adott kis pozitív szám (például ε = 0.05, ε = 001, a hozzájuk tartozó szignikanciaszint pedig 95%, 99%). Nem világos, hogy a denícióban szerepl® Pθ valószín¶ség milyen paraméterértékhez tartozik. Egyes szerencsés esetekben az (2.9) beli valószín¶ség nem függ θ -tól Kondenciaintervallum szerkesztése a normális eloszlás várható értékére ismert szórás esetén 2 2 Legyen X1 , . , Xn ∼ N (µ, σ0 ) független azonos eloszlású minta, ahol σ0 ismert, µ (a várható érték) ismeretlen paraméter. (X̄ −rε , X̄ +rε ) szimmetrikus
alakban: Pµ (X̄ − rε < µ < X̄ + rε ) = Pµ (|X̄ − µ| < rε ) = Pµ (−rε < X̄ − µ < rε ) = ( ) ( ) ( ) −rε X̄ − µ rε rε −rε √ < √ < √ √ √ Pµ =Φ −Φ , σ0 / n σ0 / n σ0 / n σ0 / n σ0 / n ahol Φ(·) standard normális eloszlásfüggvény, és rε -t úgy kell megválasztani, ( ) Φ−1 (1− 2ε )σ0 rε√ √ hogy 2Φ − 1 = 1 − ε , teljesüljön. Így rε = . σ0 / n n Vegyük észre, hogy a kondenciaintervallum hossza n növelésével és a σ0 szórás csökkentésével csökken. Ismeretlen szórásnégyzet esetén a a standard normális eloszlást a megfelel® szabadságfokú Student-eloszlással helyettesítjük. A fenti két esetben az (2.9) képletben Pθ (Ta (X) < ψ(θ) < Tf (X)) ≥ 1−ε valószín¶ség nem függ θ -tól Ha a feladatot nem lehet θ -tól független szimmetrikus eloszlás valószín¶ségeire visszavezetni, akkor monoton nem csökken® ψ(θ) függvény esetén a
következ®k®ppen járunk el. El®ször önkényesen felbontjuk az (29) képletet Pθ1 (Ta (X) > ψ(θ)) ≤ ε/2-re és Pθ2 (ψ(θ) > Tf (X)) ≤ ε/2-re. Szavakban kifejezve, ha ψ(θ1 ) értékét csökkentjük, a minta θ1 melletti valószín¶sége, 1 − ε/ fölé n®, míg ha ψ(θ2 ) értékét növeljük, a minta θ2 melletti valószín¶sége, ε/2 alá csökken. Az eljárás akkor korrekt, ha a θa (ε) függvény monoton nem növekv®, míg a θf (ε) függvény monoton nem csökken®. 2.1 45 ELMÉLETI HÁTTÉR A módszert a Poisson-eloszlás λ paraméterére szerkesztett kondencia intervallummal illusztráljuk. Legyen X1 , , Xn ismeretlen λ paraméter¶ Poisson eloszlásból vett független azonos eloszlású minta, ismeretes, hogy az Y = X1 + · · · + Xn összeg elégséges statisztika, és eloszlása nλ paraméter¶ Poisson. ∑Y λja Számítsuk ki azt a λa értéket, amire exp(−λa ) j=0 j! = 1 − ε/2, majd azt ∑Y λja a λf értéket,
amire exp(−λf ) j=0 j! = ε/2, Nyilván λ csökkentésével a deniáló összeg n®, és λ növelésével a deniáló összeg csökken. Az alábbi ábra λ függvényében mutatja exp(−λ) 2.5 ábra exp(−λ) ∑Y λ j=0 j! -t. ∑Y λ j=0 j! A [λa , λf ] intervallumot tekinthetjük a λ paraméter 1 − ε magbízhatósági szint¶ kondencia intervallumának. Ezt az alábbi ábra illusztrálja (a kék terült 1 − ε). Az alábbi interakív ábra a binomiális eloszlás p paramétere esetén szemlélteti a fenti eljárást. 2.13 Hipotézisvizsgálat A Tananyagban csak ún. paraméteres hipotézisvizsgálatokkal foglalkozunk Ez tekinthet® a paraméterbecslési feladat egy speciális esetének, amikor el®zetes információnk van a paraméter lehetséges értékeir®l, és csak azt kell eldönteni, hogy melyik érték a valószín¶bb. Valójában a hipotézisvizsgálat majdnem minden feladatát az egyszer¶ alternatívára vezetjük vissza Tegyük fel, hogy a
Θ paramétertér mindössze két elemb®l áll: Θ = {θ0 , θ1 }. θ = θ0 hipotézist szokás 46 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2.6 ábra Konndencia intervallum a Poisson eloszlás λ paraméterére H0 -lal jelölni és null-hipotézisnek nevezni, míg a H1 : θ = θ1 } az ellen-hipotézis. Mindkét hipotézis lehet összetett is: a Θ paramétertartományt két halmaz diszjunkt uniójára (T heta = T heta0 cupT heta1 és T heta0 ∩ T heta1 = ∅). Leggyakrabban a null-hipotézis egyszer¶ θ = θ0 , míg az ellenhipotézis θ ̸== θ0 alakú. Döntésünkkor kétféle hibát követhetünk el: 1. Elvetjük a null-hiptézist, pedig igaz; ezt nevezzük els®fajú hibának, mert ennek a valószín¶sége egyszer¶ nullhipotézis esetén null-hipotézishez tartozó eloszlás alapján kiszámolható. A hipotézisvizs- gálat a gyakorlatban legtöbbször úgy történik, hogy keresünk a mintaelemeknek egy olyan függvényét, amelynek eloszlása az egyszer¶
null-hipotézis fennállása esetén ismert. Ez a próbastatisztika (ha szerencsénk van, az ellen-hipotézishez tartozó paraméterértékekre is ismert) 2. Elfogadjuk a null-hiptézist, pedig nem igaz; ezt nevezzük másodfajú hibának, ennek a valószín¶sége összetett H1 hipotézis esetén függ a θ ∈ Θ1 paramétert®l. Döntésünk valamely, az X = (X1 , . , Xn ) minta alapján lehet determinisztikus, és (diszkrét értékkészlet¶ valószín¶ségi változók esetén) ún randomizált A determinisztikus döntéskor a X mintateret felosztjuk Xe elfogadási- és Xk kritikus tartományra. Xe ∩ Xk = ∅, Xe ∪ Xk = X . Az els®fajú hiba valószín¶sége egyszer¶ null-hipotézis esetén: Pθ0 (X ∈ Xk ). A hipotézisvizsgálatban a döntést próbának nevezik. 2.1 47 ELMÉLETI HÁTTÉR A kritikus tartományt leggyakrabban ún. Ψ { próbafüggvénnyel deniáljuk: X ∈ Xe ⇔ Ψ(X) = 0, X ∈ Xk ⇔ Ψ(X) = 1. El®fordulhat, hogy ilyen alakú
próbafüggvénnyel még egyszer¶ alternatíva esetén sem lehet minden ε értékére pontosan beállítani az els®fajú hibát, s®t a mintateret sem lehet két diszjunkt tartományra osztani úgy hogy az els®fajú hiba adott ε legyen. Ilyenkor háromérték¶ (randomizált) próbafüggvényt alkalmazunk: 0, Ψ(X) = p, 1, Ha Ψ(X) = p, akkor a nullhipotézist p valószín¶séggel elfogadjuk. Ha a null-hipotézis összetett a próba terjedelmér®l beszélünk. 79. Deníció A Xk kritikus próba pontos terjedelme: sup Pθ (X ∈ Xk ). θ∈Θ0 A pontos terjedelem diszkrét eloszlások esetén általában nem érhet® el. 80. Deníció Az Xk kritikus tartománnyal értelmezett próba ereje a θ ∈ Θ1 alternatívával szemben: βn (θ, ε) = 1 − Pθ (X ∈ Xe ) = Pθ (X ∈ Xk ), θ ∈ Θ1 teljesül. A próbák esetén is deniálható a torzítatlanság, nevezetesen, ha er®függvénye az ellen-hipotézishez tartozó paraméterértekre sem kisebb,
mint a próba terjedelme. Precízen fogalmazva: 81. Deníció Az Xk kritikus tartománnyal deniált próba legfeljebb ε terjedelm¶ torzítatlan, ha Pθ (X ∈ Xk ) ≤ ε, ha θ ∈ Θ0 , Pθ (X ∈ Xk ) ≥ ε, ha θ ∈ Θ1 . és Rögzített terjedelem esetén elvárható, hogy a mintaelemszám növelésével próba másodfajú hibája az ellen-hipotézishez tartozó minden paraméterértékre nullához tartson. 48 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 82. Deníció Az n elem¶ mintához tartozó X(n) k kritikus tartománnyal deniált próba ε terjedelm¶ konzisztens, ha (n) sup Pθ (Xn ∈ XXk ) = ε, ∀n ∈ N θ∈Θ0 és (n) lim βn (θ, ε) = lim Pθ (Xn ∈ Xk ) = 1, n∞ n∞ ∀θ ∈ Θ1 . A hipotézisvizsgálat legalapvet®bb tétele az egyszer¶ alternatívára érvényes NeymanPerson-Lemma. 83. Tétel (NeymanPearson-Lemma) A H0 : θ = θ 0 versus H1 : θ = θ 1 egyszer¶ alternatívára tetsz®leges ε > 0-ra létezik
ε terjedelm¶ próba, amelynek másodfajú hibája minimális, amelynek (esetleg randomizált) próbafüggvénye 0, ψ(X) = p, 1, ha ha ha Lθ1 (X) Lθ0 (X) < c, Lθ1 (X) Lθ0 (X) = c, Lθ1 (X) Lθ0 (X) > c, (2.10) ahol a Lθj (X) j = 0, 1 és a c = cε > 0 és p = pε számokat úgy választjuk meg, hogy a próba terjedelme ε legyen 84. Megjegyzés Diszkrét eloszlás esetén általában nincs olyan c érték, amire a determinisztikus próba els®fajú hibája pontosan ε ezért randomizált próbát alkalmazunk. Természetesen megtehetjük, hogy szigorúak vagyunk és sz¶kebb kritikus tartományt (kisebb c-t) választunk, vagy a kisebb els®fajú hiba el®nyosebb, és engedékenyebbek vagyunk. Az elméleti összefoglalóban egyetlen példát mutatunk arra az esetre, amikor a NeymanPearson-lemma alapján próba szerkeszthet®. Ez az ún u-próba. egymintás Legyen X : X1 , . , Xn független azonos eloszlású N (θ, 1) eloszlású
minta, θ lehetséges értékei θ0 (null-hipotézis) és θ1 > θ0 (ellen-hipotézis). A normális Lθ1 (X) eloszlás s¶r¶ségfüggvényének alakjából kiolvasható, hogy a Lθ0 (X) ≥ c egyen√ ′ l®tlenség pontosan akkor teljesül ha nX ≥ c′ , ahol √ √ c -t ugy kell megválasztani, ′ hogy P( nX > c ) = ε teljesüljön. Mivel Mivel nX standard normális elos−1 ′ zlású, c = Φ (1 − ε). A megfelel® kvantiliseket itt interaktív ábra segítségével határozhatjuk meg. Az er®függvény mutatja az u próba konzisztenciáját (az alsó kék vonal az els®fajú hibánál, a fels® 1-nél van). Az alábbi animáció az u próba konzisztenciáját mutatja. A NeymanPearson-lemma randomizált változata alapján szerkesztend® próba a feladatok között szerepel. Végül mutatunk egy általanosan használt módszert, amely számos módszer alapját képezi, és a többváltozós statisztikában más lehet®ség híján mindig ezt alkalmazzuk. 2.1
ELMÉLETI HÁTTÉR 49 2.7 ábra u próba els®fajú hibája 2.8 ábra u próba másodfajú hibája µ függvényében A Likelihood-hányados próba Ez a fajta próba olyan, viszonylag általános esetekben használható, mikor a nullhipotézis azt jelenti, hogy paraméterünk a véges dimenziós, konvex paramétertér 50 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2.9 ábra u próba ereje (1−másodfajú hiba) µ függvényében valamely alacsonyabb dimenziós, összefügg® részsokaságába esik: H0 : θ ∈ Θ0 versus H1 : θ ∈ Θ1 , ahol Θ0 ∩ Θ1 = ∅, Θ0 ∪ Θ1 = Θ, és a dim(Θ0 ) = r , dim(Θ) = k jelöléssel r < k teljesül. Az n-elem¶ minta alapján konstruálandó próbastatisztika: λn (X) = supθ∈Θ0 Lθ (X) . supθ∈Θ Lθ (X) Tényleg statisztikát kapunk (λn (X) nem függ θ -tól), amely 0 és 1 közötti értékeket vesz fel. 85. Állítás Bizonyos regularitási feltételek mellett n ∞ esetén −2 ln λn (X) χ2 (k −
r) eloszlásban, H0 fennállása esetén. (l [3] 310 paragrafus) Ezért ε terjedelemhez a kritikus tartomány: Xk = {x : λn (x) ≤ λε } = {x : −2 ln λn (x) ≥ cε }, 2 ahol a cε = −2 ln λε > 0 konstans a χ (k − r) eloszlás 1 − ε kvantilise. 2.1 51 ELMÉLETI HÁTTÉR A leggyakrabban használt próbák t-próba (Student-próba). Normális eloszlás várható értékének tesztelésére vagy két normális várható érték összehasonlítására használják ismeretlen szórás(ok) esetén. A gyakorlatban kis mintákra alkalmazzák, a normális eloszlást fel kell 2 tenni. Egymintás t-próba Legyen X ∼ N (µ, σ ) háttérváltozó ismeretlen paraméterekkel A H0 : µ = µ 0 versus H1 : µ ̸= µ0 hipotézis vizsgálatára az n elem¶ X1 , . , Xn ∼ N (µ, σ) független, azonos eloszlású mintából konstruált próbastatisztika: t(X) = X̄ − µ0 √ n, Sn∗ az 1 − ε szignikanciaszinthez konstruált kritikus tartomány pedig Xk = {x
: |t(x)| ≥ tε/2 (n − 1)}, ahol tε/2 (n − 1) az n − 1 szabadságfokú t-eloszlás (1 − ε/2)-kvantilise. A t- eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. Null-hipotézisünket 1 − ε szinten elfogadjuk, ha a mintarealizációból számolt |t(x)| < tε/2 (n − 1), és elutasítjuk különben. 2 2 Kétmintás t-próba. Legyen X ∼ N (µ1 , σ ) és Y ∼ N (µ2 , σ ) két tetsz®leges várható érték¶, de azonos szórású háttérváltozó. Az összes paraméter ismeretlen Még ebben a paragrafusban megmutatjuk, hogyan lehet ismeretlen szórások egyenl®ségét tesztelni. A H0 : µ1 = µ2 vers. H1 : µ1 ̸= µ2 2 hipotézis vizsgálatára az n1 elem¶ X1 , . , Xn1 ∼ N (µ1 , σ ) független, azonos 2 eloszlású és az Y1 , . , Yn2 ∼ N (µ2 , σ ) független, azonos eloszlású, egymástól is független mintákból konstruált próbastatisztika: t(X, Y) = √ √ X̄ − Ȳ ∗ 2 + (n − 1)S ∗ 2 (n1 −
1)SX 2 Y · n1 n2 (n1 + n2 − 2) n1 + n2 az 1 − ε szignikanciaszinthez konstruált kritikus tartomány pedig Xk = {(x, y) : |t(x, y)| ≥ tε/2 (n1 + n2 − 2)}, ahol most az n1 + n2 − 2 szabadsági fokú t-eloszlást használjuk. A t-eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. -próba F . Két normális eloszlású változó szórásának összehasonlítására használják 2 2 Legyen X ∼ N (µ1 , σ1 ) és Y ∼ N (µ2 , σ2 ) két ismeretlen paraméter¶, normális eloszlású háttérváltozó. A szórások egyenl®ségét szeretnénk tesztelni: H0 : σ 1 = σ 2 versus H1 : σ1 ̸= σ2 . 52 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2 Az n1 elem¶ X1 , . , Xn1 ∼ N (µ1 , σ ) független, azonos eloszlású és az Y1 , , Yn2 ∼ 2 N (µ2 , σ ) független, azonos eloszlású, egymástól is független minták alapján ∗ 2 2 2 ∗2 2 vizsgálódunk. Tudjuk, hogy (n1 − 1)SX /σ1 ∼ χ (n1 − 1) és (n2
− 1)SY /σ2 ∼ 2 χ (n2 − 1) függetlenek. Leosztva ®ket külön-kölön a saját szabadsági fokukkal, majd a hányadosukat véve F(n1 , n2 )-eloszlású valószín¶ségi változót kapunk, ezt tekinthetjük egyben az (n1 , n2 ) szabadsági fokú Fisher-eloszlás deníciójának. H0 fennállása esetén a hányados F (X, Y) = ∗ 2 SX , SY∗ 2 így ezt a próbastatisztikát vezetjük be. Mivel egy F(f1 , f2 ) eloszlású valószín¶ségi változó reciproka F(f2 , f1 ) eloszlású lesz, az X , Y szereposztást úgy választhatjuk, ∗ 2 ∗ 2 hogy a konkrét realizáció alapján számolt sX ≥ sY legyen. Ezután 1−ε szinten elutasítjuk H0 -t, ha F (x, y) ≥ Fε/2 (n1 − 1, n2 − 1), ahol a megfelel® szabadsági fokú F -eloszlás (1 − ε/2)-kvantilise a kritikus érték. Az F -eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. A következ® két próba ún. nemparaméteres próba, az els® esetben a H0 hipotézis az, hogy
a minta egy adott diszkrét eloszlást követ, míg a második esetben a H0 hipotézis az, hogy a minta egy adott folytonos eloszlást követ. χ2 . Legyen A1 , , Ar teljes eseményrendszer és -próba ∑r H0 : P(Ai ) = pi (i = 1, . , r), ahol a pi > 0, i=1 pi = 1 valószín¶ségek adottak. Végezzünk ∑rn db. meggyelést! Jelölje ν1 , , νr az A1 , , Ar esemény gyakoriságát ( i=1 νi = n)! Akkor H0 fennállása esetén a (ν1 , . , νr ) valószín¶ségi változó polinomiális eloszlású: { PH0 (ν1 = n1 , . , νr = nr ) = n1 n! nr n1 !···nr ! p1 · · · pr , ha n1 + · · · + nr = n, 0, különben. A alábbi tétel biztosítja, hogy a az ∑r i=1 (νi −npi )2 próbafüggvény aszimpnpi 2 totikusan χ -eloszlású. 86. Tétel Ha (ν1 , , νr ) polinomiális eloszlású n és p1 , , pr (pi > 0) paraméterekkel (vagyis a (3.1)-beli H0 fennállása esetén), akkor n ∞ esetén r ∑ (νi − npi )2 i=1 npi χ2 (r − 1)
eloszlásban. 2 A χ -eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. Megjegyzés. A határeloszlás nem függ a pi értékekt®l, csak r -t®l KolmogorovSzmirnov-próba. Ezt a próbát tiszta illeszkedésvizsgálat céljára használjuk olyan esetekben, mikor a háttéreloszlás folytonos. A próbastatisztika konstrukciójánál kihasználjuk a KolmogorovSzmirnov tételkört. 2.2 53 FELADATOK Egymintás eset (illeszkedésvizsgálat): H0 : P(X < x) = F (x), ∀x ∈ R (F adott folytonos eloszlásfüggvény). H1 : Jelölje F ∗ van olyan x ∈ R, P(X < x) ̸= F (x). a tapasztalati eloszlást és legyen Dn = sup |Fn∗ (x) − F (x)|. x∈R ∗ ∗ Amennyiben x1 ≤ · · · ≤ xn az x = (x1 , . , xn ) mintarealizáció rendezett alakja, akkor Dn (x) = max max{|Fn∗ (x∗i ) − F (x∗i )|, |Fn∗ (x∗i + 0) − F (x∗i )|} = i = max max{| i i−1 i − F (x∗i )|, | − F (x∗i )|}. n n Kolmogorov tétele
alapján tudjuk, hogy H0 fennállása esetén √ lim P( nDn < z) = K(z), n∞ ∀z ∈ R, ahol { 0, K(z) = ∑∞ i −2i z =1−2 i=−∞ (−1) e 2 2 ∑∞ ha i−1 −2i z e , i=1 (−1) 2 2 ha z ≤ 0, . z > 0, A Kolmogorov-eloszlás kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. 2.2 Feladatok 1. Igaz-e, hogy a tapasztalati korreláció mindig −1 és 1 közé esik? Mikor teljesülhet valamelyik egyenl®ség? Tipp: Alkalmazzuk a véges dimenzós CauchySchwarz-egyenl®tlenséget! Válasz: Igaz. { 1, − 1, ha a két minta egymás pozítív számszorosa, ha a két minta egymás negatív számszorosa. 2. Legyen X1 , , Xn független, p paraméter¶ Bernoulli eloszlásból vett statisztikai minta. (a) Milyen eloszlású ∑n i=1 Xi ? (b) Adjuk meg a k -adik empirikus (tapasztalati) momentum eloszlását! 54 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK (c) Adjuk meg a második empirikus (tapasztalati) centrális
momentum eloszlását! Tipp: (a) Elemi számolás. (b) A diszkrét eloszlású valószín¶ségi változók függvény eloszlásának számolása. (c) Alkalmazzuk az el®z® 2 pont eredeményét k = 1, 2-re. Válasz: (a) Bn (p). nk /n, (n − 1)k /n, . , 1/n, 0 számok valószín¶ségei ugyanazok, mint a Bn (p) eloszlásban az n, n − 1, . , 1, 0 értékek valószín¶ségei ( )2 ( )2 (n+1) (c) n − (n+1) , . . . , − számok valószín¶ségei ugyanazok, mint 2n 2n a Bn (p) eloszlásban az n, n − 1, . , 1, 0 értékek valószín¶ségei (b) Az 3. Legyen X1 , , Xn független, λ1 , , λn paraméter¶ Poisson eloszlásból vett minta. (a) Milyen eloszlású ∑n i=1 Xi ? (b) Adjuk meg X eloszlását! Tipp: Alkalmazzuk a képletgy¶jteményt. Válasz: (a) nλ paraméter¶ Poisson. (b) A {0, 1/n, 2/n, . } értékeket ugyanazzal a valószín¶ségel veszi fel, mint az nλ paraméter¶ Poisson-eloszlás. 4. Legyen X1 , , Xn ∼ N (µ, σ 2 ) független
minta. Milyen eloszlású X ? (Ad- juk meg a várható értéket és a szórásnégyzetet is!) Tipp: l. képletgy¶jtemény Válasz: N (µ, σ 2 /n). 5. Legyen X1 , , Xn ∼ U(−1, 1) független minta Aszimptotikusan milyen eloszlású Tipp: √ n · X? Számítsuk ki a U(−1, 1) eloszlás els® két momentumát és alka- lmazzuk a centrális határeloszlás-tételt. Válasz: N (0, 1/3). 2.2 55 FELADATOK 6. Legyen X1 , , Xn független minta f (x) = nyel. Aszimptotikusan milyen eloszlású √ √ 1 √ e− 2|x| s¶r¶ségfüggvén2 2 n · X? Tipp: A feladatban szerepl® valószín¶ségi változók várható értéke 0, 2 szórasnégyzetet jelölje σ , ez utóbbit az exponenciális eloszlás s¶r¶ségfüggvényének és második momentumának ismeretében kiszámíthatjuk. Alkalmazzuk a centrális határeloszlás-tételt Válasz: Vegyük észre, hogy f (x) a teljes számegyenesen van értelmezve! N (0, 1). 7. Legyen X1 , , Xn független, λ
paraméter¶ exponenciális eloszlásból vett minta. Milyen eloszlású X ? Tipp: keressük meg a képletgy¶jteményben a gamma eloszlás s¶r¶ségfüggvényétVálasz: G(n, λ). 8. Számoljuk ki az n-edrend¶ λ paraméter¶ gamma eloszlás −k -adik momentumát, ahol k < n Tipp: ∫∞ X −k f (x)dx integrált, ahol f (x) a G(n, λ) 0 −k eloszlás s¶r¶ségfüggvénye. Használjuk ki azt a tényt, hogy x f (x) G(n − Számitsuk ki az k, λ) s¶r¶ségfüggvényének konstansszorosa (l.képletgy¶jtemény abszolút folytonos eloszlások). λ Válasz: (n−1).(n−k) k 9. ∗ ∗ 10. Legyen X1 < < Xn a [0, 1] intervallumon egyenletes eloszlásból vett rendezett minta. ∗ ∗ (a) Igazoljuk, hogy X1 , . , Xn nem függetlenek! ∗ ∗ (b) Igazoljuk, hogy 1−Xn , . , 1−X1 szintén a [0, 1] intervallumon egyenletes eloszlásból vett rendezett minta! ∗ ∗ (c) Milyen eloszlású Xk+1 − Xk , ahol 1 ≤ k < n? Tipp: (a) Elemi logika. (b)
Hivatkozzunk a egyenletes eloszlás szimmetriájára. (c) l. rendezett minta elemeinek együttes s¶r¶ségfüggvénye Válasz: ∗ ∗ (a) Ha például X1 = 0, 001, akkor X2 felveheti a 0,002 értéket, míg ∗ ∗ ∗ ha X1 = 0, 99, akkor X2 nem veheti fel a 0,002 értéket, azaz X2 ∗ ∗ feltételes eloszlása X1 -ra nézve függ X1 értékét®l. 56 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK (b) Mivel az egyenletes eloszlás szimmetrikus az 1/2 ponra, 1−Xn , . , 1− X1 szintén egyenletes eloszlásból vett minta, igy a bel®le képzett rendezett minta szintén az egyenletes eloszlásból vett rendezett minta. (c) ∗ Xk+1 −Xk∗ valószín¶ségi változók azonos eloszlású (de nem független!) ∗ ∗ ∗ valószín¶ségi változók, Xk+1 −Xk eloszlása azonos az X1 valószín¶ségi változóeloszlásával, ami B(1, n) Béta eloszlású. 11. Legyen X1 , , Xn független, az [a, b] intervallumon egyenletes eloszlásból ∗ ∗ vett minta, X1
< . < Xn pedig a bel®le gyártott rendezett minta Adjuk meg Xk eloszlás- és s¶r¶ségfüggvényét, valamint várható értékét! Tipp: l. a rendezett minta elemeinek eloszlását Válasz: Eloszlásfüggvény: n ( ) ∑ n Gn,k (x) = [F (x)]j [1 − F (x)]n−j j j=k és a s¶r¶ségfüggvény: gn,k (x) = n ( ) n−1 [F (x)]k−1 [1 − F (x)]n−k F ′ (x), k−1 F az [a, b] intervallumon egyenletes eloszlás eloszlásfüggvénye. A a+b k 2 · n+1 . √ 12. Legyen X1 , , Xn független minta az F (x) = x (0 < x < 1) eloszlás∗ függvénnyel. Adjuk meg Xk s¶r¶ségfüggvényét! ahol várható érték Tipp: Lásd az el® z® feladat megoldását! Válasz: 1[0,1] 1/2 · gn,k (x) = n ( ) √ n − 1 √ k−1 [ x] [1 − x]n−k x−1/2 k−1 ∗ ∗ 13. Legyen X1 < < Xn a [0, 1] intervallumon egyenletes eloszlásból vett ∗ ∗ rendezett minta, és Y1 < . < Yn az el®z®t®l független, szintén a [0, 1] ∗ intervallumon egyenletes
eloszlásból vett rendezett minta. Adjuk meg Xk − ∗ Yk s¶r¶ségfüggvényét (1 ≤ k ≤ n)! Tipp: Két független B(k, n−k+1) eloszlású valószín¶ségi változó különbségének s¶r¶sége a kérdés, ami konvolúcióval meghatározható. Figyeljünk az integrálás tartományára! Válasz: 14. Legyen X1∗ , . , Xn∗ a λ paraméter¶ exponenciális eloszlásból vett ren- dezett minta. (a) Adjuk meg a k -adik (1 ≤ k ≤ n) mintaelem eloszlás- és s¶r¶ségfüggvényét! 2.2 57 FELADATOK ∗ ∗ (b) Milyen eloszlású a δk := Xk+1 − Xk , ahol 1 ≤ k < n? Tipp: (a) Alkalmazzuk a 12 feladatot, F (x) helyébe 1 − exp(−λx)-et írva. (b) Alkalmazzuk az exponenciális eloszlás örökifjú tulajdonságát. Válasz: (a) ( fn,k (x) = n ) n−1 [F (x)]k−1 [1 − F (x)]n−k f (x) k−1 ahol F (x) = 1 − exp(−λx)-et és f (x) = λ exp(−λx). (b) δk ∼ Exp[(n − k)λ]. 15. Legyen X1 , , Xn független, a (θ − 1 1 2 , θ + 2
) intervallumon egyenletes eloszlású minta. Legyen T (X) = X1∗ + Xn∗ . 2 Határozzuk meg T (X) g(z) s¶r¶ségfüggvényét! Tipp: Lásd A rendezett minták elemeinek együttes s¶r¶ségfüggvényér®l tanultakat! Ha X és Y valószín¶ségi változók együttes s¶r¶ségfüggvénye f (x, y), akkor a konvolúcióhoz hasonlóan a Z = X + Y valószín¶ségi változó s¶r¶ségfüggvénye: g(z) = ∫ f (x, z − x)dx Figyeljünk az integrálás tartományára, és használjuk fel azt a tényt, hogy a keresett s¶r¶ségfüggvény szimmetrikus θ -ra! Válasz: { g(z) = n · [1 + 2(z − θ)]n−1 , ha z < θ, n/2 · [1 − 2(z − θ)]n−1 , ha z > θ 16. Igazoljuk, hogy ha n > 1, és X1 nem elfajult és s¶r¶ségfüggvénye valóban függ a paramétert®l, akkor T (X) = X1 semmilyen paraméterre sem elégséges! Tipp: Használjuk fel elégséges statisztika denícióját! Válasz: Legyen két mintánk: X1 és X2 . A függetlenség miatt kettejük
együttes s¶r¶ségfüggvényének feltételes s¶r¶ségfüggvénye X1 -re nézve éppen X2 s¶r¶ségfüggvénye, ami természetesen függ a paramétert®l. 17. Igazoljuk, hogy a rendezett minta minden paraméterre elégséges statisztika! Tipp: Legyen az X1 , . , Xn független azonos eloszlású valószín¶ségi változók közös fθ (x) s¶r¶ségfüggvénye, ahol θ egy paraméter. Legyenek 58 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK X1∗ , . , Xn∗ a fenti valószín¶ségi változókból készített rendezett minta elemei Mutassuk meg hogy az eredeti f (x1 , , xn ) s¶r¶ségfüggvény rekon∗ ∗ ∗ struálható a rendezett minta f (x1 , . , xn ) s¶r¶ségfüggvénye alapján! Válasz: f {x1 , . , xn } = 1(xπ(1) ≤···≤xπ(n) ) f ∗ (xπ(1) , , xπ(n) ) ahol π az a permutació ami szerint az aktuális minta rendezetté válik. Emögött az a heurisztikus tény húzódik meg, hogy ha van egy független mintánk valamely F
eloszlásból, azt rendezzük, majd a rendezett mintából véletlenszer¶en visszatevés nélkül kiválásztjuk a mintaelemeket, akkor ismét egy független mintát kapunk ugynabból az F eloszlásból. 18. Legyenek X1 , , Xn független, a [0, θ] intervallumon egyenletes eloszlás∗ ból vett minta! Igaz-e, hogy Xn a θ paraméterre elégséges statisztika? Tipp: l. képletgy¶jtemény abszolút folytonos eloszlások és alkalmazzuk a Neyman-Fisher faktorizációt. Válasz: Igen. 19. Tegyük fel, hogy T statisztika torzítatlan becslése θ paraméternek Tekintsünk egy tetsz®leges S statisztikát Igaz-e, hogy E(T |S) is torzítatlan becslése θ -nak? Tipp: Alkalmazzuk feltételes várható érték tulajdonságait, Válasz: Igen, mert E(E(T |S)) = E(T ). 20. Legyen X valószín¶ségi változó, amelynek létezik a szórása (a) Tegyük fel, hogy ismert az E(X) = θ várható érték. Igazoljuk, hogy ∑n S12 = n1 i=1 (Xi − θ) torzítatlan becslése a
szórásnégyzetnek! Mit mondhatunk a konzisztenciáról? ∑ n 1 2 2 (b) Az (a) pont segítségével igazoljuk, hogy az Sn = i=1 (Xi − X) n empirikus szórásnégyzet nem torzítatlan becslése a szórásnégyzetnek! Készítsünk segítségével torzítatlan becslést! Tipp: (a) Közvetlen számolás. Alkalmazzuk a nagy számok törvényét ( keressük meg a képletgy¶jteményben). (b) Közvetlen számolás. Válasz: (a) Er®sen konzisztens. ∗2 (b) Az Sn = 1 n−1 ∑n 2 i=1 (Xi − X) torzítatlan becslés. 21. Tekintsünk az alábbi eloszlásokból egy n elem¶ mintát! Adjunk elégséges statisztikát az ismeretlen paraméterre! 2.2 59 FELADATOK (a) p paraméter¶ geometriai eloszlás, (b) (5, p) paraméter¶ B5 (p) binomiális eloszlás, (c) (3, p) paraméter¶ negatív binomiális eloszlás, (d) G(2, λ), (e) G(α, 2), (f ) θ = (α, λ) paraméter¶ Gamma eloszlás, (g) N (µ, 1), (h) N (0, σ 2 ), (i) N (µ, σ 2 ), (j) m szabadságfokú
χ2 eloszlás, (k) θ = (a, b) paraméter¶ Béta eloszlás, (l) [−α, α] intervallumon egyenletes eloszlás. Tipp: l. képletgy¶jtemény nevezetes eloszlások, továbbá használjuk a Neyman-Fisher faktorizációt (l. elégséges statisztika) Válasz: (a) Pl. X1 + + Xn , (b) pl. X1 + + Xn , (c) pl. X1 + + Xn , (d) pl. X1 + + Xn , (e) pl. X1 · · Xn , (f ) pl.X1 + + Xn , X 1 · . · Xn , (g) pl. X1 + + Xn , 2 2 (h) pl. X1 + + Xn , (i) pl. X1 + + Xn , X12 + . + Xn2 , (j) pl. X1 + + Xn , X12 + . + Xn2 , ∏n ∏n i=1 Xi , j=1 (1 − Xj ), ∗ ∗ (l) pl. max{−X1 , Xn } (k) pl. 22. X1 , . , Xn független, θ = (r, p) paraméter¶ negatív binomiális eloszlásból vett minta. A θ paraméterre elégséges statisztika-e a mintaátlag? Tipp: l. képletgy¶jtemény diszkrét eloszlások és Neyman-Fisher faktorizáció (l elégséges statisztika) Válasz: Nem, itt két paraméterre kell elégséges statisztikát adni! 23.
Elégséges statisztika-e θ paraméterre Lθ (X) (ahol Lθ a likelihood-függvény)? Tipp: Elemi logika. Válasz: Nyilván nem, hiszen benne van a paraméter. 60 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 24. Legyenek X1 , , Xn független, λ paraméter¶ Poisson eloszlású valószín¶ségi változók. (a) Igaz-e, hogy X elégséges statisztika a λ paraméterre! (b) Adjunk a λ paraméterre a fentit®l különböz® elégséges statisztikát! Tipp: (a) l. képletgy¶jtemény diszkrét eloszlások és Neyman-Fisher faktorizáció (b) L. elégséges statisztika tulajdonságait Válasz: (a) Igaz. (b) Pl. a teljes minta, a rendezett minta, a mintaösszeg és annak invertálható függvényei (utóbbiak a minimális megoldások) 25. Legyen X1 , , Xn λ paraméter¶ exponenciális eloszlásból vett független minta. (a) Igaz-e, hogy ∑n i=1 Xi elégséges statisztika a λ paraméterre? (b) Adjunk a λ paraméterre más elégséges statisztikákat! Tipp: (a)
Írjuk fel a likelihood függvényt azaz az X1 , . , Xn együttes s¶r¶ségfüggvényét (l képletgy¶jtemény abszolút folytonos eloszlások) (b) L. el®z® feladat Válasz: (a) Igaz. (b) Pl. a teljes minta, a rendezett minta, a mintaátlag, a mintaösszeg invertálható függvényei (utóbbiak a minimális megoldások). 26. Legyen X1 , , Xn független, p paraméter¶ geometriai eloszlású minta (a) Adjuk meg a p paraméter Y maximum likelihood becslését! (b) Alkalmasan transzformálva tegyük Y -t torzitatlan becsléssé! Tipp: (a) Közvetlen számolás. (b) Keressük meg a képletgy¶jteményben a negatív binomiális eloszlást, és okoskodjunk az E(1/X) kiszámításához hasonló módon, ugyanis a negatív binomiális eloszlás éppolyan általánosítása a geometriai eloszlásnak, mint a gamma eloszlás az exponenciális eloszlásnak. 2.2 FELADATOK 61 Válasz: n Y n−1 (b) Y −1 . Vegyük észre, hogy ez a képlet n = 1-re nincs értelmezve! (a) 27.
Legyen X1 , . , Xn független, a [θ + 12 , θ − 12 ] intervallumon egyenletes eloszlású minta. (a) X torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (b) Xn∗ − 12 torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! 1 ∗ (c) Igazoljuk, hogy X er®sen és Xn − 2 gyengén konzisztens becslései θ-nak! Tipp: (a) A mintaátlag torzitatlan becslése a várható értéknek. 1 ∗ (b) Számítsuk ki az Xn − 2 valószín¶ségi változó várható értékjét (l. a rendezett minták-ról szóló paragrafust). = X és az Y2 = Xn∗ − 12 becslések gyenge konzisztenciájá2 2 nak igazolásához számitsuk ki E(Y1 − θ) és E(Y2 − θ) négyzetes rizikókat és alkalmazzuk Csebisev-egyenl®tlenséget. Az Y1 becslés a nagy számok er®s törvénye miatt er®sen konzisztens, míg az Y2 négyzetes rizikója kisebb nagyságrend¶, mint az Y1 becslésé. ( A (c) Az Y1 szükséges
információkat keressük meg a képletgy¶jteményben és a rendezett minták-ról szóló paragrafusban). Válasz: (a) Igen. (b) Nem, de az Y2 + 1/(n + 1) már torzítatlan. (c) Az X er®s konzisztenciája az Útmutatás alapján nyilvánvaló, míg az Xn∗ − 12 gyenge konzisztenciája nyilvánvaló az Útmutató alapján (az er®s konzisztencia is igaz, de az (egyszer¶) bizonyítás eszköze nem szerepel a Tananyagban). 28. Legyen X1 , , Xn független, a [0, θ] intervallumon egyenletes eloszlású minta. (a) Adjunk maximum likelihood becslést θ -ra! (b) Igazoljuk, hogy 2X torzítatlan becslés θ -ra! (c) Mivel a θ/2-re szimmetrikus az eloszlásunk, a medián egybeesik a várható értékkel. Tegyük fel, hogy n páratlan, és készítsünk a tapasztalati medián segítségébel torzítatlan becslést θ -ra! 62 FEJEZET 2. (d) ELISMERETEK 2.: STATISZTIKAI ALAPOK X1 torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést!
(e) X1∗ torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (f ) Xn∗ torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (g) A fenti becslések közül melyik konzisztens? (h) Számítsuk ki és hasonlítsuk össze a fenti torzítatlan becslések szórásnégyzetét! Melyik a leghatásosabb? (i) Teljesül-e az In (θ) = nI1 (θ) összefüggés? Teljesül-e minden esetben a Cramér-Rao egyenl®tlenség? ∗ (j) Igazoljuk, hogy Xn elégséges statisztika θ -ra. Segítségével blackwellizáljuk a fenti torzítatlan becsléseket! Tipp: (a) Vigyázzunk, a linelihood-függvény nem mindenütt deriválható! (b) A mintaátlag mindig torzítatlan becslése a várható értéknek, ami itt θ/2. (c) Legyen n = 2k +1, mivel két egymást követ® rendezett minta különbθ ségének várható értéke 2k+2 . (d) Nyilvánvaló. (e) E(X1∗ ) = θ/(n + 1). (f ) E(Xn∗ )θn/(n + 1) (g) Vizsgáljuk
meg a szórásnégyzetüket! (h) θ = 1 esetén ismert mindegyik, használjuk ki! (i) A 2X szórásnégyzete 1 θ2 3n , I1 (θ) = θ 2 . (j) A rendezett mintákon alapuló becslésekre alkalmazzuk a következ® k ∗ ∗ ∗ heurisztikát: E(Xk |xn ) = n+1 |xn . Ami a 2X -ot illeti, hasonló heurisztika n−1 ∗ ∗ ∗ alapján: tetsz®leges n-re E(Xn |Xn ) = 2n Xn + f rac1nXn . Válasz: (a) Xn∗ (b) 2X (c) a tapasztalati medián kétszerese (jelölje ezt θ̂0,5 ) θ torzitatlan becslése. (d) θ̂1 = 2X1 . (e) θ̂2 = X1∗ (n + 1). (f ) θ̂3 = Xn∗ (n + 1)/n. 2.2 63 FELADATOK (g) θ̂1 (h) θ̂2 a leghatásosabb, de a θ̂0,5 szórásnégyzetének is ugyanekkora a 2 nagyságrendje (∼ 2/n ), elég nagy n-re ez is meghaladja az nI1 (θ) = n θ 2 információs határt. (i) A Cramér-Rao egyenl®tlenség n nagy értékeire csak a 2X és a θ̂1 -re nem teljesül. ∗ (j) Az Xn statisztika elégségessége következik a Neyman-Fisher szorzattételb®l,
gyelembevéve, hogy a likelihood függvény alakja Lθ (x) = 1 ∗ θ · 1{0≤xn ≤θ} . Valamennyi blackwellizált: θ2 29. Legyen X1 , , Xn független, a [−θ, θ] intervallumon egyenletes eloszlású minta. (a) Adjunk θ -ra torzítatlan becslést |X| segítségével! (b) Konzisztens-e a fenti becslés? Tipp: (a) Alkalmazzuk a következ® heurisztikus meggondolást: az X1 , . , Xn független, a [−θ, θ] intervallumon egyenletes eloszlású mintát ugy is kisorsolhatjuk, hogy a [0, θ] intervallumon kisorsolunk az Y1 , . , Yn független mintát, valamint egy t®lük és egymástól is független p = 1/2 paraméter¶ ε1 , . , εn Bernoulli-mintát Legyen Xk (2ε − 1)Yk minden k -ra. Ilymódon a feladatot visszavezettük az el®z® feladat (f ) pontjára. (b) Az el®z®ek alapján nyilvánvaló. Válasz: (a) (b) θ̂ = 2|X| (c) Igen. 30. Legyenek X1 , X2 , X3 rendre N (µ, 1), N (µ, 4), N (µ, 1/4) eloszlású független mintaelemek. (a) Milyen a, b, c
értékekre lesz aX1 + bX2 + cX3 torzítatlan becslése µ-nek? (b) Milyen a, b, c választással kapjuk meg a leghatásosabb becslést a torzítatlanok közül? Tipp: A becslés akkor lesz torzitatlan, ha a + b + c = 1. Az optimális becslést akkor kapjuk meg, ha az a, b, c súlyok fordítottan arányosak a valószín¶ségi változók szórásnégyzeteivel (pl. Lagrange multiplikátor modszerrel igazolható) 1 16 b = 273 c = 256 Válasz: a = 273 273 64 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 31. Tekintsük az X1 , , Xn független, θ paraméter¶ Bernoulli eloszlású mintát és számítsuk ki a Fisher-információját! Tekintsük az Y1 , . , Yn független mintát is, amely háttérváltozója θ valószín¶séggel 1, 1 − θ valószín¶séggel −1 értéket vesz fel. Számítsuk ki ennek is a Fisher-információját és vessük össze az el®bb meghatározott információval! Tipp: Jelöljük pθ (x)-szel annak a valószín¶séggét, hogy X =
x. Itt x = 0, x = 1, illetve x = −1, x = 1. Alkalmazzuk Cramér-Rao egyenl®tlenség paragrafusban szerepl® deníciót: (∂ I1 (θ) = illetve + pθ (0) (∂ I1 (θ) = (∂ )2 ∂θ pθ (0) )2 ∂θ pθ (−1) pθ (−1) )2 ∂θ pθ (1) (∂ + , pθ (1) )2 ∂θ pθ (1) pθ (1) , n Válasz: Mindkét esteben In (θ) = θ(1−θ) 32. Legyen X1 , , Xn független, p paraméter¶ Bernoulli eloszlású minta (a) Adjunk maximum likelihood becslést p-re! 2 (b) Számítsuk ki Dp (X)-ot is! Mit mondhatunk a CramérRao-egyenl®tlenség alapján? (c) Szeretnénk p-re torzítatlan becslést adni. Mekkora legyen n, ha azt szeretnénk, hogy becslésünk szórása ne haladja meg 0,03-at p bármely értéke esetén sem? Tipp: (a) Az M-L becslés denicióját lásd a Becsléselmélet paragrafusban (b) Közvetlen számolás, az informaciós határt illet®en lásd az el®z® feladatot! (c) Legyen ez a becslés a (p̂ = X). Az el®z® pontban már kiszámítottuk D2p
(X)-ot Keressük meg a max0≤p≤1 p(1−)p-t Válasz: (a) p̂ = (X). (b) D2p (X) = p(1−p) . A becslés hatásos, a Cramér-Rao egyenl®tlenségben n itt egyenl®ség all. 2 (c) A Dp (X) maximuma 1 4n Ennek alapján n = ( 1 0,06 )2 . 33. Legyen X1 , , Xn független, λ paraméter¶ exponenciális eloszlású minta (a) Adjunk maximum likelihood becslést λ-ra! 2.2 65 FELADATOK (b) Számoljuk ki a minta Fisher-információját! (c) 1/X nem torzítatlan becslése a λ paraméternek. Készítsünk segítségével η̂ torzítatlan becslést és számoljuk ki η̂ szórásnégyzetét! (d) Az X elégséges statisztika segítségével blackwellizáljuk a fenti torzítatlan becslést! (Ismert, hogy az így kapott becslés hatásos becslése λ-nak. Ellentmond-e ez a CramérRao egyenl®tlenségnek?) Tipp: (a) Alkalmazzuk a deníciót (l. képletgy¶jtemény és Becsléselmélet) (b) Alkalmazzuk a Cramér-Rao egyenl®tlenség megfelel® formuláját. (c) 1/X nem
torzítatlan becslése a λ paraméternek. (d) A számoláshoz használjuk a Gamma eloszlást (l. képletgy¶jtemény), ennek alapján η̂ az 1/X statisztika alkalmas konstanszorosa lesz. (e) Az X Lásd az el®bbi észrevételt. Válasz: (a) 1/X . (b) In (λ) = λn2 (c) λ n 2 η̂ = n−1 , D (η̂) = (n−1)2 (n−2) nX 2 2 (d) Az η̂ becslés blackwellizáltja önmaga. 34. Legyen X1 , , Xn független, (2, λ) paraméter¶ Gamma eloszlású minta (a) Adjunk maximum likelihood becslést λ-ra! (b) Adjunk becslést λ-ra a momentumok módszerével! (c) Torzítatlan becslése-e X1 statisztika a 1/λ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (d) Torzítatlan becslése-e 1/X1 statisztika a λ paraméternek? Ha nem, készítsünk segítségével torzítatlan becslést! (e) Torzítatlan becslése-e 1/X statisztika a λ paraméternek? Ha nem, készítsünk segítségével torzítatlan becslést! ∑n i=1 Xi elégséges statisztika a λ paraméterre!
Segítségével blackwellizáljuk a fenti torzítatlan becsléseket! (f ) Igazoljuk, hogy Tipp: Válasz: 35. Legyen X1 , , Xn ∼ N (µ, 1) független minta (a) Igazoljuk, hogy X1 torzítatlan, de nem konzisztens becslése µ-nek! Mit mondhatunk a CramérRao-egyenl®tlenség alapján? 66 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2 (b) Számítsuk ki a minta Fisher-információját! Számítsuk ki Dµ (X)-ot is! Igazoljuk, hogy X hatásos becslése µ-nek! 2 (c) Torzítatlan becslése-e µ -nek X1 X2 ? Mennyi a szórásnégyzete? Mondhatunke valamit a CramérRao-egyenl®tlenség alapján? 2 2 (d) Torzítatlan becslése-e µ -nek X ? Ha nem, tegyük azzá, és számítsuk ki a szórásnégyzetét! Tipp: Válasz: 2 36. Legyen X1 , , Xn ∼ N (0, ϑ) (ϑ = σ ) független minta (a) Adjuk maximum likelihood becslést ϑ-ra! 1 2 (b) Igazoljuk, hogy S1 = n ∑n 2 2 i=1 Xi hatásos becslése σ -nek! (c) Igazoljuk, hogy a korrigált empirikus szórásnégyzet nem
hatásos bec2 slése a σ paraméternek! Tipp: (a) Alkalmazzuk a deniciót (l.Becsléselmélet) (b) Számítsuk ki a minta ϑ̂-ra vonatkozó Fisher-információját (l. Cramér-Rao egyenl®tlenség ). és a ϑ̂ M-L becslés szórásnégyzetét (c) Közvetlen számolás. Válasz: ∑n (a) S12 = n1 (b) In (ϑ) = 2ϑ1 2 , D2 (ϑ̂) = 2ϑ2 . 2 i=1 Xi 37. Legyen X1 , , Xn független, λ paraméter¶ Poisson eloszlású minta (a) Vegyük λ maximum likelihood becslését! Minden realizáció mellett létezik-e maximum likelihood becslés? (b) Igazoljuk, hogy a maximum likelihood módszerrel kapott becslés torzítatlan és számítsuk ki a szórásnégyzetét! Mit mondhatunk a Cramér Rao-egyenl®tlenség alapján? (c) Igazoljuk, hogy X1 is torzítatlan becslése λ-nak! Az X elégséges statisztika segítségével blackwellizáljuk az X1 becslést! (d) Torzítatlan becslése-e λ-nak az empirikus szórásnégyzet? Ha nem, tegyük azzá! Hatásos becslést kapunk-e így?
(e) A fenti becslések közül melyik konzisztens? Tipp: (a) Közvetlen számolás. 2.2 67 FELADATOK (b) Közvetlen számolás; számítsuk ki a minta In (λ) Fisher-információját. (c) Közvetlen számolás. Alkalmazzuk feltételes várható érték tulajdonságait, és vegyük észre, hogy az X1 , , Xn mintaelemek szerepe szimmetrikus! (d) Vegyük észre, hogy empirikus szórásnégyzet mindig torzítatlan becslése a szórásnégyzetnek. Alkalmazzuk konzisztencia paragrafusban a szóránégyzet becslésére megfogalmazott állítást! (e) Alkalmazzuk az el®z® részfeladatok eredményeit! Válasz: (a) Igen. (b) Az információs határ eléretik, tehát a M-L becslés hatásos. (c) A mintaátlag (azaz a M-L becslés) lesz a blackwellizált. (d) Igen. A becslés nem lesz hatásos, bár ennek ellen®rzése az Útmutatás alapján hosszadalmas, a cáfolathoz elegend® λ egyetlen értékére elvégezni a számolást. (e) (c) kivételével mindegyik. 38. Legyen X1 , ,
Xn ∼ Bin(5, p) (a) Vizsgáljuk meg a maximum likelihood és a momentumok módszerével kapott becslések torzítatlanságát és hatásosságát! (b) Számítsuk ki a minta Fisher-információját! Tipp: Válasz: 39. Adjunk becslést a negatív binomiális eloszlás paramétereire momentumok módszerével! Tipp: Válasz: 40. Tekintsük az p pa , p+1 x fa,p (x) = 0 s¶r¶ségfüggvény¶ Pareto-eloszlást, ahol ha x ≥ a, különben a, p > 0 paraméterek. Adjunk maximum likelihood becslést θ = (a, p)-re! Tegyük fel, hogy p > 2. Adjunk becslést θ -ra a momentumok módszerével! Tipp: Válasz: 68 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 41. Tekintsünk egy kételem¶ független, (µ, 1) paraméter¶ Cauchy eloszlású mintát! A (µ, σ) paraméter¶ Cauchy eloszlás s¶r¶ségfüggvénye: fµ,σ (x) = σ π(σ 2 + (x − µ)2 ) . (a) Adjunk maximum likelihood becslést µ-re az x1 , x2 realizáció segítségével! (b) Tudunk-e
becslést adni momentumok módszerével? Használjuk ki, hogy 1-nél kisebb momentumok is léteznek! Tipp: Válasz: 42. Legyen X1 , , Xn független, [a, b] intervallumon egyenletes eloszlású minta (a) Adjunk becslést (a, b)-re a momentumok módszerével! (b) Adjunk maximum likelihood becslést (a, b)-re! Tipp: Válasz: 43. Legyen X1 , , Xn ∼ N (µ, σ 2 ) független minta. Tudunk-e adni 1 − ε meg- bízhatósági szint¶ kondencia intervallumot σ -ra (a) (b) X−µ √ , σ/ n 2 ∑n nSn 1 2 2 i=1 (Xi − µ) ) segítségével? σ 2 (Sn = n Tipp: (a) Vizsgáljuk meg milyen statisztika alapján kellene kondencia intervallumot adni! (b) Vizsgáljuk meg milyen statisztika alapján kellene kondencia intervallumot adni! Válasz: X−µ √ statisztika standard normális eloszlású, ebb®l σ/ n egyik paraméterre sem vonhatunk le következtetést. (a) Nem, mert a 2 nSn 2 σ 2 statisztika χ (n) eloszlású, ebb®l egyik paraméterre sem vonhatunk le
következtetést. (b) Nem, mert a 44. Egy cukorgyárban kockacukrokat gyártanak Tegyük fel, hogy a cukrok élhossza közelít®leg normális eloszlású. Megmérjük 16 cukor élhosszúságát Az adatok átlaga 10,06 mm, tapasztalati szórása 0,46 mm. Adjunk 95% 3 megbízhatósági szint¶ kondencia intervallumot µ -re (azaz egy átlagos kockacukor térfogatára)! 2.2 69 FELADATOK Tipp: Alkalmazzuk a kondencia intervallum paragrafus példáját standard normális eloszlás helyett a t(15) Student eloszlással a kocka élhosszára, 3 majd használjuk fel azt a tényt, hogy az x függvény monoton. Válasz: Táblázatból ismert, hogy ha X ∼ t(15), akkor P(X > 2, 12) = 0, 975 így a kocka élére a 10, 06±2, 12·0, 46/4 intevallum 95megbízhatósági 3 3 szint¶ kondencia intervallum. A térfogatra a [945, 87mm , 1093, 94mm ] nem szimmetrikus kondencia intervallumot kapjuk. ∼ N (µ1 , σ 2 ) és Y1 , . , Ym ∼ N (µ2 , σ 2 ) független minták. Adjunk 1
− ε szint¶ kondencia intervallumot µ1 − µ2 -re X − Y segítségével ((n, m, σ) ismert!) 45. Legyenek X1 , , Xn Tipp: várható éeték¶ valószín¶ségi változó határozzuk meg σe2 szórásnegyzetét, majd alkalmazzuk kondencia intervallum paragrafusban kidolgozott példát µ = µ1 − µ2 -re . 2 2 Válasz: σe2 = σn1 + σm2 A kondencia intervallum: X −Y ± σe · Φ−1 (1 − ε/2) √ n ∼ N (µ1 , σ12 ) és Y1 , . , Ym ∼ N (µ2 , σ22 ) független minták. Adjunk 1 − ε szint¶ kondencia intervallumot σ1 /σ2 -re! 46. Legyenek X1 , , Xn Tipp: Tekintsük az ∑n 2 j=1 (Xj −µ1 ) η = ∑m (Yn −µ )2 j=1 j 2 n statisztikát, vegyük észre, hogy σ22 η ∼ F (n, m). Jelöljön ξ egy F (n, m) σ12 eloszlású valószín¶ségi változót; keressük meg azt az F1 (F2 ) értéket amelyre a P (ξ < F1 ) = ε/2 (P (ξ > F2 ) = ε/2) Válasz: A P ( ) argumentumát alkalmas átrendezése a P (η/F2 < σ12 ) = ε/2
σ22 és σ12 < η/F1 = 1 − ε/2 σ22 egyenl®ségre vezet. 47. Legyen X1 , , Xn független, a [0, θ] intervallumon egyenletes eloszlásból vett minta. Adjunk 1 − ε megbízhatósági szint¶ kondencia intervallumot θ-ra (a) X1 + X2 , (b) Xn∗ segítségével! Tipp: 70 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK 2.10 ábra P (ξ < F1 ) = ε/2 (P (ξ > F2 ) = ε/2) (a) Nyilvánvaló, hogy a minta töredékével (X1 + X2 ) túlságosan tág kondencia intervallumot kapunk. Xn∗ megfelel, hiszen θ nem lehet ennél kisebb. A θf fels® határ meghatározásához vegyünk egy 0 < δ < θ ∗ ∗ számot és vizsgáljuk a P (δ < Xn < θ) = P (θ < Xn + δ) = 1 − ε ( θ−δ )n valószín¶séget. A jobb oldal valószín¶sége 1 − , ami egyenl® θ 1−ε-nal. Ebb®l δ -ra kapunk egy egyenletet Oldjuk meg és rendezzük (b) Alsó határnak az maga az át a középs® valószín¶ség argumentumát. Válasz: (a) Az X1 + X2
eset irreleváns. ∗ 1/n (b) A javasolt számitásokat eredménye: θf = Xn /ε . 48. Legyen X1 , , Xn független, λ paraméter¶ Poisson eloszlású minta Adjunk λ-ra 1 − ε megbízhatósági szint¶ kondencia intervallumot (a) a Csebisev-egyenl®tlenség felhasználásával! (b) a centrális határeloszlás-tétellel! Tipp: (a) A Csebisev-egyenl®tlenséget az X − λ valószín¶ségi változóra írjuk fel: P ((X − λ)2 > a2 ) ≤ D2 , a2 2.2 71 FELADATOK ahol D 2 = λ/n. Ha a kondencia intervallumot X ± re p alakban ker- essük, akkor a fenti egyenl®tlenség helyett vegyünk egyenl®séget és λ D2 tegyük fel, hogy a2 = ε, azaz a = nε Ezt az értéket írjuk be az egyenl®tlenség jobb oldalába. Így λ-ra kapunk egy másodfokú egyenletet 2 (b) Lásd a kondencia intervallum pargrafusban az N (µ, σ0 ) re kidolgo2 zott példát. Itt σ0 = λ, ezért, ha X ± rε alakban keressük a kondencia intervallumot Válasz: (a) Az egyenlet két
megoldása: λ1,2 = 2(X + a2 ) ± √ 2 (2X + a2 )2 − 4X 2 , Ezek lesznek a kondencia határok. (b) −1 √ másodfokú egyenletnek rε = X−y lesz, ahol y az (1−y)2 − Φ (1−ε/2)y n √ az a megoldása amelyre rε 1/ n nagyságrend¶. 49. Végezzünk el n-szer egy kísérletet, legyen az A esemény bekövetkezéseinek száma Kn . Szerkesszünk rá 1 − ε megbízhatósági szint¶ kondencia intervallumot p = P(A)-ra n = 10 és n = 10000 esetén is! Tipp: Válasz: 50. Legyen X1 , , Xn független, a (θ −1/2, θ +1/2) intervallumon egyenletes eloszlású minta. Adjunk 1 − ε megbízhatósági szint¶ kondencia interval∗ ∗ lumot θ -ra T (X) = (X1 + Xn )/2 segítségével! Tipp: Válasz: X egy egyelem¶ minta, s¶r¶ségfüggvénye eθ−x , ha x > θ. Szerkesszünk 1−ε megbízhatósági szint¶ kondencia intervallumot a θ paraméterre X segítségével! 51. Legyen Tipp: Válasz: 52. Legyen X1 , , Xn független, λ paraméter¶
exponenciális eloszlású minta ∗ (a) Konstruáljunk ε terjedelm¶ próbát λ-ra X1 segítségével! (b) Konstruáljunk ε terjedelm¶ próbát λ-ra 1/X alapján! (c) A fenti próbák közül melyik konzisztens? 72 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK Tipp: Válasz: 53. Valódi (θ ) selejtarányra szeretnénk min®ségellen®rzést Vegyünk egy n = 25 elem¶ független Bernoulli-mintát: X1 , . , Xn Konstruáljunk ε = 0, 05 terjedelm¶ (randomizált) próbát a H0 : θ = θ0 = 0, 05 és H1 : θ = θ1 = 0, 1 választáshoz! Határozzuk meg a másodfajú hibát is. A B(25, 0, 05) (F0 ) és a B(25, 0, 1) (F1 ) binomiális eloszlásokról az alábbi adatok ismertek: F0 (2) = 0, 873 F0 (3) = 0, 9, 66 P0 (3) = 0, 093 F1 (2) = 0, 873 F1 (3) = 0, 9, 66 P1 (3) = 0, 093, ahol P0 (3) ( P1 (3)) annak a valószín¶sége, hogy egy B(25, 0, 05) (B(25, 0, 1)) eloszlású valószín¶ségi változó pontosan a 3 értéket veszi fel. Tipp: Alkalmazzuk a
NeymannPearson-lemmát. Vegyük észre, hogy az így konstrált próba kritikus tartománya x > c alakú, ahol x a mintában lev® selejtes termékek x száma. Látható, hogy olyan kritikus tartomány nincs, amely pontosan 0,05 terjedelem¶ próbát adna, (F0 (2) < 0, 95, F0 (3) > 0, 95), ezért randomizálnunk kell. Keressük meg azt a δ > 0 számot, amelyre F0 (2) + δP0 (3) = 0, 95. Döntésünk: ha x > 3 elvetjük a null-hipotézist, ha x = 3 akkor1 − δ valószín¶séggel vetjük el a null-hipotézist. A másodfajú hiba kiszámításához határozzuk meg a B(25, 0, 1) binomiális eloszlás szerinti valószín¶ségét annak az eseménynek, hogy a null-hipotézst elfogadju, azaz x ≤ 2 plusz δ · P1 (3). Válasz: A döntésben szerepl® szorzó δ = 0, 828, a másodfajú hiba valószín¶sége 0,725. X1 egy egyelem¶, p paraméter¶ geometriai eloszlású minta. A H0 : p = 0,5 versus H1 : p = 0,9 esetén a mekkora a terjedelme annak 54. Legyen a
véletlenített próbának, amelynek próbafüggvénye k≥3 0 0,5 k = 2 Ψ(X1 ) = 1 k=1 Adjuk meg a másodfajú hiba valószín¶ségét is! Tipp: Az el®z® feladathoz hasonló módon járunk el, azzal a könnyebbséggel, hogy itt a próbafüggvény adott és a hibavalószín¶ségeket kell kiszámítani. (A geometriai 2.2 73 FELADATOK eloszlás megfelel® valószín¶ségeit l. képletgy¶jtemény) Válasz: Terjedelem: 0,375. Másodfajú hiba 0,046. 55. Legyen X1 , , Xn független, λ paraméter¶ exponenciális eloszlású minta Konstruáljuk meg a H0 : λ = λ0 és H1 : λ = λ1 > λ0 egyszer¶ al- ternatívához tartozó ε terjedelm¶ próbát a Neyman-Pearson alaplemma segítségével! Tipp: ∑ Mivel NeymannPearson-lemmában szerepl® likelihood hányados n j=1 Xj monoton függvénye (a monotonitás iránya függ λ0 és λ1 viszonyátol) az Y = a próbafüggvény λ1 > λ0 esetben { Ψ(Y ) = 0 Y ≥c 1 Y <c alakú lesz. Ha F ∼
G(n, λ0 ) akkor a c = F −1 (ε) lesz az alkalmas konstans. Válasz: Az Útmutató alapján c értéke konkrét n és λ0 értékekre kiszámolható, l. ábra 56. X1 , . , Xn ∼ N (0, σ 2 ) független minta Konstruáljuk meg a H0 : σ = σ0 és H1 : σ = σ1 egyszer¶ alternatívához tartozó ε terjedelm¶ próbát a Neyman-Pearson alaplemma segítségével! Tipp: ∑ Mivel NeymannPearson-lemmában szerepl® likelihood hányados n 2 j=1 Xj monoton függvénye (a monotonitás iránya függ σ0 és σ1 viszonyától). az Y = Válasz: A próbafüggvény σ1 > σ0 esetben { Ψ(Y ) = 0 Y ≤c 1 Y >c 2 −1 alakú lesz. Ha F ∼ χ (n) akkor a c = F (1−ε) lesz az alkalmas konstans. X) statisztikáját, 57. Írjuk fel n elem¶ mintára a likelihood-hányados próba λn ( ahol X ∼ geom(p) és H0 : p = p0 vs H1 : p ̸= p0 . (b) X ∼ P oisson(λ) és H0 : λ = λ0 vs H1 : λ ̸= λ0 . (c) X ∼ exp(λ) és H0 : λ = λ0 vs H1 : λ ̸= λ0 . (d) X ∼ U (0, θ)
és H0 : θ = θ0 vs H1 : θ ̸= θ0 . (a) (e) Teljesülnek-e a fenti esetekben a regularitási feltételek? 74 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK Tipp: Az (a), (b), (c) esetekben alkalmazzuk a A hipotézisvizsgalat paragrafusban adott formulát. A számlálóban a likelihood függvénynek az az alakja szerepel, amelyben a paraméter az egyszer¶ null-hipotézishez tartozó érték; nevez®ben pedig (ahol a szuprémum szerepel) a likelihood függvénynek az az alakja szerepel, amelyben a paraméter helyett annak M-L becslése áll. A (d) eset külön meggondolást igényel Válasz: (a) Legyen Y = ∑n j=1 Xj , és p̂ = n/Y λn (X) = (b) Legyen Y = pn (1 − p)Y −n p̂n (1 − p̂)Y −n ∑n j=1 Xj , és λ̂ = Y /n λn (X) = (c) Legyen Y = λY e−λ λ̂Y e−λ̂ ∑n j=1 Xj , és λ̂ = n/Y λn (X) = λn e−nλY λ̂n e−nλ̂Y ∗ (d) Ha Xn > θ0 elvetjük a null-hipotézist, mert egy lehetetlen esemény következett be. ∗ X) =
Xθ0n Ellenkez® esetben λn ( ∼ N (µ, σ 2 ) független minta, mindkét paraméter ismeretlen (n elegend®en nagy). Legyen H0 : σ = 1 és H1 : σ ̸= 1 Kon- 58. Legyen X1 , , Xn struáljunk ezekhez 0,05 terjedelm¶ likelihood-hányados próbát! Tipp: Válasz: 59. Legyenek X1 , , Xn ∼ N (µ1 , σ 2 ) és Y1 , . , Ym ∼ N (µ2 , σ 2 ) független minták. (a) Írjuk fel a H0 : σ = σ0 és H1 : σ ̸= σ0 hipotézisekhez konstruált likelihood-hányados próba statisztikáját! (b) Írjuk fel a H0 : µ1 = µ2 és H1 : µ1 ̸= µ2 hipotézisekhez konstruált likelihood-hányados próba statisztikáját, ha σ ismert! (c) Írjuk fel a H0 : µ1 = µ2 és H1 : µ1 ̸= µ2 hipotézisekhez konstruált likelihood-hányados próba statisztikáját, ha σ ismeretlen! Tipp: Válasz: 2.2 75 FELADATOK 60. Legyen X1 , , Xn ∼ N (µ, σ 2 ) független minta. Tekintsük a H0 : σ = σ0 2 2 és H1 : σ > σ0 hipotéziseket, és azt a próbát, amelyre Xk = {x :
nSn /σ0 > c} ∑n 1 2 2 (Sn = i=1 (Xi − X) az empirikus szórásnégyzet). Torzítatlan-e az n adott próba? Tipp: Keressük meg a képletgy¶jteményben a χ2 eloszlás s¶r¶ségfüggvényét, és alkalmazzuk az y = σx helyettesítést: fY (x) = xn/2−1 e−x/(2/σ) , (σ2)n/2 Γ(n/2) y ≥ 0. Vizsgáljuk meg, hogy a próba ereje hova tart, ha σ ∞ ! Válasz: Nem. 61. Igaz-e, hogy az ε terjedelm¶ (kétoldali) u-próba pontosan akkor fogadja el a nullhipotézist, ha µ0 benne van az X segítségével µ-re szerkesztett 1 − ε szint¶ kondencia-intervallumban? Tipp: Írjuk fel az elfogadási tartomány és alakítsuk át! Válasz: Igaz. 2 62. Legyen X1 , , Xn ∼ N (µ, σ0 ) független minta, (σ0 ismert) Legyen H0 : µ = µ0 és H1 : µ ̸= µ0 . Konstruáljunk ezekhez 0,05 terjedelm¶ likelihoodhányados próbát! Vessük össze a kapott próbát az u-próbával (két- és egyoldali változatával is)! Tipp: Válasz: 63. Legyen (X1 , Y1 ), (Xn , Yn )
∼ N (m, C), ahol ( ⊤ m = (µ1 , µ2 ) és C = σ12 0 0 σ22 ) . Tegyük fel, hogy a szórások ismertek. Szerkesszünk H0 : µ1 = µ2 versus H1 : µ1 ̸= µ2 hipotézisekre (a) kétmintás u-próbát! (b) Alkalmazzunk önkontrollos vizsgálatot! Tipp: Mindkét esetben az X −Y valószín¶ségi változó σe2 szórásnégyzetét kell meghatározni. Válasz: A próbastatisztika a standard normális eloszlású X − Y /σe . 2 2 σ σ 2 (a) A kétmintás u-próbánál σe = 1 + 2 . n1 n2 2 2 σ σ 2 (b) Az önkontrollos vizsgálatnál σe = 1 + 2 . n n 76 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK A két próbafüggvény azonos, mert n = n1 = n2 . 64. Legyen X1 , , Xn ∼ N (µ, σ 2 ) független minta. Tekintsük a H0 : µ = µ0 versus H1 : µ ̸= µ0 (a szórásnégyzet ismeretlen) t-próba statisztikáját: t(X) = X − µ0 √ Sn∗ / n (a) Igazoljuk, hogy a likelihood-hányados próbához tartozó statisztika ( ∑n λn (X) = (Xj − X)2
∑nj=1 2 j=1 (Xj − µ0 ) )n/2 alakú. (b) Igazoljuk, hogy ( λn (X) = 1 )n/2 2 (X) 1 + tn−1 . (c) Mutassuk meg, hogy ez azt jelenti, hogy a fenti likelihood-hányados próba a t-próba kétoldali változatával ekvivalens! Tipp: A hipotézisvizsgálat paragrafusban keressük meg a likelihood-hányados próba szerkesztésének módját. Itt a paramétertér 2 dimenziós: Θ = {(µ, σ 2 ) : µ ∈ R, σ 2 > 0}, a 0-hipotézis által kijelölt 1-dimenziós részsokaság pedig Θ0 = {(µ0 , σ 2 ) : σ 2 > 0}. Az X = (X1 , . , Xn ) független, azonos eloszlású minta alapján felírjuk az ( ) n 1 1 ∑ 2 Lµ,σ2 (X) = √ exp − 2 (Xi − µ) 2σ i=1 ( 2πσ)n likelihood-függvényt, majd vesszük ennek szuprémumát a Θ illetve a Θ0 halmazon: ) ∑n 2 (X − X̄) i i=1 ) = sup Lµ,σ2 (X) = ( )n/2 exp − ( 1 ∑n ∑n 2 n i=1 (Xi − X̄)2 (µ,σ 2 )∈Θ 2π n1 i=1 (Xi − X̄)2 ( )n/2 n n ∑n = e− 2 , 2 2π i=1 (Xi − X̄) 1 ( 2.3 77 TESZTEK
) ∑n (Xi − µ0 )2 i=1 ) = sup Lµ,σ2 (X) = ( )n/2 exp − ( 1 ∑n ∑n 2 n i=1 (Xi − µ0 )2 (µ,σ 2 )∈Θ0 2π n1 i=1 (Xi − µ0 )2 ( )n/2 n n ∑ = e− 2 , n 2π i=1 (Xi − µ0 )2 1 ( A fenti számolásból nyilvanvalóan adódik (a), és egyszer¶ algebrai átalakításokkal (b). Válasz: Az Útmutatóban (a) és (b) megoldása már szerepel, a (c) abból következik, hogy likelihood-hányados próba statisztika monoton függvénye a kétoldali t-próba statisztikájának. 65. Határozzuk meg az egyoldali u-próba er®függvényét! Igazoljuk, hogy a próba torzítatlan és konzisztens is! Hogyan változik a próba ereje, ha (a) ε, (b) θ − θ0 , (c) n n®? Tipp: Válasz: 66. Tekintsük az (X1 , Y1 ), , (Xn , Yn ) mintát és az rsp Spearman-féle rangkorrelációs együtthatót (a) Igazoljuk, hogy |rsp | ≤ 1 és egyenl®ség pontosan akkor teljesül, ha minden i ̸= j párra Xi ≤ Xj az Yi ≤ Yj , illetve Yi ≥ Yj relációt vonja maga után (rsp
el®jelének megfelel®en). (b) Igazoljuk, hogy ha a háttérváltozók függetlenek, akkor E(rsp ) = 0. Tipp: Válasz: 67. Legyen X1 , X2 , ∼ exp(λ) független azonos eloszlású minta Adjunk a H0 : λ = λ0 vs. H1 : λ = λ1 egyszer¶ alternatíva eldöntésére szekvenciális eljárást (ε1 els®fajú és ε2 másodfajú hibával)! Adjuk meg a várható lépésszámokat! Tipp: Válasz: 2.3 Tesztek 1. Milyen eloszlású a λ paraméter¶ exponenciális eloszlásból vett n elem¶ rendezett minta els® eleme? (a) exp(nλ) 78 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI ALAPOK (b) exp(λ/n) (c) Gamma(n, λ) (d) Béta(1, n) Válasz: (a) 2. Tekintsünk egy N (m, σ 2 ) vett mintát, legyen X a mintaátlag. Igaz-e, hogy X elégséges statisztika (m, σ 2 ) paraméternek? (a) igen, a Neyman-Fisher faktorizáció miatt (b) igen, mivel torzítatlan becslése a várható értéknek (c) nem, mert két paraméterre nem lehet megadni elégséges statisztikát (d) nem, mert a
mintának a mintaátlagra vett feltételes eloszlása µ-t®l 2 független, de σ -t®l nem. Válasz: (d) 3. Az alábbiak közül melyik az exponenciális eloszlás várható értékére elégséges statisztika? (a) Xn∗ (b) X⌊n/2⌋ ∗ +X⌈n/2⌉ ∗ (c) X1 . Xn (d) X 1 + . + Xn Válasz: (d) 2 4. Tekintsünk egy n elem¶ N (m, σ ) eloszlásból vett mintát Milyen becslése ∑n 2 2 2 σ -nek ( i=1 Xi − X )/(n + 1)? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, a Cramér-Rao egyenl®tlenség alapján hatásos, er®sen konzisztens. (d) Torzítatlan, de a Cramér-Rao egyenl®tlenség alapján nem hatásos, er®sen konzisztens. Válasz: (a) 5. Tekintsünk egy n elem¶ N (0, σ ∑n σ 2 -nek ( i=1 Xi2 )/n? 2 ) eloszlásból vett mintát. Milyen becslése (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem
torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, a Cramér-Rao egyenl®tlenség alapján hatásos, er®sen konzisztens. 2.3 TESZTEK 79 (d) Torzítatlan, de a Cramér-Rao egyenl®tlenség alapján nem hatásos, er®sen konzisztens. Válasz: (c) 6. Tekintsünk egy n elem¶ U (0, θ) eloszlásból vett mintát Milyen becslése θ-nak a maximum likelihood becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, gyengén konzisztens. (d) Torzítatlan, nem hatásos, gyengén konzisztens. Válasz: (a) 7. Tekintsünk egy n elem¶ Poisson(λ) eloszlásból vett mintát Milyen becslése λ-nak a momentumok módszerével vett becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan,
hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, er®sen konzisztens. Válasz: (c) 8. Mi a kapcsolat a normális eloszlás várható értékére ismeretlen szórás esetén adott kondenciaintervallumnak és a t-próba között? (a) A t-próba elfogadja a nullhipotézist, ha tesztelt érték a kondenciaintervallumba esik. (b) A t-próba elfogadja a nullhipotézist, ha X a kondenciaintervallumba esik. (c) A t-próba elutasítja a nullhipotézist, ha tesztelt érték a kondenciaintervallumba esik. (d) A t-próba elutasítja a nullhipotézist, ha X a kondenciaintervallumba esik. Válasz: (a) 9. Létezik-e az exponenciális eloszlás paraméterére vonatkozó, H0 : λ = λ0 és H1 : λ = λ1 hipotéziseket tesztel® ε terjedelm¶ leger®sebb próba (ε > 0 tetsz®leges)? (a) Nem, mert 1/X nem torzítatlan becslése λ-nak. (b) Igen, a likelihood-hányados próba ilyen. (c) Igen, a Neyman-Pearson alaplemma alapján. 80 FEJEZET 2. ELISMERETEK 2.: STATISZTIKAI
ALAPOK (d) Igen, a Wald-féle szekvenciális eljárás ilyet ad. Válasz: (c) 10. Mennyi az ε terjedelm¶ egymintás, egyoldali u-próba másodfajú hibája? (a) 1−ε (b) 1/ε √ βn (mε) = 1 − Φ(uε − (µ − µ0 )/(σ0 / n)) √ (d) 1 − βn (mε) = Φ(uε − (µ − µ0 )/(σ0 / n)) (c) Válasz: (d) 11. Az egymintás egyoldali u-próba (a) torzítatlan és konzisztens. (b) nem torzítatlan de konzisztens. (c) torzítatlan de nem konzisztens. (d) nem torzítatlan és nem konzisztens. Válasz: (a) 12. Alkalmazható-e a t próba ismert szórás esetén? (a) Igen. (b) Csak normális eloszlású kis minta esetén. (c) Csak normális eloszlású nagy minta esetén. (d) Nem, mert az ismeretlen szórás feltétel, ismert szórás esetén csak az u próbát alkalmazhatjuk. Válasz: (a) 13. Mikor használhatjuk a χ 2 próbákat? (a) Mindig. (b) Diszkrét háttérváltozó esetén mindig, folytonos háttérváltozó diszkretizálása esetén csak nagy mintaelemszám
mellett. 2 (c) Az illeszkedévizsgálatra vonatkozó χ próbát mindig, a többit csak nagy mintaelemszám esetén. (d) Csak nagy mintaelemszám esetén (mindegyiket, minden háttérváltozó esetén). Válasz: (a) 3. fejezet A többdimenziós normális eloszlás, Wishart eloszlás 3.1 Elméleti háttér 3.11 Többdimenziós normális eloszlás A p-dimenziós, nem-elfajult normális eloszlást az p-dimenziós standard normális eloszlás lineáris transzformáltjaként vezetjük be. 87. Deníció Azt mondjuk, hogy az Y véletlen vektor p-dimenziós standard normális eloszlású, ha komponensei 1-dimenziós standard normális eloszlásúak és függetlenek. Erre az Y ∼ Np (0, Ip ) jelölést használjuk, utalva arra, hogy a p-dimenziós Y véletlen vektor várható érték vektora a 0 vektor, kovarianciamátrixa pedig Ip (ezek az eloszlás paraméterei). Y s¶r¶ségfüggvénye a függetlenség miatt a komponensek s¶r¶ségfüggvényeinek szorzata, azaz g(y) = p
∏ ϕ(yi ) = √ i=1 1 2π −( pe ∑p 2 i=1 yi )/2 = 2 1 e−∥y∥ /2 , (2π)p/2 ϕ jelöli a standard normális s¶r¶ségfüggvényt (Gauss-görbét), az y = (y1 , . , yp )T vektor pedig az együttes s¶r¶ségfüggvény argumentuma Alkalmazzuk most a fenti Y -ra az ahol X = AY + m lineáris transzformációt, ahol (3.1) A p × p-s nem-szinguláris mátrix, m pedig p- dimenziós vektor. Könny¶ látni, hogy X várható érték vektora m, kovarianciamátrixa pedig: C = E(X − m)(X − m)T = E(AY)(AY)T = = E(AYY T AT ) = AE(YYT )AT = AIn AT = AAT , 81 82FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS ahol a vektorok oszlopvektorok, egy vektor várható értéke a komponensek várható értékeib®l álló vektor, egy mátrix várható értéke pedig az elemeinek a várható értékeib®l álló mátrix. 88. Deníció Az Y ∼ Np (0, Ip ) többdimenziós standard normális eloszlású véletlen vektor-ból a fenti (invertálható)
lineáris transzformációval kapott X véletlen vektort nem-elfajult többdimenziós normális eloszlásúnak nevezzük, és ennek kifejezésére röviden az X ∼ Np (m, C) formulát használjuk. A nem-elfajult p-dimenziós normális eloszlású X véletlen vektor eloszlásának paraméterei tehát a p dimenzió, az m várható érték vektor és a C kovarianciamátrix. A p × p-s, szimmetrikus, pozitív denit C mátrix elemei: cij = cji az Xi és Xj komponensek kovarianciája (i ̸= j), cii pedig Xi szórásnégyzete 2 (varianciája). A kovarianciamátrixra a D X jelölést fogjuk használni Az azonosan 1 f®diagonálisú kovarianciamátrixok geomteriai struktúráját az alábbi ábra, animáció és interaktív animáció személteti. 3.1 ábra elliptop Ha A-ról kikötjük, hogy négyzetes és nem-szinguláris mátrix, akkor a C = AAT kovarianciamátrix pozitív denit. Megjegyezzük, hogy szinguláris A mátrixszal végrehajtva 3.1 transzformációt, szinguláris,
pozitív szemidenit C-hez jutunk Ilyen esetekben C rangja is kisebb lesz, mint p, ekkor elfajult többdimenziós normális eloszlás ról beszélünk. A továbbiakban, hacsak külön nem mondjuk, akkor mindig a nem-elfajult esetre gondolunk. 3.1 83 ELMÉLETI HÁTTÉR 89. Állítás Ha a C mátrix invertálható, akkor az X ∼ Np (m, C) véletlen vektor s¶r¶ségfüggvénye: f (x) = T −1 1 1 e− 2 (x−m) C (x−m) , (2π)p/2 |C|1/2 x ∈ Rp . (3.2) Megjegyezzük, hogy az elfajult többdimenziós normális eloszlás alacsonyabb dimenziós s¶r¶ségfüggvénye például úgy kapható meg, hogy az (3.2) képletben C−1 helyett C+ -t írunk (azaz a szinguláris C mátrix általánosított inverzét, l. Lineáris algebra) |C| helyett pedig C pozitív sajátértékeinek szorzatát. 90. Állítás Az X ∼ Np (m, C) véletlen vektor komponensei pontosan akkor teljesen függetlenek, ha a C kovarianciamátrix diagonális. Megjegyezzük, hogy p = 2 esetén Y
s¶r¶ségfüggvénye körszimmetrikus és maximumhelye az origóban van. Az alábbi ábrákon látható a kétdimenziós standard normális eloszlás s¶r¶sége és egy, a segítségével konstruált olyan együttesen nem normális eloszlás s¶r¶sége, amely marginálisai standard normálisok. 0.3 0.6 0.25 0.5 0.2 0.4 0.15 0.3 0.1 0.2 0.05 0.1 0 0 3.2 ábra 2 dimenziós standard normális és nem 2 dimenziós normális s¶r¶ség X = AY + m s¶r¶ségfüggvényének a maximumhelye viszont m-ben van, nívóhalmazai pedig ellipszisek, melynek tengelyirányait a nem-szinguláris C kovarianciamátrix sajátvektorai jelölik ki, a tengelyek hossza pedig a megfelel® sajátértékek négyzetgyökével arányos. Ez a legegyszer¶bben az (1.2)-beli s¶r¶ségfüggvény exponensében álló kvadratikus alak (x − m)T C−1 (x − m) = (x − m)T UΛ−1 UT (x − m) = zT Λ−1 z = = 2 ∑ 1 z2 z2 zi2 = √ 1 2 + √ 2 2 λ λ1 λ2 i=1 i (3.3)
f®tengely-transzformációjából látható; a nívóhalmazokat úgy kapjuk, hogy a fenti kvadratikus alakot valamely nemnegatív konstanssal tesszük egyenl®vé. 84FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 3.3 ábra 2 dimenziós normális normális s¶r¶ség egy szintvonal tengelyeivel (Gondoljuk meg, milyen értékhatárok közt mozoghat e konstans ahhoz, hogy valódi ellipsziseket kapjunk!) Az is látható, hogy a nívóhalmazok pontosan akkor körök, hogy ha a sajátértékek egyenl®ek, ez viszont ekvivalens azzal, hogy a komponensek függetlenek és azonos szórásúak. Ezt mindjárt általános p-re is belátjuk. Egy X ∼ Np (m, C) valószín¶ségi változó s¶r¶ségében álló kvadratikus alak hasonló módon (x − m)T C−1 (x − m) = zT Λ−1 z = p ∑ 1 i=1 alakúvá transzformálható a z = U T λi zi2 = p ∑ zi2 √ 2 λi i=1 (x − m) koordinátatranszformációval (ami
egy eltolást, majd egy forgatást jelent). Eredményképp egy olyan p-dimenziós ellipszoid egyenletét kapjuk, mely f®tengelyeinek hossza a sajátértékek gyökével arányos, irányukat pedig a sajátvektorok jelölik ki. Az ellipszoid pontosan akkor lesz gömb, ha λ1 = · · · = λp = λ, ekkor a kovarianciamátrix C = U(λIp )UT = λIp √ alakú, ami ekvivalens azzal, hogy a komponensek függetlenek és azonos λ) szórásúak. Könny¶ látni, hogy amennyiben a komponensek függetlenek, de ( nem azonos szórásúak, ellipszoidot kapunk, melynek tengelyirányai a koordinátatengelyekkel párhuzamosak. Minden más esetben olyan ellipszoidok adódnak nívófelületekként, melyek tengelyei (legalábbis egy részük) elfordulnak (2dimenziós esetben az elfordulás szögéb®l következtethetünk a két komponens 3.1 85 ELMÉLETI HÁTTÉR közti korreláció mértékére): az alábbi ábrákon a 0 várható érték vektorú, ( 1 0.6 0.6 2 ) kovarianciamátrixú
2-dimenziós normális eloszlás s¶r¶ségfüggvénye láthatók 3 dimenziós és szürkeárnyalatos ábrázolásban. 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 3.4 ábra 2 dimenziós normális s¶r¶ségek A kés®bbiekben használni fogjuk a következ® tételt. 86FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS 91. Tétel Ha X ∼ Np (m, C) és a C kovarianciamátrix pozitív denit, akkor (X − m)T C−1 (X − m) ∼ χ2 (p). Az érdekesség kedvéért megemlítjük a normális eloszlás egy Harald Cramértól származó karakterizációját. 92. Tétel Ha X és Y független valószín¶ségi változók és X + Y normális eloszlású, akkor X és Y külön-külön is normális eloszlásúak A statisztikai vizsgálatokban el®forduló véletlen változók általában nem együttesen normális eloszlásúak, a normális eloszlásra kiszámolt statisztikai módszerek alkalmazásása indokolható az alábbi Tétellel. Emellett a skalár, s®t a
diszkrét érték¶ valószín¶ségi változók statisztikai vizsgálatában olyan gyakran al2 kalmazott módszerek mint a χ -próba jogosságának indoklásában is szükségünk van a centrális határeloszlás tétel többdimenziós alakjára. 93. Tétel Legyenek X1 , X2 , független, azonos eloszlású p-dimenziós véletlen vektorok, melyek m várható érték vektora és C kovarianciamátrixa létezik (utóbbi nem feltétlenül invertálható). Legyen Sn = X1 + · · · + Xn , n = 1, 2, Akkor 1 a standardizált részletösszegek sorozata, azaz az √ (Sn − nm) véletlen vektor n sorozat eloszlása konvergál az Np (0, C) eloszláshoz, ha n ∞. Itt jegyezzük meg, hogy n növelésével a többdimenziós normális eloszlás valószín¶ségeinek numerikus integrálással történ® kiszámításának a m¶veletigénye ε megengedett hiba esetén nC/ε nagyságrend¶, még abban az esetben is, amikor egy n-dimenziós téglatest C kovarianciamátrixú normális
eloszlás szerinti valószín¶ségét akarjuk meghatározni. Léteznek az Hermite-polinomok szerinti sorfejtésen alapuló módszerek, de ezek csak akkor m¶ködnek, ha C közel van az n-dimenziós egységmátrixhoz (n növelésével a korrelációknak csökkenni kell). Nagy n értékre a Monte Carlo módszert kell alkalmazni, ennek m¶veletigenye a dimenziótól 2 függetlenül 1/ε . 94. Állítás Az X ∼ Np (m, C) véletlen vektor komponensei pontosan akkor teljesen függetlenek, ha a C kovarianciamátrix diagonális. A kés®bbiekben használni fogjuk a következ® tételt. 95. Tétel Ha X ∼ Np (m, C) és a C kovarianciamátrix pozitív denit, akkor (X − m)T C−1 (X − m) ∼ χ2 (p). 3.12 Wishart eloszlás A többdimenziós normális eloszlás paramétereinek becsléséhez és a paraméterekre vonatkozó hipotézisek vizsgálatához. Ehhez szükségünk van a becslésekben fellép® többdimenziós statisztikák eloszlásának meghatározására 3.1 87
ELMÉLETI HÁTTÉR 96. Deníció A p × p-s W véletlen mátrixot p-dimenziós, n szabadságfokú, C kovarianciájú (centrális) Wishart-mátrix nak nevezzük, ha el®állítható W = XXT alakban, ahol a p × n-es X véletlen mátrix oszlopvektorai függetlenek és Np (0, C)-eloszlásúak. Egy ilyen W véletlen mátrix elemeinek együttes eloszlását p, n, C paraméter¶ (centrális) Wishart-eloszlás nak nevezzük, és a következ®képpen jelöljük: W ∼ Wp (n, C). W szimmetriája miatt valójában p(p + 1)/2-dimenziós eloszlásról van szó. Megjegyezzük, hogy a nem-centrális Wishart-eloszlás deníciója ugyanígy kezd®dik, csak ott X oszlopvektorai független Np (m, C) eloszlásúak lesznek. Ilyenekkel mi nem foglalkozunk, és a továbbiakban Wishart eloszláson mindig a centrálisat értjük. Az X mátrix oszlopvektorait X1 , X2 , , Xn -nel jelölve vegyük észre, ∑n T hogy W = k=1 Xk Xk . Az ilyen el®állítást diádösszegnek hívjuk Amennyiben az X1 , X2 ,
, Xn vektorok független mintaelemek egy Np (0, C) eloszlású T véletlen vektorra, az X mátrixot adatmátrixnak is szokták nevezni, amely tehát soronként tartalmazza a meggyeléseket. A Wp (n, I) eloszlást standard Wishart-eloszlás nak nevezzük. Itt tehát az X1 , X2 , . , Xn vektorok ∑n p-dimenziós standard normális eloszlásúak. Ha speciálisan p = 1, akkor W = k=1 Xk2 , ami deníció szerint χ2 (n)-eloszlású. 97. Tétel Legyen a p×p-s C kovarianciamátrix pozitív denit W ∼ Wp (n, C) −1/2 pontosan akkor teljesül, ha C WC−1/2 ∼ Wp (n, I). A fenti tétel azt fejezi ki, hogy egy Wishart-mátrix standardizáltja standard Wishart-eloszlású. Wishart-mátrixra példa az empirikus kovarianciamátrix konstansszorosa. Ezt fogalmazza meg pontosan a következ® tétel. 98. Tétel Legyen X1 , X2 , , Xn független elem¶ minta egy Np (m, C) eloszlású véletlen vektorra, továbbá legyen 1∑ Xk n n X̄ = és S= k=1 n ∑ (Xk − X̄)(Xk − X̄)T
. k=1 Akkor (1) X̄ ∼ Np (m, 1 C), n (2) S ∼ Wp (n − 1, C), (3) X̄ és S függetlenek egymástól. 99. Tétel Legyenek X1 , , Xn független azonos eloszlású Np (0, Ip ) változók (p < n), és X := (X1 , . , Xn ) p × n-es mátrix Akkor a W = XXT standard Wishart-mátrix s¶r¶sége cnp |W| n−p−1 2 e− 2 trW 1 alakú, ahol cnp csak p-t®l és n-t®l függ® konstans. (3.4) 88FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS A bizonyításról csak annyit jegyzünk meg, hogy az X véletlen mátrix s¶r¶ségéb®l kell kindulni, ami nem más, mint az X1 , . , Xn független azonos eloszlású minta alapján felírt likelihood-függvény: 1 1 e− 2 trW . (2π)np/2 Ebb®l W eleminek együttes eloszlása mértéktranszformációval határozható meg. Ecélból mátrixok lineáris transzformáltjainak Jacobi-determinánsait kell meghatároznunk (itt |A| az A matrix determinánsának abszolút értéke): (1) X = AY, ahol A
tetsz®leges p × p-s nemszinguláris mátrix, X a p × n-es minta. Közvetlen számolással adódik a ∂X = |A|n . ∂Y (2) A mint (1)-ben, W a p × p Wishart mátrix, W = AVAT . Ekkor az ún Sverdrup-lemma [27] szerint ∂W = |A|p+1 . ∂V A Wishart-mátrix volt az els® véletlen mátrix, amit a matematikusok intenzíven tanulmányoztak (1937 óta). Vegyük észre, hogy a (3.4) formula szerint a Wishart mátrix s¶r¶ségfüggvénye a csak a sajatértékek osszegén és szorzatán (determináns, trace) keresztül függ a a mátrixelemekt®l, de ez nem a Wishart-mátrix spektrumának az eloszlása. A Wishart mátrix sajátértékeinek empirikus eloszlására vonatkozik a Marcsenko-Pasztur tétel (l. [????]) Tegyük fel, hogy mind p végtelenbe tart olymódon, hogy n c, ekkor } 1 { p p # λj : λj < x F (x), p p ahol λj a W n, mind pedig p (3.5) ∼ Wp (n, I) mátrix j -edik sajátértéke (monoton nemcsökken® rendezés mellett) és F ′ (x) = 1 √ (b − x)(x −
a), 2πxc a < x < b. A (3.5) formulabeli konvergencia majdnem biztos, ha 0 < c ≤ 1 Az F eloszlás várható értéke 1, szorásnégyzete 1 + c. A zöld grakon standard Wishart mátrix sajátértékeit mutatja, a kék pedig egy olyanét, amelyhez tartozó C mártix minden eleme közel 1. Az el®bbi ábra sajátértékei láthatóak hisztogramon is ábrázolva. Meglep® módon a legegyszer¶bb véletlen mátrix a független N (0, 1) eloszlású elemekb®l álló n×n szimmetrikus mátrix empirikus spekrumának viselkedést 3.1 ELMÉLETI HÁTTÉR 89 3.5 ábra Wishart-mátrixok sajátértékei 3.6 ábra Wishart mátrixok sajátértékeinek hisztogramjai csak az 1940-es években kezdte el tanulmányozni Wigner Jen®, a kaotikus kvantumrendszerek leírása céljából. 90FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS Az ilyen mátrixok λ sajátértékeinek rendezett mintáját const · √ n-nel nor- málva kapjuk a híres
félkör-törvényt. } 1 { p p # λj : λj < x F (x), p ahol F ′ (x) = 2√ (1 − x2 ), π (3.6) −1 < x < 1. A (3.6) formulabeli konvergencia is majdnem biztos 3.7 ábra Wigner hisztogram 3.2 Feladatok 1. Van-e olyan többdimenziós normális eloszlású vektorváltozó, amely komponensei nem függetlenek, de páronként korrelálatlanok? Tipp: Válasz: Nincs. 2. Igaz-e, hogy ha Y1 , , Ym független normális eloszlásúak, akkor együttes eloszlásuk m-dimenziós normális? Tipp: Válasz: Igaz. 3.2 91 FELADATOK 3. Adjunk olyan (legalább 3 dimenziós) véletlen vektorváltozót, amely komponensei 1-dimenziós normális eloszlásúak, ® maga nem többdimenziós (és nem is elfajult többdimenziós) normális eloszlású! Tipp: Lásd a 3.3 ábrát! Válasz: { cϕ(x1 ) . ϕ(xn ), ha f (x1 , . , xn ) = (1 − c)ϕ(x1 ) . ϕ(xn ), ha x1 . xn > 0 xy ≤ 0, ahol 0 < c ≤ 1 és ϕ(x) a standard normális eloszlás s¶r¶ségfüggvénye.
4. Legyen Y ∼ Nd (m, C), ahol C pozitív denit, B pedig egy d × d-s nemszinguláris mátrix Milyen eloszlású X = BY ? Tipp: Az X véletlen vektor várható értéke Bm, ennek ismerteben fel- tehet®, hogy a szóban forgó véletlen vektorok várható értéke a 0vektor. Dkovarianciamátrixát pedig a D = E(XX⊤ ) = E(BYBY ⊤ ) képlet alapján számíthatjuk ki. Válasz: X ∼ Nd (Bm, BCB⊤ ). 5. Legyen X ∼ N2 (m, C) (a) Adjuk meg X komponenseinek tetsz®leges aX1 + bX2 lineáris kombinációjának eloszlását! (b) Adjuk meg X komponenseinek korrelációs mátrixát! (c) Adjuk meg annak a lineáris transzformációnak a mátrixát, amely X véletlen vektort a 2-dimenziós standard normális eloszlásúba viszi át. Egyértelm¶-e ez a mátrix? Tipp: Jelölje c11 , c12 , c22 a C mátrix független elemeit. (a) D2 (aX1 + bX2 ) = Cov(aX1 + bX2 aX1 + bX2 ), használjuk a deníciót és a várható érték tulajdonságait! (b) Normáljuk alklamasan a C mátrixot. (c)
Tetsz®leges olyan A mátrix, amelyre ACA ⊤ = I2 . Válasz: (a) N (am1 + bM2 , a2 c11 + 2abc12 + b2 c22 , a2 c11 + 2abc12 + b2 c22 ) (b) a korrelaciós mátrix f®atlójában 1-ek állnak, az r12 korrelációs együtc√ tható pedig r1,2 = √ 12 c11 c22 −1/2 (c) Az A = C például jó választás, egy 2 × 2 pozitív denit mátrixnak általában 4 különböz® négyzetgyöke van, és ezzel a lehetséges mátrixok köre még nem merült ki, mert ha D alkalmas mátrx, V pedig ortonormalt, akkor DV is alkalmas mátrix. 92FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS 6. Legyenek Xi ∼ Nd (mi , Ci ), i = 1, , n független véletlen vektorok Ad∑n juk meg i=1 Xi eloszlását! 2 Analóg a független skalár N (mi , σi ) k esetével. Tipp: Válasz: Nd ( n ∑ mi , sumni=1 Ci ) i=1 7. Legyen X egy d dimenziós ún szimmetrikus normális eloszlású vektor, azaz komponensei azonos eloszlásúak és bármely két komponens kovarianciája
ugyanakkora. (a) Határozzuk meg a korrelációs mátrix spektrálfelbontását! −1 (b) Határozzuk meg C -et, ahol C a kovarianciamátrix! (c) Adjuk meg annak a lineáris transzformációnak a mátrixát, amely X véletlen vektort a d-dimenziós standard normális eloszlásúba viszi át. (d) Mutassuk meg, hogy bármely két komponens korrelációja nagyobb −1 mint (1 − d) . Tipp: Jelölje R a korrelációs mátrixot, ami 1 ρ. ρ 1. R . . . . . ρ ρ. ρ ρ . . . 1 alakú, ahol ρ ∈ [0, 1]. Ezen speciális alak miatt C = σ (a) Az 2 R. ρ ρ. ρ ρ. R − (1 − ρ)Id = . . . . . ρ ρ. ρ ρ . . . ρ mátrix 1-rangú, és egyetlen nem 0 sajatértéke dρ. Ismeretes, hogy ha egy A d×d-s mátrix sajátértékei λ1 , . , λd , akkor A+cId sajátértékei λ1 + c, . , λd + c (spektrál-leképezés tétel) Ennek alapján R, és igy C spektruma meghatározható Az utolsó d − 1 (λ2 , .
λd ) sajátérték egyenl®, míg λ1 különbözik t®lük. A λ1 -hez tartozó u1 sajátvektor ko1 ⊤ 1 Az R többi ordinátái egyenl®k, tehát normálva u1 = ( √ , . , √ ) d d sajátvektorai tetsz®leges u1 -re és egymásra ortogonális oszlopvektorok. Ilyen sokféle van, különösebb számolás nélkül meghatározhatók azok amelyeknek 1 eleme negatív, a fölötte lev® elemek 1-ek, az alatta lev®k 0-k. 3.2 93 FELADATOK (b) C−1 = σ −2 R−1 . Ha ismerjük azt az U ortonormált matrixot, amelynek oszlopai az u1 , . , ud sajátvektorok, és Λ = diag(λ1 , , λd ), akkor a spektrálel®állítási ⊤ , ezért C−1 = σ −1 U U Λ−1 U ⊤ . −1/2 (c) A a(c) ponthoz hasonlóan C = σ −1/2 U U Λ−1/2 U ⊤ . (d) Vizsgáljuk meg az (a) pontban kapott sajatértékeket. Mivel R szükségképpen nemnegatív denit, és a λ2 = λ3 , · · · = λd = 1 − ρ sajátértékek nemnegatívak, a λ1 > 0 feltételnek kell teljesülnie. tétel miatt R
= UΛU Válasz: (a) Az R korrelációs mátrix sajátértékei λ1 = 1 + (d − 1)ρ, λ2 = λ3 , · · · = λd = 1 − ρ. Itt d = 4-re megmutatjuk u2, u3 és u4 konstrukcióját, amib®l az általános eset már könnyen leolvasható. U= 1 2 1 2 1 2 1 2 √ 2 2√ − 22 0 0 √ 6 √6 6 6√ − 36 0 √ 12 √12 12 √12 12 12 √ − 12 4 89898 (b) Az Útmutató és (a) pont alapján nyilvánvaló. (c) Az Útmutató és (a) pont alapján nyilvánvaló. (d) Az Útmutató és λ1 értéke alapján nyilvánvaló 8. * Legyen A és B két n × n-es pozitív denit mátrix. Mutassuk meg, hogy elemenkénti szorzatuk is pozitív denit! Tipp: Jelölje A = {aij } i = 1, . , n j = 1, , n B = {bij } i = 1, . , n j = 1, , n és C = {cij = aij bij } i = 1, , n j = 1, , n A feladatban szereplo mátrixokat; A és B pozitiv denitása miatt léteznek X ∼ N (0, A) és Y ∼ N (0, B) véletlen vektorok. Tegyük fel, hogy
függetlenek ⊤ Ekkor a (NEM GAUSS) Z = (z1 = x1 y1 , . , zn = xn yn ) veletlen vektor kovarianciamátrixa éppen C. Válasz: Mivel minden kovarianciamátrix nem negatív denit, és Z koordinatái lineárisan függetlenek, C pozitív denit. A feladtra van tisztán algebrai bizonyítás is: tekintsük az A ⊗ B n 2 × n2 - es tenzorszorzat mátrixot, ami szintén pozitív denit, és található olyan invariáns altere amiben éppen C által deniált operátor hat. 9. Igaz-e, hogy egy d-dimenziós normális eloszlású vektorváltozó komponensei közül (d > k)-t tetsz®legesen kiválasztva azok együttes eloszlása k - dimenziós normális? Tipp: Próbáljuk felírni a denícióban szerepl® A mátrixot. Feltehet®, hogy a denícióban szerepl® A alsó trianguláris, a szimmetria miatt feltehet®, hogy az els® k komponenst választottuk. 94FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS Válasz: Igaz. 2 2 10. Igaz-e, hogy (X1 , X2 ) ∼
N2 (0, Cd ) esetén X1 /c1,1 + X2 /c2,2 pontosan 2 akkor χ (2) eloszlású, ha X1 és X2 korrelálatlanok? Tipp: Vegyük észre, hogy X1 és X2 együttesen Gauss-eloszlású valószín¶ségi változók pontosan akkor függetlenek, ha korrelálatlanok. Hasonlóan, vegyük észre, hogy két N (0, 1) valószín¶ségi változó négyzeteinek összege 2 pontosan akkor χ (2) eloszlású, ha függetlenek. Válasz: Igaz. 11. Legyen Y ∼ Nd (0, Id ), továbbá A egy d×d-s szimmetrikus r rangú mátrix ⊤ 2 Igaz-e, hogy Y AY ∼ χ (r) pontosan akkor teljesül, ha AA = A? Tipp: Az AA = A, A = A⊤ , rang(A) = r feltétel éppen azt jelenti, hogy A egy r dimenziós altérre való vetítés mátrixa. Válasz: Igaz, mivel AY kovariancimátrixa Ir , ezért Y⊤ AY = Y⊤ AAY r darab független standard normális eloszlású valószín¶ségi változó négyzetének összege. X = (X1 , . , Xn ) mátrixot, amely oszlopvektorai Xi ∼ Nd (0, C), i = 1, . , n független azonos
eloszlású változók, valamint a W = XX⊤ Wishart-mátrixot! 12. Tekintsük az (a) Milyen eloszlású W ⊤ ? (b) Hogy változik meg W, ha X két oszlopát felcseréljük? (c) Hogy változik meg W, ha X két sorát felcseréljük? (d) Adjunk meg W várható értékét! (e) Milyen eloszlású W k -adik f®minora? Tipp: Vegyük észre, hogy W szimmetrikus. Figyeljük meg a W denícióját Válasz: (a) W = W⊤ tehát W⊤ ∼ Wd (n, C) (b) W nem változik. (c) Tegyük fel hogy az i-edik és a j -edik sort cseréltük fel. Ekkor W-ben a wii -t és a wjj -t tartalmazó oszlopok es sorok felcserél®dnek. (d) Ha n = 1 E(W) = C, tehát E(W) = nC. (e) Wk (n, C′ ), ahol C′ a C mátrix k -adik f®minora. 13. Legyenek Wi ∼ Wd (ni , C), ∑k lyen eloszlású i=1 Wi ? i = 1, . , k független Wishart-mártixok Mi- Tipp: Emlékezzünk arra, hogy a Wishart-eloszlás a χ2 -eloszlás (l. képletgy¶jtemény) analogonja. Válasz: Legyen n = n1 + · · · + nk ∑k i=1 Wi
∼ Wd (n, C). 3.3 TESZTEK 95 + 14. Legyen W ∼ Wd (n, C) és a ∈ R Milyen eloszlású aW? Tipp: Emlékezzünk arra, hogy a Wishart-eloszlás a chi2 -eloszlás analogonja. Válasz: aW ∼ Wd (n, aC) 15. Legyen W ∼ Wd (n, C) és B egy d × d-s nemszinguláris mátrix Milyen ⊤ eloszlású BWB ? Tipp: Számoljuk ki a BX kovarianciamátrixát, ahol X ∼ Nd (0, C). Ha W = XX⊤ mivel egyenl® a BXBX⊤ ? Válasz: BWB⊤ ∼ Wd (n, BCB⊤ ). 16. Legyen W ∼ Wd (n, I) (a) Milyen eloszlásúak W diagonális elemei? (b) Milyen eloszlású trW? 2 (c) Igazoljuk, hogy W nemdiagonális elemei el®állnak két független χ (n) eloszlású változó különbségének konstansszorosaként! Tipp: (a) Alkalmazzuk a deníciót. 2 (b) Alkalmazzuk a deníciót, és keressük meg a χ eloszlás deníóját képletgy¶jteményben. 2 2 2 2 2 (c) Alkalmazzuk az (a + b)(a − b) = a − b , (a + b) = a + 2ab + b , (a − b)2 = a2 − 2ab + b2 azonosságokat. Válasz: (a) χ2 (n)
(b) χ2 (nd) (c) Ha n = 1 X és Y független standard normális eolszlású valószín¶ségi változók, akkor X + Y és X − Y független N (0, 2) valószín¶ségi vál2 tozók (az el®bb idézett azonosság miatt). Továbbá (X + Y ) /4 − 2 (X − Y ) / két független valószín¶ségi változó kulönbsége melyeknek 2 2-szeresei χ eloszlásúak. Ugyanakkor ez a különbség XY A standard Wishart mátrix diagonálison kívüli elemei n függtelen XY alakú valószín¶ségi változó összege. 3.3 1. Tesztek X1 , . , Xn egydimenziós normális eloszlásúak Melyik állítás igaz? (a) Együttes eloszlásuk csak akkor többdimenziós normális, ha függetlenek. (b) Ha függetlenek, akkor együttes eloszlásuk többdimenziós normális. 96FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS (c) Együttes eloszlásuk csak akkor többdimenziós normális, ha nem függetlenek. (d) Ha nem függetlenek, akkor együttes eloszlásuk többdimenziós
normális. Válasz: (b) 2. Egy többdimenziós normális eloszlású változó komponensei standard normális eloszlásúak Igaz-e, hogy együttesen is standard normális eloszlású? (a) Igen, mert ez a deníció. (b) Igen, mert a többdimenziós standard normális eloszlású változó lineáris transzformációjaként kapjuk, az pedig egyértelm¶. (c) Igen, mert a függetlenségb®l következik a korrelálatlanság. (d) Nem, csak ha a komponensek korrelálatlanok. Válasz: (d) 3. Legyenek X1 , , Xn ∼ Nd (0, C) függetlenek Milyen eloszlású ∑n i=1 X1 + . + Xn ? (a) Nd (0, C) (b) Nd (0, nC) (c) Nd (0, n2 C) (d) Wd (n, C) Válasz: (b) 4. Legyenek X1 , , Xn ∼ Nm (m, I) függetlenek Milyen eloszlású m)(Xk − m)⊤ ? (a) χ2 (n) (b) χ2 (nd) (c) Wm (n, I) (d) Wn (m, I) ∑n k=1 (Xk − Válasz: (c) 5. Valójában hány dimenziós változó egy Wd (n, C) eloszlású Wishart-mátrix? (a) d2 (b) d(d + 1)/2 (c) nd (d) (nd + 1)/2 Válasz: (b)
3.3 TESZTEK 97 6. Milyen eloszlásúak az n darab d dimenziós standard normális eloszlású változó segítségével kapott Wishart-mátrix f®átlójának elemei? (a) Standard normális (b) χ2 (1) (c) χ2 (d) (d) χ2 (n) Válasz: (d) 98FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS 4. fejezet Paraméterbecslés és hiptézisvizsgálat többdimenziós normális modellben 4.1 Elméleti háttér 4.11 Paraméterbecslés többdimenziós normális modellben Ebben a paragrafusban csak azokra a fogalmakra és tételekre térünk ki, amelyek természetüknél fogva lényegesen különböznek azok egydimenziós változataiktól. Hatásosság: A torzítatlan becslések között keressük a leghatásosabbat. Mivel a több paraméter esetén a becslésk szórásnégyzetei helyett azok kovarianciamátrixait kell összehasonlítanunk, a hatásosság mérésére egy er®sebb fogalmat vezetünk be. 100. Deníció A θ ∈ Θ paraméter T1
becslése legalább olyan hatásos, mint T2 becslése, ha D2θ (T1 ) ≤ D2θ (T2 ), ahol a mátrixok közötti A ≤ B rendezés úgy értend®, hogy B − A pozitív szemidenit. Ilyen értelemben alkalmazza a rendezést a CramérRao egyenl®tlenség több paraméterre vonatkozó alakja: 101. Tétel A CramérRao egyenl®tlenség többváltozós alakja (bizonyos itt teljesül® regularitási feltételek esetén) alsó korlátot ad a torzítatlan becslések 99 100FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS szórásmátrixára: D2θ (T) ≥ 1 −1 I (θ) = In−1 (θ), n 1 θ∈Θ I1 (θ) jelöli az ún. Fisher-féle információs mátrixot, amit 1-elem¶ mintából számolhatunk: ( I1 (θ) = Eθ ∂ ln fθ (X1 ) ∂θ )( ( )T ) ∂ ∂ 2 ln fθ (X1 ) ln fθ (X1 ) , = Dθ ∂θ ∂θ Megjegyezzük, hogy többdimenziós normális eloszlásnál egyenl®ség az (X̄, mxS/(n − 1)) párra nem érhet® el. A többdimenziós
normális eloszlás paramétereinek maximum-likelihood becslése. Miel®tt hozzáfognánk ennek a feladatnak a megoldásához, felidézzük a Steineregyenl®séget többdimenziós változatát. 102. Lemma (Steiner-egyenl®ség) Legyenek x1 , xn ∈ Rp vektorok, , továbbá legyen x̄ az átlaguk és v ∈ R n ∑ (xk − v)(xk − v)⊤ = k=1 p egy tetsz®leges vektor. Ekkor n ∑ (Xk − x̄)(xk − x̄)⊤ + (x̄ − v)(x̄ − v)⊤ . (4.1) k=1 Speciálisan, ha v = 0 n ∑ (xk − x̄)(xk − x̄)⊤ = k=1 Legyen n ∑ ⊤ xk x⊤ k − nx̄x̄ . k=1 X1 , . , Xn független elem¶ minta az X ∈ Np (m, C) véletlen vek- torra, tegyük fel, hogy n > p. A mintaelemek alapján szeretnénk becslést adni az ismeretlen m várható érték vektorra és a C kovarianciamátrixra, melyr®l feltesszük, hogy pozitív denit. Ehhez a maximum likelihood módszert használjuk, azaz a mintaelemek együttes s¶r¶ségfüggvényével deniált likelihood-függvényt
maximalizáljuk a két ismeretlen paraméterben. A mintaelemek függetlensége következtében az együttes s¶r¶ségfüggvény a külön-külön vett s¶r¶ségfüggvények szorzata, melyek mindegyike (a mintaelemek azonos eloszlása miatt) az (3.2) alakban írható (csak az argumentumokba most a mintaelemeket írjuk): Lm,C (X1 , . , Xn ) = 1 (2π)np/2 |C| e− 2 n/2 1 ∑n T −1 (Xk −m) k=1 (Xk −m) C Vegyük észre exponensbeli n ∑ k=1 (Xk − m)T C−1 (Xk − m) . (4.2) 4.1 101 ELMÉLETI HÁTTÉR kvadratikus alak tulajdonképpen egy 1 × 1-es mátrix nyoma (trace-e), ami a trace függvény ciklikus permutációkkal szembeni invarianciája miatt trC −1 (Xk − m)(Xk − m)T (4.3) alakban is írható (err®l közvetlen számolással is meggy®z®dhetünk). A formulák kezelése szempontjából ez az alak gyakran el®nyösebb, mint a kvadratikus forma írásmód. Az el®z® rész jelöléseit használjuk: 1∑ Xk n n X̄ = k=1 jelöli a
mintaátlagot és S= n ∑ (Xk − X̄)(Xk − X̄)T k=1 az empirikus kovarianciamátrix n-szeresét. A likelihood-függvényt most a (43) formula és a (4.1) többdimenziós Steiner-egyenl®seg segítségével úgy alakítjuk át, hogy benne ezek a statisztikák jelenjenek meg: L(X1 , . , Xn ; m, C) = 1 e− 2 trC 1 (2π)np/2 |C|n/2 −1 S · e− 2 n(X̄−m) C 1 T −1 (X̄−m) . (4.4) A fenti (4.4) függvényt m-ben és C-ben kell maximalizálnunk, hogy megkapjuk m̂ és Ĉ becsléseket. A (44) függvény akkor lesz m-ben maximális, ha a kitev®ben lév® kvadratikus alak értéke 0, ezért m̂ = X. Mivel ez a széls®érték független a C paramétert®l a (4.4) függvényt ugy max−1 imalizálhatjuk C szerint (valojában C szerint) m̂ = X-szel helyettesítjük. ∂|A| ⊤ A további számolás a Lineáris algebra fejezetben ismertetett ∂A = adj (A ) képlet alkalmazásával végezhet® el, ezt nem részletezzük, csak a végeredményt közöljük: Ĉ
= 4.12 S . n Hipotézisvizsgálat többdimenziós normális modellben Az egyváltozós esethez hasonlóan hipotéziseket is vizsgálhatunk a várható érték vektorra és a kovarianciamátrixra vonatkozóan. Ehhez megismételjük likelihood 2 hányados próba, és bevezetjük a Hotelling T -eloszlás denícióját. 102FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS 103. Deníció Legyen θ az fθ (x) s¶r¶ségfüggvény¶ eloszlás ismeretlen paraméterθ ∈ Θ (Θ ⊂ Rk többdimenziós tartomány) Az X1 , , Xn minta alapján dönteni szeretnénk a H0 és H1 hipotézisek között: vektora, H0 : θ ∈ Θ0 vers. H1 : θ ∈ Θ1 , ahol Θ0 ∩ Θ1 = ∅, Θ0 ∪ Θ1 = Θ, és a dim(Θ0 ) = r , dim(Θ) = k jelöléssel r < k teljesül. Az n-elem¶ minta alapján konstruálandó próbastatisztika: λn (X1 , . , Xn ) = supθ∈Θ0 Lθ (X1 , . , Xn ) L∗0 . = ∗ L1 supθ∈Θ Lθ (X1 , . , Xn ) Amennyiben ismerjük a λn (X1
, . , Xn ) próbastatisztika eloszlását H0 fennállása esetén, adott 1−ε szignikanciaszinthez (ε kicsi) megkonstruáljuk a mintatér részét képez® Xk = {(x1 , . , xn ) : λn (x1 , , xn ) ≤ λε } kritikus tartományt, ahol a λε kritikus értéket úgy határozzuk meg, hogy a próba terjedelme ε legyen, azaz supθ∈Θ0 Pθ ((X1 , . , Xn ) ∈ Xk ) = ε Ezután, ha mintánk a kritikus tartományba esik, elutasítjuk, különben pedig elfogadjuk a nullhipotézist. 104. Deníció Legyenek a W ∼ Wp (n, I) W pozitív denit (ez 1 valószín¶séggel teljesül, ha n > p) és a X :=∼ Np (0, I) valószín¶ségi változók függetlenek. Akkor a T 2 = nXT W−1 X összefüggéssel deniált T 2 2 valószín¶ségi változót Hotelling-féle T -eloszlás únak nevezzük n, p paraméterekkel. A továbbiakban az n paraméterre, mint szabadságfokra hivatkozunk 2 Megjegyezzük, hogy a Hotelling-féle T -eloszlás a Student-féle t-eloszlás több2 2
dimenziós általánosítása: a p = 1, C = 1 esetben T ≡ t /n. 105. Állítás A W ∼ Wp (n, C) és X :=∼ Np (m, C) esetben T 2 = n(X − m)W−1 (X − m)⊤ 2 valószín¶ségi változó szintén T -eloszlású n és p paraméterekkel. 106. Tétel Ha a T 2 statisztika Hotelling elosszlású n és p paraméterekkel, akkor azaz T n−p+1 · T 2 ∼ F(p, n − p + 1), p 2 megfelel® konstansszorosa Fisher-féle F -eloszlású a zárójelben felsorolt paraméterekkel. 4.2 103 FELADATOK 4.2 Feladatok 1. Igazoljuk a Steiner-egyenl®ség következ® többdimenziós változatát: d ha x1 , . , xn , v ∈ R , akkor n ∑ (xk − v)(xk − v)⊤ = k=1 n ∑ (xk − x)(xk − x)⊤ + n(x − v)(x − v)⊤ . k=1 Tipp: Válasz: 2. Legyen X1 , , Xn ∼ Nd (m, C) független minta Igazoljuk, hogy Cov(X, Xi − X) = 0. Tipp: Válasz: 3. Legyen X1 , , Xn ∼ N (µ, σ 2 ) minta. Adjuk meg az I1 Fisher-féle infor- mációs mátrixot! Tipp: Alkalmazzuk a
többdimenziós FisherCochran-tételbeli deníciót. Válasz: (1 ) I1 = 4. Legyen σ2 0 0 2 σ4 X1 , . , Xn ∼ U (a, b) független minta Adjuk meg az I1 és In Fisher-féle információs mátrixokat! Tipp: Alkalmazzuk a többdimenziós FisherCochran-tételbeli deníciót. Válasz: ( ) I1 = ( I1 = 5. 1 (b−a)2 1 (b−a)2 1 (b−a)2 1 (b−a)2 n2 (b−a)2 n2 (b−a)2 n2 (b−a)2 2 , ) . (b−a)2 X1 , . , Xn egy a középpontú b sugarú d-dimenzós gömbben egyenletes eloszlásból vett független minta. (a) Adjuk meg az I1 Fisher-féle információs mátrixot! (b) Adjunk maximum likelihood becslést a-ra b = 1 esetben! (c) Adjunk maximum likelihood becslést (a, b)-re! Tipp: 104FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS (a) Vegyük észre, hogy a s¶r¶ségfüggvény értéke nem függ az a vek- tortól abban a tartományban, ahol ez az érték nem 0. Ugyanezt az elvet alkalmaztuk pl. [0, θ] intervallumon egyenletes
minta Fisher-féle információjának kiszámításákor, és az el®z® feladatban is. Az el®z® feladat azért is érdekes, mert d = 1-re alkalmasan átparaméterezve ( ) b−a c = a+b ugyanez a helyzet. 2 és r = 2 (b) Minden olyan a vektor M-L becslés lesz, amely körüli 1 sugarú gömb tartalmazza a mintát. (c) a M-L becslése az a vektor lesz, amely körüli a teljes mintát tartalmazó körlap sugara minimális, míg b M-L becslése ez a minimális sugár Válasz: d (a) Figyelembevéve, hogy a d-dimenziós gömb térfogata Cd b , ahol Cd egy a dimenziótól függ® kosntans ami a számolás során kiesik: d2 b2 0 . . 0 0 0 . . . 0 . . . . 0 0 . . . 0 (b) Az Útmutató alapján pl. a síkon viszonylag egyszer¶ algoritmussal a mintát egy olyan négyzettel burkoljuk, amely egyik élének iránya tetsz®leges, ennek középpontja alkalmas becslés. (c) Nem tudok rá gyors algoritmust. 6. 49 id®s embert az orvos két csoportba
sorolt aszerint, hogy van-e szenilis faktor a viselkedésükben (I csoport) vagy sem (II csoport) Ezután elvégeztettek velük 4 pszichológiai tesztet (1. információ, 2 hasonlóság, 3 aritmetika, 4. képfelismerés), melyekre kapott átlagpontszámok az alábbi táblázatban láthatók: I. (n=37) II. (m=12) 1. 12,57 8,75 2. 9,57 5,33 3. 11,49 8,50 4. 7,97 4,75 Vizsgálja meg, 95%-os szignikanciaszinten elfogadható-e az a nullhipotézis, hogy a két csoport várhatóan nem különbözik szignikánsan a teszteredmények alapján. Feltesszük, hogy az egyes emberek teszteredményei 4dimenziós normális eloszlást követnek ismeretlen (közös) kovarianciamátrixszal 4.2 105 FELADATOK Az egyesített (49) elem® mintából számolt S = S1 + S2 mátrix inverze: 0,0052 −0,0028 −1 S = −0,0012 −0,0012 −0,0028 −0,0012 −0,0012 0,0038 −0,0008 −0,0002 . −0,0008 0,0030 −0,0004 −0,0002 −0,0004 0,0042 Tipp:
Válasz: 7. Legyen X1 , , Xn ∼ Nd (m, C) független minta, ahol C ismert (a) Adjuk meg az I1 Fisher-féle információs mátrixot! (b) Igazoljuk, hogy X hatásos becslése m-nek! (Használjuk a CramérRao egyenl®tlenség többdimenziós változatát!) (c) Igazoljuk, hogy a H0 : m = m0 , H1 : m ̸= m0 hipotézisek vizs- gálatára konstruált próba likelihood-hányados teszt! (d) Igazoljuk, hogy az el®z® pontbeli teszt az u-próba általánosítása! Tipp: Válasz: 8. 20 atal emberre az A, B, C stimuláló szerek hatását vizsgálták a reakcióid® szempontjából (századmásodpercben) X A = 21,05 X B = 21,65 X C = 28,95, 45,2 43,6 S = 43,6 53,2 32,6 36,4 32,6 36,4 . 49,4 95%-os szignikanciaszinten vizsgálja meg az egyenl® hatás elvét a B − A, C − B különbségekre! (Feltesszük, hogy a hatások többdimenziós normális eloszlást követnek, és azt teszteljük, hogy a B és A hatás különbsége, valamint a C és B hatás különbsége
mint 2-dimenziós normális eloszlású véletlen vektor 0 várható érték vektorúnak tekinthet®-e.) Megjegyezzük, hogy valójában a három stimulálószer hatása várható értékének egyenl®sége itt a nullhipotézis, azonban meggyeléseink nem független mintákra, hanem ugyanarra a 20 emberre vonatkoznak. Így a javasolt vizsgálat a tpróbánál bevezetett önkontrollos vizsgálat többdimenziós általánosításának tekinthet® Tipp: Válasz: 106FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS 9. Legyen X1 , , Xn ∼ Nd (m, C) független minta Vegyük az (m, C) paraméter (m̂, Ĉ) = (X, S/n) (maximum likelihood) becsléseit! (a) Igazoljuk, hogy (X, S) elégséges statisztika (m, C)-re! (b) Torzítatlan becslése-e (X, S/n) az (m, C) paraméternek? Ha nem, korrigáljuk! 2 (c) Mutassuk meg, hogy a (Hotelling-féle) T -próba a t-próba (kétoldali változatának) általánosítása (de az egyoldalinak nem)! (d) Konstruáljunk
likelihood-hányados próbát a H0 : C = C0 hipotézis tesztelésére! (e) Konstruáljunk ε terjedelm¶ egyenletesen leger®sebb próbát a NeymanPearson alaplemma segítségével a H0 : (m, C) = (m0 , C0 ) vs. H1 : (m, C) = (m1 , C0 ) egyszer¶ alternatíva vizsgálatára! Tipp: Válasz: 2 10. Igazoljuk, hogy a (Hotelling-féle) kétmintás T -próba likelihood-hányados próba! Igazoljuk, hogy ez a teszt a kétmintás t-próba általánosítása! Tipp: Válasz: 11. Legyen X1 , , Xn1 ∼ Nd (m1 , C1 ) és Y1 , , Yn2 ∼ Nd (m2 , C2 ) független minták. Konstruáljunk likelihood-hányados próbát a H0 : C1 = C2 , H1 : C1 ̸= C2 hipotézisek vizsgálatára (kétmintás T 2 próba feltételének ellen®rzése)! Tipp: Válasz: 12. Legyen X1 , X2 , ∼ Nd (m, C) fae Adjunk a H0 : (m, C) = (m0 , C0 ) H1 : (m, C) = (m1 , C0 ) egyszer¶ alternatíva eldöntésére szekvenciális eljárást (ε1 els®fajú és ε2 másodfajú hibával)! Adjuk meg a várható vs.
lépésszámokat! Tipp: Válasz: 13. Legyen A1 , , Ak teljes eseményrendszer, P(Ai ) = pi Legyen X az es⊤ eményrendszer k -dimenziós indikátorváltozója, valamint p = (p1 , . , pk ) Legyenek X1 , X2 . független vektorok, amelyek eloszlása megegyezik X eloszlásával. (a) Mutassuk meg, hogy ∑n i=1 Xi ∼ P olyn (p1 , . , pk ) (b) Adjunk maximum likelihood becslést az els® n mintaelem alapján p-re a Lagrange-multiplikátor módszerével! 4.3 107 TESZTEK (c) Adjunk maximum likelihood becslést az els® n mintaelem alapján p-re pk = 1 − p1 − . − pk−1 felhasználásával is! (d) Adjunk a H0 : p = p0 vs. H1 : p = p1 egyszer¶ alternatíva el- döntésére szekvenciális eljárást (ε1 els®fajú és ε2 másodfajú hibával)! Adjuk meg a várható lépésszámokat! Tipp: Válasz: 4.3 Tesztek 1. Tekintsünk egy n elem¶ Nd (m, C) eloszlásból vett mintát (feltesszük, hogy C invertálható, a több dimenziós Fisher I1 mátrix a C
mátrix inverze). Milyen becslése a m-nek a maximum likelihood becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, gyengén sem konzisztens. Válasz: (c) 2. Tekintsünk egy n elem¶ Nd (m, C) eloszlásból vett mintát Milyen becslése a C-nek a maximum likelihood becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er®sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er®sen konzisztens. (d) Torzítatlan, nem hatásos, gyengén sem konzisztens. Válasz: (a) 3. Melyik teszt általánosítása a Hotelling-féle T 2 próba (azaz egy dimenziós esetben melyiket kapjuk)? (a) u próba (b) t próba (c) F próba (d) χ2 próba Válasz: (b) 4. Hogy lehet két (egy- vagy többdimenziós) standard normális
eloszlás (amelyek együttesen is normális eloszlásúak) függetlenségének tesztelésére alkalmazni a normális eloszlás kovarianciamátrixára vonatkozó próbát? 108FEJEZET 4. PARAMÉTERBECSLÉS ÉS HIPTÉZISVIZSGÁLAT TÖBBDIMENZIÓS NORMÁLIS (a) Sehogy, mert az a többdimenziós normális eloszlás kovarianciamátrixára vonatkozik, nem függetlenségre. (b) Ha azonos a dimenziószam, a különbségváltozó kovarianciamátrixát teszteljük, hogy 0-e. (c) Összef¶zött változót teszteljük, kovarianciamátrixa egységmátrix-e. (d) Külön-külön teszteljük a két változót, kovarianciamátrixa egységmárixe és megnézzük, a két teszt ugyanazt adta-e eredményül. Válasz: (c) 5. fejezet Lineáris módszerek 1.: f®komponensanalízis, faktoranalízis 5.1 Elméleti háttér 5.11 F®komponensanalízis Legyen X ∼ Np (m, C), és tegyük fel, hogy a C kovarianciamátrix pozitív denit. A modell a következ®: keressük X el®állítását X = VY +
m alakban, ahol m = EX, V p × p-s ortogonális mátrix (azaz V (5.1) −1 = VT ), Y pedig független komponens¶, p-dimenziós normális eloszlású véletlen vektor Vegyük észre, hogy az (5.1) el®állítás hasonló a 3 fejezetben tárgyalt (31)beli X = AY + m felbontáshoz, de ott Y p-dimenziós standard normális eloszlású volt, a p×p-s A mátrix pedig az AAT = C (nem egyértelm¶) felbontásból adódott. Ott Y komponensei függetlenek és 1 szórásúak voltak, míg a fenti (1.1) el®állításban Y komponenseit®l csak a függetlenséget követeljük meg, míg a transzformációs mátrixtól ortogonalitást várunk el. Ez az el®állítás már egyértelm¶, ha Y komponenseit varianciáik (szórásnégyzeteik) csökken® sorredjében rendezzük. (Ha a varianciák között adódnak egyenl®ek, akkor nincs egyértelm¶ség, ennek feltételét az alábbi eljárásból olvashatjuk ki.) Most megadjuk (5.1) a el®állítást Mivel V invertálható, ezért (51) ekvivalens az
Y = V−1 (X − m) = VT (X − m) T felbontással. Jelölje C = UΛU az X véletlen vektor kovarianciamátrixának spektrálfelbontását. Ezzel Y kovarianciamátrixának diagonálisnak kell lennie 109 110FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS A spektrálfelbontás egyértelm¶sége értelmében [ ] [ ] EYYT = E V−1 (X − m)(X − m)T V = V−1 E (X − m)(X − m)T V = = V−1 CV = V−1 UΛUT V = (V−1 U)Λ(V−1 U)T diagonális mátrix f®diagonálisában csökken® elemekkel akkor és csak akkor, ha V−1 U = Ip , azaz V = U. (Itt kihasználtuk, hogy V, U, következésképpen V−1 U is ortogonális mátrix.) Megjegyezzük, hogy többszörös multiplicitású sajátértékek esetén az U mátrix megfelel® oszlopai sem egyértelm¶ek (l. hyperref[linalg]Lineáris algebra ) Így X = UZ + m lesz a kívánt felbontás, ahol Z jelöli a V = U választás melletti Y -t, azaz Z = U−1 (X − m) = UT (X − m). Ezt a Z-t az X véletlen
vektor f®komponensvektor ának, komponenseit pedig f®komponenseknek nevezzük. Vegyük észre, hogy a k -adik f®komponens az X−m változó komponenseinek az uk vektor koordinátáival vett lineáris kombinációja: Zk = uTk (X − m) (k = 1, . , p), ahol uk a C mátrix λk sajátértékéhez tartozó normált sajátvektora (U k -adik oszlopa), λ1 ≥ λ2 ≥ · · · ≥ λp . Az X véletlen vektor fenti felbontása eleget tesz az alább ismertetend® optimalitási kritériumnak (a f®komponenseket ezzel is be lehetne vezetni). 107. Tétel Az els® f®komponens, Z1 szórása maximális az X−m véletlen vektor komponenseinek összes lehetséges normált (egységvektorral képzett) lineáris kombinációéi között; Z2 szórása maximális az összes lehetséges, Z1 -t®l független normált lineáris kombinációéi közt; s.ít a k -adik f®komponens, Zk szórása maximális az összes lehetséges, Z1 , , Zk−1 -t®l független normált lineáris kombináció
szórása közt (k = 3, , p) Tehát a Z p-dimenziós normális eloszlású véletlen vektor komponensei függetlenek és varianciáik a λ1 ≥ λ2 ≥ · · · ≥ λp > 0 számokkal egyeznek meg. Ezt szemlélteti az alábbi ábra ∑p A i=1 λi összeg a f®komponensek varianciáinak az összege (a továbbiakban teljes varianciának nevezzük), eredeti változóink teljes varianciája pedig a C kovarianciamátrix f®diagonálisbeli elemeinek összege, azaz trC. Mivel a ∑p λi számok C sajátértékei, ezért i=1 λi = trC, ami a varianciák nyelvén azt jelenti, hogy f®komponensek teljes varianciája megegyezik az eredeti változók teljes varianciájával, és ebb®l a f®komponensek csökken® sorrendben részesülnek. A f®komponensek szórásai az ún kanonikus szórások (ezek a i = 1, . , p) √ λi számok, 5.1 111 ELMÉLETI HÁTTÉR 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 5.1 ábra F®komponensek elméleti és empirikus szórásnégyzetei
Mivel a várható érték vektor hozzáadása csak egy eltolást jelent, a továbbaiakban ezt már levontnak képzeljük el, és eleve 0 várható érték vektorú X T véletlen vektor-ból indulunk ki. Ezekután a Z = U X f®komponenstranszformáció (a sajátvektorok alkalmas el®jelezésével) egy T hiszen az U mátrix ortogonális. p-dimenziós forgatás, A fentiek alapján a f®komponens transzformáció egyben azt is jelenti, hogy ha az u1 , . , up sajátvektorok alkotta bázisra térünk át, akkor ezekben az irányokban a transzformált változó varianciája maximális. 112FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS A következ® állítás mondanivalója az, hogy a f®komponens tranzformáció forgatásinvariáns. 108. Állítás Legyen az X p-dimenziós véletlen vektor várható érték vektora 0, kovarianciamátrixa pedig C. Tetsz®leges O p × p-s ortogonális mátrix választása esetén az X és OX véletlen vektork
f®komponensvektora megegyezik. −1/2 Megjegyzezzük, hogy ha a C kovarianciamátrix helyett az R = D CD−1/2 korrelációs mátrixból indulunk ki, akkor már skálainvariáns f®komponens vektort kapunk, viszont a forgatásinvarianciát veszítjük el. Itt D a C mátrix f®diagonálisát, azaz az X véletlen vektor komponenseinek varianciáit tartalmazó 1/2 diagonális mátrix, a D diagonálmátrix pedig a komponensek szórásait tar- talmazza f®diagonálisában. Ha az X változót az X SX transzformációnak 2 vetjük alá, akkor az új változó komponenseinek varianciáit az SDS = DS = 2 S D diagonálmátrix fogja tartalmazni (kihasználtuk, hogy diagonális mátrixok szorzása kommutatív), az új kovarianciamátrix pedig az SCS mátrix lesz. Így az SX véletlen vektor korrelációs mátrixa (S2 D)−1/2 SCS(DS2 )−1/2 = D−1/2 S−1 SCSS−1 D−1/2 = R lesz, ami a régi korrelációs mátrix. A forgatásinvariancia elvesztése onnan is látható, hogy tetsz®leges O
ortogonális mátrix esetén az OX véletlen vektor korrelációs mátrixa, és annak spektrálfelbontása is alapvet®en más lesz, mint az eredeti X változóé volt. A f®komponensanalízis másik fontos optimumtulajdonságát fogalmazza meg a következ® tétel: nevezetesen, hogy az els® k f®komponens változónk legjobb k -dimenziós közelítését adja az alábbi értelemben. Az X p-dimenziós véletlen vektor k -dimenziós (k < p) közelítése alatt egy olyan véletlen vektort értünk, AX alakban áll el® valamely p × p-s, k -rang¶ A mátrixszal. Ugyanis AX értékeit 1 valószín¶séggel az A oszlopvektorai által kifeszített (k -dimenziós) amely altérben veszi fel. 109. Tétel Legyen X ∼ Np (0, C) véletlen vektor Rögzített k < p-re az E∥X − AX∥2 legkisebb négyzetes eltérést minimalizáló k -rangú közelítés annak a projekciónak a mátrixával adható meg, amely a C kovarianciamátrix k legnagyobb sajátértékéhez tartozó
sajátvektora által kifeszített altérre vetít. (A λk = λk+1 esetben ez az altér nem egyértelm¶) Így a f®komponensanalízis a kovarianciamátrixnak nemcsak a 1.1 Tételbeli optimális felbontását adja, hanem a a kovarianciamátrixnak és így az eredeti változónak is alacsonyabb dimenziós közelítésére ad lehet®séget a 109 Tétel alapján (az els® egynéhány f®komponens megtartásával). A fenti tétel alkalmazásakor felmerül k választásának kérdése. Ehhez a λ1 + · · · + λ k λ1 + . + λp 5.1 113 ELMÉLETI HÁTTÉR hányadost használjuk, amely azt mutatja, hogy az els® k f®komponens a teljes variancia hányad részét magyarázza (általában olyan k -t célszer¶ választani, melyre nagy az ugrás λk és λk+1 közt). A gyakorlatban az empirikus kovarianciamátrixból indulunk, amely többdimenziós normális eloszlást feltételezve az elméleti kovarianciamátrix maximum likelihood becslése. Mivel a sajátértékek és
sajátvektorok a kovarianciamátrix folytonos függvényei, az empirikus kovarianciamátrix sajátértékei és sajátvektorai az elméletiek maximum likelihood becslései lesznek (amennyiben a kovarianciamátrix sajátértékei mind különböz®ek). A f®komponensanalízisnek akkor van értelme, ha kovarianciamátrixunknak vannak kiugró sajátértékei. k kiugró sajátérték megléte a H0 : λk+1 = · · · = λp−1 = λp hipotézis elfogadásával ekvivalens, hiszen H0 fennállása azt jelenti, hogy a legkisebb p − k sajátérték egyenl®. A hipotézisvizsgálatot a k = 0, 1, , p − 1 egészekre ilyen sorrendben addig végezzük, amíg adott szinten el nem fogadjuk a nullhipotézist. Ezzel a k -val megegyez® számú f®komponenst fogunk beválasztani Likelihood hányados próbával adódik, hogy a −2 ln λn = n(p − k) ln a g statisztika (l. [26]) H0 fennállása esetén (amennyiben a mintaelemszám elég 2 nagy) közel χf eloszlást követ, ahol a és g a Ĉ
empirikus kovarianciamátrix sajátértékeinek számtani- és mértani közepét jelöli: a= λ̂k+1 + · · · + λ̂p p−k és 1 g = (λ̂k+1 . λ̂p ) p−k , 2 a χ eloszlás szabadságfoka pedig f= 1 (p − k + 2)(p − k − 1). 2 Ez az f nem más, mint a sajátértékek egyenl®ségére tett feltételek mellett a paraméterek számának a csökkenése. H0 fenállása esetén a sajátértékek (p) száma csökken (p − k − 1)-gyel, a sajátvektorokat tartalmazó p × p-s ortogonális mátrixban lev® szabad paraméterek száma ((p−1)p/2) pedig (p−k−1)(p−k)/2vel, a (p − k) × (p − k)-as forgatások szabad paramétereinek számával (hiszen az azonos sajátértékhez tartozó sajátvektorok egy (p − k)-dimenziós altérben tetsz®legesen elforgathatók). 5.12 Faktoranalízis A f®komponensanalízisnél láttuk, hogy a módszer alkalmas a változók számának csökkentésére. A faktoranalízis célja eleve ez: nagyszámú korrelált változó
magyarázata kevesebb korrelálatlannal (többdimenziós normális eloszlás esetén 114FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS a korrelálatlan helyett független mondható). Ezek a közös faktorok azonban nem magyaráznak meg mindent a változókból, csak azoknak az ún. közös részét Ezen kívül van a változóknak egy egyedi része is, amelynek leválasztása szintén a modell feladata. A közös faktorokra itt nem úgy kell gondolni, mintha közvetlenül meggyelhet® változók lennének. A k -faktor modell tehát a következ®. Adott a p-dimenziós X véletlen vektor m várható érték vektorral és C kovarianciamátrixszal, többdimenziós normalitás esetén X ∼ Np (m, C). Adott k (1 ≤ k < p) egészre keressük az X = Af + e + m (5.2) felbontást, ahol A p×k -as mátrix, az f közös faktor 0 várható érték vektorú, korrelálatlan komponens¶, k -dimenziós véletlen vektor, komponensei 1 szórásúak, az e
egyedi faktor p-dimenziós korrelálatlan komponens¶ véletlen vektor, ráadásul komponensei még f komponenseivel is korrelálatlanok. A modell feltevései formálisan: Ef = 0, Eff T = Ik , Eε = 0, EeeT = f , EeeT = 0 k × p-es azonosan 0 mátrix. a Koordinátákra lebontva ez a következ®t jelenti: Xi = k ∑ aij fj + ei + µi , i = 1, . , p j=1 Mivel ei és fj korrelálatlanok, Xi varianciája cii = k ∑ a2ij + dii , j=1 ahol dii a D diagonális mátrix i-edik diagonális eleme nem más, mint az ei vál∑k 2 tozó (i-edik egyedi faktor) varianciája. Tehát Xi varianciájából a j=1 aij részt magyarázzák a közös faktorok ezt nevezzük az Xi változó kommunalitás ának , dii pedig az egyedi variancia. A modell paraméterei az A és D mátrixok. Az A mátrixot faktorsúly- mátrix nak (más terminológiával átviteli mátrixnak) nevezzük. Ezekkel a modell mátrixalakja a következ®: C = AAT + D. Látható, hogy (5.3) X tetsz®leges
átskálázás után is leírható a k -faktor modellel, ugyanis SX = (SA)f + e + Sm teljesíti a (5.2) modell feltételeit Az is látható, hogy az A faktorsúly-mátrix sorainak tetsz®leges elforgatása után (azaz az AO transzformáció után is, ahol O k × k -as ortogonális mátrix) faktorsúly-mátrix marad a (5.2) modellben 5.1 115 ELMÉLETI HÁTTÉR Még adott k esetén is nehéz megtalálni a (5.3) felbontást Az egyértelm¶ség kedvéért szokás ezen kívül még további kényszerfeltételeket tenni az A mátrixra. Például többdimenziós normális eloszlású X, e, e esetén a k -faktor modell paramétereinek maximum likelihood becslését keresve fel szokták tenni, hogy a C kovarianciamátrix nem-szinguláris, az AT D−1 A (5.4) mátrix pedig diagonális, diagonális elemei különböz®ek, és nem-csökken® sorrendbe vannak rendezve. Ez a feltétel bizonyos egyértelm¶séget biztosít a faktorok maximum likelihood becsléséhez, és a
számolásokat is egyszer¶bbé teszi A faktorok számát, k -t kicsire célszer¶ választani. Kérdés azonban, hogy milyen k < p természetes számokra írható le az n-dimenziós X véletlen vektor a k -faktor modellel. Ehhez számoljuk össze a (53) modell paramétereit: A- ban és D -ben összesen pk + p ismeretlen paraméter van, a (5.4) kényszerfeltétel 2 azonban a diagonálison kívüli elemek 0 voltára vonatkozón (1/2)(k − k) = (1/2)k(k − 1) egyenletet jelent (ez megegyezik a k × k -as forgatások szabad paramétereinek számával). Alapvet®en pedig van (1/2)p(p+1) egyenletünk (a C kovarianciamátrix különböz® elemei a szimmetria miatt). A felírható egyenletek és a szabad paraméterek számának különbsége: s = (1/2)p(p + 1) + (1/2)k(k − 1) − (pk + p) = (1/2)(p − k)2 − (p + k). Általánosságban s ≤ 0 esetén várható az egyenlet algebrai megoldásának létezése. Ekkor k ≥ (2p + 1 − √ 8p + 1)/2. (5.5) A faktormodell
identikálhatóságán azt értjük, hogy rögzített k esetén egyértelm¶en meg tudjuk adni D-t és A-t. 110. Tétel Adott k < p természetes szám esetén a (53) egyenlet pontosan akkor oldható meg, ha van olyan p × p-s diagonális D mátrix (f®diagonálisában nemnegatív elemekkel), hogy a C − D mátrix pozitív szemidenit és rangja nem nagyobb k -nál. A tétel valójában a C − D mátrix spektrálfelbontásából következik. A faktorok (5.4) melletti maximum likelihood becsléséhez legyen X ∈ Np (m, C), e ∈ Nk (0, Ik ) és e ∈ Np (0, D). Jelölje Ĉ az X-re vett n-elem¶ mintából számolt empirikus kovarianciamátrixot. Ezekkel a likelihood függvény logaritmusa 1 1 − n log |C| − ntrC−1 Ĉ + c 2 2 lesz, ahol c konstans (l. hyperref több dim gauss parmeter ML becslése, csak ott az S jelölést használtuk az empirikus kovarianciamátrix n-szeresére: S = nĈ). T Ezekkel a likelihood függvény logaritmusa a (5.3)-beli C = AA + D
modellegyenlet miatt A és D függvényének tekinthet®, és ezekben kell maximalizálni Könnyen látható, hogy a feladat ekvivalens az F (A, D) = log |AAT + D| + tr(AAT + D)−1 Ĉ függvény minimalizálásával. 116FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS 5.2 Feladatok 1. Legyen X egy d-dimenziós vektorváltozó és Y a hozzá tartozó f®komponensvektor Adjuk meg Xi és Yj kovarianciáját! Tipp: Az általánosság megszorítása nélkül feltehet®, hogy E(X) = 0, a továbbiakban, amikor ennek értelme van ezt mindig feltesszük. Ismeretes n ⊤ hogy Y = U X, ahol U{uij |i = 1, j = 1 } az X véltelen vektor C = {cij |ni=1, j=1 } kovarianciamátrixának C = UΛU⊤ spektrálel®állításában szerepl® ortonormált mátrix. Eszerint Yj = n ∑ ukj Xk és így E(Xi · Yj ) = k=1 n ∑ ukj E(Xi Xk ) k=1 Válasz: E(Xi · Yj ) = n ∑ ukj cik k=1 ( 2. Legyen X ∼ N2 (0, C), ahol C = 1 ρ ρ 1 ) , ahol 0 < ρ < 1.
Adjuk meg a f®komponenseket és a f®komponensvektor kovarianciamátrixát! Tipp: Az el®z® feladat Útmutatásában szerepl® deníciók alapján meg kell keresni a C matrix 2 sajátértéket, és a hozzájuk tartozó 1 normáju sajátvektorokat, melyekb®l öszzeáll az U mátrix. Válasz: √ ( ) 2 1 1 2 −1 1 ( ) 1+ρ 0 Y = U⊤ X, Cov(Y) 0 1−ρ λ1 = 1 + ρ, λ2 = 1 − ρ U = Megjegyezzük, hogy ρ > 0 esetén a fenti mátrixok a kanonikus (a sajátértékek csökken® sorrendjnek megfelel®) mátrixok. 3. Legyen X ∼ Nd (0, C), ahol C diagonális mátrix f®átlójában különböz® (pozitív) értékekkel. Adjuk meg a f®komponensvektort! Tipp: Ha a C mátrix diagonális, akkor a f®komponensanalízis feladata a f®komponensek sorrendjét®l eltekintve megoldott. Válasz: Yi = Xπ(i) , ahol π az a permutáció, amely a C matrix sajátértékeit nemnövekv® sorrendbe rendezi. 4. Legyen X ∼ Nd (0, C), ahol C f®diagonálisának minden eleme 1, minden más
eleme r valamely 0 < r < 1 számra. (a) Adjuk meg X els® f®komponensét! (b) Adjuk meg a f®komponensek szórásnégyzeteit! 5.2 117 FELADATOK Tipp: Ez a feladat a 2. feladat általánosítása, a C sajátértékei: 1 + (d − 1)r, 1√− r, . , 1 − r, Az 1 + r (maximális sajátértékhez tartozó) sajátvekd ⊤ tor: d (1, . , 1) , és mivel a maradék d − 1 sajátérték egyenl® a többi sajátvektor nincs (így az U mátrix és Y1 -en kívül a többi f®komponens sincs) egyértelm¶en meghatározva. √ ∑ n Y1 = dd j=1 Xj . A f®komponensek szórásnégyzetei a Tippben megadott sajátértékek. Válasz: ( 5. Legyen X ∼ N2 (0, C), ahol C = λ1 0 0 λ2 ) . Adjunk maximum likeli- hood becslést C sajátértékeire! Tipp: Az X vektor két komponense (X1 , X2 ) két fuüggetlen normális eloszlású 0 várható érték¶ valószín¶ségi változó ezért λ1 és λ2 M-L becslése a komponensek alapján meghatározhatók, a skalár
valószín¶ségi változók esetében szokásos módon. Válasz: λ̂j = n1 ∑n 2 k=1 Xj k (j = 1, 2) Itt n a mintaelemeszám. n 6. A f®komponensanalízis egy módosított változatában az R = ri j |i j=1 d×ds korrelációs mátrixból indulunk ki (a) Mutassuk meg, hogy ezzel a módszerrel más megoldást kapunk, mint a kovarianciamátrixot használó modellben! (b) A Kaiser-kritérium azon sajátvektorokkal konstruált f®komponenseket választja, amelyekhez tartozó sajátérték legalább a sajátértékek átlaga. Igazoljuk, hogy tetsz®leges nemszinguláris korrelációs mátrix sajátértékeinek átlaga 1! (c) Tegyük fel, hogy a korrelációs mátrix minden eleme nagyobb mint 1− ε. Adjunk ε-tol olyan alsó becslést a legnagyobb sajátértékre, amely tart d-hez, mid®n ε 0 (egy nagy és sok kis szórású f®komponens van)! (d) Tegyük fel, hogy a korrelációs mátrix sajátértékei a legnagyobb kivételével kisebbek mint ε. Adjunk ε-tol olyan alsó
becslést korrelációk minimumára, amely tart 1-hez, mid®n ε 0 Tipp: (a) Elegend® észrevenni azt, hogy a korrelációs mátrix független az X komponenseinek átskálázásától, míg a kovariancia mátrix függ ett®l, megváltoztathatja a sajátértékek sorrendjét, az Xj valószín¶ségi változók együtthatóit az Yi f®komponensekben. (b) Ismeretes, hogy a mátrix nyoma független attól, hogy a mátrix által deniált operátort milyen koordináta rendszerben felírt mátrixszal adjuk meg, így R sajátértékeinek összege d, átlaga 1. 118FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS (c) Legyen ρ = min ri j , és írjuk fel a korrelációs mátrixot R = R1 + R2 alakban, ahol 1 ρ. ρ 1. R1 = . . . . . ρ ρ. ρ ρ . . . 1 alakú, míg mátrixot R2 f®átlójában 0-k, állnak, a többi eleme pedig nem nagyobb, mint ε. Alkalmazzuk R2 -ra a Gersgorin-tételt, az összegre pedig a
Weyl-perturbációs tételt (d) Tegyük fel, hogy R els® sora (r) = (1, r2 , . rd ) a legnagyobb sajátértékhez ⊤ tartozó sajatvektor pedig e(1, e2 , . ed ) (az általanosság korlátozása nélkül feltehetjük, hogy e els® koordinatája 1). Ekkor Re els® ko∑d ordinátája: 1 + j=2 rj ej A Schwartz-egyenl®tlenség miatt ez az összeg akkor maximális, ha ∀ j ej = rj , azaz a fenti összeg maxi∑d 2 muma: 1 + j=2 rj , ami a feltétel miatt angyobb, mint 1 − dε. Válasz: (a) Az Útmutató alapján nyilvánvaló. (b) Az Útmutató alapján nyilvánvaló. (c) d(1 − 2ε) becslést kapunk. (d) Mivel ∀ j |rj | ≤ 1, a Tippb®l következik, hogy nincs olyan j , amire rj2 < 1 − dε. Ugyanezt a meggondolás R minden sorára m¶ködik 7. Tekintsük az X = Af + e + m k -faktor modellt (X egy d-dimenziós vektorváltozó, A a d × k -as faktorsúlymátrix, f a k -dimenziós közös faktor Ik kovarianciamátrixszal, e d-dimenziós egyedi faktor D diagonális
kovarian⊤ ) = 0). ciamátrixszal, amelyre E(fe (a) Mutassuk meg, hogy ha i ̸= j , akkor Xi és ej korrelálatlanok! (b) Adjuk meg Xi változó és ei egyedi faktorkomponens kovarianciáját! (c) Adjuk meg Xi változó és fj közös faktorkomponens kovarianciáját! Tipp: ∑k ℓ=1 ai ℓ fℓ +ei Vegyük gyelemeb, hogy Efe a k × p-s azonosan 0 mátrix. (a) Az X vektorváltozó iedik koordinátája: Xi = (b) A (a) pont alapján Eei ej (c) Alkalmazzuk Xi (a) pontbeli felírásáat. Válasz: (a) Vegyük észre, hogy ej az Xi komponens Tippben kifejtett alakjában szerepl® minden taggal korrelálatlan, ha i ̸= j. 5.2 119 FELADATOK (b) A faktormodell deniciója alapján di j (c) A faktormodell deniciója alapján di j és a Tipp (a) pontja alapján ai j . 8. A faktoranalízis modelljében legyen A és B két p × k -s (p > k ) faktorsúly⊤ ⊤ mátrix, amelyekre AA = BB . Mutassuk meg, hogy ekkor van olyan G k × k méret¶ ortogonális mátrix, amelyre B =
AG. Tipp: Vegyük észre, hogy a p × p-s AA ⊤ és BB ⊤ . mátrixok teljesen k leírják a A és B mátrixok p darab k dimenziós sora által alkotott R térbeli alakzat geometriai struktúráját: a vektorok hosszait, és bármely két vektor által bezárt szöget. Tehát a két alakzat egybevágó Válasz: Bármely két Rk -beli egybevágó alakzat átvihet® egymásba egy k -dimenziós forgatással, és esetleg még egy tükrözés alkalmazasával. Ez eppen egy G ortonormált mátrixszal való szorzás; ha |G| = −1, akkor tükrözni is kell. 9. A faktoranalízis modelljének mátrixalakja C = AA ⊤ + D, ahol A egy d×k -s mátrix, D pedig egy d×d-s diagonális mátrix nemnegatív elemekkel. Tekintsük a d = 2 és k = 1 esetet! (a) Mikor van megoldása a fenti modellnek? (b) Adjunk maximum likelihood becslést A-ra és D-re! Tipp: (a) A modellben 4 paraméter van: a1 , a2 , d1 , d2 és 3 egyenlet: C1 1 = a21 + d1 C1 2 = a1 a2 (5.6) C2 2 = a22 + d2 , ezért ha
van megoldás az általában nem egyértelm¶. Honnan vesszük észre, hogy egy mátrix AA ⊤ alakú? A rangja 1, es nemnegatív denit, azaz bevezetve az a > 0 és az x paramétereket fennáll az a21 = a a1 a2 = xa (5.7) a22 = x2 a egyenletrendszer. Írjuk be a (56) egyenletrendszerbe a (57) egyenletrendszert, és oldjuk meg, feltéve, hogy d1 = 0 (b) Írjuk be az (a) pont megoldását a C mátrix M-L becslésébe. Válasz: 120FEJEZET 5. LINEÁRIS MÓDSZEREK 1: FKOMPONENSANALÍZIS, FAKTORANALÍZIS (a) A megoldás a-ra és x-re: a √ c1 1 c21 2 a2 = (a1 c1 2 )/c1 1 . Mivel a fentiekb®l következik, hogy d2 = c2 2 − c1 1 , c2 azaz amegoldhatosaág feltétele c2 2 > 1 2 . c1 1 (b) A C mátrix M-L becslése 5.3 Tesztek = c1 1 x = c1 2 /c1 1 , ezért a1 = 1 n S, ahol n a mintaelemszám. 6. fejezet Lineáris módszerek 2.: regresszióanalízis, a legkisebb négyzetek módszere 6.1 Elméleti háttér 6.11 Regresszióanalízis A többváltozós
regressziós problémában az Y valószín¶ségi változót (függ® vál- tozó) szeretnénk az X1 , . , Xp valószín¶ségi változók (független változók) függvényével közelíteni legkisebb négyzetes értelemben Amennyiben ismerjük az Y, X1 , . , Xp véletlen vektor együttes eloszlását (tegyük fel, hogy ez abszolút folytonos, az együttes s¶r¶ségfüggvényt jelölje f (y, x1 , . , xp )), akkor E(Y − g(X1 , . , Xp ))2 minimumát a p-változós g függvények körében Y -nak az X1 , . , Xp változók adott értéke mellett vett feltételes várható értéke szolgáltatja: ∫∞ gopt (x1 , . , xp ) = E(Y |X1 = x1 , , Xp = xp ) = ∫−∞ ∞ yf (y, x1 , . , xp )dy −∞ f (y, x1 , . , xp )dy , ezt nevezzük regressziós függvénynek. Adott f s¶r¶ségfüggvény mellett sem mindig triviális a fenti integrál kiszámolása, általában azonban f nem adott, csak egy statisztikai mintánk van a (m) (m) (m) függ® és független
változókra az (Y , X1 , . , Xp ), (m = 1, , n) független, (p + 1)-dimenziós meggyelések formájában. A legegyszer¶bb ilyenkor a fenti minimumot a lineáris függvények körében keresni, ezt nevezzük lineáris re- gressziónak. Erre az esetre vezethet® vissza olyan függvényekkel való közelítése Y -nak, amely az Xi változók lineáris függvényének monoton (például exponenciális, logaritmikus) transzformációja. Ilyenkor az inverz transzformációt alka121 122FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE 6.1 ábra Regressziós görbe becslése lmazva Y -ra, az így kapott új függ® változón hajtunk végre lineáris regressziót az eredeti független változók alapján. A másik érv a lineáris regresszió mellett az, hogy amennyiben Y, X1 , . , Xp együttes eloszlása (p + 1)-dimenziós normális, akkor a feltétele várható érték képzés valóban lineáris függvényt ad megoldásul (l. 17 Állítást,
es (61???) Feladatot) Térjünk rá a lineáris regresszióra. A legjobb Y ∼ l(X) = a1 X1 + · · · + ap Xp + b lineáris közelítést keressük legkisebb négyzetes értelemben, azaz minimalizálni akarjuk az E(Y − (a1 X1 + · · · + ap Xp + b))2 kifejezést az a1 , . , ap és b együtthatókban A megoldáshoz el®ször is szabaduljunk meg a várható értékekt®l, azok csak zavarnak a számolásban, a változók szórása, kovarianciája, mint látni fogjuk, nem változik meg ezáltal. Tehát legyen Y ′ = Y − EY, Xi′ = Xi − EXi , (i = 1, . , p), ezeknek az ún. centrált változóknak a várható értéke már 0 lesz Így célfüggvényünkön az E(Y − a1 X1 − · · · − ap Xp − b)2 = =E({Y ′ − a1 X1′ − · · · − ap Xp′ }+ +[EY − a1 EX1 − · · · − ap EXp − b])2 = =E(Y ′ − a1 X1′ − · · · − ap Xp′ )2 (6.1) 6.1 123 ELMÉLETI HÁTTÉR átalakítás végezhet® el, mivel EY − a1 EX1 − · · · − ap EXp
− b = 0. Ebb®l a b együtthatóra (ha ai -k már ismertek lennének) rögtön adódik, hogy b = EY − a1 EX1 − · · · − ap EXp , így b-vel a továbbiakban már nem foglalkozunk. Ezek után az Y ′ ∼ l(X′ ) = a1 X1′ + · · · + ap Xp′ lineáris közelítést keressük legkisebb négyzetes értelemben, azaz minimalizálni akarjuk az E(Y ′ − (a1 X1′ + · · · + ap Xp′ ))2 kifejezést az a1 , . , ap együtthatókban, feltéve, hogy E(Y E(Xp′ ) = 0. Ecélból a (6.2) ′ ) = E(X1′ ) = · · · = Ca = d T egyenletrendszert kell megoldani, ahol a = (a1 , . , ap ) , C jelöli az X válp tozó p × p-s kovarianciamátrixát, a d ∈ R vektor pedig az Y változónak X komponenseivel vett (kereszt)kovarianciáit tartalmazza. Ennek az egyenletrendszernek létezik egyértelm¶ megoldása, ha a C kovarianciamátrix invertálható, −1 tehát a = C d. A fenti közelítés maximalizálja korrelációt a következ® értelemben. Jelöljük ℓ(X) a fenti
lineáris regressziós feladat megoldását, es vezessük be a többszörös korrelációs együttható fogalmát. 111. Deníció Az Y független- és az X1 , , Xp függ® változók közötti többszörös korrelációs együtthatón Y és l(X) korrelációját értjük és rY (X1 ,,Xp ) -vel jelöljük. A p = 1 esetben a többszörös korrelációs együttható a függ®- és az egyetlen független változó közötti valódi korrelációs együttható. 112. Állítás Az X1 , , Xp valószín¶ségi változók tetsz®leges h(X) lineáris kombinációjára |rY (X1 ,.,Xp ) | = |Corr(Y, ℓ(X))| ≥ |Corr(Y, h(X))| Az alábbi ábrák egyváltozós esetben mutatják a becsléseket. 6.12 Legkisebb négyzetek módszere Legyenek x1 , . , xp mérési pontok, melyek beállíthatók (tehát nem valószín¶ségi változók), méréseink pedig ezek valamely ismeretlen a1 , . , ap paraméterekkel való lineáris kombinációira vonatkoznak, és mérési hibával terheltek.
Jelölje ε 124FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE 6.2 ábra Regressziós egyenes pozitív korreláció esetén 6.3 ábra Regressziós egyenes negatív korreláció esetén a mérési hibát, Y a mért értéket, ezek valószín¶ségi változók. Feltehet®, hogy E(ε) = 0. Modellünk tehát a következ®: Y = a1 x1 + · · · + ap xp + ε, 6.1 ELMÉLETI HÁTTÉR 125 6.4 ábra Regressziós egyenes függetlenn minta esetén 6.5 ábra Regressziós egyenes nagy korreláció esetén ami hasonlít a többváltozós regresszióéhoz, csak ott Xi -k valószín¶ségi változók. ∑p j=1 aj xj . T Célunk az ismeretlen a = (a1 , . , ap ) paramétervektor (oszlopvektor) legkisebb Itt E(Y ) = négyzetes becslése n mérés alapján (n ≥ p, általában n sokkal nagyobb, mint p). 126FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE Az i-edik mérés az (xi1 , . , xip ) p-dimenziós pontban
történik, a mért értéket jelölje Yi , a mérési hibát pedig εi , (i = 1, . , n) Vezessük be még a következ® jelöléseket is: Y := (Y1 , . , Yn )T , ε := (ε1 , . , εn )T n-dimenziós oszlopvektorok, az xij (i = 1, . , n; j = 1, , p) mérési pontokat pedig az n×p-s X mátrixban gy¶jtjük össze. X oszlopvektorait jelölje x1 , , xp ! Ezekkel a jelölésekkel a (4.1) rendszeregyenlet Y = Xa + ε alakban írható, ahol tehát E(ε) = 0, továbbá tegyük fel, hogy a mérési hibák korrelálatlanok (normális eloszlás esetén függetlenek) és azonos szórásúak, azaz ε kovarianciamátrixa σ 2 In alakú. Ekkor persze a mérések is korrelálatlanok, és ugyanaz a kovarianciamátrixszuk, mint ε-é: E(Y − Xa)(Y − Xa)T = EεεT = σ 2 In , ahol σ szintén ismeretlen paraméter, melyet majd a végén becsülni fogunk. Az a ismeretlen paraméter legkisebb négyzetes becslésén azt az a vektort értjük, amelyre a mérési hibák
négyzetösszege, n ∑ ε2i = ∥Y − Xa∥2 = (Y − Xa)T (Y − Xa) = (YT − aT XT )(Y − Xa) = i=1 = YT Y − aT XT Y − YT Xa + aT XT Xa minimális. A keresett a vektor az XT Xa = XT Y (6.3) A normálegyenleteket a geometriai szemlélet alapján is megkaphatjuk következ®kép2 nyilván akkor minimális a-ban, ha Xa az Y vektornak az F n altérre való mer®leges vetülete, ahol az F ⊂ R alteret X oszlopvektorai (az pen. ∥Y − Xa∥ x1 , . , xp vektorok) feszítik ki, dim(F ) = r ≤ p (tipikusan p-vel egyenl®, ha az xi vektorok lineárisan függetlenek). Jelölje P ennek az r -rangú ortogonális projekciónak az n × n-es mátrixát! Ezzel az optimális a-ra Xa = PY és Y = PY + (I − P)Y, azaz Y = Xa + (Y − Xa), ugyanis az Xa vektor az x1 , . xp vektorok lineáris kombinációja Mivel Xa ∈ F , Y−Xa pedig mer®leges F -re, ezért Y−X mer®leges F tetsz®leges vektorára, ami Xb alakú lesz valamely b ∈ R p vektorral. Így (Xb)T · (Y −
Xa) = 0, ∀b ∈ Rp . bT XT (Y − Xa) = 0, ∀b ∈ Rp . Ebb®l 6.1 127 ELMÉLETI HÁTTÉR Ez csak úgy lehetséges, ha XT (Y − Xa) = 0, azaz XT Y = XT Xa adódik, ami nem más, mint a (6.3) normálegyenlet A normálegyenlet mindig T T konzisztens, hiszen az X Y vektor benne van az X mátrix oszlopvektorai által T kifeszített altérben, és ugyanezt az alteret feszítik ki az X X mátrix oszlopai is. T A megoldás pontosan akkor egyértelm¶, ha az X X mátrix rangja r = p(≤ n), ilyenkor a megoldás â = (XT X)−1 XT Y alakban írható. A gyakorlatban általában az X T X mátrix invertálható. Az a vektornak a normálegyenlet megoldásaként kapott becslése torzítatlan, igaz a következ® állítás: 113. Állítás Ha r = p és ε ∼ Nn (0, σ 2 In ), akkor â ∼ Np (a, σ 2 (XT X)−1 ) A GaussMarkov-tétel szerint â minimális kovarianciamátrixú az a-ra vonatkozó lineáris, torzítatlan becslések között. 114. Tétel Legyen r = p és ã
az a paramétervektor tetsz®leges lineáris torzítatlan becslése Ekkor D2 (â) ≤ D2 (ã), 2 2 azaz a D (ã) − D (â) mátrix pozitív szemidenit. A σ 2 közös szórásnégyzet becsléséhez vezessük be a következ® jelölést: Sε2 := ∥Y − Xâ∥2 = (Y − Xâ)T (Y − Xâ), ezt a mennyiséget reziduális varianciának nevezzük. 2 A geometriai szemlélet (projekciók) alapján Sε a következ® alakban is írható: Sε2 = (Y − PY)T (Y − PY) = ((I − P)Y)T ((I − P)Y) = = YT (I − P)2 Y = YT (I − P)Y, 2 mivel I − P is egy projekció mátrixa, melynek rangja n − p. Ezért Sε az I36 Állítás a. része alapján el®állítható n − p db független, σ 2 varianciájú, normális 2 2 2 eloszlású valószín¶ségi változó négyzetösszegeként, így Sε ∼ σ χn−p , továbbá 2 2 E(Sε ) = σ (n − p). Ebb®l az is következik, hogy σ̂ 2 = Sε2 n−p 2 torzítatlan becslés σ -re. Megjegyezzük, hogy amennyiben az X mátrix
rangja r < p, a P projekció rangja is r, következésképpen σ̂ 2 = Sε2 n−r 128FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE a σ 2 paraméter torzítatlan becslése. Megjegyezzük, hogy ha a konstans tagot is becsüljük, akkor a nevez®ben n − r − 1 áll. Az alábbi animáció szemlélteti, hogy nagy szórás esetén egy pont mennyire változtatja meg a becslést. A H0 : a1 = · · · = an = 0 Nullhipotézis tesztelésére a likelihood-hányados próbát használjuk, ebben a szerencsés esetben a λn próbafüggvény az ismert (F(p, n − p)) eloszlású F = Y⊤ PY Y⊤ (I − P)Y · n−p p statisztikának szigorúan monoton függvénye. 6.2 Feladatok 1. Legyen (Y, X1 , , Xm ) ∼ N (0, C), ahol cii = 1 és c1i = ci1 = 1/m, C 2 minden más eleme 0. Adjuk meg az E((Y − g(X1 , , Xm )) )-et mininalizáló regressziós függvényt! Tipp: a meghatározásához ld. lineáris regresszió Válasz: l(X) = (X1 + . +
Xm )/m 2. Igaz-e, hogy ha X, Y véges szórású valószín¶ségi változók, valamint Y ∼ aX + b a legjobb lineáris közelítés négyzetes értelemben, akkor (a) r(X, Y ) = a · D(X) ? D(Y ) 2 2 (b) Tetsz®leges valós számokra E((Y −(aX +b)) ) ≥ (1−r(X, Y ))D (Y )? Tipp: Centráljuk az Y és X valószín¶ségi változókat: X ′ = E(X) Y ′ = Y − E(Y ). Ebb®l a modell alapján azonnal leolvasható, hogy ha a ismert, akkor b = E(Y ) − aE(X). Válasz: Mindkett® igaz. 2 3. Legyen (Y, X1 , , Xm ) ∼ N (m, C) Adjuk meg az E((Y −g(X1 , , Xm )) )et mininalizáló regressziós függvényt! Tipp: ℓ(x1 , . , xm ) azt a lineáris függvényt amely a lineáris − ℓ(X1 , . , Xm ))2 ) négyzetes eltérést. E((Y − ℓ(X1 , , Xm ))Xj ) = 0 minden j = 1, , m-re A 90 Állítás miatt ebb®l következik, hogy Y − ℓ(X1 , . , Xm ) független az Xj Jelölje függvények körében minimalizálja a E((Y valószín¶ségi változóktól.
Válasz: Alkalmazzuk a 16 és 17 Állításokat 6.2 129 FELADATOK X, Y véges szórású valószín¶ségi változók, valamint Y ∼ aX + b a legjobb lineáris közelítés négyzetes értelemben, akkor 4. Igazoljuk, hogy ha (a) r(X, Y ) = a · D(X) , D(Y ) 2 2 (b) Tetsz®leges valós számokra E((Y −(aX +b)) ) ≥ (1−r(X, Y ))D (Y ). Tipp: Centráljuk az Y és X valószín¶ségi változókat: X ′ = E(X) Y ′ = Y − E(Y ). (a) Ebb®l a modell alapján azonnal leolvasható, hogy ha a ismert, akkor b = E(Y ) − aE(X). (b) Ezek után az a paramétert becsülhetjükaz Y ′ ∼ aX ′ modell alapján. Válasz: (a) Az Útmutató (b) pontja alapján nyilvánvaló. (b) Ha a és b a becslés alapján kapott számok, akkor a kérdés (b) pontjában egyenl®ség áll, egybként pedig a Schwartz-egyenl®tlenség következménye. 5. Tekintsük az (X, Y ) véletlen vektort, az l1 (X) = aX + b (amelyre E((Y − l1 (X))2 ) minimális) és az l2 (Y ) = cY + d (amelyre E(X
− l2 (Y ))2 minimális) regressziós egyeneseket. Mikor teljesül, hogy c = 1/a? Tipp: Oldjuk meg a E(Y ) = a + E(X)bE(XY ) = E(X)a + [E(X)]2 b normálegyenletet, és ugyanezt az X ↔ Y szerepcserével. Válasz: Ha Cov(X, Y ) = ±1. 6. Legyenek x1 , , xn mérési pontok, továbbá Y1 , , Yn változók amelyek kielégítik a Yi = axi + b + ϵi , mérési hibák ϵ1 , . , ϵn ∼ N (0, σ 2 i = 1, . , n regressziós modellt, ahol a ) független valószín¶ségi változók. (a) Adjunk maximum likelihood becslést az (a, b, σ 2 ) paraméterre a Y minta segítségével! (Mi köze a kapott becslésnek a legkisebb négyzetek módszeréhez?) (b) Igazoljuk, hogy a és b fenti becslései pontosan akkor korrelálatlanok, ha x = 0. (c) Adjunk kondencia-intervallumot a-ra, ha b = 0 és σ ismert. (d) Konstruáljunk a H0 : a = a0 és H1 : a ̸= a0 hipotézisekhez ε ter2 jedelm¶ próbát, feltéve, hogy b és σ ismert! (e) Konstruáljunk likelihood-hányados próbát H0 :
a = a0 és H1 : a ̸= a0 2 hipotézisekhez, ha b = 0 és σ ismeretlen! 130FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE (f ) Konstruáljunk likelihood-hányados próbát H0 : a = a0 és H1 : a ̸= a0 2 hipotézisekhez, ha b és σ ismeretlen! (g) Hogyan ellen®rizhetjük a modell alkalmazhatóságát, azaz a mérési hibákra vonatkozó feltételek teljesülését? Tipp: Az egyszer¶bb írásmód kedvééert bevezetjük a következ® jelöléseket: X =(x1 , . , xn )⊤ Y =(Y1 , . , Yn )⊤ Továbbá írjuk fel a minta s¶r¶ségfüggvényét ismert a, b és σ 2 paraméterek mellett (Nota Bene: xi -k NEM valószín¶ségi változók): f (y1 , . , yn ) = 1 exp{− (2πσ 2 )n/2 ∑n i=1 (yi − axi − b) 2σ 2 2 } (6.4) (a) Írjuk fel a modell alapján az Y1 , . , Yn valószín¶ségi változók likelihood függvényének logaritmusát Az a és b paraméterek becslése éppen a lineáris modell (legkisebb négyzetek módszere)
alapfeladatának megoldása. Ezután alkalmazzuk a töbdimenziós M-L becslés paragrafusban tárgyalt módszert (b) Írjuk fel a normálegyenletet, ami ekkor két független egyenlet lesz a-ra és b-re, b̂ = Ȳ. Megforditva: oldjuk meg a normálegyenletet 2 (c) Az egyszer¶ség kedvéért tegyük fel, hogy σ = 1. A normálegyenlet ⊤ X Y ⊤ −1 megoldása: â = Ekkor â ∼ N (a, (X X) ). X⊤ X (d) Alkalmazzuk az u-próbát a (c) pont felhasználásával. (e) A próbafüggvényt két s¶r¶ségfüggvény hányadosaként kapjuk meg: 2 a számlálóban a minta s¶r¶ségfüggvényében a = a0 , b = 0 és σ ∑n 2 ugyanezen feltevések melletti S(ε, a0 , 0) = i=1 (yi −a0 xi ) /n beslése 2 áll, míg a nevez®beli s¶r¶ségfüggvényben a = â, b = 0 és σ ugyanezen ∑n 2 feltevések melletti S(ε, â, 0) = i=1 (yi − âxi ) /n becslése áll. Veg−n/2 yük észre, hogy az exponenciális faktor mindkét esetben e -vé egyszer¶södik. (f ) Hasonló a (d) ponthoz,
csak σ 2 becsleésében b = 0 helyett mind a számlálóban mind a nevez®ben b = b̂ áll. (g) Azt kell ellen®rizni, hogy az egyes reziduális epszilonok független azonos eloszlásúk-e. Ilyenkor autokovarianciát alkalmazunk, ami itt azt jelenti, hogy a rezidualis szórások indexeit 1-gyel eltoljuk és az eredeti valamint az eltolt vektor kovarianciáját számojuk. Válasz: (a) Az Útmutató alapján csak a σ 2 becslésére kell kitérni: Jelölje â, ilb̂ ∑ az a, illetve b paraméterek M-L becsléseit továbbá legyen n S(ε) = i=1 (Yi − âxi − b̂)2 reziduális szórásnégyzet. A σ 2 M-L becslése S(ε)/n letve 6.2 131 FELADATOK (b) Az egyik irány várható érték képzéssel adódik a Tippb®l. A másik irány abból következik, hogy a normálegyenlet megoldásaként (l. (c) pont) számított Cov(â, b̂) = cx̄, ahol c ̸= 0. (c) â ± √ 1⊤ Φ−1 (1 − ε/2). X X (d) Ha [ ] 1 1 −1 −1 â ̸∈ a0 − √ Φ (1 − ε/2), a0 + √ Φ
(1 − ε/2) . X⊤ X X⊤ X elvetjük a H0 hipotézist. (e) Az Útmutató alapján a λ(y1 , . , yn ) próbafüggvény az exonenciális tényez®k elött álló tényez®k hányadosa lesz: ( ∑n )n/2 2 i=1 (yi − âxi ) ∑ λ(y1 , . , yn ) = n 2 i=1 (yi − a0 xi ) (f ) (∑ λ(y1 , . , yn ) = n (yi − âxi − b̂)2 ∑ni=1 2 i=1 (yi − a0 xi − b̂) )n/2 (g) 7. Tekintsük az Y = a⊤ x+ϵ regressziós modellt, ahol ϵ ∼ N (0, σ 2 ), σ 2 ismert értékre. Konstruáljuk meg a Neyman-Pearson alaplemma segítségével a H0 : a = a0 vs. H1 : a = a1 egyszer¶ alternatívához tartozó ε terjedelm¶ próbát! Tipp: Írjuk fel a feladatban szerepl® modellt koordinátánként. Yi = d ∑ aj xi j j=1 Írjuk fel a minta s¶r¶ségfüggvényeit ismert a0 , (a1 ) és σ 2 paraméterek mellett: f0 (y1 , . , yn ) = 1 exp{− (2πσ 2 )n/2 1 f1 (y1 , . , yn ) = exp{− (2πσ 2 )n/2 ∑n i=1 (yi − ∑n i=1 (yi − ∑d j=1 a0,j xi j ) 2σ 2 ∑d
j=1 a1,j xi j ) 2σ 2 2 } 2 } Tegyünk két észrevételt. (a) f1 /f0 hányados kitev®jében csak a tag konstansszorosa szerepel. ∑n i=1 yi ( ∑d ∑d j=1 a1,j xi j − j=1 a0,j xi j ) 132FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE (b) Mivel az els®fajú hiba rögzitett a feladat valójában nem más mint ∑d 2 u-próba szerkesztése j=1 a0,j xi j várható érték¶ σ szórásnégyzet¶ normális eloszlásra n minta alapján. Válasz: Ha ∑d j=1 a1,j xi j > ∑d j=1 a0,j xi j akkor a kritikus tartomány { } ∑d √ Ȳ − j=1 a0,j xi j −1 n > Φ (1 − ε) σ 8. Tekintsük az Y = a1 x1 + . + ad xd + b + ϵ regressziós modellt és a H0 : a1 = . = ad = 0 hipotézist tesztel® regresszióanalízist ∑n ∑n ∑n 2 2 (a) Legyen Q = i=1 (Yi − Y ) , Qr = i=1 (Ŷi − Y ) és Qe = i=1 (Ŷi − 2 Yi ) , ahol Ŷi = â1 xi,1 + . + âd xi,d + b̂ Igazoljuk, hogy Q = Qr + Qe (b) Jelölje Rn a
többszörös korrelációs együttható becslését. Mutassuk Qr 2 meg, hogy Rn = Q . (c) Igazoljuk, hogy a próbastatisztika F = (n−d−1)R2 (n−d−1)Qr = d(1−R2 ) n alakokdQe n ban is felírható! (d) Vessük össze a regresszióanalízist a korrelációs együtthatókra vonatkozó tesztekkel! Indokolt-e a regresszióanalízist függetlenség tesztelésére használni? Tipp: Válasz: −1 9. Vessük össze a lineáris regresszió megoldását (a = C d, ha a várható értékek 0-k) a determinisztikus változók esetén kapott megoldással (â = (X⊤ X)−1 X⊤ Y)! Tipp: Válasz: Vegyük észre, hogy (XX⊤ ) éppen C M-L becslése. 10. Igazoljuk, hogy X ⊤ X pontosan akkor nemszinguláris, ha X oszlopvektorai lineárisan függetlenek. Tipp: Lehetne hivatkozni lineáris algebrai tételekre, de a legkisebb négyzetek módszerének témaköréhez tartozó egyszer¶ meggondolás is célravezet®. Válasz: A legkisebb négyzetek módszerének geometriai
interpretációja következ®: Keressük az Y vektornak az X mátrix oszlopvektorai által kifeszített térre való mer®leges vetületét. Ez a vetület pontosan akkor fejezhet® ki egyértelm¶en ezen vektorok lineáris kombinációjával, ha lineárisan függetlenek. A normálegyenlet egyértelm¶ megoldhatóságanak pedig éptop pen az a szükséges és elegséges felétele, hogy az XX mátrix nemszinguláris. 6.3 133 TESZTEK 11. Tekintsük a következ® multiplikatív modellt: Y = bX1a1 ·. ·Xkak Vezessük vissza a lineáris modellre, és adjunk becslést a paraméterekre a módosított modellben a legkisebb négyzetek módszerével! Más becslést kapnánk-e, ha a legkisebb négyzetek módszerét közvetlenül az eredeti modellre alkalmaznánk? Tipp: Az eredeti modell helyett tekintsük az alábbi logaritmikus modellt: log Y = log b + a1 log X1 + . + ak log Xk Válasz: A feladat elo® részének megoldásat tartlamazza a Tipp, a második részre a válasz,
IGEN, mas becslést kapnánk, ez ellen®rizhet® a b = 0, a2 = 0, . , ak = 0 modellen két mintaelem esetén k 12. Polinomiális regresszió esetén a modell Y = b + a1 X + + ak X alakú i A megoldást úgy keresik, hogy az X = Xi valószín¶ségi változókat formálisan függetleneknek tekintik és megoldják a rájuk vonatkozó többi j változós lineáris regresszió feladatát. Viszont X és X általában nem független változók. Okoz-e ez problémát a megoldás egyértelm¶sége tekintetében? Miért? Tipp: Írjuk fel a modellhez tartozó normálegyenlet mátrixát a várható érték képzés el®tt, pl k = 2-re: R ( 1 X X2 ) Ez a mátrix a egy valószín¶séggel 1-rangú, amib®l nem következik, hogy a várható érték vétel után is 1-rangú marad. Válasz: valójában nem okoz problémát, mert Y -t az X Hermitepolinomjaival is közelíthetjük (ezek éppen a Gauss-s¶r¶ségre nézve ortogonális polinomok, amelyekb®l az X hatványai egyértelm¶en
visszaszámolhatók) és ebben a sémában a normálegyenlet mátrixa diagonalis lesz! Mármost ez túl megy a zaróvizsga tételeken!!!!! 6.3 Tesztek 134FEJEZET 6. LINEÁRIS MÓDSZEREK 2: REGRESSZIÓANALÍZIS, A LEGKISEBB NÉGYZETE 7. fejezet Lineáris módszerek 3.: Egy- és többszempontos varianciaanalízis 7.1 Elméleti háttér A varianciaanalízis speciális lineáris modelleket vizsgál, kísérlettervezésben és min®ségellen®rzésben felmerül® hipotézisek tesztelésére. A tekintett modellek specikuma az, hogy a legkisebb négyzetek módszerénel alkalmazott modellben a beállítható mérési pontok mátrixa helyett 0-1 elemekb®l álló ún. struk- túramátrixszal dolgozunk, amelyet úgy állítunk össze, hogy bizonyos meggyelések csak bizonyos paraméterekt®l függjenek. A hipotézisek vizsgálata is a likelihood hányados próba analógiájára történik. Gyakorlati alkalmazásokban olyan mintákat vizsgálunk, melyeket különböz®
körülmények közt gyeltünk meg, és célunk éppen annak a megállapítása, vajon ezek a körülmények jelent®sen befolyásolják-e a mért értékeket. Tehát mintánkat eleve csoportokba osztottan kapjuk, feltesszük azonban, hogy a különböz® csoportokban felvett minták egymástól függetlenek, normális eloszlásúak és azonos szórásúak. A Tananyagban csak az egyszempontos varianciaanalízissel és a kétszempontos varianciaanalízis interakciót tesztel® változatával foglalkozunk, ugyanis az interakció nélküli kétszempontos varianciaanalízis csak formálisan bonyolultabb az egyszempontosnál, de új jelenséget nem vizsgál. 7.11 Egyszempontos varianciaanalízis Valamilyen szempont alapján (például különböz® kezelések) k csoportban külön végzünk meggyeléseket. Az egyes csoportokban a mintaelemek száma általában ∑k nem egyenl®: jelölje ni az i. csoportbeli mintaelemek számát, n = i=1 ni pedig 2 az összminta elemszámát. Az i
csoportban az Xi ∼ N (bi , σ ) valószín¶ségi 135 136FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI változóra vett mintaelemeket Xij ∼ N (bi , σ 2 ), (j = 1, . , ni ) jelöli. Ezek egymás közt és különböz® i-kre is függetlenek, azonos szórásúak A várható értékekre a bi = m + ai felbontást alkalmazzuk, ahol m a várható értékek súlyozott átlaga, ai pedig az i. csoport hatása: 1∑ ni b i , n i=1 k m= Könnyen látható, hogy ai = bi − m (i = 1, . , k) k ∑ ni ai = 0. (7.1) i=1 Ezekkel a jelölésekkel az egyszempontos modell Xij = m + ai + εij (j = 1, . , ni ; i = 1, , k) alakban írható, ahol az εij ∼ N (0, σ 2 ) független valószín¶ségi változók véletlen hibák. Lineáris modellr®l van szó, hiszen ha meggyeléseinket az Y := (X11 , . , X1n1 , X21 , , X2n2 , , Xk1 , , Xknk )T ε := (ε11 , . , ε1n1 , ε21 , , ε2n2 , , εk1 , , εknk )T ∑k i=1 ni
= n-dimenziós vektorban, ai paramétereinket pedig az a = (a1 , . , ak ) vektorban helyezzük el, akkor az (5.2) modell az T Y =B·a+1·m+ε n alakban írható, ahol 1 ∈ R az azonosan 1 koordinátájú vektor, B pedig az alábbi (7.2) alakú struktúramátrix: B= 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 (Ebben a példában k = 3, n1 = 3, n2 = 4 és n3 = 5.) (7.2) 7.1 137 ELMÉLETI HÁTTÉR Látható, hogy rangB = k , az oszlopok által kifeszített k -dimenziós alteret jelölje F ; nyilván 1 ∈ F . A paramétereket közvetlenül a legkisebb négyzetek módszerével becsüljük, azaz keressük a ni k ∑ ∑ ε2ij = ni k ∑ ∑ (Xij − m − ai )2 (7.3) i=1 j=1 i=1 j=1 kifejezés minimumát az m, a1 , . , ak paraméterekben az (71) kényszerfeltétel mellett. Vezessük be a
csoportátlagokra ill a teljes mintaátlagra az i 1 ∑ X̄i. = Xij ni j=1 i 1 ∑∑ X̄. = Xij n i=1 j=1 n k (i = 1, . , k) ill. n jelöléseket! Könnyen látható, hogy a paraméterek legkisebb négyzetes becslései m̂ = X̄. és âi = X̄i. − X̄ (i = 1, . , k) lesznek. Ugyanis m helyébe a nyilvánvaló X̄ -ot írva az (73) kifejezés minimuma kereshet® az egyes ai -kben külön-külön csak a küls® szumma i-edik tagjában álló négyzetösszeg minimalizálásával , hiszen ai becslése csak az Xij , j = 1, . , ni mintaelemekt®l függ (i = 1, , k), és a Steiner-tétel alapján a fenti lesz. (A szélsh®érték számítás módszereivel ellen®rízhet® a fenti heurisztikus számolás helyessége.) A minimum értéke Qe = ni k ∑ ∑ (Xij − m̂ − âi )2 = ni k ∑ ∑ i=1 j=1 (Xij − X̄i. )2 i=1 j=1 2 lesz. A Legkisebb négyzetek módszere paragrafus jelöléseivel Qe az Sε reziduális variancia. Az alább taglalandó
vetítéssel Qe a mer®leges komponens hosszának a négyzete, míg a vetület hosszának négyzete: Qa = ∥Bâ∥2 = ni ∑ ni â2i = i=1 k ∑ ni (X̄i. − X̄ )2 i=1 Ebben az egyszer¶ esetben minden projekciót pontosan leírunk. A Qe kvadratikus alakot deniáló projekció A mátrixa, amellyel Qe = YT AY, a következ® szimmetrikus, idempotens mátrix: A1 0 A= . 0 0 A2 . 0 . 0 . 0 , . . Ak 138FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI ahol az Ai diagonális blokkok: 1 − n1i 1 − ni Ai = . − n1i − n1i . − n1i 1 − n1i . − n1i . . − n1i . 1 − n1i (i = 1, . , k) n alakúak, és az A projekció az F altér R -beli ortogonális kiegészít® alterére vetít. Rangja n − k A Qa kvadratikus alakot deniáló Qa = YT PY P
projekció az 1 ∈ Rn vektornak az F altérbeli ortogonális kiegészít® alterére vetít, rangja k − 1. A Q = Qa + Qe kvadratikus alaknak megfelel® projekció itt most nem In , hanem A + P = In − 11T , n amely az 1 vektor R -beli ortogonális kiegészít® alterére vetít. A gyakorlati alkalmazók terminológiájával élve: a fenti kvadratikus alakok segítségével a mintaelemek teljes mintaátlagtól vett eltéréseinek négyzetösszega (Q) felbomlik csoportok közötti (between, Qa ) ill. csoportokon belüli (within, Qe ) részre a következ®képpen: Q= ni k ∑ ∑ (Xij − X̄. )2 = i=1 j=1 = ni k ∑ ∑ = [(Xij − X̄i. ) + (X̄i − X̄ )]2 = i=1 j=1 (Xij − X̄i. ) + 2 i=1 j=1 k ∑ ni k ∑ ∑ ni (X̄i. − X̄ )2 + i=1 ni k ∑ ∑ (X̄i. − X̄ )2 = i=1 j=1 ni k ∑ ∑ (Xij − X̄i. )2 = Qa + Qe , i=1 j=1 és ezt a felbontást a projekciók ismerete nélkül, viszonylag egyszer¶ számolással 2 is megkaphattuk volna, miután a [. ]
négyzetreemelésnél kihasználható, hogy a kétszeres szorzatok összege 0. A fenti felbontásokat az alábbi ún. ANOVA (ANalysis Of VAriances) táblázat- 7.1 139 ELMÉLETI HÁTTÉR ban foglaljuk össze. A szóródás oka Négyzetösszeg Csoportok között Q = ∑k n (X̄ − X̄ )2 a i. . i=1 i ∑k ∑ni (Xij − X̄i. )2 Csoportokon belül Qe = i=1 j=1 ∑k ∑ni Teljes Q = i=1 j=1 (Xij − X̄. )2 Empirikus fok szórásnégyzet k−1 Qa s2a = k−1 n−k Qe s2e = n−k n−1 - A fenti modellben el®ször az m = 0 hipotézist teszteljük. Ha ezt elutasítjuk (az összes várható érték nem 0, azaz van ún. f®hatás), akkor a H0 : a1 = · · · = ak = 0, hipotézist vizsgáljuk. A tömören a=0 A legkisebb négyzetek módszere paragrafusban leír- takhoz hasonlóan látható, hogy a likelihood-hányados statisztika a Qa /Qe hányados monoton fogyó függvénye (ez a hányados annál
nagyobb, minél nagyobb a csoportok közötti variancia a csoportokon belülihez képest, ami ellentmond H0 -nak). A Qe -ben szerepl® lineáris kifejezések mindegyikének várható értéke 0, ugyanis a csoportokon belül a várható értékek egyenl®ek a mintaátlag várható értékével: E(Xij − X̄i. ) = E(Xij ) − E(X̄i ) = ai − ai = 0, (i = 1, . , k) akár igaz H0 , akár nem. Tehát az I36 Állítás a része értelmében Qe ∼ σ 2 2 χ (n− k). A Qa -ben szerepl® lineáris kifejezések várható értéke: 1∑ nj aj n j=1 k E(X̄i. − X̄ ) = E(X̄i ) − E(X̄ ) = ai − (i = 1, . , k) , amely csak akkor lehet minden i-re 0, ha H0 fennáll. Ezesetben szintén az I36 2 2 Állítás a. része miatt Qa ∼ σ χ (k − 1), és az el®bbi állítás b része alapján Qe és Qa függetlenek (megjegyezzük, hogy csak a null-hipotézis fennállása esetén 2 lesz Qa centrális χ -eloszlású). Így bevezetve az s2a = Qa k−1 ill. s2e = Qe n−k
2 kifejezéseket, ezek azonos (σ ) szórásúak, függetlenek, hányadosuk pedig fenállása esetén F -eloszlást követ k − 1 ill. n − k szabadsági fokkal: F = Szabadsági s2a Qa n − k = · ∼ F(k − 1, n − k), s2e Qe k − 1 H0 140FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI és ez az F is szigorúan monoton csökken® függvénye a likelihood hányados statisztikának. Megjegyezzük, hogy a a fenti F statisztika levezethet® a likelihood hányados próba alkalmazása és a vetítések felírása nélkül is. 7.12 Többszempontos varianciaanalízis interakcióval Itt is két különböz® szempont alapján kialakított k · p csoportban végzünk meggyeléseket, de cellánként több (mondjuk minden cellában n) meggyelést. Az el®z® rész példájával élve: k féle technológiával p féle gépen gyártanak alkatrészeket és mérik azok
szakítószilárdságát. Itt azonban feltételezzük, hogy a kétféle szempont hatása nem független, (nem mindegy, hogy melyik gépen melyik gyártási technológiát alkalmazzuk). Jelölje Xijl az els® szempont alapján i-edik, a második szempont alapján pedig j -edik csoportban végzett l -edik meggyelést, példánkban az i-edik technológiával a j -edik gépen gyártott l -edik termék szakítószilárdságát (i = 1, . , k; j = 1, . , p; l = 1, , n) Tehát összmintánk elemszáma kpn. A mintaelemek függetlenek és Xijl ∼ N (m + ai + bj + cij , σ 2 ), azaz lineáris modellünk most a következ®: Xijl = m + ai + bj + cij + εijl , ahol az εijl ∼ N (0, σ 2 (i = 1, . , k; j = 1, , p) (7.4) ) független valószín¶ségi változók véletlen hibák. Itt ai - k jelölik az egyik, bj -k a másik tényez® hatásait, cij -k pedig az interakciókat. Feltesszük (m-be való beolvasztással elérhet®), hogy k ∑ ai = 0, i=1 k ∑ i=1 p ∑ p ∑ bj
= 0, j=1 cij = 0 (j = 1, . , p) cij = 0 (i = 1, . , k) j=1 A B struktúramátrix alakja most: és 7.1 141 ELMÉLETI HÁTTÉR B= 10 10 10 10 10 10 01 01 01 01 01 01 100 100 010 010 001 001 100 100 010 010 001 001 100000 100000 010000 010000 001000 001000 000100 000100 000010 000010 000001 000001 (7.5) (Ebben a példában k = 2, p = 3, és n = 2.) Az (7.4) modell az Y := (X111 , . , X11n , X121 , , X12n , , Xkp1 , , Xkpn )T ε := (ε111 , . , ε11n , ε121 , , ε12n , , εkp1 , , εkpn )T és az abc = (a1 , . , ak , b1 , , bp , c11 , , ckp )T jelölések, továbbá a B struktúramátrix segítségével az Y = B · abc + 1 · m + ε kpn lineáris modell alakját ölti, ahol 1 ∈ R az azonosan 1 komponens¶ vektor, l. (7.5) Jelölje F a B mátrix oszlopvektorai által kifeszített
alteret, míg Fa , Fb , és Fc jelölje rendre az eks® k a következ® p oszlop és az utolsó k · p oszlop által kifeszített alteret. Jelölje F B mátrix oszlopvektorai által kifeszített alteret, míg Fa , Fb , és Fc jelölje rendre az es® k a következ® p oszlop és az utolsó k·p oszlop által kifeszített alteret. Vegyük észre, hogy 1 ∈ Fa , 1 ∈ Fb és 1 ∈ Fc . Jelölje Fa1 illetve Fb1 az 1 vektor ortogonális kiegészít®jét Fa -ban illetve Fb -ben, továbbá Fcab az Fa és Fb által generált altér ortogonális kiegészít®jét Fc -ben, valamint Fe az F ortogonális n kiegészít®jét R -ben. Mivel az 1 vektort Fa Fb és Fc is tartalmazza: dim(Fa1 ) = k − 1, dim(Fb1 ) = p−1, dim(Fcab ) = kp−(k−1)−(p−1)+1 = (k−1)(p−1), és dim(Fe ) = kp(n−1). Jelölje az Fa1 -ra, Fb1 -re, Fcab -re és Fe -re vetít® projekciókat rendre Pa , Pb , Pc és Pe . A fentiek miatt In = 11T + Pa + Pb + Pc + Pe . El®ször a legkisebb négyzetek módszerével
megbecsüljük a paramétereket. Ehhez keressük a p ∑ k ∑ n ∑ i=1 j=1 l=1 ε2ijl = p ∑ k ∑ n ∑ i=1 j=1 l=1 (Xijl − m − ai − bj − cij )2 (7.6) 142FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI kifejezés minimumát az m, a1 , . , ak , b1 , , bp paraméterekben az (712) kényszerfeltételek mellett Vezessünk be néhány jelölést: 1 ∑∑ Xijl pn j=1 (i = 1, . , k) 1 ∑∑ Xijl kn i=1 (j = 1, . , p) p X̄i. = n l=1 k X̄.j = n l=1 1∑ Xijl n n X̄ij. = (i = 1, . , k; j = 1, , p) l=1 1 ∑∑∑ X̄. = Xijl . kpn i=1 j=1 k p n l=1 Ezekkel a paraméterek legkisebb négyzetes becslései: m̂ = X̄. , âi = X̄i. − X̄ (i = 1, . , k) , b̂j = X̄.j − X̄ (j = 1, . , p) , ĉij = X̄ij. − X̄i − X̄j + X̄ (i = 1, . , k; j = 1, . , p) , az (7.6) kifejezés minimuma pedig Qe = p ∑ k ∑ n ∑ (Xijl − m̂ − âi − b̂j − ĉij )2 i=1 j=1 l=1 lesz. Ha a Pa ,
Pb , Pc és Pe projekcóknak rendre az Y vektorral képzett Qa , Qb , Qc és Qe kvadratikus formák felelnek meg, akkor igaz a Q = Qa + Qb + Qc + Qe (7.7) varianciafelbontás, ahol a mintaelemek teljes mintaátlagtól vett eltéréseinek né- 7.1 143 ELMÉLETI HÁTTÉR gyzetösszegét (Q) felbontjuk a következ® ANOVA-táblázat szerint: A szóródás oka a-hatások b-hatások ab-interakció Véletlen hiba Négyzetösszeg Qa = pn Qb = kn Qc = n Qe = Q= Teljes ∑k i=1 (X̄i. − X̄ ) 2 ∑p 2 j=1 (X̄.j − X̄ ) ∑k ∑p 2 j=1 (X̄ij. − X̄i − X̄j + X̄ ) i=1 ∑k ∑p i=1 ∑k ∑n j=1 ∑p i=1 2 l=1 (Xijl − X̄ij. ) ∑n j=1 l=1 (Xijl − X̄. ) 2 Szabadsági Empirikus fok szórásnégyzet Qa 2 k−1 sa = k−1 Qb 2 p−1 sb = p−1 Qc 2 (k − 1)(p − 1) sc = (k−1)(p−1)
Q e kp(n − 1) s2e = kp(n−1) kpn − 1 - Miután az m = 0 hipotézist elutasítottuk, a fenti modellben háromféle nullhipotézist akarunk vizsgálni, az egyik és a másik szempont szerint megnézni, hogy a csoporthatások azonosak-e, továbbá, hogy interakciók léteznek-e. Az els® tényez® hatására vonatkozóan tehát vizsgáljuk a H0a : a1 = a2 = · · · = ak = 0 hipotézist (példánkban azt, hogy a gyártási technológia nincs hatással az alkatrész szakítószilárdságára). Ezzel párhuzamosan a második tényez® hatására vonatkozóan vizsgáljuk a H0b : b1 = b2 = · · · = bp = 0 hipotézist (példánkban azt, hogy a gyártó gép megválasztása nincs hatással az alkatrész szakítószilárdságára). Továbbá az interakciókra vonatkozóan vizsgáljuk a H0ab : cij = 0, (i = 1, . , k; j = 1, , p) hipotézist (példánkban azt, hogy a gyártó gép nem hat a gyártási technológiára). A Qe -ben szerepl®
lineáris kifejezések mindegyikének várható értéke 0. A Qa -ban szerepl® lineáris kifejezések várható értéke csak akkor lehet minden ire 0, ha H0a fennáll. Hasonlóan, a Qb -ben szerepl® lineáris kifejezések várható értéke csak akkor lehet minden j -re 0, ha H0b fennáll. A Qc -ben szerepl® lineáris kifejezések várható értéke pedig csak akkor lehet minden (i, j)-re 0, ha H0ab fennáll. Az (7.7) felbontásban a kvadratikus alakok rangja itt is összeadódik: kpn − 1 = (k − 1) + (p − 1) + (k − 1)(p − 1) + kp(n − 1). Így igazak az alábbi állítások: • e. Qe /σ 2 ∼ χ2 (kp(n − 1)), akár fennállnak a nullhipotézisek, akár nem 144FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI • a. H0a fennállása esetén Qa /σ 2 ∼ χ2 (k − 1) és független Qe -t®l • b. H0b fennállása esetén Qb /σ 2 ∼ χ2 (p − 1) és független Qe -t®l • c. H0ab fennállása esetén Qc /σ 2 ∼ χ2 ((k − 1)(p
− 1)) és független Qe -t®l Ezért nullhipotéziseink vizsgálatára a következ® statisztikákat használhatjuk. El®ször a kölcsönhatást, vagyis a H0ab hipotézist vizsgáljuk. Ennek fennálása esetén Fab = s2c ∼ F((k − 1)(p − 1), kp(n − 1)), s2e azaz, ha a fenti Fab statisztika értéke nagyobb vagy egyenl®, mint az F((k−1)(p− 1), kp(n − 1))-eloszlás (1 − α)-kvantilise, akkor H0ab -t 1 − α szinten elutasítjuk, vagyis elfogadjuk, hogy van kölcsönhatás a két szempont között, legalábbis bizonyos (i, j) indexpárokra. Ebben az esetben a H0a , H0b hipotéziseket nincs értelme vizsgálni. Amennyiben H0ab -t elfogadjuk, akkor a H0a és H0b hipotézisekt®l függetlenül Qc ∼ χ2 ((k − 1)(p − 1)) és független Qe -t®l. Így ezeket összeadhatjuk, és a σ 2 szórásnégyzetre most már a (k − 1)(p − 1) + kp(n − 1) = kpn − k − p + 1 szabadságfokú s̃2e = Qc + Qe kpn − k − p + 1 becslést kapjuk. Ezekután a H0a
hipotézis vizsgálatára az Fa = s2a s̃2e statisztikát használjuk, amely H0a fennállása esetén F(p − 1, kpn − k − p + 1)eloszlást követ. Hasonlóan, a H0b hipotézis vizsgálatára az Fb = s2b s̃2e statisztikát használjuk, amely H0b fennállása esetén F(k − 1, kpn − k − p + 1)eloszlású. Ha a H0a vagy/és H0b hipotézist elutasítjuk, akkor az el®z® pon- tokéhoz hasonlóan vizsgálhatjuk az a- vagy/és b-hatásokat ill. azok különbségét 7.2 Feladatok 1. Tekintsük az egyszempontos varianciaanalízis modelljében a paraméterek legkisebb négyzetek módszerével kapott becsléseit. (a) Mutassuk meg, hogy ezek maximum likelihood becslések! (b) * Számoljuk ki ezeket a becsléseket Lagrange-multiplikátor módszerrel! 7.2 145 FELADATOK Tipp: Lásd 4. feladat (a) pontját Válasz: Az Útmutató alapján nyilvánvaló. 2. Tekintsük az egyszempontos varianciaanalízis csoporthatás-vizsgálatát, ahol ∑k ∑ni ∑k Qe = i=1 j=1 (Xij −
X i· )2 és Qa = i=1 ni (X i· − X ·· )2 . (a) Mutassuk meg, hogy Qe /σ 2 ∼ χ2 (n − k)! (b) Igazoljuk, hogy H0 teljesülése mellett Qa /σ 2 nem teljesül, Qa nem χ eloszlású! 2 ∼ χ2 (k − 1), de ha H0 (c) Adjuk meg H0 mellett Qa és Qe várható értékét és szórásnégyzetét! Tipp: (a) A FisherCochran-tételhez f¶zött megjegyzeés a szabadságfokok heurisztikus számolásárol alapján itt a szabadságfok n−k , mert az n valószín¶ségi változót tartalmazo kvadratikus alakban k becsult paraméter van. (b) Ha H0 fennáll akkor (a) az pontbeli eredmény és FisherCochran tétel közvetlen következménye, míg ha nem teljesül, akkor Qa nem 0 várható érték¶ valószín¶ségi változók négyzetének összege. (c) A képletgy¶jtemény alapján számolunk Válasz: (a) Az Útmutató alapjaán nyilvanvaló. (b) Az Útmutató alapjaán nyilvanvaló. (c) EQa = (k − 1)/σ 2 D2 Qa = 2(k − 1)/σ 2 EQe = (n − k)/σ 2 D2 Qa = 2(n − k)/σ 2
3. Adjunk maximum likelihood becslést σ 2 -re az egyszempontos varianci- aanalízis modelljében! Torzítatlan lesz-e becslésünk? Tipp: Az el®z® feladatban szerepl® Qa és Qe független kvadratikus alakok alpajan számoljunk. Válasz: σ̂ 2 = (Qa + Qe )/n, ami torzított becslés. 4. Mutassuk meg, hogy az egyszempontos varianciaanalízis csoporthatásvizsgálata (a) likelihood-hányados próba! (b) a kétmintás t-próba általánosítása több mintára! Tipp: Valójában F-próba. Válasz: 146FEJEZET 7. LINEÁRIS MÓDSZEREK 3: EGY- ÉS TÖBBSZEMPONTOS VARIANCIAANALÍZI 5. Tekintsük az (X, Y ) vektorváltozót, ahol X normális eloszlású, Y pedig véges sok értéket felvev® diszkrét változó. Csoportosítsuk a mintát az Y értékei szerint. Alkalmazhatjuk-e az egyszempontos varianciaanalízist X és Y függetlenségének tesztelésére? Tipp: Vizsgáljuk meg milyen hipotézist tesztel a varianciaanalízis! Válasz: Csak a várható értékek azonos voltát
teszteli, nem a függetlenséget. 6. Tekintsük a kovarianciaanalízis modelljét és ebben egy n elem¶ mintát egy el®re tervezett hatás és egy kísér® változó esetén: Yi = bi a + di c + εi , ahol a, c paraméterek, bi -k tervezett hatások, di -k kísér® változók, εi ∼ N (0, σ 2 ), i = 1, . , n független hibák (a) Adjunk becslést a paraméterekre a legkisebb négyzetek módszerével! (b) Konsturáljunk likelihood-hányados próbát a H0 : c = 0 hipotézis tesztelésére! Tipp: Vegyük észre, hogy a feladat független a kovarianciaanalízis modelljét®l, egyszer¶ kétváltozós lineáris modellr®l van szó. (a) A n ∑ Yi bi = a i=1 n ∑ i=1 b2i + c n ∑ bi di i=1 n ∑ Yi di i=1 =a n ∑ bi di + c i=1 n ∑ d2i i=1 normálegyenletet kell megoldani. (b) A λ(y1 , . , yn ) próbafüggvény ( ∑n )n/2 (y − âbi − ĉdi )2 i=1 ∑n i λ(y1 , . , yn ) = 2 i=1 (yi − âbi ) alakú lesz (l. 64 feladat (e) pontját) Válasz:
Az Útmutatók alapján nyilvánvaló. 7. Tekintsünk egy mintát, amely teljesíti az alábbi modellt: Yi,j = axi,j + ci + εi,j , i = 1, . , r, j = 1, , ni , ahol c1 , , cr és a paraméterek, xi,j -k (deter2 minisztikus) kísér® változók, εi,j ∼ N (0, σ ) független hibák. (a) Adjunk becslést a paraméterekre a legkisebb négyzetek módszerével! (b) Mutassuk meg, hogy a fenti modell a kovarianciaanalízis egy modellje. Tipp: Válasz: 7.3 Tesztek 8. fejezet Kontingenciatáblák elemzése: diszkriminanciaanalízis, korrespondenciaanalízis, információelmélet 8.1 Elméleti háttér 8.11 Diszkriminanciaanalízis Jelen feladatban objektumokat szeretnénk a rajtuk végrehajtott többdimenziós meggyelések alapján el®re adott osztályokba besorolni. Például pácienseket klinikai- vagy pszichiátriai teszteredményeik alapján szeretnénk beteg- ill. kontrollcsoportba, vagy többféle betegcsoportba besorolni; vagy egy új egyedet mért értékei
alapján valamely ismert fajba akarunk besorolni. A módszert úgy kell elképzelni, hogy els® lépésben egy ún. tanuló-algoritmust hajtunk végre. Az objektumoknak kezdetben létezik egy osztálybasorolása Ezt úgy adjuk meg, hogy a meggyelt többdimenziós, folytonos eloszlású valószín¶ségi változó komponensein kívül bevezetünk egy, az osztálybatartozásra jellemz® diszkrét valószín¶ségi változót, mely annyiféle értéket vesz fel, ahány osztály van; ez utóbbit egy szakért® a mérésekt®l függetlenül állapítja meg. Az egyes osztályok adatai alapján diszkrimináló algoritmust készítünk, és megnézzük, hogy az algoritmus szerint melyik osztályba kerülnének eredeti objektumaink. Amennyiben a téves osztálybasorolások száma nem túl nagy, úgy tekintjük, hogy az algoritmus által adott diszkrimináló függvény a továbbiakban is használható az adott csoportok elkülönítésére. A tényleges osztályozás gyelembevételével
bevezetjük a következ®ket. Jelölje k az osztályok számát, továbbá a. jelölje az egyes osztályokhoz tartozó 147 p-dimenziós mintaelemek s¶r¶ség- 148FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP függvényét f1 (x), . , fk (x) (abszolút folytonos eloszlásokat feltételezünk); b. jelölje π1 , , πk az egyes osztályok a priori valószín¶ségeit; Az a.-beli s¶r¶ségeket osztályonként becsüljük a mintatákból, a b-beli a priori valószín¶ségek pedig lehetnek az egyes osztályok relatív gyakoriságai Így visszük bele tudásunkat az alábbi algoritmusba Ha már adva lenne a p-dimenziós mintatér egy X = X1 ∪ · · · ∪ Xk partíciója, akkor a x ∈ X mintaelemet akkor soroljuk a j -edik osztályba, ha x ∈ Xj . A cél az, hogy a legkisebb veszteséggel járó partíciót megkeressük. Ehhez jelölje rij ≥ 0 (i, j = 1, k) azt a veszteséget, ami akkor keletkezik, ha egy i-edik osztálybelit a j
-edik osztályba sorolunk (a veszteségek nem feltétlenül szimmetrikusak, de feltesszük, hogy rii = 0), és legyen Li az i-edik osztálybeliek besorolásának átlagos vesztesége (rizikója): ∫ Li = ∫ X1 ri1 fi (x) dx + · · · + Xk rik fi (x) dx, (i = 1, . , k), ahol összegeztük a veszteségeket azokra az esetekre, mikor az i-edik osztálybelit az 1., , k osztályba soroltuk Most nem az egyes Li veszteségeket, hanem az L= k ∑ πi Li i=1 átlagos Bayes-féle veszteséget (rizikót) minimalizáljuk. L= k ∑ i=1 πi k ∫ ∑ j=1 Xj rij fi (x) dx = k ∫ ∑ k ∑ Xj i=1 j=1 πi rij fi (x) dx = − k ∫ ∑ j=1 Xj Sj (x) dx, ahol az Sj (x) = −[π1 r1j f1 (x) + · · · + πk rkj fk (x)] függvényt j -edik diszkrimináló informánsnak nevezzük, és argumentumában az x mintaelem szerepel (j = 1, . , k) A negatív el®jel miatt Sj -k növekedése az átlagos veszteség csökkenését eredményezi, azaz a k ∫ ∑ j=1 Xj Sj (x)
dx kifejezést szeretnénk maximalizálni a mintatér összes lehetséges mérhet® partícióján. Célszer¶nek t¶nik tehát egy x mért értékekkel rendelkez® objektumot abba az osztályba sorolni, melyre diszkrimináló informánsa a legnagyobb értéket veszi fel. Ennek az eljárásnak a jogosságát a következ® tétel biztosítja 115. Tétel Legyen az X mintatér X1∗ ∪ · · · ∪ Xk∗ partíciója olyan, hogy x ∈ Xj∗ ból Sj (x) ≥ Si (x) következik az összes i ̸= j indexekre (j = 1, , k) Akkor az X1∗ , . , Xk∗ osztályozással az L átlagos veszteség minimális lesz 8.1 149 ELMÉLETI HÁTTÉR A tétel állítása az alábbi lemma közvetlen következménye. 116. Lemma Legyenek g1 , , gk Rp -n értelmezett valós függvények Legyen Rp = X1 ∪ · · · ∪ Xk a p-dimenziós euklideszi tér egy partíciója. Tegyük fel, hogy p ∗ ∗ az R = X1 ∪ · · · ∪ Xn partícióra teljesülnek a gi (x) ≥ gj (x), x ∈ Xi∗ ha ∀j ̸=
i; i = 1, . , k egyenl®tlenségek. Ekkor k ∫ ∑ i=1 gi (x) ≥ Xi∗ k ∫ ∑ Xi i=1 gi (x). (8.1) A Lemma bizonyítását egy ábra szemlélteti. p Jelölje IA (x) az A ⊂ R halmaz indikátorfüggvényét! A (8.1)-beli egyenl®tlenségek miatt k ∑ I Xi∗ (x)gi (x) = i=1 max i∈{1,.,k} gi (x) ≥ k ∑ IXi (x)gi (x). (8.2) i=1 A (8.1) egyenl®tlenség (82) integrálásával adódik Megjegyezzük, hogy az alkalmazásokban az optimális partíciót a (2.4) egyenl®tlenségek segítségével deniáljuk A partíció nem egyértelm¶, ha van olyan i ̸= j indexpár, hogy gi (x) = gj (x) egy nem-0 mérték¶ halmazon. Ilyenkor ezt ∗ ∗ a halmazt tetsz®legesen oszthatjuk fel Xi és Xj között. A gi (x) = Si (x) helyettesítéssel adódik a tétel állítása. Most néhány egyszer¶sít® feltevést vezetünk be. Ha az rij veszteségekre nincsenek adataink, és az összes téves besorolást egyformán akarjuk büntetni, akkor jobb híján az rij = 1 (i
̸= j) és rii = 0 választással élünk. Ezzel Sj (x) = − k ∑ πi rij fi (x) = − i=1 ∑ πi fi (x) = − k ∑ πi fi (x)+πj fj (x) = πj fj (x)+c, i=1 i̸=j ahol a c konstans nem függ j -t®l. Valójában tehát az x mért értékekkel rendelkez® objektumot az l osztályba soroljuk, ha πl fl (x) = max j∈{1,.,k} πj fj (x). Tegyük fel, hogy az egyes osztályoknak különböz® paraméter¶, p-dimenziós normális eloszlások felelnek meg. Azaz, ha X ∈ Np (mj , Cj ), akkor fj (x) = −1 T 1 1 e− 2 (x−mj ) Cj (x−mj ) . (2π)p/2 |Cj |1/2 Tekintsük az osztálybasorolás alapját képez® πj fj (x) mennyiségek természetes alapú logaritmusát, a logaritmus monoton transzformáció lévén ez ugyanarra a 150FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 8.1 ábra A mintatér felosztása diszkrimináló informánsokkal j -re lesz maximális, mint az eredeti kifejezés, s®t az összes j -re közös ln (2π)1p/2
t®l is eltekinthetünk. Az így kapott módosított j -edik diszkrimináló informánst Sj′ -vel jelöljük, és alakja miatt kvadratikus diszkriminancia szkórnak is szokás nevezni: 1 1 Sj′ (x) = − ln |Cj | − (x − mj )T C−1 j (x − mj ) + ln πj . 2 2 ′ Ha a kovarianciamátrixok azonosak: C1 = · · · = Ck = C, akkor Sj (x)-b®l a j - 8.1 ELMÉLETI HÁTTÉR 151 1 t®l független − ln |C| és a kvadratikus alak kifejtésében fellép®, j -t®l ugyancsak 2 1 T −1 x rész elhagyható, a maradék pedig x lineáris függvényeként független − x C 2 írható. Ezt nevezzük lineáris informánsnak: 1 Sj′′ (x) = mTj C−1 x − mTj C−1 mj + ln πj . 2 (8.3) ′′ Eljárásunk tehát a következ®: minden osztályra kiszámoljuk az Sj (x) értékét (j = 1, . k), és objektumunkat abba az osztályba soroljuk, amelyikre az Sj′′ (x) lineáris informáns értéke a legnagyobb. A 115 Tétel garantálja, hogy ekkor átlagos veszteségünk
minimális lesz Amennyiben csak két osztályunk van, objektumunkat az x meggyelés alapján ′′ ′′ az els® osztályba soroljuk, ha S1 (x) ≥ S2 (x), különben a másodikba. Azaz az ′′ ′′ S1 (x) − S2 (x) különbség el®jele fogja eldönteni az osztálybatartozást. De S1′′ (x) − S2′′ (x) = L(x) − c, ahol (8.3) alapján L(x) = (mT1 − mT2 )C−1 x és 1 c = (mT1 C−1 m1 − mT2 C−1 m2 ) − ln π1 + ln π2 . 2 A fenti L(x)-et Fisher-féle diszkriminancia függvénynek is szokták nevezni, és ennek alapján döntjük el az osztálybatartozást: ha L(x) ≥ c, akkor objek- tumunkat az els®, ha pedig L(x) < c, akkor a második osztályba soroljuk. Az L(x) lineáris kifejezésben az egyes xi változók együtthatói egyfajta súlyokként is szolgálnak, azok a változók fejtik ki a leger®sebb hatást a két csoport diszkriminálásában, amely a legnagyobb súllyal szerepelnek. Ha az átlagos veszteséget akarjuk minimalizálni, normális
eloszlású minták esetén a fenti eljárás keresztülvihet® az egyes osztályokban számolt empirikus kovarianciamátrixokkal és az osztályok relatív gyakoriságaival becsült apriori valószín¶ségek segítségével. Létezhetnek azonban ún látens osztályok (pl egy újfajta betegség, újfajta faj), ami ronthat a módszer alkalmazhatóságán. Szükség van ezért különféle hipotézisvizsgálatokra Pl két osztály esetén, az els® osztályba való besorolhatóság a T1 = [(m2 − m1 )T C−1 (X − m1 )]2 ∼ χ2 (1) (m2 − m1 )T C−1 (m2 − m1 ) (8.4) statisztikával, míg a második osztályba való besorolhatóság a T2 = [(m2 − m1 )T C−1 (X − m2 )]2 ∼ χ2 (1) (m2 − m1 )T C−1 (m2 − m1 ) (8.5) −1 (X − mj ) ∼ statisztikával tesztelhet®, ugyanis ha X ∼ Np (mj , C) , akkor C Np (0, C−1 ), (m2 − m1 )T C−1 (X − mj ) ∼ Np (0, (m2 − m1 )T C−1 (m2 − m1 )), s utóbbinak standardizáltja lesz a (8.4)- ill (85)-beli Tj
statisztika (j = 1, 2) 152FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 0.25 0.2 0.15 0.1 0.05 0 8.2 ábra Elméleti és empirikus diszkriminanciafüggvény 2 dimenzióban 2 Ha mind T1 , mind T2 szignikánsan nagyobb az 1-paraméter¶ χ -eloszlás adott (pl. 95%-os) kvantilisénél, akkor egy látens harmadik osztály jelenlétére gyanakodhatunk. Számítsuk most ki két p-dimenziós normális eloszlású, azonos C kovarianciamátrixú minta esetén a helytelen osztálybasorolások valószín¶ségeit! Az egyszer¶ség kedvéért legyen most két egyforma népesség¶ mintánk, azaz az apriori valószín¶ségekre a π1 = π2 = 1/2 feltételezéssel élünk. A számolást nem részletezzük, ebben az esetben a veégeredmény meglep®en egyszer¶: 8.1 153 ELMÉLETI HÁTTÉR Legyen σ 2 = (m1 − m2 )T C−1 (m1 − m2 ). (8.6) Ekkor mindkét típusú hibás osztálybasorolás valószín¶sége: ( P=1−Φ ) 1 σ . 2 Ez nem meglep®,
hiszen a (8.6) szerint σ annál nagyobb, minél távolabb vannak egymástól a két csoport standardizált" várható értékei A diszkrimináló informánsokban szerepl® paramétereket a mintából becsüljük, minél több a paraméter, annál pontatlanabb az egyes paraméterek becslése; azt is mondhatjuk, hogy a paraméterek a konkrét mintához vannak adaptálva. Ezért, ha az eljárás rizikóját a nem megfelel® osztályba sorolt egyedek száma alapján az alább ismertetend® módon becsüljük, a valódi veszteségfüggvénynél kisebb torzított becslést kapunk. E torzítás kivédésére alkalmazzák az ún cross-validation (kereszt-kiértékelés) módszert: a paramétereket a minta egy része (60% a szokásos hányad) alapján becsüljük, míg az osztályozás min®ségét a paraméterbecslésben fel nem használt mintaelemekkel teszteljük (40%). A torzítás csökkentésére Tukey [] javasolt egy szellemes általa jackknife-nak (bicskának) nevezett, nagy
számolásigény¶ módszert. Ezt a módszert az jezetben ismertetjuk 8.12 algoritmikus modellek fe- Korrespondanciaanalízis Ebben és a következ® paragrafusban minden eloszlás diszkrét és véges, ezt a továbbiakban külön nem említjük. A korrespondanciaanalízis kategórikus változók közti kapcsolatok elemzésére szolgál a változó-kategóriák metrikus megjelenítése alapján. Kategórikus, más néven kvalitatív változó alatt olyan diszkrét eloszlású valószín¶ségi változót értünk, amely véges sok értéket vesz fel, és az értékek általában nem nagyságrendet tükröznek, hanem csak a változó lehetséges értékeit kódolják (pl. a hajszín változó sz®ke, barna, fekete, vörös értékei az 1,2,3,4 számokkal kódolhatók). A Tananyagban csak két kategórikus változót vizsgálunk, az adatok kontingenciatábla (gyakoriság- vagy rekatív gyakoriságtábla) formájában vannak megadva. A probléma a következ®: az X és Y diszkrét
valószín¶ségi változók n ill. m különböz® kategóriát tartalmaznak, az egyszer¶ség kedvéért jelölje értékkészletüket az {1, 2, . , n} ill az {1, 2, , m} halmaz X és Y nem függetlenek, értékeiket nem specikáljuk, célunk éppen az értékek alkalmas megválasztása lesz. Egy közös meggyelésükre vonatkozó minta alapján adva van egy n × mes kontingenciatábla az fij ún. cellagyakoriságokkal (fij az X változó i-edik és az Y változó j -edik kategóriájába es® meggyelések számát jelenti). Legyen ∑n ∑m N = i=1 j=1 fij a meggyelések száma, ezzel callánként leosztva az rij = fij N (i = 1, . , n; j = 1, , m) relatív gyakoriságokhoz jutunk. Ezeket tekinthetjük a két diszkrét eloszlású valószín¶ségi változó (az egyik n, a másik m különböz® értéket vesz fel) együttes 154FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP eloszlásának, és R-rel jelöljük. Ugyancsak R
jelöli az rij számok alkotta n×m-es mátrixot. Jelölje pi = ri. (i = 1, . , n) ill. qj = r.j (j = 1, . , m) a peremeloszlásokat (azaz az egyes kategóriák valószín¶ségeit), ezeket röviden P nek ill. Q-nak fogjuk nevezni, az elemeiket f®diagonálisként tartalmazó n × n-es ill. m × m-es diagonális mátrixokat pedig P ill Q jelöli Célunk a kontingenciatáblának valamilyen alacsonyabb rangú táblával való közelíése. Ehhez a kanonikus korrelációanalízisnél leírtakhoz hasonlóan keresünk olyan, értékeiket a P - ill. Q-eloszlás valószín¶ségei szerint felvev®, egységszórású, páronként korrelálatlan valószín¶ségi változókat, ún. faktorokat úgy, hogy a megegyez® index¶ faktorok korrelációja maximális legyen Ilyen módon a kontingenciatábla el®áll a faktor valószín¶ségi változók értékei (szkórok) diádszorzatainak súlyozott összegeként. A legnagyobb súlyok közül bizonyos számút megtartva a
kontingenciatábla egy alacsonyabb rangú közelítését kapjuk. Mi csak a 2 rangú közelítéssal foglalkozunk, ami visszavezethet® a Rényi-féle maximálkorreláció feladatára: adott két kategórikus változó együttes eloszlása (együttes relatív gyakorisága, azaz egy n × m gyakoriságtábal). Keressük azokat az α és β valós számérték¶ véletlen vektorokat, amelyek marginális eloszlásai megegyeznek az adott kontingencia táblából számolt marginális eloszlásokkal, és az együttes eloszlás alapján számított korrelációjuk maximális. A marginális eloszlás általános és egzakt denicióját l. a következ® paragrafusban (117) Látni fogjuk, hogy ezen véletlen vektorok együttes eloszlása az eredeti kontingenciatábla 2 rangú közelítése. Ha az itt tárgyalt módszerrel magasabb rangú közelítéseket is számulunk, akkor ezek "együttes eloszlásában" NEGETÍV valószín¶ségek is el®fordulhatnak. A feladat pontos
leírásához jelölje αl ill. βl a sor- ill oszlop-faktorokat (l = 1, 2 . , min{n, m}) A faktorok szórására és korrelálatlanságára tett feltevések azt jelentik, hogy EP αl αl′ = n ∑ αl (i)αl′ (i)pi = δll′ (l, l′ = 2 . , min{n, m}) , βl (j)βl′ (j)qj = δll′ (l, l′ = 2 . , min{n, m}) , i=1 EQ βl βl′ = m ∑ j=1 ahol δll′ a Kronecker-delta, αl (i) ill. βl (j) pedig az αl ill βl valószín¶ségi változók pi ill qj valószín¶séggel felvett értékei A cél az αl , βl párok egymásutáni meghatározása oly módon, hogy az el®z®ekkel való korrelálatlansági feltételek mellett ER αl βl = n ∑ m ∑ αl (i)βl (j)rij (l = 1 . , min{n, m}) (8.7) i=1 j=1 maximális legyen. A korrespondanciafaktorok l > 1 esetén egységszórásúak, kés®bb pedig látni fogjuk, hogy várható értékük 0, ezért (8.7) egyben az azonos 8.1 155 ELMÉLETI HÁTTÉR index¶ faktorpárok közti korrelációt is jelenti.
Az l = 1 esetben adódó faktorpár tagjaitól nem követeljük meg, hogy 0 várható érték¶ek és 1 szórásúak legyenek, de (8.7) ezesetben is maximális A megoldáshoz egy α, β változópárt a következ® transzformációnak vetünk alá: x(i) := y(j) := Jelölje x = (x(1), . , x(n)) T √ √ pi α(i), (i = 1, . , n) , qj β(j), (j = 1, . , m) T ill. y = (y(1), , y(m)) a fenti komponensekb®l álló vektort. Amennyiben α ill β jelöli az α ill β valószín¶ségi változók felvett értékeib®l álló n- ill. m-dimenziós vektort, α = P−1/2 x ill. β = Q−1/2 y. α = P−1/2 x ill. β = Q−1/2 y. Az α, β valószín¶ségi változókra tett (1.1) feltételek miatt ∥x∥=1 és ∥y∥=1 A maximalizálandó (8.7) kifejezés pedig: ER αβ = n ∑ m ∑ n ∑ m ∑ rij x(i)y(j) √ √ = xT By p i qj i=1 j=1 α(i)β(j)rij = i=1 j=1 alakban írható, ahol az n × m-es B mátrix a következ®: B = P−1/2 RQ−1/2 . Keresend® max
EP α2 =1, EQ β 2 =1 ER αβ = max ∥x∥=1, ∥y∥=1 xT By. Az 158. Tétel alapján az utóbbi kifejezés maximuma a B mátrix legnagyobb szinguláris értéke, és felvétetik az ehhez tartozó saját bázispáron, jelölje ezeket u1 ill. v1 Így α1 = P −1/2 u1 ill. β 1 = Q−1/2 v1 lesz az els® összetartozó faktorpár. Könny¶ látni, hogy α1 ≡ 1, β1 ≡ 1 és s1 = 1, ui. a CauchySchwarz egyenl®tlenség miatt ER αβ ≤ 1, ugyanakkor az azonosan ∑n ∑m 1 értéket felvev® α, β párokkal ER αβ = i=1 j=1 rij = 1 teljesül. Az α1 , β1 faktorokat triviális faktorok nak is szokták nevezni, várható értékük 1, szórásuk 0, kovarianciájuk is 0. A többi faktor korrelálatlansága velük éppen azt jelenti, hogy azok várható értéke 0. Tekintsünk egy ilyen α, β párt Ezekre tehát EP α = 0, D2P α = EP α2 = 1, EQ β = 0, D2Q β = EQ β 2 = 1. Tekintsük most velük a következ® szekvenciális feltételes széls®értékkeresési
feladatot. El®ször keresend® Ismét a 158. Tételre hivatkozva adódik, hogy a maximum a B mátrix második legnagyobb szinguláris értéke, s2 , és az u2 , v2 saját bázispáron vétetik fel Ezek transzformáltjai lesznek az α2 = P −1/2 u2 ill. β 2 = Q−1/2 v2 156FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP ún. korrespondancia-faktorok Az s2 szám éppen a Rényi-féle maximál korreláció 8.13 Információelméleti módszerek Mivel itt is diszkrét eloszlásokkal foglalkozunk, az (Ω, A, P) valószín¶ségi mez® deníciójában szerepl® Ω halmaz mindig véges. Az Ω-án deniálható összes eloszlások családját D(Ω)-val jelöljük A vizsgált eloszlások tipikus példája, a d-szempontos osztályozás, amikor a valószín¶ségek a d-dimenziós tömbbe vannak rendezve. Az i-edik szempont kategóriáinak számát jelölje ri , ekkor az Ω elemei ω = (j1 , . , jd ), 1 ≤ j1 ≤ r1 , 1 ≤ j2 ≤ r2 , . , 1
≤ jd ≤ rd alakúak; ezeket szokták celláknak nevezni. Az X(ω) = X(j1 , jd ) cellagyako- riságokból állló mitát d-dimenziós kontingenciatáblának, pontosabban r1 ×r2 , × · · ·× rd méret¶ táblának nevezzük. 117. Deníció (Marginális eloszlás) Megjegyezzük, hogy az elnevezés a latin margo (genitivus: marginis) szóból származik. Tetsz®leges γ ∈ {1, , d} az X ∏ kontingenciatábla, illetve egy p ∈ D(Ω) eloszlás γ -marginálisán azt a i∈γ ri γ γ γ dimenziós X vektort, illetve p vektort értjük, amelynek X (i1 , . , i|γ| ), ilγ letve p (i1 , . , i|γ| ) komponensei mindazon X(ω), illetve p(ω) elemek összegével egyenl®k, melyekre ω = (j1 , . , jd )-nek γ -beli index¶ koordinátái rendre i1 , , i|γ| Ha |γ| = k , akkor k -dimenziós marginálisról beszélünk. A fenti formális deníció nehezen érthet®, de az alábbi, a d = 2, r1 = 3 r2 = 3 esetet illusztráló táblazatokból kit¶nik, hogy
valójában csak egy jólismert fogalom általánosításának kissé nehézkes, de elkerülhetetlen formalizálásáról van szó. A könnyebb olvashatóság kedvéért a valószín¶ségeket százalékban adjuk meg. A 8.1 Táblázat egy háromdimenziós eloszlás táblázata, a szemléletesség kedvéért gondoljuk az i és j koordináták által meghatározott 3 × 3 (i-vel és j -vel indexelt táblázatokat 3 vízszintes rétegnek, míg a k index az egyes rétegek magasságat jelzi). j1 j2 j3 k1 k1 k1 k2 k2 k2 k3 k3 k3 2 5 2 1 3 4 6 15 6 1 3 4 2 5 2 3 9 12 1 1 1 1 1 1 3 3 3 i1 i2 i3 i1 i2 i3 i1 i2 i3 8.1 táblázat Háromdimenziós eloszlás A 8.2 Táblázat az eredeti háromdimenziós eloszlás (i, k) kétdimenziós marginálisát illusztrálja: a j indexre össszegzünk 9 rögzített (i, k) párra. 8.1 157 ELMÉLETI HÁTTÉR k1 k2 k3 i1 i2 i3 4 9 7 4 9 7 12 27 21 8.2 táblázat Marginálisok Végül a fenti
kétdimenziós marginális eloszlás elemeit a k index szerint j és a összegezzük (ami ekvivalens azzal, hogy az eredeti eloszlás elemeit a k indexekre összegezzük minden rögzített i értékre). i1 i2 i3 20 45 35 8.3 táblázat Összegzett marginálisok Ennek a paragrafusnak az a célja, hogy a többdimenzós gyakorisagtáblázatok mögötti eloszlást minél kevesebb paraméterrel írja le információelméleti módszerek segítségével. A becslési feladatoknak két típusát különböztetik meg Küls® feltételekkel meghatározott feladatok. Ebben az esetben feltételezzük, hogy az X minta p valódi eloszlása egy F eloszláscsaládhoz tartozik A p ∈ F eloszlás meghatározásának általánosan elfogadott módja, hogy megker∗ essük azt a p ∈ F eloszlást amely az alább ismertetett eltérések valamelyikének értelmében legközelebb van a pX empirikus eloszláshoz. Ugyanez a módszer a 121 Lemma alapján alkalmazható annak a hipotézisnek a
vizsgálatára, hogy az X minta származhat-e egy F -beli eloszlásból. Bels® feltételekkel meghatározott (modellalkotási) feladatok. Itt az X mintában foglalt információt kevesebb adattal, általában bizonyos S1 , . , Sr statisztikák mintabeli átlagaival kívánjuk reprezentálni. Ha ismereteink mintavétel el®tti állapotát q ∈ D(Ω) eloszlás jellemzi (ennek legtöbbször az Ω-án értelmezett egyenletes eloszlást vesszük), akkor az { F= p: ∑ ω∈Ω p(ω)Si (ω) = ∑ } pX (ω)Si (ω), i = 1, . , r (8.8) ω∈Ω ∗ eloszláshalmazhoz legközelebbi p eloszlást tekintjük a modellalkotási feladat megoldásának. Eloszlások eltérése Az eloszlások egymástól való eltérésére számos, az információelméletben használatos mér®szám ismeretes, ezek általánosítását az ún. f -eltérést Csiszár Imre vezette be (l. [9]) 1967-ben 158FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP Miel®tt
rátérnénk az információs geometria tárgyalására itt közöljük az ehhez kapcsolódó feladatokban szükséges Jensen-egyenl®tlenséget. 118. Tétel (Jensen-egyenl®tlenség) Legyen f (x) (x ∈ R) valós érték¶ kon- vex függvény, X pedig egy valószín¶ségi változó. Tegyük fel, hogy E(X) és E(f (X)) léteznek. Ekkor E (f (X)) ≥ f (E(X)) . (8.9) Legyen f (u) a pozitív félegyenesen értélmezett konvex függvény, amelyre f (1) = 0, és legyen megállapodás szerint f (u) a . 0f ( ) = a · lim u∞ u 0 f (0) = lim f (u), u0 119. Deníció (f-eltérés) Tetsz®leges p ∈ D(Ω) és q ∈ D(Ω) eloszlások feltérésén a ∑ Df (p∥q) = ( q(ω)f ω∈Ω p(ω) q(ω) ) (8.10) mennyiséget értjük. A tananyagban f (u)-t háromféleképpen választjuk meg: • (i) f (u) = |u − 1| • (ii) f (u) = (u − 1)2 • (iii) f (u) = u log u ∑ (ii) és (iii) függvényeknek rendre a ω |p(ω)−q(ω)| variációs távolság, ∑Az (i), 1 2 2 a
(p(ω) − q(ω)) Pearson-féle χ -eltérés, illetve a ω q(ω) Df (p∥q) = ∑ ω∈Ω p(ω) log p(ω) q(ω) (8.11) KullbackLeibler-féle diszkrimináló információ (ezt a rövidség kedvéért a továbbiakban egyszer¶en divergenciának nevezzük) felel meg. 120. Lemma Df (p∥q) ≥ 0, ha f (u) az u = 1 pontban szigorúan konvex, akkor az egyenl®ség csak p = q esetén teljesül. Bizonyítás Lásd ???? Feladat. A fenti Lemma állításából nem következik, hogy az f-eltérés távolság, mert általában sem a szimmetria, sem a háromszög egyenl®tlenség nem teljesül. A felsorolt 3 eltérés közül csak az (i) variációs távolság valódi távolság. Jelölje T (p) a p eloszlás tartóját: T (p) := {ω : p(ω) > 0}. Nyilvánvaló, hogy D(p∥q) akkor és csak akkor véges, ha T (p) ⊆ T (q). A következ® Lemma lehet®séget teremt az f-eltérések statisztikai próbákban történ® felhasználására. 8.1 159 ELMÉLETI HÁTTÉR 121. Lemma (Az
f-eltérés és a χ2 -eloszlás kapcsolata) Ha az eltérést deniáló f (u) függvény az u = 1 pontban szigorúan konvex, az u = 1 pont egy környezetében ′′ kétszer folytonosan dierenciálható, és f (1) > 0, akkor az egymáshoz közeli p 2 és q eloszlások f-eltérése a χ -eltérésük egy konstansszorosával közelíthet®, pontosabban bármely ε > 0-hoz van olyan δ > 0, hogy ( ′′ )∑ f (1) (p(ω) − q(ω))2 −ε ≤ D(p∥q) ≤ 2 q(ω) ω∈Ω (8.12) )∑ ( ′′ f (1) (p(ω) − q(ω))2 +ε , ≤ 2 q(ω) ω∈Ω ha |p(ω) − q(ω)| ≤ δq(ω) minden ω ∈ Ω-ra. A Lemma feltétele teljesül a divergenciára. A kontingenciatáblázatok elemzésekor alapfeladat az, hogy egy megkeressük egy F ⊆ D(Ω) eloszláscsaládnak adott p eloszlástól legkevésbé eltér® elemét. Ezt kétféleképpen tehetjük meg. 122. Deníció (Vetületek) I-vetület Egy q ∈ D(Ω) eloszlásnak F ∈ D(Ω) ∗ eloszláshalmazra vonatkozó I-vetülete az
a p ∈ F eloszlás, amelyre D(p∗ ∥q) = min D(p∥q) < ∞. (8.13) p∈F L-vetület Egy p ∈ D(Ω) eloszlásnak F ∈ D(Ω) eloszláshalmazra vonatkozó L-vetülete az a q ∗ ∈ F eloszlás, amelyre D(p∥q ∗ ) = min D(p∥q) < ∞. (8.14) q∈F Az ??? feladatban fogalmaztuk meg a következ® lemma egyik allítását. p(ω) Miel®tt a lemmát kimondanánk vezessük be a pA (ω) := P (A) ha ω ∈ A, pA (ω) := 0, ha ω ̸∈ A jelölést, és analóg módon a qA (ω) jelölést is. 123. Lemma Legyenek, A1 , , Ar az Ω valószín¶ségi tér páronként diszjunkt r részhamazai melyekre ∪i=1 Ai = Ω(teljes eseményrendszer). Ekkor tetsz®leges p és q eloszlásokra: Df (p∥q) ≥ r ∑ i=1 ( q(Ai )f p(Ai ) q(Ai ) ) . (8.15) Egyenl®ség akkor érvényes ha pAi = qAi minden olyan i-re, amelyre p(Ai )q( Ai ) > 0. Ha f szigorúan konvex, akkor az egyenl®ségnek ez elégséges feltétele A fenti Lemma lehet®vé teszi, hogy egy q eloszlásnak
meghatározzuk az Ivetületét egy speciális eloszláshalmazra; nevezetesen azon eloszlások halmazára, amelyek szerint egy A1 , . , Ar teljes eseményrendszer elemeinek valószín¶ségei adottak: F{p : p(Ai ) = πi }. (8.16) 160FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 124. Tétel (Jerey-szabály) Ha q(Ai ) > 0 minden i-re, amelyre πi ̸= 0 min D(p∥q) = D(p∗ ∥q) = p∈F r ∑ ( q(Ai )f i=1 ahol p∗ (ω) = πi q(Ai ) ) , πi q(ω) q(Ai ) minden ω ∈ Ω-ra. Vegyük észre, hogy ebben az esetben az I-vetület nem függ az eltérést meghatározó függvényt®l; ez általában nincs így. A Jerey-szabállyal egy speciális küls® feltételekkel megadott feladatot oldunk ∗ meg, ugyanis ha q = pX , akkor p az (8.16) F eloszláscsalád pX -hez legközelebbi ∗ eleme lesz a becslés eredménye. Ugyanakkor a Jerey szabállyal kapott p becslés teljesíti a bels® feltételekkel megadott feladat (88) egyenl®ségét
is Minimális diszkrimináló információ módszernek (MDI) nevezzük azt az eljárást, amikor a becslés az F eloszláscsaládnak a q eloszláshoz KullbackLeibler értelemben legközelebbi p eleme Most megmutatjuk, hogy a polinomiális eloszlás maximum-likelihood becslése az empirikus eloszlás divergencia szerinti L-vetülete a polinomiális eloszlások halmazára. Minden ω ∈ Ω-ra az ω kategóriába es® elemek száma legyen X(ω), az X(ω) komponenseib®l alkotott vektor az X minta, a mintaelemszám N ∑ 1 ω∈Ω X(ω), pX = N X Ezekkel a jelölésekkel az X minta log-likelihood függvénye: := [ ] ∏ ∑ N! X(ω) L(pX ) = log ∏ p(ω) = a(X) + X(ω) log p(ω) = ω∈Ω X(ω)! ω∈Ω ω∈Ω pX (ω) = b(X) − N log = b(X) − N D(pX ∥p), p(ω) (8.17) Ahol a(X) és b(X) csak a mintától (a becsülend® p paramétervektortól nem) függ® így a maximumot nem befolyásoló függvényeket jelölnek. A fenti egyenl®ségb®l adódik N D(pX ∥p) = L(pX )
− b(X), tehát L(pX ) ugyanarra a p vektorra veszi fel a maximumát, amelyre N D(pX ∥p) a minimumát. Ez a becslési módszer a küls® feltételekkel megadott feladat megoldását adja abban a speciális esetben, amikor az F eloszláshalmaz az Ω véges halmazon értelmezett összes lehetséges eloszlást tartalmazza. Ha q az Ω-án egyenletes eloszlás, akkor a divergencia deníciójából következik D(p∥q) = ∑ ω∈Ω p(ω) log p(ω) + log |Ω|, 8.1 161 ELMÉLETI HÁTTÉR tehát az I-vetület most éppen az a p ∈ F eloszlás, amelynek a H(p) = − ∑ p(ω) log p(ω) ω∈Ω Shannon-entrópiája maximális. Ezért a rendkívül népszer¶ maximális-entrópia becslési módszer speciális esetként tartalmazza az MDI-módszert. Az f-eltérés nem távolság, ennek ellenére bizonyos geometriai állítások az f-eltérésre is igazak. Az információelmélet geometriai megközelítése az elemi matematikai példatáráról jól ismert N. N Csencov [8]
orosz matematikustól származik. Most megmutatjuk, hogy speciális duális eloszláscsaládok esetén az f-eltérésre teljesül a Pitagorasz-tétel. Legyenek S1 , . , Sr az Ω halmazon értelmezett tetsz®leges valós függvények, és legyen S0 az azonosan 1 függvény. Jelölje S azt az (r+1)×|Ω| típusú mátrixot, amelynek i-edik sora Si (ω), i = 0, . , r Az S mátrix segítségével két eloszláscsaládot deniálunk. 125. Deníció (Lineáris és exponenciális eloszláscsalád) Legyenek p0 ∈ D(Ω) és q0 ∈ D(Ω) tetsz®leges eloszlások. Az L = L(S, p0 ) := {p : Sp = Sp0 } eloszláscsaládot az S mátrixhoz és p0 eloszláshoz tartozó lineáris saládnak nevezzük. Az (8.18) eloszlásc- E = E(S, q0 ) := {q : q = q0 exp(S⊤ τ )}, (8.19) ∑ r ⊤ ahol q0 exp(S τ ) a q0 (ω) exp( i=0 Si (ω)τi ) komponensekb®l álló vektort jelenti, ⊤ és τ befutja mindazokat az r + 1-dimenziós vektorokat amelyekre q0 exp(S τ ) ∈ D(Ω), exponenciális
eloszláscsaládnak nevezzük. Ez azt jelenti, hogy τ1 , , τr tetsz®legesek és τ0 = − log ∑ ω∈Ω q0 (ω) exp( r ∑ Si (ω)τi ). i=1 Vegyük észre, hogy a deniáló q0 eloszlás eleme E -nak a τ = (τ0 = 0, τ1 = 0, . , τr = 0) választással |Ω| A (8.18) denícióból következik, hogy a lineáris eloszláscsalád az R eu- klideszi tér zárt halmaza, míg az (8.19) deníció alapján látható, hogy az exponenciális eloszláscsalád nem zárt (egy valószín¶ség tetsz®legesen közel lehet 0-hoz, de nem lehet egyenl® vele). A család lezártját clE(S, q0 )-lal, vagy egyszer¶en clE-vel jelöljük Jegyezzük meg, hogy minden q ∈ clE eloszlásra T (q) ⊂ T (q0 ) q ∈ E eloszlásra T (q) = T (q0 ) és minden Továbbá vegyük észre, hogy ha a (8.18) és a (819) deníciókban szerepl® S mátrixot újabb sorok hozzávételével egy S̄ mátrixszá egészítjük ki, akkor L̃(S̄, p0 ) ⊂ L(S, p0 ) és Ẽ(S̄, p0 ) ⊃ E(S, p0 ).
162FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 126. Tétel (Az információs geometria Pitagorasz-tétele) Tegyük fel, hogy a (8.18) és a (819) eloszláshalmazok metszete nem üres: L ∩ clE ̸= ∅ Ekkor L∗ nek és E -nek pontosan egy p közös eleme van, és erre D(p∥q) = D(p∥p∗ ) + D(p∗ ∥q), ha p ∈ L, q ∈ clE, (8.20) továbbá ∪ T (p∗ ) = T (p) (8.21) , ha ω ∈ T (p∗ ) (8.22) p∈L T (p) ⊂ T (q0 ) és ∗ p (ω) = q0 (ω) exp ( r ∑ ) Si (ω)τi∗ i=0 ahol τ ∗ = (τ1∗ , . τr∗ )⊤ alkalmas vektor Bizonyítás A Tananyagban általában nem közlünk bizonyításokat, de a 126 Tétel érdekessége miatt a (8.20) azonosságot bebizonyítjuk ⊤ A divergencia deníciójából következik , hogy tetsz®leges q = q0 exp(S τ ) ∈ ′ ⊤ ′ E és q = q0 exp(S τ ) ∈ E eloszlásokra és a t(p) ⊂ T (q0 ) feltételt kielégít® p ∈ D(Ω) eloszlásra D(p∥q) − D(p∥q ′ ) = ∑
ω∈Ω p(ω) log q ′ (ω) = p⊤ S⊤ (τ ′ − τ ). q(ω) Ezért p ∈ L, T (p) ⊂ T (q0 ) esetén D(p∥q) − D(p∥q ′ ) = f (q, q ′ ) (8.23) ′ (azaz nem függ p-t®l, ha q ∈ E , q ∈ E ). Határátmenettel adódik, hogy (823) ′ akkor is igaz marad ha q és q a b®vebb clE -nek eleme, kizárva azokat a p-ket ∗ ′ ∗ amelyekre D(p∥q) = ∞. Most p ∈ L ∩ E esetén q szerepét p -nak adva a (823) egyenl®ségb®l adódik, hogy D(p∥q) − D(p∥p∗ ) = D(p∗ ∥q) − D(p∗ ∥p∗ ) ∗ ∗ Mivel D(p ∥p ) = 0 a (8.20) egyenl®séget bebizonyítottuk Kiegészítés. A L ∩ clE ̸= ∅ feltétel pontosan akkor teljesül, ha T (p) ⊆ T (q0 ) 127. Megjegyzés A divergencia nemnegatív voltából következik, hogy a {p∗ } = L ∩ E halmaz egyetlen eleme egyidej¶leg a q eloszlás L-re vett I-vetülete és a p- eloszlás E -re vett L-vetülete. 8.1 163 ELMÉLETI HÁTTÉR A bels® és küls® feltételekkel meghatározott feladatok
részletesebb elemzése 1. Bels® feltételekkel meghatározott feladatok Legyen pX az X minta empirikus eloszlása, q0 a mintavétel el®tti ismereteinket jellemz® eloszlás, és legyenek S1 , . , Sr azok a statisztikák, amelyeknek mintabeli átlagait a már vázolt modellalkotási feladathoz fel kívánjuk használni. Ekkor a modellalkotási feladat MDI-megoldásán a q0 -nak az L = L(S, pX ) = {p : Sp = SpX } (8.24) ∗ lineáris eloszláscsaládra vonatkozó p I-vetületét értjük. A továbbiakban feltesszük, ∗ hogy T (q) = Ω. A 126 Tétel kiegészítése szerint a p I-vetület létezik és egyértelm¶ Struktúrális 0-nak nevezzük a (8.24) eloszláscsaládra nézve azokat az ω ∈ Ω p ∈ L eloszlásra p(ω) = 0. Feltesszük, hogy az X mintában nincsenek struktúrális 0-k. Ez a helyzet, ha minden ω ∈ Ω-ra ∗ az X(ω) ̸= 0. Ekkor a már említett kiegészítés szerint a p I-vetület az L ∩ E metszet egyetlen eleme, (éppen a struktúrális 0-k
hiánya miatt nem kell E ∗ lezárását tekinteni), és p megegyezik a pX E -ra vonatkozó L-vetületével, azaz elemeket, amlyekre minden az ismeretlen eloszlás maximum-likelihood becslésével [l. (817)] H az X kontingenciatáblában van struktúrális 0 akkor a modellalkotási fel∗ adat p megoldasa csak a clE -ben és p∗ (ω) = ∑ q (ω) exp τγ , 0 ω ha ω ∈ T (p∗ ) ha ω ̸∈ T (p∗ ). γ∈Γ 0, ∗ Az MDI-megoldásként kapott p eloszlás akkor tekinthet® a pX empirikus ∗ eloszlás adekvát modelljének, ha a D(pX ∥p ) divergencia kicsi, ennek kvantitatív mérésére az 121 Lemma nyújt lehet®séget. Ha az X egy q ∈ D(Ω) eloszlásból vett N elem¶ minta , akkor a (8.12) képlet alapján: 2N D(pX ∥q) ∼ ∑ (X(ω) − N q(ω))2 ω∈Ω N q(ω) , ha N ∞. (8.25) Itt a ∼ jel azt jelenti, hogy a két oldal hányadosa sztochasztikusan tart 1-hez. 2 A jobb oldali tört aszimptotikusan
|Ω| − 1 szabadságfokú χ eloszlású. 1. Küls® feltételekkel meghatározott feladatok Ezekben a feladatokban az MDI-módszer akkor célszer¶, ha az ott szerepl® F eloszláscsalád egy L(S, p0 ) lineáris eloszláscsalád. Ha feltesszük, hoy az X minta valamelyik (is- meretlen) p ∈ L eloszlásból származik, ennek az eloszlásnek az MDI-becslésén a pX empirikus eloszlás L-re vonatkozó p∗ I-vetületét értjük, feltéve, hogy erre ∗ teljesül T (p ) = T (pX ). (Az I-vetület (813) deníciójából következik, hogy T (p∗ ) ⊆ T (pX ), azonban a valódi tartalmazás kizárható, mert ekkor az X minta ∗ biztosan nem származhatna a p eloszlásból.) 164FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP ∗ A 126 Tétel szerint a p MDI-becslés pX helyett bármely q ∈ E(S, pX ) Lre vonatkozó I-vetületeként is megkapható. Ez azt jelenti, hogy az adott MDIbecslési feladat eredménye nem változik, ha a pX empirikus
eloszlást egy korábbi MDI-becsléssel helyettesítjük, feltéve, hogy abban a becslésben alkalmazott az L′ családot deniáló S′ mátrix sorai benne vannak az S sorai által kifeszített altérben. (l ??? Feladat) Az MDI-becslés most is felhasználható a p ∈ L hipotézis tesztelésére, ugyanis a (8.25) formulához hasonlóan adódik, hogy ha a valódi eloszlás p, akkor 2N Df (p∥pX ) ∼ ∑ (X(ω) − N p(ω))2 ω∈Ω N p(ω) , ha N ∞. (8.26) Itt a Df eltérést az f (u) = − log u választással kell számolni. A (826) képlettel 2 deniált statisztika aszimptotikusan |Tp |−1 szabadságfokú χ eloszlást követ. A 126 Tétel (8.20) képlétét alkalmazva a k'ek[varianciaanalíizis]b®l ismert szórásnégyzet felbontást is kaphatunk: 2N Df (p∥pX ) = 2N Df (p∥p∗ ) + 2N Df (p∗ ∥pX ), ahol az összeadandók aszimptotikusan függetlenek, az els® tag szabadságfoka |Tp | − 1 − r, míg a második tag szabadságfoka r azaz az L
lineáris családot deniáló mátrix nem konstans sorainak száma. 8.14 Az I-vetület numerikus meghatározása Ebben a pontban egyetlen módszert ismertetünk nevezetesen azt amelyik akkor alkalmazható, ha az L lineáris család olyan L1 , . , Lr lineáris családok metszete amelyekre való egyes I-vetületek explicite meghatározhatók. Ez a helyzet, amikor az eloszláscsalád bizonyos γ -marginálisok el®írásával van megadva: L = {p : pγ = pγ0 , γ ∈ Γ}. 128. Tétel Legyenek L1 , , Lr lineáris eloszláscsaládok, L ∩ri=1 Li és legyen q0 tetsz®leges olyan eloszlás, amelyhez található a T (p) ⊆ T (q0 ) feltételt kielégít® p ∈ L. Értelmezzük a p∗1 , p∗2 , eloszlásokat a következ® iterációval: p∗0 = q0 , és n = 1, 2, . esetén p∗n a p∗n−1 L-re vonatkozó I-vetülete, ahol Ln = Li ha n = kr + i. Ekkor q0 -nak L-re vonatkozó I-vetülete: p∗ = lim p∗n . n∞ 8.2 Feladatok 1. Bizonyítsuk 120 Lemmát, azaz azt az
állítást, 8.2 165 FELADATOK hogy ha az f-eltéréstt deniáló f (u) függvény az u = 1 pontban szigorúan konvex, akkor Df (p∥q) ≥ 0, és egyenl®ség csak akkor áll fenn, ha p = q . Tipp: Alkalmazzuk a Jensen-egyenl®tlenséget az f (u) fügvényre, az X = p(ω) q(ω) valószín¶ségi változóra és a q eloszlás szerinti várható értékre. Vegyük észre, hogy ebben a szereposztásban ( f (E[X]) = f ∑ ω∈Ω p(ω) q(ω) · q(ω) ) = f (1) = 0. Ha f (u) az u = 1 pontban szigorúan konvex, és p ̸= q akkor f (p/q) > 0 így E[f (X)] > 0. Válasz: 2. Bizonyítsuk be a következ® állítást Legyenek, A1 , . , Ar az Ω halmaz páronként diszjunkt részhamazai melyekre ∪ri=1 Ai = Ω. Ekkor tetsz®leges p és q eloszlásokra: Df (p∥q) ≥ r ∑ ( q(Ai )f i=1 p(Ai ) q(Ai ) ) . Az állítás szemléletes tartalma az, hogy a durvított eloszlások f-eltérése nem nagyobb, mint az eredeti eloszlásoké. Tipp: p(ω) P (A) ha ω ∈
A, pA (ω) := 0, ha ω ̸∈ A jelölést, és analóg módon a qA (ω) jelölést. Vezessük be a pA (ω) := A fenti jelölésekkel r ∑ Df (p∥q) = ω∈Ai ( q(ω) p(ω) q(ω) ) . p(ω) q(ω) valószín¶ségi változóra a qAi (ω) feltételes eloszlás szerinti várható értékkel. Alkalmazzuk a Jensen-egyenl®tlenséget az f fügvényre, a Válasz: 3. Legyen Ω tetsz®leges véges halmaz Keressük meg azt az Ω-n értelmezett p(ω) eloszlást amelyre a H(p) = − ∑ p(ω) log p(ω) ω∈Ω entrópia maximális. Mennyi a maximális érték? Tipp: Alkalmazzuk a a széls®érték-számítás Lagrange-multiplikátor módszerét! (Aki nem ismeri ezt a módszert, oldja meg a feladatot az |Ω| = 2 esetben.) 1 , H = log |Ω|. Válasz: p(ω) = |Ω| 166FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 4. Legyen Ω = {0, 1, , n}, r = 1, S1 (ω) = ω Legyen továbbá p0 ∈ D(Ω) 1 tetsz®leges q0 pedig az (n, ) paraméter¶
binomiális eloszlás. 2 (a) Bizonyítsuk be, hogy a fenti jelölésekkel az L(S, p0 ) lineáris elos- zlászcsalád mindazon p = (p(0), p(1), . p(n)) eloszlások összessége, amelyek várható E0 értéke megegyezik p0 -éval, azaz n ∑ p(i)i = i=0 n ∑ p0 (i)i, i=0 az E(S, q0 ) exponenciális eloszláscsalád az n, π paraméter¶ binomiális eloszlások összessége, ahol nπ = E0 . ⊤ (b) Adjuk meg az exponenciális család q = q0 exp(S τ ) el®állításában ⊤ szerepl® τ = (τ0 , τ1 ) vektort a binomiális eloszlás π paraméterével. Tipp: Idézzük fel a k'ek[lineáris és exponenciális eloszláscsalád dení- cióját] Válasz: τ1 = log π , 1−π τ0 = n log(2 − 2π). 5. Legyen S̄ olyan mátrix, amely az S mátrixból további sorok hozzáadásával nyertünk Jelölje az S̄ mátrix az eredeti p0 , és q0 által deniált elos- zláscsaládokat L̃(S̄, p0 ) és Ẽ(S̄q0 ). (Az Ẽ(S̄q0 ) deníciójában szerepl® τ vektorok
lehetséges halmaza is kib®vül.) Tegyük fel, hogy L ∩ clE ̸= ∅ és L̃ ∩ clẼ ̸= ∅. Ekkor minden p ∈ L̃ és q ∈ clE eloszlásra D(p∥q) = D(p∥p∗ ) + D(p∗ ∥q) D(p∥p∗ ) = D(p∥p̃∗ ) + D(p̃∗ ∥p∗ ), ahol p ∗ (8.27) ∈ L ∩ clE és p̃∗ ∈ L̃ ∩ clẼ. Tipp: Idézzük fel a lineáris és exponenciális eloszláscsalád denícióját és az információs geometria Pitagorasz-tételét. A különböz® eloszláscsaládok viszonyait, és az ebben elhelyezked® eloszlásokat az alábbi ábra szemlélteti. Válasz: 8.3 Tesztek 1. Az alábbi f fügvények közül jelöljük meg azokat amelyekhez tartozó feltérés távolság f (u) = (u − 1)2 √ (b) f (u) = (1 − u) (a) 8.3 167 TESZTEK p ~ L L E p* q ~ E ~ p* 8.3 ábra Eloszláscsaládok (c) f (u) = |u − 1| (d) f (u) = u − log u Válasz: c 2. Az X és Y véletlen változók 4-4 értéket vehetnek fel, együttes eloszlásukat az alábbi mátrix tartalmazza.
2 3 2 3 2 3 2 3 4 5 4 5 4 5 4 5 Az alábbi sorok melyikében állnak az X illetve az Y tozóhoz tartozó marginális eloszlás valószín¶ségei? (a) (1, 2, 3, 4) (b) (1, 2, 3, 4) (c) (1, 2, 3, 4) (d) (1, 2, 3, 4) Válasz: válasz: itt a számoktól függ, 3. Az alábbi állítások közül melyik igaz Jerey-szabályra? (a) A Jerey-szabállyal csak I-vetületet számolunk. (b) A Jerey-szabállyal csak L-vetületet számolunk. (c) A Jerey-szabállyal I- és L-vetületet számolunk. (d) A Jerey-szabállyal nem vetületet számolunk. Válasz: c valószín¶ségi vál- 168FEJEZET 8. KONTINGENCIATÁBLÁK ELEMZÉSE: DISZKRIMINANCIAANALÍZIS, KORRESP 4. Az alábbi állítások közül melyik igaz Jerey-szabályra? (a) A Jerey-szabály a lineáris eloszláscsaládra érvényes. (b) A Jerey-szabály az exponenciális eloszláscsaládra érvényes. (c) A Jerey-szabály eredménye függ az eltérést deniáló
függvényt®l. (d) A fentiek közül egyik sem igaz. Válasz: d 5. A lineáris (exponenciális) eloszláscsaládot egy S (r +1)×|Ω| típusú mátrix deniálja. Az alábbi állítások közül melyek igazak? (a) Ha az S mátrixot további sorokkal b®vítjük, az általa deniált lineáris eloszláscsalád b®vül, valamint az általa deniált exponenciális eloszláscsalád b®vül. (b) Ha az S mátrixot további sorokkal b®vítjük, az általa deniált lineáris eloszláscsalád sz¶kül, valamint az általa deniált exponenciális eloszláscsalád b®vül. (c) Ha az S mátrixot további sorokkal b®vítjük, az általa deniált lineáris eloszláscsalád b®vül, valamint az általa deniált exponenciális eloszláscsalád sz¶kül. (d) Ha az S mátrixot további sorokkal b®vítjük, az általa deniált lineáris eloszláscsalád sz¶kül, valamint az általa deniált exponenciális eloszláscsalád sz¶kül. Válasz: b 9. fejezet Klaszteranalízis,
többdimenziós skálázás 9.1 Elméleti háttér 9.11 Klaszteranalízis A diszkriminanciaanalízist®l eltér®en itt nem adott osztályokkal dolgozunk, hanem magukat az osztályokat (klasztereket) keressük, azaz objektumokat szeretnénk osztályozni a rajtuk végrehajtott többdimenziós meggyelések alapján (ugyanez megtehet® a változókkal is az objektumok alapján). A minimalizálandó veszteségfüggvény, aminek segítségével az osztályozást végrehajtjuk egyel®re csak vázlatosan a következ®. Az n db objektum a p-dimenziós mintatér pontjainak tekinthet® (p < n), és euklideszi metrikában dolgozunk. Tekintsük minden egyes osztályra az adott osztálybeli objektumok súlypontját, és vegyük az objektumok négyzetes eltérését (távolság-négyzetét) a súlyponttól. Az így kapott mennyiségeket utána összegezzük az osztályokra és keressük azt az osztályszámot, hozzá pedig az osztályokat, melyekre ez a veszteség minimális. Arra
vonatkozóan, hogy hogyan alakult ki ez a veszteségfüggvény, röviden utalunk a varianciaanalízisre, ahol a T =W +B szórásnégyzet-felbontás alapvet®. A minta teljes (Total) varianciáját a csoportokon belüli (Within) és a csoportok közötti (Between) varianciákra bontjuk fel. Az objektumok minden egyes partíciójához létezik ilyen felbontás, és a klaszterezés (osztálybasorolás) annál homogénebb, minél kisebb W a B -hez képest, azaz a W W = B T −W 169 170 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS kifejezést szeretnénk minimalizálni, ami (T x lévén) W minimalizálásával ekvivalens. Legyenek C1 , . , Ck a klaszterek (ezek a mintateret alkotó objektumok partícióját jelentik diszjunkt, nem-üres részhalmazokra) A j klaszter súlypontja sj = 1 ∑ xi . |Cj | xi ∈Cj A Cj -beliek négyzetes eltéréseinek összege sj -t®l: Wj = ∑ ∥xi − sj ∥2 = xi ∈Cj 1 ∑ i ,xi′ ∈Cj ∥xi − xi′ ∥2 . i<i′
|Cj | (Az utolsó egyenl®ség egyszer¶ geometriai meggondolásból adódik, így még a súlypont kiszámolása sem szükséges.) Megjegyezzük, hogy a fenti euklideszi távolságok az eredeti adatok ortogonális transzformációira invariánsak, a célfüggvény csak a pontok kölcsönös helyzetét®l függ. Ezekután keresend® a W = k ∑ Wj min. j=1 veszteség-minimum, amelynek zikai jelentése a k db. súlypontra vonatkozó tehetetlenségi (inercia) nyomatékok összege. Itt az euklideszi távolságnégyzetek helyett más metrikával is dolgozhatunk, pl. vehetjük az f (∥xi ∥) függvényeket, ahol f folytonos, monoton növ® A minimalizálás természetesen az összes lehetséges k -ra (1 ≤ k ≤ n), és emelett az összes lehetséges klaszterbesorolásra vonatkozik. Ismert tény, hogy az összes partíciók száma az ún. Bell-szám: n { } ∑ n ω(n) = , k k=1 {n} ahol az k -val jelölt ún. másodfajú Stirling-féle szám egy n-elem¶ halmaz k nem-üres,
diszjunkt részhalmazra való összes lehetséges partícióinak számát jelöli (k = 1, . , n) Ezek k és n függvényében meghatározhatók az { } ( ) k−1 n 1 ∑ k = (−1)r (k − r)n k k! r=0 r egzakt formulával (n = 1, 2, . ; k = 1, 2, , n) A W veszteségfüggvény kiértékelése a kombinatorikusan lehetséges véges számú esetre elvileg keresztülvihet®, a gyakorlatban azonban nagyon id®igényes { n } lenne, ui. be lehet látni (l [20]), hogy n−k az n-nek 2k -fokú polinomja (8 ob{8} jektum, 4 klaszter esetén is = 1701 lehet®séget kellene végigszámolnunk). 4 Nézzünk helyette inkább egy jól bevált algoritmust: 9.1 171 ELMÉLETI HÁTTÉR k-közép (MacQueen) módszer: a minimalizálandó veszteségfüggvény W = k ∑ ∑ ∥xi − sj ∥2 . j=1 xi ∈Cj Itt k adott (geometriai vagy el®zetes meggondolásokból adódik), és induljunk (0) (0) ki egy kezdeti C1 , . , Ck klaszterbesorolásból (pl. kiszemelünk k távoli objektumot, és
mindegyikhez a hozzájuk közelieket soroljuk, egyel®re csak durva megközelítésben). Egy iterációt hajtunk végre, a lépéseket jelölje m = 1, 2, Tegyük fel, hogy az (m − 1)-edik lépésben az objektomoknak már létezik egy (m−1) (m−1) k klaszterbe sorolása: C1 , . , Ck , a klaszterek súlypontját pedig jelölje (m−1) (m−1) s1 , . , sk (a 0. lépésbeli besorolásnak a kezd® klaszterezés felel meg) Az m-edik lépésben átsoroljuk az objektumokat a klaszterek között a következ®képpen: egy objektumot abba a klaszterbe sorolunk, melynek súlypontjához a legközelebb van. Pl xi -t az l klaszterbe rakjuk, ha (m−1) ∥xi − sl ∥= min j∈{1,.,k} (m−1) ∥xi − sj ∥ (ha a minimum több klaszterre is eléretik, akkor a legkisebb index¶ ilyenbe (m) soroljuk be), azaz xi ∈ Cl lesz. Kétféle módon is el lehet végezni az objektumok átsorolását: vagy az összes objektumot átsoroljuk az (m − 1)-edik lépésben kialakult
klaszter-súlypontokkal számolva, majd a régi súlypontok körül kialakult új klasztereknek módosítjuk a súlypontját, vagy pedig az objektumokat x1 , . , xn szerint sorravéve, mihelyt egy objektum átkerül egy új klaszterbe, módosítjuk annak súlypontját. Így a végén nem kell már újra súlypontokat számolnunk, és az iterációszám is csökkenhet, ui célratör®bb (mohó) az algorit(m) (m) , . , Ck klaszterezásmus Miután az összes objektumot átsoroltuk, az új C1 (m) (m) b®l és az új s1 , . , sk súlypontokból kiindulva ismét teszünk egy lépést. Meddig? Választhatunk többféle leállási kritériumot is, pl. azt, hogy az objektumok már stabilizálódnak a klaszterekben, és a klaszterek nem változnak az iteráció során. Az eljárást animáció szemlélteti Az agglomeratív ill. divizív módszerek a klaszterszámot fokozatosan csökken- tik ill. növelik Ezek közül is az ún hierarchikus eljárások terjedtek el, ahol úgy
csökkentjük ill. növeljük a klaszterszámot, hogy minden lépésben bizonyos klasztereket összevonunk ill. szétvágunk Például nézzünk egy agglomeratív, hi(0) erarchikus eljárást. A kezdeti klaszterszám k = n, tehát kezdetben minden objektum egy külön klasztert alkot. Az iteráció a következ®: tegyük fel, hogy (m) az m. lépésben már csak k db. klaszterünk van Számítsuk ki a klaszter(m) középpontokat (súlypontokat). Ezek euklideszi távolságai egy k × k (m) -es, szimmetrikus ún. távolság-mátrixot alkotnak (f®diagonálisa 0) Azokat a klasztereket, melyek távolsága egy adott korlátnál kisebb, egy klaszterbe vonjuk össze, ilyen módon egy lépésben persze kett®nél több klaszter is összevonódhat. Végül, legfeljebb n lépésben már minden összeolvad, és csak egy klaszterünk lesz. A mellékelt ún. dendrogram (l 91 ábra) egy agglomeratív eljárást szemléltet (5 objektummal). Az eljárás megtekinthet® animáción is Nem szükséges
persze 172 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS 9.1 ábra dendrogram végigcsinálni az összes lépést. Agglomeratív eljárások esetén a W veszteségfüggvény általában monoton n®, azt kell meggyelni, hol ugrik meg drasztikusan Ha végigcsináljuk az összes lépést, a dendrogramot szemlélve próbálunk meg egy ésszer¶ klaszterszámot találni (a mellékelt példában lehetne ez 2). Ilyen agglomeratív, hierarchikus eljárás a legközelebbi szomszéd módszer is, amely akkor is összevon két klasztert, ha létezik közöttük egy lánc, amelyben az egymás utáni elemek már közelebb vannak egymáshoz egy adott korlátnál. Ezt az algoritmust Kruskal dolgozta ki (l. [18]) 9.12 Többdimenziós skálázás Tegyük fel, hogy n db. objektum mindegyikén végeztünk p számú meggyelást (n és p viszonya most tetsz®leges). Célunk az objektumok vagy/és változók megjelenítése valamely (lehet®leg alacsony dimenziós) euklideszi tér
pontjaiként. Amenynyiben meggyeléseink egy n×p-es adatmátrix formájában vannak megadva, ennek sorai tekinthet®k az objektumokat reprezentáló p-, oszlopai pedig a változókat reprezentáló n-dimenziós pontoknak. A probléma az, hogy n és p általában nagy, mi pedig inkább 1-,2-, esetleg 3-dimenziós ábrákon szeretnénk tájékozódni. El®fordulhat az is, hogy nincsen szabályos adatmátrixunk, hanem csak az objektumok vagy/és változók közti ún. hasonlósági vagy különböz®ségi mér®számok adottak, és csupán ezek alapján szeretnénk reprezentálni adatainkat. A következ®kben az objektumok alacsony dimenziós reprezentálásával (skálázásával) fogunk foglalkozni. A leírtak értelemszer¶en alkalmazhatók a változókra is A precíz tárgyaláshoz bevezetünk néhány deníciót és jelölést. 9.2 173 FELADATOK 129. Deníció A D = (dij )ni,j=1 mátrixot távolság-mátrix nak nevezzük, ha (i) dii = 0, i = 1, . , n; (ii) dij = dji
≥ 0, 1 ≤ i < j ≤ n; dik ≤ dij + djk , i, j, k ∈ {1, . , n} 130. Deníció Az n × n-es D távolságmátrixot euklideszi nek nevezzük, ha p valamely p pozitív egész mellett vannak olyan x1 , . , xn ∈ R vektorok, hogy dij = ∥xi − xj ∥ (i, j = 1, . n) Legyen Hn := In − 1 T n 1n 1n az ún. centráló mátrix Miután n-et rögzítettük, a H mátrix alsó indexét elhagyjuk. A következ® tétel szükséges és elégséges feltételt ad arra, hogy egy távolságmátrix euklideszi legyen. 131. Tétel Az n × n-es mxD távolság-mátrix akkor és csak akkor euklideszi, ha a B := HAH mátrix 1 2 pozitív szemidenit, ahol az A mátrix elemei: aij = − 2 dij . A Tételt nem bizonyítjuk, de megmutatjuk, hogy ha a B mátrix pozitív p euklideszi térben a top pontoknak megfelel® vektorokat. Mivel B Gram-mátrix el®áll B = XX alak⊤ ⊤ ban, ahol X egy n × p ,átrix, melynek sorai az x1 , . , xn vektorok Ekkor igaz a dij = ∥xi − xj ∥
összefüggés. szemidenit, akkor hogyan találjuk meg egy alkalmas R Általában semmi garancia nincs arra, hogy a D távolságmátrix euklideszi. Ha D nem euklideszi, akkor 131 Tételben szerepl® B mátrix indenit. Tegyük fel, hogy az n×n-es B-nek p darab pozitív sajátértéke van (λ1 (B) ≥ · · · ≥ λp (B)) és ⊤ a B = UΛU spektrálfelbontásbeli Λ-ban a sajátértékek nem-növekv® sorrendben vannak rendezve. Az 153 Tétel (Weyl perturbációs tétel) szerint tetsz®leges Bp szimmetrikus mátrixra max |λj (B) − λj (Bp )| ≤ ∥B − Bp ∥. j A fenti egyenl®tlenség bal oldalának minimuma a p rangú, pozitív szemidenit Bp mátrixok körében a B mátrix legnagyobb abszolút érték¶ negatív sajátértéke. b p -b®l b p = ∑p λi (B)ui uT mátrixon ez a minimum eléretik. Ily módon B A B i i=1 b a fenti módon konstruált D távolságmátrixot a D mátrix euklideszi távolságmátrixszal való optimális közelítésének tekinthetjük. 9.2
Feladatok 9.3 Tesztek 174 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS Miskolc Nyíregyháza Eger Gyõr Debrecen Bp Szfv Szombathely szolnok Kecskemét Szeged Pécs 9.2 ábra Városok eredeti pozíciójukban Gyõr Miskolc Szombathely Eger Bp Nyíregyháza Szfv Debrecen Szolnok Kecskemét Pécs Szeged 9.3 ábra Városok közelítése légvonalbeli távolságmátrix alapján 9.3 175 TESZTEK Szombathely Gyõr Nyíregyháza Miskolc Szfv Eger Bp Debrecen Szolnok Kecskemét Pécs Szeged 9.4 ábra Városok közelítése közúton mért távolságmátrix alapján Miskolc Gyõr Szombathely Nyíregyháza Szfv Bp Debrecen Eger Szolnok Kecskemét Pécs Szeged 9.5 ábra Városok közelítése Manhattan távolságmátrix alapján 176 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS 9.6 ábra Eredeti és légvonalban mért távolságmátrix alapján kapott térkép 9.7 ábra Eredeti és közúton mért távolságmátrix
alapján kapott térkép 9.3 TESZTEK 9.8 ábra Eredeti és Manhattan távolságmátrix alapján kapott térkép 177 178 FEJEZET 9. KLASZTERANALÍZIS, TÖBBDIMENZIÓS SKÁLÁZÁS 10. fejezet Többváltozós küszöbmodellek, logit, probit 10.1 Elméleti háttér 10.2 Feladatok 10.3 Tesztek 179 180FEJEZET 10. TÖBBVÁLTOZÓS KÜSZÖBMODELLEK, LOGIT, PROBIT 11. fejezet Randomizált módszerek nagyméret¶ problémákra 11.1 Elméleti háttér A töbváltozós statisztikai módszerek jelent®s része (faktor-, klaszter és korrespondenciaanalízis) valamely mátrix spektrális vagy szinguláris felbontásán alapul, s mivel a statisztika egyik célja nagy adattömeg leírása minél kevesebb adattal ezen módszerekben csak néhány kiugró saját- vagy szinguláris értéket és a hozzájuk tartozó sajátvektorokat, illetve sajátvektor párokat kell meghatároznunk. A napjainkban egyre elterjedtebb ún adatbányászatnak is a szinguláris érték
felbontás az alapja. Itt mátrixok mérete (m × n) milliószor milliós lehet, ugyanakkor a hagyományos szinguláris érték felbontási algoritmusok számításigénye O(min mn2 , m2 n). Több kezdeti kísérlet után Frieze, A., Kannan, R, és Vempala, S [13] javasoltak véletlen kiválasztáson alapuló hatékony módszert egy nagyméret¶ A ∗ mátrix k -nál kisebb rangú D mátrixszal való közelítésére. Az általuk alkalmazott véletlen kiválasztásnál a sorok kiválasztásának valószín¶sége arányos a sor euklideszi norma négyzete / A hyperref[?]Frobenius-norma négyzete mennyiséggel, a soron belül az elemek kiválasztásának valószín¶sége (feltéve, hogy az adott sort kiválasztottuk) arányos az adott elem négyzete / A Frobenius-norma négyzete mennyiséggel. Alaptételük a következ®t állítja 132. Tétel Legyen A egy m × n mátrix, legyen rögzítve k ∈ Z+ ε > 0 és δ > 0 Ekkor van olyan véletlenített algoritmus, amely leírja azt
a legfeljebb k -rangú D ∗ mátrixot amelyre lagalább 1 − δ valószín¶séggel teljesül a ∥A − D∗ ∥2F ≤ min D,rkD≤k ∥A − D∥2F + ε∥A∥2F . 1 1 Az algoritmus csak k -ban, ε -ban és log δ -ban polinomidej¶, m-t®l és n-t®l független. ∗ Az igy kapott leírás alapján D explicit módon kiszámítható O(kmn) lépésben. 181 182FEJEZET 11. RANDOMIZÁLT MÓDSZEREK NAGYMÉRET PROBLÉMÁKRA A következ® tétel Achlioptas-tól és McSherryt®l származik [1]. Miel®tt kimondanánk bevezetjük egy m × n-es A mátrixszal azonos méret¶ mátrixban meglev® minimális lineáris struktúrát mér® Ψ mennyiséget. Legyen b = maxi,j |aij | és legyen Q egy olyan m × n-es Q mátrixok halmaza, amelyek elemei b-vel vagy −b-vel egyenl®k. Ψ(A) = min ∥Q∥ Q∈Q 133. Tétel Legyen A tetsz®leges m × n-es mátrix és s > 1 tetsz®leges valós szám. Legyen továbbá Â olyan m×n-es véletlen mátrix, melynek elemi függetlenek és
tetsz®leges i, j indexpárra { 0, âij = saij , 1 − 1s valószín¶séggel 1 s valószín¶séggel. (A függetlenség visszatevéses mintavétellel mindig elérhet®) Ha még s≤ m+n log6 (m + n) 116 is teljesül, akkor ( ) √ P ∥A − Âk ∥ ≤ ∥A − Ak ∥ + 7 sΨ(A) ≥ 1 − 1 , m+n ahol Ak , illetve Âk jelóli az A, illetve  mátrixot legjobban közelít® k -rangú mátrixot. A tétel bizonyítása azon alapszik, hogy az A −  mátrix alkalmas elrendezéssel Wigner-típusú mátrixszá alakítható. A Wigner-mátrixok maximális sajátértéke eloszlásának fels® farkára jó becslések ismertek. 11.2 Feladatok 11.3 Tesztek 12. fejezet Algoritmikus modellek 12.1 Elméleti háttér 12.11 ACE-algoritmus (általánosított regresszióra) A Breiman és Friedman ([[7]]) által kifejlesztett algoritmus az alábbiakban vázolt általános regressziós feladat numerikus megoldására szolgál igen tág keretek között (kategorikus
adatokra, id®sorokra ugyanúgy alkalmazható, mint olyan többváltozós adatokra, ahol a változók egy része abszolút folytonos, más része diszkrét). Az Y függ® és az X1 , . , Xp független változóknak keresend®k olyan Ψ, Φ1 , , Φp mérhet®, nem-konstans valós érték¶ függvényei (szkórjai), amelyekkel e2 (Ψ, Φ1 , . , Φp ) = E Ψ(Y ) − p ∑ 2 Φj (Xj ) /D2 (Ψ(Y )) (12.1) j=1 minimális adott {(yk , xk1 , . , xkp : k = 1, , n)} adatrendszer alapján 2 Valójában feltételes minimumot keresünk a D (Ψ(Y )) = 1 feltétel mellett. Lineáris transzformációkkal elérhet®, hogy E(Ψ(Y )) = E(Φ1 (X1 )) = · · · = E(Φp (Xp )) = 0 és D2 (Ψ(Y )) = 1 legyen. Amennyiben a változók együttes (p + 1)-dimenziós eloszlása ismert, az algo(0) (0) (0) ritmus a következ®. Legyenek Ψ (Y ), Φ1 (X1 ), . , Φp (Xp ) a feltételeknek eleget tev® kezdeti függvények. Az iteráció (m + 1)-edik lépése a következ® (mindig csak
egyik függvényt változtatjuk). (m) (m) 1. Rögzített Φ1 (X1 ), , Φp (Xp ) esetén (m+1) Ψ ∑p (m) E( j=1 Φj (Xj ) | Y ) (Y ) := . ∑p (m) D( j=1 Φj (Xj ) | Y ) 183 184 FEJEZET 12. ALGORITMIKUS MODELLEK (m+1) (m+1) (m) (m) (m+1) 2. Rögzített Ψ , Φ1 (X1 ), . , Φi−1 (Xi−1 ), Φi+1 (Xi+1 ), , Φp (Xp ) esetén (m+1) Φi (Xi ) := E [Ψ(m+1) (Y ) − i−1 ∑ (m+1) Φj p ∑ (Xj ) − j=1 (m) Φj (Xj )] | Xi j=i+1 i = 1, . , p Az iterációt akkor hagyjuk abba, ha a (12.1)-beli célfüggvény értéke már keveset változik. Az algoritmust részletesebben leírjuk abban az esetben, amikor a valószín¶ségi változók ismeretlen folytonos eloszlásúak, és a feltételes várható érték vételt a simítás helyettesíti. Nyilván világos az algoritmus elnevezése: ACE=Alternating Conditional Expectation (alternáló feltételes várható érték). Ha az együttes eloszlást nem ismerjük, az n mintaelemet
tartalmazó adatrendszer alapján minimalizálandó célfüggvényt akkor is felírhatjuk n 1∑ n Ψ(yk ) − p ∑ 2 Φj (xkj ) j=1 k=1 alakban, melyet azzal a kényszerfeltétellel minimalizálunk, hogy Ψ(Y ) empirikus szórásnégyzete 1. Az iterációs lépések a fentiek azzal a különbséggel, hogy a feltételes várható értéket is a minta alapján képezzük. Például 2 változó esetén (p = 1) ennek becslése a következ®: Ê(Φ(X)|Y = y) = ∑ Φ(xk )/ k : xk =x ∑ 1, k : yk =y vagyis átlagoljuk az azonos Y értéket felvev® mintaelemekhez rendelt Φ(xk )-kat Y összes meggyelt értékére. Pl ha Y a szemszín és Φ(X) a hajszín szkórja, akkor átlagoljuk az azonos szemszín¶ek hajszín-szkórjait, majd átlagoljuk az azonos hajszín¶ek az Ψ(y) szemszín-szkórjait, és normálunk. Az algoritmus lényege éppen abban áll, hogy ezt felváltva hajtjuk végre, miközben a másik változót rögzítjük. A fenti algoritmus
ismeretlen mintaeloszlások esetén csak akkor m¶ködik, ha a tapasztalati feltételes várható értékek kiszámíthatók, azaz a minta együttes eloszlása diszkrét. Breiman és Friedman a minták simításának módszerét ajánlották folytonos valószín¶ségi változók esetére A jelölésekben melyek kissé eltérnek a szokásostól az idézett dolgozatot követjük. p Jelölje X az adathalmazt (mintát), azaz az R euklideszi tér N pontjából álló {x1 , . xN }, azaz x1 1 x2 1 . . xN 1 . . . x1 p x2 p . . . xN p 12.1 185 ELMÉLETI HÁTTÉR adatmátrixot. Rögzített X-re legyen F (X) az összes X-en értelmezett valósérték¶ Φ fügvények tere, azaz egy Φ ∈ F (X) függvényt N valós szám ({Φ(x1 ), . , Φ(xN })) deniál. Legyen továbbá F (xj ) (j = 1, , p) az összes {x1 j , , xN j } halmazon értelmezett valósérték¶ függvények tere. 134. Deníció Az X mintára értelmezett S : F (X) 7
F (xj ) Sj függvényt az X minta xj szerinti simításának nevezzük. Ha Φ ∈ F (X), jelöljük az F (xj ) térben Sj képét Sj (Φ|xj )-vel, a függvény értékét a k -adik adaton pedig Sj (Φ|xk j )-vel Feltesszük, hogy az alábbi tulajdonságok teljesülnek. (i) Linearitás: minden Φ1 , Φ2 ∈ F (X), valamint minden valós α és β számra S(αΦ1 + βΦ2 ) = αSΦ1 + βSΦ2 . (ii) Konstans meg®rzés: ha Φ ∈ D azonosan konstans (Φ ≡ c), akkor SΦ = Φ. (iii) Korlátosság: Az S simítás korlátja M , ha minden Φ ∈ F (X)-re ∥SΦ∥N ≤ M ∥Φ∥N , ahol ∥ · ∥N az N p dimenziós euklideszi norma. (Egy X minta N darab p dimenziós vektorból áll!) Példák. N 2 természetes számot. Rendezzük a mintát a j -edik koordinatája szerint Az itt alkalmazott 1. Legközelebbi szomszéd módszer: Rögzitsünk egy M < jelölésekben ez azt jelenti, hogy x1 j < x2 j < · · · < xN j ; feltesszük, hogy nincsenek egyenl® elemek. Legyen S(Φ|xk
j ) = 1 2M N ∑ Φ(xk+m ). m=−M, m̸=0 Ha valamelyik oldalon (pl. a végén) már nincs M pont, egészítsük ki az összegzést a másik oldalról (pl. az elejér®l) vett pontokkal 2. Magfüggvény módszer: Legyen K(x) olyan valós nemnegatív érték¶ függvény, amely maximumát a 0 pontban veszi fel Legyen ∑N S(Φ|xk j ) = m=1 Φ(xm )K(xm j − xk,j ) ∑N m=1 K(xm j − xk,j ) Vegyük észre, hogy ha a j -edik változó szerint simítunk, akkor lényegében a Φ(x) függvényt átlagoljuk a j -edik változó mentén, ez felel meg a megfelel® feltételes várható érték vételnek. Most egy kett®s ciklussal deniáljuk a BreimanFriedman numerikus algoritmust. Az algoritmus k¶ls® ciklusában θ -t, bels® ciklusában Φj -ket j = 1, , p változtatjuk. A küls® ciklus n-edik lépése után e szerz®k két lehet®séget javasolnak: 186 FEJEZET 12. ALGORITMIKUS MODELLEK (a) Megtartjuk a bels® ciklusban kapott Φ-k értékeit (restart), (b) Kinullázzuk
a korábbi Φ értékeket (friss start). Kett®s ciklus. 0. Inicializálás: (0) θ(0) (yk ) = yk Φj (yk j ) = 0. 1. Küls® ciklus (n = 1, 2, -re): legyen θ (n) ∑p ∑p = Sy ( j Φj )/∥Sy ( j Φj )∥N . (0) Térjünk vissza a bels® ciklushoz minden j -re Φj = Φj -vel (restart) vagy (0) minden j -re Φj = 0-val (friss start). 2. Bels® ciklus (m = 0, 2, -re): a küls® ciklus n-edik szintjén θ (0) Φj -vel (j = 1, . , p) kezdünk (n) -nel és Futtasuk a legbels® ciklust m-et növelve. 3. Legbels® ciklus (j -re, m x): j = 1, 2, . , p Legyen (m+1) Φj = Sj θ(n) − ∑ (m+1) Φi − i<j ∑ (m) Φi (12.2) i>j 3' Legbels® ciklus vége. 2' A bels® ciklus megáll ha ∑p (m+1) (m) −Φj ∥ m növelésével alig változik. j=1 ∥Φj 1' A küls® ciklus megáll, ha ∥θ (n) − ∑p j=1 Φj ∥ n növelésével alig változik. Kett®s ciklus vége. 135. Megjegyzés Vegyük észre, hogy 1. A
bels® ciklusban, amikor a j -edik változó szerint simítunk, ( a (122) ∑ (m+1) (m) formula) akkor θ − i<j Φi -nek a j -edik változó szerinti feltételes várható értékét vesszük. 2. A küls® ciklusban az y változó szerint simítunk, ezt formálisan nem deniáltuk, de belevehettük volna az X mintába, p + 1-edik változóként A fenti algoritmus konvergenciáját A Breiman és Friedman ([7]) speciális, nehezen ellen®rizhet® feltételek mellett igazolták. A gyakorlat azt mutatja, hogy a módszer a feladatok széles körére jól alkalmazható. 12.1 ELMÉLETI HÁTTÉR 12.12 187 Jackknife eljárás Az M. H Quenouille [28] által 1954-ben által javasolt, a becslés torzítását csökkent® módszernek J. W Tukey [32] adta a jackknife (zsebkés) elnevezést Az elnevezés azt fejezi ki, hogy maga az eljárás els®sorban kis minták esetén számos más célra is alkalmazható, mert a normális eloszlásra kidolgozott módszereket jól imitálja
olyan esetekben is, amikor a normalitás sérül. A jackknife azonban nem mindenre jó gyógyszer, egy egyszer¶ ellenpéldán megmutatjuk korlátjait. A jackknife az adatok jól megválasztott csoportosításán alapszik, a csoportok kombinációi alapján becsléseket konstruálunk, amelyek átlaga lesz a jackknife becslés. Itt csak az egyelem¶ csoportokat használó eljárást ismertetjük A jackknife módszer alábbi vázlatos ismertetésében Rupert Miller [23] és [24] dolgozataira támaszkodunk. Legyen X = (X1 , . , Xn ) független azonos eloszlású minta egy Pθ eloszlásból, ahol θ ∈ Θ ismeretlen paraméter Jelölje θ̂ := θ̂(X) a θ paraméter valamilyen becslését a teljes minta alapján; a továbbiakban a becslések argumentumába nem írjuk be a mintaelemeket. Jelölje θ̂−i (i = 1, , n) azt a becslést, amelyet az i-edik mintaelem elhagyásával kapunk. Képezzük az ún pszeudoértékeket (az elnevezés Tukey-t®l származik): θei := nθ̂ − (n
− 1)θ̂−i (12.3) 136. Deníció A θ paraméter jackknife becslése a θei pszeudoértékek átlaga: n 1 ∑e θe• = θi = nθ̂ − (n − 1)θ̂−• , n i=1 (12.4) ∑n 1 ahol θ̂−• = n i=1 θ̂−i . 137. Állítás A jacknife becslés pontosan eliminálja a torzítás n1 rend¶ tagját Mivel ez az állítás éppen a jackknife-becslés alapvet® tulajdonságát jellemzi (tulajdonképpen ezt a célt valósítja meg az eljárás) közöljük a rövid és tanulságos bizonyítást. Bizonyítás Ha E(θ̂) = θ + na + nb2 + . , akkor a b a b b E(θe• ) = n(θ+ + 2 +. )−(n−1)(θ+ + +· · · = θ− +. ) 2 n n n − 1 (n − 1) n(n − 1) QED ei pszeudoértékek közelít®leg függetlenek; ha ez a feltevés Tukey szerint a θ 2 e igaz, akkor D (θ• ) becslése az n ∑ 1 (θei − θe• )2 n(n − 1) i=1 (12.5) 188 FEJEZET 12. ALGORITMIKUS MODELLEK statisztika lehet, és a [ t = (θe• − θ) n ∑ 1 (θei − θe• )2 n(n − 1) i=1
]−1/2 (12.6) statisztika közelít®leg t(n − 1) eloszlású, így alkalmas hipotézisvizsgálatra és kondenciaintervallum szerkesztésre. Ezt illusztráljuk a következ® példán Legyen X1 , . , Xn független, azonos F ((x − µ)/σ) eloszlású minta, ahol F ismeretlen eloszlásfüggvény µ és σ ismeretlen lokációs és skálaparaméterekkel 2 2 (µ = E(X1 ), σ = D (X1 )). Tegyük fel, hogy F -nek létezik a negyedik momen2 tuma. A σ paraméter torzítatlan becslése n 1 ∑ (Xi − X̄)2 . n − 1 i=1 Sn∗ 2 = Alkalmazzuk a jackknife eljárást! θei =Sn∗ 2 + θe• =Sn∗ 2 n ∑ (θei − θe• )2 = i=1 n ∑ n (Xi − X̄)2 − n−1 · (Xj − X̄)2 , n−2 j=1 és 2 (12.7) n n ∑ ∑ n2 (Xi − X̄)2 − n−1 (Xj − X̄)2 . (n − 2)2 i=1 j=1 Ahogyan az (12.5) becslés alapján megkonstruáltuk az (54) statisztikát, az 2 e• jackknife becslésére (ami itt azonos a (12.7) statisztikák alapján σ paraméter
θ ∗2 hagyományos Sn torzítatlan becsléssel!) közelít® t-statisztikát konstruálhatunk: [ n ∑ 1 t = (θe• − σ 2 ) (θei − θe• )2 n(n − 1) i=1 ]−1/2 . Egy kissé mesterkélt ellenpéldán megmutatható, hogy az (12.6) statisztika eloszlása er®sen eltérhet az n − 1 szabadsági fokú Student-eloszlástól. A példát nem ismertetjük. jackknife módszer a diszkriminanciaanalízis kereszt-kiértékelésére. Tegyük fel, hogy N elem¶ (X1 , . , XN ) mintára alkalmazunk egy tetsz®leges diszkrimináló eljárást A következ®t kell tennünk: az eljárást N -szer végrehajtjuk úgy, hogy kihagyjuk az Xi , i = 1, . , N mintaelemet, majd megnézzük, hogy a kihagyott (Xi ) elemet melyik osztályba sorolta az így szerkesztett eljárás A kapott eredményeket átlagolva megkapjuk a hibás (és természetesen a helyes) besorolások relatív gyakoriságát. 12.1 189 ELMÉLETI HÁTTÉR 12.13 Bootstrap eljárás A paragrafusnak ebben a
részében els®sorban A. B Efron 1997-ben megjelent alapvet® [10] dolgozatára, valamint G J Babunak és C Radhakrishna Rao-nak a Handbook of Statistics [2] 9. kötetében megjelent összefoglaló ismertetésére, és az abban idézett irodalomra támaszkodunk A paragrafus elején ismertetett jackknife algoritmus els®sorban arra alkalmas, hogy valamely eloszlás ismeretlen paraméterének a torzítását csökkentse, és számos esteben jó közelítést adjon a becslés szórásnégyzetére. Az Efron által javasolt bootstrap (szó szerint csizmahúzó); a statisztikán kívül pl. az informatikában is használatos elnevezés a bonyolult problémákat kezel® általános receptekre) módszerrel a becsl® statisztikák eloszlása is jól kezelhet®. A bootstrap statisztika deníciója és eloszlásának meghatározása. Legyen X = (X1 , . , Xn ) független minta egy tetsz®leges F eloszlásból, és legyen T (X, F ) az X mintától függ® statisztika. A korábbi a
paraméteres statisztikával foglalkozó fejezetekben F -r®l általában feltettük, hogy normális eloszlású, és ekkor a gyakran alkalmazott T (X, F ) statisztikák eloszlását analitikusan is meg tudtuk határozni. Más esetben ha statisztika független azonos eloszlású valószín¶ségi változók normált összege volt a centrális határeloszlás-tételre hivatkoztunk. Kis mintaelemszám és ismeretlen F esetén a T (X, F ) statisztika eloszlását közelíthetjük a mintából becsült F̂n empirikus eloszlás alapján számított eloszlással. Megjegyezzük, hogy pl az X̄ átlag eloszlásának kiszámításához az F̂n 2 n-szeres konvolúcióra van szükség, amelynek m¶veletigénye O((log n)n ), ami elfogadható, ennek ellenére a bonyolultabb statisztikák eloszlásának az F̂n empirikus eloszlás alapján történ® közvetlen meghatározása körülményes. Erre is alkalmas az Efron [10] által javasolt bootstrap eljárás. A bootstrap statisztika
eloszlása meghatározásának laggyakrabban használt módszere a nyers r®, azaz a Mont Carlo módszer. Rögzített F̂ -hez vegyünk egy ˜n ) ún. bootstrap mintát Ez a függatlen azonos (F̂n ) eloszlású X̃ = (X̃1 , . , X gyakorlatban azt jelenti, hogy az eredeti X mintából visszatevéssel kiválasztunk n elemet. Ennél szosztikáltabb módszer a centrális határeloszlás-tétel élesítésének alkalmazása a bootstrap mintára. Ha az F (x) folytonos eloszlás harmadik abszolút momentuma véges, akkor a klasszikus BerryEsseen-tétel (l. pl [15] szerint ( ) sup |P X̄ − µ ≤ xσ − Φ(x)| = O(n−1/2 ) (12.8) x Ez az egyenl®tlenség nem javítható, de ha az F eloszlásnak létezik a k - adik (k > 3) abszolút momentuma, akkor a (12.8) képletben szerepl® explicit módon megadható, és a külonbség rendje O ( ) √ 1/ ns−2 lesz (Ljapunov tétele l. [15]) Mivel az F̂n eloszlás momentumai megegyeznek a tapasztalati momentumokkal, az idézett
tétel alkalmazható az F̂n eloszlás analitikus alakban történ® közelítésére (X helyett X̃, µ = overlineX szereposztással). Most megfogalmazunk egy tételt, amely az X és bootsrap minta átlaga közötti eltérésére állít a (12.8) egyenl®tlenségnél pontosabb becslést Miel®tt ezt 190 FEJEZET 12. ALGORITMIKUS MODELLEK kimondanánk, emlékeztetünk a rácsos eloszlás fogalmára: egy F eloszlás rácsos, ha növekedési pontjainak halmaza R ekvidisztáns pontjaiból áll. Az F̂ eloszlás szerinti mértéket P̃-vel jelöljük. K Singh (l [31]) tétele: 138. Tétel Tegyük fel, hogy X = (X1 , , Xn ) független minta egy F nem rácsos eloszlásból, amelynek várható értéke µ szórása σ és a harmadik abszolút momentuma véges. Legyen X̃ = (X̃1 , ,,̃Xn ) az F̂n alapján kisorsolt bootstrap minta. Ekkor majdnem minden (X1 , , Xn , ) realizációra v u ∑ n u ( ) ¯ − X̄) ≤ xt 1 (Xj − X̄)2 = o(n−1/2 ) sup P (X̄
− µ) ≤ σ − P̃ (X̃ n j=1 x A következ® Babutól származó példa (l. [2]) illusztrálja, hogy nem lehet vakon bízni a bootstrap módszerben. Legyen X = (X1 , , Xn ) standard nor- √ mális eloszlásból származó független minta. Mivel nX̄ standard normális elos2 2 2 zlású, µ = 0, n(X̄) − µ ∼ χ (1). Legyen X̃ = (X̃1 , , X̃n ) a bootstrap minta ¯ 2 − X̄2 ) majdnem minden végtelen (X , . , X , ) Megmutatható, hogy az (X̃ 1 n realizációra divergál! ebb®l feladat gyártható: miért mond ez látszólag ellent a Steiner egyenl®tlenségnek? Második példánk a diszkriminanciaanalízis hibabecslése. Az egyszer¶seg kedvéért tegyük fel, hogy csak két mintánk van: X1 , . , Xn ∼ F = N (m1 , C) és Y1 , . , Ym ∼ G = N (m2 , C), ahol az Xi és Yj p-dimenziós véletlen vektorok teljesen függetlenek. A meg- gyelt értékek: x1 , . xn , illetve y1 , , ym A minta alapján megbecsüljük az m1 és m2
várhatóérték vektort, valamint a C kovariancaiamátrixot, legyenek b . Ezeket a becsléseket a A diszkrdec25tex-beli b 1, m b 2 és C m a becslések: szovegben most szamozatlan a regi konyvben 311. o 29 en itt nem tudom beirni. formulába beírva eljárást kapunk arra, hogy eldöntsük: egy új x meggyelést az F vagy a G eloszlást követi-e. Ha b −1 x > c} b T2 − m b T1 )C x ∈ B := {x : (m akkor az x meggyelést a G eloszlást követ®k csoportjába soroljuk. Az osztályozás várható hibáját még az új meggyelések beérkezése el®tt szeretnénk megbecsülni Az error [ := |{i : xi ∈ B}| m (12.9) nyilván alulbecsüli a hibát, mert az osztályozó eljárást a minta alapján szerkesztettük, az mintegy adaptálódott a mintához. A valódi várható hiba error := PF {i : xi ∈ B} 12.2 191 FELADATOK lenne. R((X, Y), (F, G)) := error − error [. e bootstrap veszteség momentumait nyers er®-vel (Monte Carlo módszAz R ei , errel)
határozhatjuk meg. Az F̂ és Ĝ eloszlásból generálunk n, illetve m x ej bootstrap mintaelemet, ezek alapján kiszámítjuk az F̂ és Ĝ eloszláilletve y e bootstrap kritikus tartományt. Így az R e sok paramétereit, meghatározzuk a B bootstrap veszteség egy realizációja: e e ei ∈ B}| e Y), e (F̂ , Ĝ)) = |{i : xi ∈ B}| − |{i : x e = R((X, R . m m Ezen eljárás elegend®en sok független ismétlése után a keresett momentumok átlagolással nyerhet®k. Ilymódon becslést kapunk az R veszteségfüg- gvény várható értékére, amivel az osztályozás hibájának (12.9) becslését korrigálhatjuk Megjegyezzük, hogy a programcsomagok kiszámítják a hibavalószín¶ség jackknife becslését is olymódon, hogy minden egyes mintaelem kihagyásával megszerkesztik a kritikus tartományt, majd megvizsgálják, hogy a kihagyott elem melyik tartományhoz tartozik. Az így tapasztalt hibás döntések relatív gyakorisága a hibavalószín¶ség becslése
Efron idézett dolgozatában egy 10 és egy 20 elem¶ mintára ismerteti mindkét eljárás eredményét; nincs lényeges különbség. 12.2 Feladatok 1. Legyen X = (X1 , , Xn ) standard normális eloszlásból származó független √ minta. Mivel nX̄ standard normális eloszlású, µ = 0, n(X̄)2 −µ2 ∼ χ2 (1). X̃ = (X̃1 , . , X̃n ) a bootstrap minta Megmutatható, hogy az ¯ 2 (X̃ − X̄2 ) majdnem minden végtelen (X1 , . , Xn , ) Mutassuk meg, Legyen hogy ez az állítás látszólag ellentmond a Steiner-egynl®ségnek. ∑n Tipp: Az n1 [ 2 j=1 (X̃j −X̄)] valószín¶ségi változók aszimptotikusan valóban 2 χ (1) eloszlásúak, Irjuk fel rájuk a Steiner-egyenl®séget, felhasználva, hogy E(X̃j ) = X̄. Válasz: ]2 1[ ¯ 2 − X̄2 ) = 2X̄2 − 2X̄X̃. ¯ sumnj=1 (X̃j − X̄) − (nX̃ n A fenti egyenl®ség jobb oldala a nagy számok törvénye miatt 0-hoz tart, de nomabb meggondolások alapján kiderül, hogy ez nem elegend® az
¯ 2 − X̄2 ) bootstrap statisztika eloszlás szerinti konvergenciájához. (nX̃ 192 FEJEZET 12. ALGORITMIKUS MODELLEK Útmutatások, végeredmények 12.3 Útmutatások 12.4 Végeredmények 193 194 FEJEZET 12. ALGORITMIKUS MODELLEK 13. fejezet Függelék 13.1 Függelék 1: Lineáris algebrai emlékeztet® n Jelölje R az n-dimenziós valós euklideszi teret (elemei n-dimenziós valós komponens¶vektorok, melyek összeadása és valós számmal való szorzása értelmezve van a szokásos m¶veleti tulajdonságokkal, továbbá a vektortér a ⟨·, ·⟩ skaláris n térben tekintsük a standard ε1 , . , εn szorzás m¶veletével is el van látva). Az R bázist (az εi vektor i-edik koordinátája 1, többi koordinátája pedig 0). Ha a skaláris szorzást nem deniáljuk konkrét formulával, akkor fel kell tennünk, hogy az ε1 , . , εn bázis ortonormált: { 0, ⟨εi , εj ⟩ = δij = 1, ha i ̸= j ha i = j. (13.1) n Az R vektorait x,
y, z, . -vel jelöljük, ezeket oszlopvektoroknak tekintjük; ha ⊤ ⊤ ⊤ sorvektorokként szeretnénk tekinteni, akkor az x , y , z , . jelölést használjuk ∑n Az x vektor kooordinátái ebben a bázisban x1 , . , xn , azaz x = i=1 xi εi . Az ⊤ (13.1) megállapodás miatt ⟨x, y⟩ = x y, az √ √∑n 2 x vektor euklideszi normája pedig ∥x∥ = x⊤ x = i=1 xi . n n Az A : R R lineáris transzformációt azonosítjuk azzal az n × n-es A := (aij )ni,j=1 mátrixszal, melynek j -edik oszlopában az Aεj vektor koordinátái állnak. Ha egy x vektor A-val való transzformáltja y, azt az Ax = y, vagy ∑n mátrixalakban az Ax = y (yi = j=1 aij xj ) jelöléssel fejezzük ki. Az A := (aij ) és B := (bij ) n × n-es mátrixok szorzata dení ció szerint A B := (cik ) = ∑n ( j=1 aij bjk ). Az I := (δij )ni,j=1 mátrixot n-dimenziós egységmátrixnak (identitásnak) nevezzük Az elnevezést az IA = AI = A öszefüggés indokolja Az −1 −1 −1 n × n-es A
mátrix A inverzét az AA =A A = I összefüggés deniálja (ez pontosan akkor létezik, ha az |A| mátrix alább deniált determinánsa nem 0). Közvetlen számolással meggy®z®dhetünk arról, hogy, ha az A és B mátrixok −1 invertálhatók, akkor az AB mátrix is invertálható, és (AB) = B−1 A−1 . Az A mátrix |A| determinánsa a mátrix oszlopavektorai által deniált ndimenziós parallelepipedon el®jeles térfogata, ami az alábbi képlettel számítható 195 196 FEJEZET 13. ki: ∑ |A| = FÜGGELÉK (−1)π [inverzióinak száma] a1π(1) · · · · · anπ(n) . π ∈ az (1, . , n) permutációinak halmaza (13.2) Jelöljük Aij -vel annak az (n − 1) × (n − 1)-es mátrixnak a determinánsát, amelyet úgy kapunk A-ból, hogy elhagyjuk az i-edik sorát és a j -edik oszlopát. Az i+j adj (A) := ((−1) Aji )nj,i=1 mátrixot A adjungált mátrixának nevezik, l. [30] −1 Az A mátrix pontosan akkor létezik, ha |A| ̸= 0, és ekkor A−1 = 1
adj (A) . |A| Vegyük észre, hogy a determináns egy n 2 változós függvény (polinom), így van értelme a mátrixelemek szerinti deriválásnak. A (132)-beli deníciót felhasználva kapjuk, hogy ∂|A| = (−1)i+j Aij . ∂aij Egy f (A) (f (13.3) 2 : Rn R) mátrixfüggvény mátrixelemek szerinti deriváltjaiból álló mátrixot szokás ∂f ∂A -val is jelölni, ezzel a jelöléssel (13.3) a ∂|A| = adj (Aq top) ∂A tömör alakba írható át. −1 Ha az A mátrix nem létezik, akkor azt mondjuk, hogy az A által deniált A transzformáció szinguláris. A mátrix-jelölést alkalmazva Im(A) az A mátrix ab1 , . , abn oszlopvektorai által kifeszített Span(ab1 , , abn ) altér (ezt onnan is látni, hogy Ax = ∑n i=1 xi abi ), a Ker(A) altér pedig azon x vektorokból áll, amelyek ortogonálisak ⊤ ⊤ az A mátrix soraira, azaz az A (A transzponáltja) oszlopaira, vagyis az Im(A ) altérre. Ezzel igazoltuk a következ®t 139. Állítás A Ker(A) és
Im(A⊤ ) alterek egymás ortogonális komplementerei Rn -ben, tehát dim(Ker(A)) + dim(Im(A⊤ )) = n. 140. Deníció Az U transzformáció ortogonális, ha deniáló mátrixára igaz az U ⊤ U = I összefüggés. Ez azt jelenti, hogy U oszlopai ortonormáltak. Belátható, hogy ekkor U sorai ⊤ is ortonormátak, ezért igaz az UU = I összefüggés is. Az ilyen U mátrixot ortonormált mátrixnak is szokták nevezni. 141. Deníció (szimmetrikus mátrix) Az A n × n-es valós mátrix szim- ⊤ = A, vagy, ami ugyanaz: aij = aji minden (i, j) (i = 1, . , n; j = 1, . , n) indexpárra metrikus, ha A 13.1 197 LINEÁRIS ALGEBRA 142. Deníció (projekció) P transzformáció ortogonális projekció, ha P szimmetrikus és idempotens, azaz PP = P A P operátor az Im(P) altérre vetít. Mivel P szimmetrikus, 139 állítás miatt n a Ker(P) és a Im(P) egymás ortogonális komplementerei, tehát minden x ∈ R vektor el®áll x = y + z alakban, ahol y ∈ Im(P), z ∈
Ker(P). Ezért Px = y, n innen az elnevezés. Ha H ⊂ R egy altér, PH jelöli a H -ra való vetítést 143. Állítás Ha A és B tesz®leges n × n-es mátrixok és x ∈ Rn tetsz®leges ⊤ ⊤ t vektor, akkor (AB) = B A op és (A⊤ x)⊤ Bx = x⊤ WBx . 144. Deníció (kvadratikus alak, denitás) Legyen A egy n×n-es, szimmetrikus mátrix Az x⊤ Ax = n ∑ n ∑ aij xi xj i=1 j=1 számot az A által deniált kvadratikus alaknak nevezzük. Az aij illetve xi számok az A mátrix elemei illetve az x vektor koordinátái. Az A mátrixot pozitív denit ⊤ (szemidenit)nek nevezzük, ha az x Ax kvadratikus alak pozitív (nem-negatí v) minden, nem azonosan 0 komponens¶x vektorra. Hasonlóan, az A mátrix ⊤ negatív denit (szemidenit), ha az x Ax kvadratikus alak negatív (nem-pozitív) ⊤ minden, nem azonosan 0 komponens¶x vektorra. Ha pedig az x Ax kvadratikus alak mind pozitív, mind negatív értékeket felvehet (természetesen más-más x vektorokra), akkor az
A mátrixot indenit nek nevezzük. Szinguláris (nem invertálható) mátrixok a szemidenitek és az indenitek egy része 145. Deníció Legyenek A és B szimmetrikus mátrixok Azt mondjuk, hogy A > B, ha A−B szigorúan pozitív denit. Azt mondjuk, hogy A ≥ B, ha A−B pozitív szemidenit. 146. Tétel Az A mátrix akkor és csak akkor szimmetrikus, ha minden x, y ∈ Rn vektorpárra x⊤ Ay = y⊤ Ax . Megjegyezzük, hogy egy B mátrix pontosan akkor pozitív szemidenit, ha ún. ⊤ Gram-mátrix, azaz van olyan A mátrix, hogy B = A A. Az alábbi tétel (l. [19] 149 o) kovarianciamátrixok összehasonlításánál hasznos lehet. 147. Tétel Legyenek A és B invertálható szimmetrikus mátrixok Ha A ≤ B, akkor B −1 ≤ A−1 148. Deníció (sajátérték, sajátvektor) Az u ∈ Rn nem azonosan 0 kom- ponens¶vektort az n × n-es A mátrix sajátvektorának nevezzük, ha van olyan λ valós szám (sajátérték), amellyel Au = λu teljesül. 198 FEJEZET
13. FÜGGELÉK Ezzel ekvivalens a következ® állítás: dim(Ker(A − λI)) > 0, illetve dim(Im(A − λI)) < n, azaz az A − λI mátrix nem invertálható. A sajátértékek geometriájáról a Gersgorin-tétel segítségével nyerhetünk hasznos információt. 149. Tétel (Gersgorin) Legyen A egy∑tetsz®leges (komplex elem¶) n × n-es n k=1k̸=i |aik | sugarú nyílt körlemez a komplex számsíkon. Ekkor az A mátrix valamennyi sajátértéke a mátrix. Legyen Ci az aii körüli ri := D := ∪ni=1 Ci tartományban helyezkedik el. 150. Megjegyzés Az alábbi egyszer¶észrevétel is rendkívül hasznos lehet a sajátértékek geometriájának vizsgálatánál. 151. Tétel (spektrál-leképezés tétel) Ha P (·) tetsz®leges polinom, és λ az A mátrix sajátértéke, akkor P (λ) a P (A) mátrix sajátértéke. 152. Tétel (spektrálfelbontási tétel) Az n×n-es szimmetrikus, valós elem¶A mátrixnak van pontosan n valós sajátértéke (nagyság szerint
csökken® sorrend- ≥ λ2 ≥ · · · ≥ λn ), és az ezekhez tartozó u1 , u2 , . , un sajátvektorok megválaszthatók úgy, hogy ortonormáltak legyenek (egy ilyen u1 , . , un ben jelölje ®ket λ1 rendszert ortonormált sajátvektor rendszernek nevezünk). Mátrixalakban ez az T A = UΛU = n ∑ λi ui uTi (13.4) i=1 felbontást jelenti, ahol az n×n-es Λ diagonális mátrix a λ1 , . , λn sajátértékeket tartalmazza f®diagonálisában, az U ortogonális mátrix pedig a hozzájuk tartozó sajátvektorokat tartalmazza oszlopaiban, a sajátértékek sorrendjének megfelel®en. Az (13.4) felbontást az A mátrix spektrálfelbontás ának nevezzük Szimmetrikus mátrixok sajátértékeinek becslésének hasznos eszköze a Weyl perturbációs tétel 153. Tétel max |λj (A) − λj (B)| ≤ ∥A − B∥. j (13.5) Vegyük észre, hogy ha a B mátrix k -rangú, akkor (13.5) baloldala nem kisebb, ∗ b := ∑k λ∗ u∗ u∗T mátrixra teljesül mint λk+1
(A), viszont a B i=1 i i i b = λ∗ (A). ∥A − B∥ k+1 Ezzel bebizonyítottuk, hogy a k -rangú szimmetrikus mátrixok körében A legjobb b. közelítése B Ez az észrevétel képezi a f®komponensanalízis alapját. A Weyl perturbációs tétel tetsz®leges mátrixokra is általánosítható. 13.1 199 LINEÁRIS ALGEBRA 154. Tétel Legyen A tetsz®leges m × n-es valós elem¶ mátrix Akkor min BB k-rangú ∥A − B∥ = sk+1 , b = VSk U mátrixon éretik el, ahol Sk az els® k szinguláris és a minimum a B értéket, valamint 0-kat tartalmazó (esetleg téglalap alakú) diagonális mátrix, U és V pedig az A mátrix szinguláris felbontásában szerepl® ortogonális márixok. 155. Megjegyzés Az (134) formula azt jelenti, hogy az A mátrix egydimenziós alterekre való mer®leges vetítések valós lineáris kombinációjaként áll el® Tetsz®leges valós n × n-es mátrixot nem lehet ortogonális bázisban diagonalizálni, s®t egyáltalán nem lehet
diagonalizálni, mert pl. a |A − λI| = 0 karak- terisztikus egyenletnek komplex gyökei vannak, ilyen pl. a sík α szöggel való elforgatását megadó ( sin α − cos α cos α sin α ) mátrix. Ilyenkor a mátrix komplex euklideszi térbeli ortogonális bázisban diagonalizálható, de ha a karakterisztikus egyenletnek többszörös (valós vagy komplex) gyöke van, akkor el®fordulhat (nem szükségképpen!), hogy a mátrixnak még a komplex térben is n-nél kevesebb sajátvektora van, így ferde" bázisban sem diagonalizálható, pl. ( 1 0 ) 1 . 1 Más módszert kell találni a mátrixok egyszer¶bb alakban való felírására. Erre iφ szolgál a poláris felbontás tétele, amely a komplex számok z = re alakú felírásának messzemen® általánosítása. 156. Tétel (a poláris felbontás tétele) Tetsz®leges A négyzetes mátrix felírható WB alakban, ahol B pozitív szemidenit (szimmetrikus), W pedig ortogonális. A B mátrix mindig egyértelm¶en
meghatározott, míg W csak abban az esetben, ha A invertálható. A tétel közvetlen következménye a négyzetes mátrixokra vonatkozó 157. Tétel (szinguláris felbontási tétel) Tetsz®leges A négyzetes mátrixhoz van olyan S = diag (s1 , , sn ) diagonális, valamint U és V unitér mátrix, hogy A = VSUT = n ∑ si vi uTi . (13.6) i=1 • 1. A poláris (és a szinguláris) felbontásban szerepl® U mátrix u1 , , un oszlopvektorai rendelkeznek a következ® tulajdonsággal: (Aui )T (Auj ) = δij s2i 200 FEJEZET 13. FÜGGELÉK • 2. A V mátrix v1 , , vn oszlopvektoraira igaz az si ·vi = Aui összefüggés • 3. Az u1 , , un vektorrendszer az AT A, míg a v1 , , vn vektorrendszer T az AA sajátvektorrendszere. (Az els® állítás a konstrukció következménye, T T T 2 T a második pedig az AA = VSU USV = VS V egyenl®ségsorozatból adódik.) • 4. Egy szimmetrikus mátrix szinguláris értékei a sajátértékek abszolút értékei. Egyik
oldali szinguláris vektoroknak megfelel a sajátvektorok bármely rendszere, legyen ez az ui rendszer, a másik oldali szinguláris vektorok pedig a vi = ±ui vektorok lesznek, ahol az el®jel a megfelel® λi sajátérték el®jele. • 5. ∥A∥ = s1 158. Tétel Legyen A tetsz®leges m × n-es valós elem¶mátrix Akkor min BB k-rangú ∥A − B∥ = sk+1 , b = VSk U mátrixon éretik el, ahol Sk az els® k szinguláris és a minimum a B értéket, valamint 0-kat tartalmazó (esetleg téglalap alakú) diagonális mátrix, U és V pedig az A mátrix szinguláris felbontásában szerepl® ortogonális márixok. 159. Deníció (mátrix nyoma) A tr A = ∑n i=1 aii mennyiséget az A n×n- es mátrix nyomának nevezzük. általában nem igaz, hogy az 1, . , k számok tetsz®leges π(·) permutációjára tr (A1 . Ak ) = tr (Aπ(1) Aπ(k) ), de ha π(·) ciklikus, akkor a tr(·) függvény kommutatív: tr (A1 . Ak ) = tr (A2 Ak A1 ) = tr (A3 Ak A1 A2 ),
s.ít Szükségünk lesz még a p × n-es A és a q × m-es B mátrixok Kronecker- vagy tenzor-szorzatára. Ez alatt azt a pq ×nm-es, A ⊗B-vel jelölt hipermátrixot értjük, melynek pn darab q×m méret¶blokkja van: az (i, j) blokk az aij B mátrix (i = 1, . p; j = 1, , n) A Kronecker-szorzás asszociatív, a mátrixösszeadásra nézve disztributív, viszont általában nem kommutatív. Igaz azonban, hogy (A ⊗ B)T = AT ⊗ BT . Amennyiben A és B négyzetes mátrixok például A n × n-es, B pedig m × m-es, akkor |A ⊗ B| = |A|m · |B|n , továbbá, ha mindkett® invertálható, akkor Kronecker-szorzatuk is az, és (A ⊗ B)−1 = A−1 ⊗ B−1 . 13.2 FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY201 13.2 Függelék 2: Valószín¶ségelméleti képletgy¶jtemény 13.21 Kolmogorov axiómái: • (i) Adva van egy nem üres Ω halmaz (az eseménytér), Ω elemeit elemi eseményeknek nevezzük, és ω -val jelöljük. • (ii) Ki van
tüntetve az Ω részhalmazainak egy A algebrája (Ω ∈ A, A ∈ A ⇒ Ω A ∈ A, A ∈ A & B ∈ A ⇒ A ∪ B ∈ A). • (iii) A σ -algebra, azaz Ak ∈ A (k = 1, 2, . ) ⇒ ∪∞ k=1 Ak ∈ A. • (iv) Minden A ∈ A eseményhez hozzá van rendelve egy P (A) nemnegatív szám, az A esemény valószín¶sége. • (v) P (Ω) = 1. • (vi) Ha Ak ∈ A∑(k = 1, 2, . ) páronként egymást kizáró események, akkor ∞ P (∪∞ k=1 Ak ) = k=1 P (Ak ). 13.22 Szitaformula: n = 3 esetben: P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) Tetsz®leges n-re: P (A1 ∪ · · · ∪ An ) = n ∑ (n) (−1)k Sk , k=1 ahol (n) Sk ∑ := P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ). 1≤i1 <···<ik ≤n 13.23 Események függetlensége, feltételes valószín¶ség Események függetlensége: Az A1 , . , An események páronként (ill teljesen) függetlenek, ha minden 1 ≤
j < k ≤ n párra P (Aj ∩ Ak ) = P (Aj ) · P (Ak ) (ill. minden 1 ≤ i1 < · · · < ik ≤ n indexsorozatra P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · · · · · P (Aik )). A teljes függetlenség implikálja a páronkénti függetlenséget Feltételes valószín¶ség: P (A|B) := P P(A∩B) (B) , ha P (B) > 0. Teljes eseményrendszer: A1 , . , An ∈ A, P (Ai ∩ Aj ) = 0 ha i ̸= j és P (∪ni=1 Ak ) = 1. Bayes tétele: Ha A1 , . , An teljes eseményrendszer és P (B) > 0: P (B|A1 ) · P (A1 ) P (A1 |B) := ∑n . k=1 P (B|Ak ) · P (Ak ) 202 13.24 FEJEZET 13. FÜGGELÉK Valószín¶ségi változó Valószín¶ségi változó: Az Ω halmazon értelmezett olyan ξ(ω) valós érték¶füg- gvény, amelyre {ξ(ω) < x} ∈ A minden valós x-re. Ha ξ értékkészlete a természetes számok halmaza, akkor diszkrét valószín¶ségi változóról beszélünk Függetlenség: A ξ1 , . , ξn valószín¶ségi változók páronként (ill
teljesen) függetlenek, ha a {ξ1 (ω) < x1 }, . , {ξn (ω) < xn } események páronként (ill teljesen) függetlenek x1 , . , xn minden értékére Eloszlás (általános eset): A ξ valószín¶ségi változó F (x) eloszlásfüggvénye: Fξ (x) := P {ξ < x} Fξ (x) monoton nemcsökken® balról folytonos függvény, Fξ (−∞) = 0, Fξ (∞) = 1. Diszkrét eset: A ξ valószín¶ségi változó {pj } eloszlása: pj := P {ξ = j} j = 0, 1, . Abszolút folytonos eset: ∫ t Ha Fξ (t) = F ′ (x)dx, akkor az −∞ ξ fξ (x) := Fξ′ (x) függvény a ξ valószín¶ségi változó s¶r¶ségfüggvénye. Eloszlások konvolúciója: A diszkrét eset: ha {pi } a ξ és {qj } az η független valószín¶ségi változók eloszlásai akkor a ζ = ξ + η valószín¶ségi változó eloszlása {rk }: rk = k ∑ pi · qk−i = i=0 k ∑ pk−j · qj . j=0 Az abszolút folytonos eset: ha ξ és η független valószín¶ségi változók, akkor ∫ ∞
fξ+η (z) = −∞ fξ (z − y) · fη (y)dy = ∫ ∞ −∞ fξ (x) · fη (z − x)dx. Valószín¶ségi változó függvényének eloszlása: (Csak az abszolút folytonos esetetet vizsgáljuk.) Legyen ψ(x) monoton, dierenciálható függvény, tegyük ′ fel, hogy minden x-re ψ (x) ̸= 0. Ha fξ (x) a ξ valószín¶ségi változó s¶r¶ségfüggvénye, akkor az ψ(ξ) s¶r¶ségfüggvénye: { fψ (y) = fξ (ψ −1 (y)) |ψ ′ (ψ −1 (y))| , ha 0, különben inf ψ(x) < y < sup ψ(x) 13.2 FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY203 13.25 Valószín¶ségi változó momentumai: A diszkrét eset: ha {pk } a ξ valószín¶ségi változó eloszlása, az Mn,ξ := ∞ ∑ k n · pk k=1 összeget (amennyiben konvergens) a ξ n-edik momentumának nevezzük, míg a (c) Mn,ξ := ∞ ∑ (k − M1 )n · pk k=1 összeget a ξ n-edik centrált momentumának nevezzük. Az abszolút folytonos eset: ha f (x) a ξ valószín¶ségi
változó s¶r¶ségfüg- gvénye, az ∫ ∞ Mn,ξ := −∞ xn · f (x)dx integrált (amennyiben létezik) a ξ n-edik momentumának nevezzük, míg a (c) ∫ ∞ Mn,ξ := −∞ (x − M1 )n · f (x)dx integrált a ξ n-edik centrált momentumának nevezzük. Ha ξ és η független valószín¶ségi változók, akkor Mn,ξ·η = Mn,ξ · Mn,η . Ha k < n és Mn,ξ létezik, akkor Mk,ξ is létezik. Várható érték, szórásnégyzet: 2 A ξ valószín¶ségi változó várható értéke: E(ξ) := M1,ξ szórásnégyzete: D (ξ) := (c) M2,ξ . Legyen ψ(x) egy tetsz®leges valós érték¶függvény. {∑ ∞ ψ(k) · pk , ha E(ψ(ξ)) = ∫ ∞k=0 ψ(x) · f (x)dx, ha −∞ ξ diszkrét, ξ abszolút folytonos, amennyiben a jobboldalon álló összeg (integrál) létezik. Ha ξ és η tetsz®leges valószín¶ségi változók, amelyeknek létezik a várható értékük, akkor E(ξ + η) = E(ξ) + E(η). Ha ξ1 , . , ξn páronként független
valószín¶ségi változók, akkor D ξn ) = D2 (ξ1 ) + · · · + D2 (ξn ), ha a jobboldal létezik. A Steiner-képlet: D2 (ξ) := M2,ξ − (E(ξ))2 2 (ξ1 +· · ·+ 204 FEJEZET 13. 13.26 FÜGGELÉK A generátorfüggvény: A {pj } eloszlású ξ diszkrét valószín¶ségi változó Gξ (s) generátorfüggvénye: Gξ (s) := E(sξ ) = ∞ ∑ sk · pk k=0 Gξ (s) analitikus az egyeségkörben, Gξ (1) = 1, G′ξ (1) = E(ξ). Ha a ξ1 , . , ξn valószín¶ségi változók teljesen függetlenek, akkor Gξ1 +···+ξn (s) = Gξ1 (s) · · · · · Gξn (s). Ha ξ1 , ξ2 , . azonos eloszlású teljesen független valószín¶ségi változók, és ν t®lük független diszkrét valószín¶ségi változó, akkor Gξ1 +···+ξν (s) = Gν (Gξ (s)). A generátorfüggvény egyértelm¶en meghatározza az eloszlást: pn = 1 dn Gξ (s)|s=0 , n = 1, 2, . n! dsn A generátorfüggvény s = 1 pontbeli deriváltjai meghatározzák az ún. faktoriális
momentumokat: E[ξ(ξ − 1) . (ξ − k)] = 13.27 dk Gξ (s)/V erts=1 dsk A karakterisztikus függvény: ξ valószín¶ségi változó φξ (t) karakterisztikus függvénye: {∑ ∞ ei·k·t · pk , ha φξ (t) := E(ei·ξ·t ) = ∫ ∞k=0 i·x·t e · fξ (x)dx, ha −∞ ahol i = √ ξ diszkrét, ξ abszolút folytonos, −1. Ha ξ diszkrét, akkor φξ (t) = Gξ (ei·t ) A φξ (t) a t-nek a (−∞ < t < ∞) intervallumon egyenletesen folytonos i·a·t függvénye, φξ (0) = 1, |φξ (t)| ≤ 1 minden t-re, φa+bξ (t) = e φξ (b · t). Mn,ξ = (−i)n dn φξ (t)|t=0 . dtn Ha a ξ1 , . , ξn valószín¶ségi változók teljesen függetlenek, akkor φξ1 +···+ξn (t) = φξ1 (t) · · · · · φξn (t). 13.2 FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY205 A karakterisztikus függvény egyértelm¶en meghatározza az eloszlást; abszolút folytonos eloszlás esetén, ha |φξn (t)| integrálható: fξ (x) = 1 2π ∫ ∞
−∞ e−i·x·t φξ (t)dt. A karakterisztikus függvény t = 0 pontbeli deriváltjai alapján kiszámíthatók a momentumok: E(ξ k ) = i−k 13.28 dk φ(t) dtk Nevezetes diszkrét eloszlások: Bernoulli-eloszlás (egyszer¶ alternatíva): P {ξ = 1} = p, P {ξ = 0} = q, p + q = 1. E(ξ) = p, D2 (ξ) = p · q , Gξ (s) = q + p · s. Binomiális eloszlás (n független Bernoulli összege): ( ) P {ξ = k} = nk pk q n−k , p + q = 1, k = 0, 1, . , n E(ξ) = n · p, D2 (ξ) = n · p · q , Gξ (s) = (q + p · s)n . Poisson-eloszlás (binomiális eloszlás limesze, ha n ∞ és p · n = λ): 1 k λ · e−λ , λ > 0, k = 0, 1, . P {ξ = k} = k! E(ξ) = λ, D2 (ξ) = λ, Gξ (s) = eλ·(s−1) . Geometriai eloszlás (az egyszer¶alternatíva független ismétléseinek száma az els® 1-es megjelenéséig): k−1 P {ξ = k} = p · q , p + q = 1, k = 1, 2, . p·s . E(ξ) = p1 , D2 (ξ) = pq2 , Gξ (s) = 1−q·s Negatív binomiális eloszlás (r darab geometriai
összege): ( ) r k P {ξ = r + k} = k+r−1 r−1 p q , p + q = 1, k = 0, 1, . p·s r E(ξ) = pr , D2 (ξ) = r·q p2 , Gξ (s) = ( 1−q·s ) . Hipergeometrikus eloszlás (visszatevés nélküli mintavétel): −M (Mk )·(Nn−k ) M < N, n ≤ N, k = 0, 1, . , n N (n) M M n−1 2 E(ξ) = n · M N , D (ξ) = n · N · (1 − N ) · (1 − N −1 ). P {ξ = k} = 13.29 Nevezetes abszolút folytonos eloszlások: Normális (Gauss-) eloszlás: (x−m)2 1 fξ (x) = √2πσ e− 2σ2 , −∞ < x < ∞, −∞ < m < ∞, 0 < σ < ∞. E(ξ) = m, D2 (ξ) = σ 2 , 2k−1 továbbá, ha m = 0, k = 1, 2, . E(ξ ) = 0 és 2k 2k E(ξ ) = 1 · 3 · · · · · (2k − 1)σ . σ2 2 ψξ (t) = ei·m·t− 2 t . ξ Lognormális eloszlás (e eloszlása, ahol ξ Gauss): 206 FEJEZET 13. fξ (x) = x·√12πσ e− m+σ 2 /2 E(ξ) = e , (lnx−m)2 2σ 2 FÜGGELÉK , 0 < x < ∞, −∞ < m < ∞, 0 < σ < ∞. 2 2 D (ξ) = e2m+σ · (eσ −
1). 2 Exponenciális eloszlás: fξ (x) = λ · e−λ·x , , 0 < x < ∞, 0 < λ < ∞. E(ξ) = λ1 , D2 (ξ) = λ12 ψξ (t) = 1−1i·t . λ Az exponeciális eloszlást karakterizálja az ún. örökifjú tulajdonság: P(ξ > x + y|ξ > x) = P(ξ > y) Gamma-eloszlás (G(λ, α)): λα fξ (x) = Γ(α) xα−1 e−λx , x ≥ 0 ∫ ∞ α−1 −x e dx) (Γ(α) = x 0 ( )−α α 2 E(ξ) = λ D (ξ) = λα2 ψξ (t) = 1 − i λt . 2 χ eloszlás n szabadságfokkal: n/2−1 −x/2 e fξ (x) = x2n/2 Γ(n/2) , x≥0 ( )−n/2 . E(ξ) = n D2 (ξ) = 2n ψξ (t) = 1 − i 2t t (Student-) eloszlás n szabadságfokkal: A ξ/η eloszlása, ahol ξ és η függetlenek, ( )− n+1 2 2 Γ( n+1 ) ξ ∼ N (0, 1) η ∼ χ2 (n) fξ (x) = √π1 n Γ( n2 ) 1 + xn , 2 n D2 (ξ) = n−2 ha n > 2. Béta-eloszlás a, b paraméterrel (B(a, b)): 1 fξ (x) = B(a,b) xa−1 (1 − x)b−1 x ∈ [0, 1] E(ξ) = 0 ha n > 1 B(a, b) = Γ(a)Γ(b) Γ(a+b) a D2 (ξ) = (a+b)2ab
E(ξ) = a+b (a+b+1) Másodfajú Béta-eloszlás a, b paraméterrel: a−1 (1+x)−a−b fξ (x) = x B(a,b) x ∈ [0, ∞) a(a+b=1) a 2 ha b > 1 D (ξ) = E(ξ) = b−1 (b−1)2 (b−2) ha b > 2 Fisher-féle F-eloszlás n és m paraméterekkel (F(n, m)), A ξ/η eloszlása, ahol ξ és η függetlenek: n n+m n n n( m x) 2 −1 (1+ m x)− 2 m mB( n 2, 2 ) n m Béta-eloszlás 2 , 2 paraméterrel! fξ (x) = Az η = n m ξ valószín¶ségi változó Másodfajú Egyenletes eloszlás (az (a, b) intervallumon): 1 fξ (x) = b−a , ha a < x < b, 0 különben. a+b 1 E(ξ) = 2 , D2 (ξ) = 12 (b − a)2 ha a = −b: 13.210 bt ψξ (t) = sin b·t . Sztochasztikus konvergencia, majdnem biztos konvergencia: A ξn valószín¶ségi változó sorozat sztochasztikusan konvergál a ξ valószín¶ségi szt változóhoz, (ξn ξ ) ha bármely ε-hoz van olyan N , hogy minden n > N -re 13.2 FÜGGELÉK 2: VALÓSZÍNSÉGELMÉLETI KÉPLETGYJTEMÉNY207 P {|ξn − ξ| >
ε} < ε. A ξn valószín¶ségi változó sorozat majdnem biztosan (1 valószín¶séggel) konmb vergál a ξ valószín¶ségi változóhoz, (ξn ξ ) ha P {limn∞ ξn = ξ} = 1. A majdnem biztos konvergencia implikálja a sztochasztikus konvergenciát. 13.211 Nevezetes összefüggések 160. Tétel (Markov-egyenl®tlenség) Ha a E(ξ) létezik, akkor minden pozitiv a számra: P {|ξ| ≥ a} ≤ E(|ξ|) . a Csebisev-egyenl®tlenség: Ha a D2 (ξ) létezik, akkor minden pozitiv a számra: P {|ξ − E(ξ)| ≥ a} ≤ D2 (ξ) . a2 161. Tétel (Nagy számok gyenge törvénye) Ha ξ1 , ξ2 , páronként független 2 azonos eloszlású valószín¶ségi változók sorozata, és léteznek a D (ξk ) szórás- négyzetek, akkor 1 szt (ξ1 + · · · + ξn ) E(ξ). n 162. Tétel (Nagy számok er®s törvénye) Legyen ξ1 , ξ2 , teljesen független azonos eloszlású valószín¶ségi változók sorozata. Annak szükséges és elégséges 1 feltétele, hogy az n (ξ1
+ · · · + ξn ) sorozat majdnem biztosan konvergáljon egy m számhoz az, hogy létezzen az E(ξ) várható érték. Ekkor m = E(ξ) 163. Tétel ( Centrális határeloszlás tétel) Ha ξ, ξ1 , ξ2 , teljesen független 2 azonos eloszlású valószín¶ségi változók sorozata, és létezik a D (ξ) szórásnégy- zet, akkor { limn∞ P 13.212 } ∫ x 2 ξ1 + · · · + ξn − n · E(ξ) 1 √ √ e−s /2 ds. <x = 2 2π D (ξ) · n −∞ Spektrálel®állítási tétel 208 FEJEZET 13. 12 10 8 6 4 2 0 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 13.1 ábra Kett®s cikllus - köbös simítás 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 0 2 4 6 8 10 12 13.2 ábra Kett®s cikllus - köbös simítás 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 0 2 4 6 8 10 12 13.3 ábra Kett®s cikllus - simítás vége FÜGGELÉK Irodalomjegyzék [1] Achlioptas, D., McSherry, F, Fast Computation of Low Rank mátrix approximations J ACM 54 2 (2007) Art 9
(elektronikus) 19 o [2] Babu, Bootstrapping Statistics with Linear Combination of Chi-squares as a Weak Limit, The Indian Statist. J 46 (1984) 85-93 [3] Borovkov, A. A, Matematikai statisztika, Typotex, Bp, 1999 [4] Bevezetés a matematikai statisztikába, KLTE jegyzet, Szerk. Fazekas István, Kossuth Egyetemi Kiadó, 2005 [5] Bolla Marianna, Krámli András, Statisztikai következtetések elmélete, Typotex, 2005 [6] Breiman, L., Friedman, J H, Estimating Optimal Transformation for multiple Regression and Correlation, J Amer Stat Assoc 80 391 (1985) 580 598. [7] Breiman, L., Friedman, J H, Estimating Optimal Transformation for multiple Regression and Correlation, J Amer Stat Assoc 80 391 (1985) 580 598. [8] Csencov, N. N., Statisztikai Döntési Szabályok és Optimális Következtetések (oroszul), NAUKA, Moszkva, 1972 [9] Csiszár Imre, Eloszlások eltérésének információ típusú mértékszámai. MTA III. Oszt Közleményei 17, 123149, 1967 [10] Efron, B., Bootstrap
methods: another look at the jackknife Ann Statist 7 (1979), 1-45 [11] Fisher, R. A Theorz of statistical estimations, Proc Cambridge Phylosoph Soc. 22 (1925), 700 [12] Flury, A rst course in multivariate statistics, Sringer, 1997 [13] Frieze, A., Kannan, R, Vempala, S, Fast Monte Carlo Algorithms for Finding Low-Rank Approximation, J ACM 51 6 (2004) 10251041 209 210 IRODALOMJEGYZÉK [14] Giri, Multivariate statistical analysis, Marcel Dekker, 2004 [15] Gnyegyenko, B. V, Kolmogorov, A N, Független valószín¶ségi változók öszegeinek határeloszlásai, Akadémiai Kiadª, Budapest, 1951 [16] Grone, R., Pierce, S, Watkins W, Extremal correlation matrices, Lin Alg Appl. 134 (1990), 6370 [17] Hofmann, T., Schölkopf, B, Smola, J, Kernel methods in machine learning, Ann. Statist 36 3 (2008) 11711220 [18] Kruskal, J. B, On the shortest spanning subtree of a grapf and the travelling salesman problem Problem Amer Math Soc 7 (1956), 4850 [19] [20] Lovász, L., Kombinatiorikai
problémák és feladatok Typotex, Bp, 1999 [21] Lukacs, E., The stochastic independence of symmetric and homogeneous linear and quadratic statistics, Ann. Math Statist 23 (1952), 442449 [22] Mika, S., Schölkopf, B, Smola, A J Müller, K R, Kernel PCA and denoising in feature spaces, Advances in neural information processing systems 11 (1), 536-542 [23] Miller, Rupert, G., Jr, A trustworthy jackknife, Ann Math Statist 35 (1964), 1594-1605 [24] Miller, Rupert, G., Jr,Jackkning variances, Ann Math Statist 39 (1968), 567-582 [25] Móri, Szeidl, Zempléni: Matematikai statisztika példatár, ELTE Eötvös Kiadó, 1997 [26] Móri Tamás, Székely J. Gábor (szerk), Többváltozós Statisztikai Analizis, M¶szaki Könyvkiadó, Budapest, 1972 [27] Olkin, I., Pierce, S The 70th anniversary of random matrices, Lin Alg Appl. 354 (2002), 231-243 [28] Quenouille, M., H, Notes on bias in estimation, Biometrika, 43 (1956) 353360 [29] R., ed Handbook of Statistics, V 9 627-659 Elsevier Science
Pulisher, 1993 [30] Rózsa, P., Lineáris algebra és alkalmazásai, M¶szaki Könyvkiadó, Bp, 1974 [31] Singh, K., On the asymptotoic accuracy of Efron's bootstrap, Ann Statist 9 (1981) 11871195. [32] Tukey, J., W, Abstract, Ann Math Statist 29 (1958), 612