Poglavlje 11
MATEMATIČKA STATISTIKA

Matematička statistika je znanstvena disciplina koja provjerava matematičke modele slučajnog pokusa  u realnosti. Proučava svojstva slučajnog uzoraka i donosi zaključke o populaciji iz koje je uzet slučajni uzorak. Statističke metode daju zaključke s nekom vjerojatnošću pa se temelje na teoriji vjerojatnosti.

Deskriptivna statistika bavi se uredivanjem prikupljenih, empirijskih podataka, njihovim grafičkim prikazivanjem i opisivanjem pomoću numeričkih vrijednosti: prosjek, standardna devijacija, korelacijski koeficijent,...

Induktivna statistika (Inferencijalna statistika )bavi se metodama koje se zasnivaju na teoriji vjerojatnosti i koje omogućavaju da se donose zaključci o populaciji pomoću uzoraka iz populacije.

Tri pravca u matematčkoj statistici (induktivnoj statististici) su:

teorija procjene,

teorija testiranja statističkih hipoteza,

teorija planiranja eksperimenata.

U teoriji procjene osvnut ćemo se na:

točkaste procjenitelje,

metodu max vjerojatnosti za odredivanje procjenitelja,tko želi znati više

intervale povjerenja za procjenitelje za parametre normalne razdiobe.

U teoriji testiranja osvnut ćemo se na:

test hipoteze o parametrima normalne razdiobe,

Teorija planiranja eksperimenta razvija metodu sekvencijalne analize, broj promatranja je slučajan, pa se provjera statstičkih hipoteza ovom metodom izvodi postepeno, u etapama. Hipoteza se može prihhvatiti, odbiti ili produžiti eksperiment.

11.1 DESKRIPTIVNA STATISTIKA

Definicija 11.1 (POPULACIJA)

Populacija (osnovni skup, statistički skup) je skup svih elemenata od kojih bismo mogli uzeti podatke o odredenim veličinama.
Populacija može biti konačna ili beskonačna.

PRIMJER 11.1

Populacija - sve obitelji u jednoj zgradi.
Veličine koje možemo razmatrati: broj djece, mjesečni dohodak..

Definicija 11.2  (STATISTIČKA VARIJABLA-OBILJEŽJE)

Statističko obilježje (vaijabla) je numeričko svojstvo elemenata statističkog skupa.
Ako je skup vrijednosti R(X) statističkog obilježja diskretan onda za X kažemo da je diskretno obilježje, a ako je R(X) R kažemo da je kontinuirano obilježje.
Uzorak  je podskup populacije koji uzimamo na unaprijed odreden način.

Definicija 11.3  (FREKVENCIJA, RELATIVNA FREKVENCIJA, KUMULATIVNA RELATIVNA FREKVENCIJA, ARITMETIČKA SREDINA,
VARIJANCA, STANDARDNA DEVIJACIJA)

Neka je X statističko obilježje i neka se mjerenje ponovi n, konačno mnogo puta (nezavisno) i dobije n statističkih podataka xi,i = 1,..,n. Slika R(X)={xk*,k = 1,..,r} sadrži r različitih statističkih podataka. Ako se xk* pojavi fk puta onda kažemo da xk* pripada frekvencija fk i relativna frekvencija fk
n, za k = 1,..,r.
Vrijedi: k=1rfk = n,   k=1rfkn- = 1.
Za x R kažemo da ima kumulativnu relativnu frekvenciju Fn(x)= k,xkxfk
n.
Aritmetička redina n statističkih podataka xi,i = 1,..,n:

    1 ∑n          1 ∑r
x-= --    xi,  x-= --   x*kfk.
    n i=1         n k=1

Varijanca n statističkih podataka xi,i = 1,..,n:

 2   1-∑n      --2   1-∑n   2  -2
^σ  = n    (xi - x ) = n    xi - x ,
       i=1             i=1
       ∑r                ∑r
^σ2 = 1-   (x*k - x-)2fk = 1   (x*k)2fk - x2.
     n k=1             n k=1

Standardna devijacija je ^σ.

Statističke podatke koji se dobiju mjerenjem statističkog obilježja X možemo prikazati:
tablično: tablicom frekvencija i tablicom relativnih frekvencija,
grafički: grafikonom frekvencija, relativnih frekvencija, kumulativnih frekvencija,
histogramom (nad dobivenim podacima xk* nacrtani su pravokutnici visine jednake frekvenciji fkili relativnoj frekvenciji fk-
n),
poligonom (izlomljena linija koja spaja točke (xk*,fk)).
Ako je n veliki i skup vrijednosti ima veliki broj elemenata (posebno kod kontinuirane slučajne varijable-statističkog obilježja) formiramo r razreda. Prilikom tabličnog i grafičkog prikazivanja vrijednosti slučajnog uzorka na apscisu nanosimo r podintervala (razreda), sa sredinama razreda xksr*, a na ordinatu sumu frekvencija fk elemenata iz tog razreda.
Broj razreda r ponekad se računa po formulama: r = √n-, r = 2√3n--.
U praksi se koristi slijedeća shema za izbor broja razreda:

|--------|------|
|---n----|--r---|
|-40-60--|-6-8--|
|60 -100  | 7- 10  |
|--------|------|
|100-200-|-8- 12--|
-200-500--12-17--
| > 500  |  21  |
-----------------

PRIMJER 11.2

Mjerenjem kontinuirane slučajne varijable X= prosječne težine studenata jednog turnusa na uzorku veličine 100 dobivena je vrijednost slučajnog uzorka (x1,x2,...,x100) dana u tablici:

|-------|--*--|--------|-fk--|------|
|razred-|-xksr-|---fk---|-n---|Fn(x)-|
| 60- 62  | 61  |   5    |0,05 | 0,05  |
|-------|-----|--------|-----|------|
|-63- 65--|-64--|---18---|0,18-|-0,23--|
|-66- 68--|-67--|---42---|0,42-|-0,65--|
| 69- 71  | 70  |   27   |0,27 | 0,92  |
|-------|-----|--------|-----|------|
|-72- 74--|-73--|---8----|0,08-|-1,00--|
|ukupno |     | n=100  |1,00 |      |
-------------------------------------


PICPIC

Slika 11.1: Histogrami frekvencija i relativnih frekvencija iz primjera 11.2.



PIC

Slika 11.2: Graf kumulativnih relativnih frekvencija iz primjera 11.2.


Relativne frekvencije odgovaraju pojmu statističke vjerojatnosti.
P(66 < X < 68) 0,42

Definicija 11.4 (STATISTIČKA RAZDIOBA)

Statističko obilježje (slučajna varijabla) X sa skupom vrijednosti R(X) opisano grafom relativnih frekvencija ili grafom kumulativnih relativnih frekvencija ima statističku funkciju distribucije Fn(x). Slučajna varijabla X ima i teorijsku funkciju distribucije F(x).

TEOREM 11.1 (GLIVENKO)

Ako su vrijednosti u uzorku slučajne varijable X (statističkog obilježja) nezavisni, onda je

P (  sup   ∥Fn(x) - F(x)∥ → 0 ) = 1, kad n → ∞.
   -∞ <x<∞

Kad je uzorak dovoljno velik, onda se s vjerojatnošću skoro 1 statistička razdioba malo razlikuje od teorijske razdiobe.

Definicija 11.5 (Kvantil, medijan, prvi kvartil, treći kvartil)
Ako je F funkcija distribucije slučajne varijable X onda se rješenje jednadžbe F(xp) = p zove kvantil reda p.
Medijan Me = x0.5; F(Me) = 0.5 tj. P(X Me) = 0.5
Prvi kvartil Q1 = x0.25; F(Q1) = 0.25 tj. P(X Q1) = 0.25
Drugi kvartil Q2 = x0.5 = Me
Treći kvartil Q3 = x0.75; F(Q3) = 0.75 tj. P(X Q3) = 0.75

PRIMJER 11.3 Računanje medijana statističkog obilježja X:
(A) Ako je niz statističkih podataka, vrijednosti nekog statističkog obilježja X rastući x1 x2 ... xn, onda je

      (
      |{     xn+1,     za n neparan;
M e =         2
      |(  xn2 +-x-n2+1, za n paran.
             2

PRIMJER 11.4 Odredite medijan za zadani niz statističkih podataka
3 4 4 5 6 8 8 8 10, n=9, neparan.
Me = xn+1
-2- = x5 = 6.

PRIMJER 11.5 Računanje medijana statističkog obilježja X:
(B) Ako su vrijednosti statističkog obilježja date u razredima s odgovarajućim frekvencijama fi onda je

               n
M e = LMe + d ⋅2---(f1 +-f2-+-...+-fk),
                       fk+1

gdje je k izabran tako da je

 ′                       n                             ′
Fk = (f1 + f2 + ...+ fk) ≤ 2-≤ f1 + f2 + ...+ fk + fk+1 = F k+1,

LMe je lijevi rub k + 1 razreda, d je širina razreda.

PRIMJER 11.6 Računanje prvog kvartila statističkog obilježja X:
(A) Ako je niz statističkih podataka, vrijednosti nekog statističkog obilježja X rastući x1 x2 ... xn, onda je

     (
     |  x     n   ,  za n nije djeljiv s 4;
     {    cijelo(4 +1)
Q1 = |(  x-n4 +-xn4+1
             2    ,  za n djeljiv s 4.

PRIMJER 11.7 Odredite prvi kvartil za niz statističkih podataka
3 4 4 5 6 8 8 8 10, n = 9, nije djeljiv s 4.
Q1 = xcijelo(n
4+1) = x3 = 4.

PRIMJER 11.8 Računanje prvog kvartila statističkog obilježja X:
(B) Ako su vrijednosti statističkog obilježja date u razredima s odgovarajućim frekvencijama fi onda je

              -n4 --(f1-+-f2 +-...+-fk)
Q1 = LQ1 +  d⋅         fk+1        ,

gdje je k izabran tako da je

F′ = (f1 + f2 + ...+ fk) ≤ n-≤ f1 + f2 + ...+ fk + fk+1 = F ′ ,
 k                       4                             k+1

LQ1 je lijevi rub k + 1 razreda, d je širina razreda.

PRIMJER 11.9 Računanje trećeg kvartila:
(A) Ako je niz statističkih podataka, vrijednosti nekog statističkog obilježja X rastući x1 x2 ... xn, onda je

      (
      |{  xcijelo(3n+1),  za n nije djeljiv s 4;
Q3 =           4
      |(  x3n4 +-x34n+1,  za n djeljiv s 4.
              2

PRIMJER 11.10 Odredite treći kvartil niz statističkih podataka
3 4 4 5 6 8 8 8 10, n = 9, nije djeljiv s 4.
Q3 = xcijelo(3n-
4+1) = x7 = 8.

PRIMJER 11.11 Računanje trećeg kvartila:
(B) Ako su vrijednosti statističkog obilježja date u razredima s odgovarajućim frekvencijama fi onda je

              3n4 - (f1 + f2 + ...+ fk)
Q3 = LQ3 + d ⋅---------f------------,
                        k+1

gdje je k izabran tako da je

  ′                      3n-                             ′
Fk = (f1 + f2 + ...+ fk) ≤ 4 ≤ f1 + f2 + ...+ fk + fk+1 = Fk+1,

LQ3 je lijevi rub k + 1 razreda, d je širina razreda.

Definicija 11.6 (MOD)
Mod je vrijednost statističkog obilježja koja ima najveću frekvenciju. Može se dogoditi da mod ne postoji ili da postoji više modova.

PRIMJER 11.12 Odredite mod niza statističkih podataka
3 4 4 5 6 8 8 8 10.

    |
-xi-|fi--
  3 | 1
    |
  4 | 2
  5 | 1
  6 | 1
    |
  8 | 3
 10 | 1

xi = 8 ima maksimalnu frekvenciju fi = 3, Mo = 8.

PRIMJER 11.13 Računanje moda:
Ako su vrijednosti statističkog obilježja date u razredima s odgovarajućim frekvencijama fi onda je

               ---Δ1---
M o = LMo  + d⋅Δ1  + Δ2,

gdje je k izabran tako da je fk maksimalan, LMo je lijevi rub k -tog razreda, d je širina razreda, Δ1 = fk - fk-1,   Δ2 = fk - fk+1.

Definicija 11.7 (koeficijent varijacije)
Koeficijent varijacije je relativna mjera standardne devijacija i računa se na dva načina
KV = σ
--
x 100   ili pomoću kvartila   KV = Q  - Q
--3----1
Q3 + Q1.

Definicija 11.8 (koeficijent asimetrije)
Koeficijent asimetrije za slučajnu varijablu X je broj KA koji karakterizira simetriju razdiobe i definira se kao kvocijent trećeg centralnog momenta i kuba standardne devijacije σ :

KA  =  μ3.
       σ3

Definicija 11.9 Koeficijent asimetrije statističkog obilježja X, ako su vrijednosti statističkog obilježja date kao niz xi* s frekvencijama fi, i = 1,...,r, definira se kao

       ^μ3-
KA  =  ^σ3,

gdje je

       ∑r                ∑ r
^μ3 = 1-   (x*  - x)3fi,   (   fi = n );
     n i=1  isr            i=1
       ∑r                ∑ r
^σ2 = 1-   (x*isr - x)2fi,   (   fi = n ).
     n i=1                i=1

NAPOMENA 11.1 Ako je KA = 0 onda je razdioba frekvencija simetrična u odnosu na pravac x = x  onda se poklapaju x = Me = Mo. (Normalna razdioba ima KA = 0)


PIC

Ako je KA > 0 onda je razdioba frekvencija asimetrična u odnosu na pravac x = x, asimetrija je pozitivna i vrijedi x > Me > Mo.
Ako je KA < 0 onda je razdioba frekvencija asimetrična u odnosu na pravac x = x, asimetrija je negativna i vrijedi x < Me < Mo.


PIC   PIC

Definicija 11.10 koeficijent spljoštenosti (eksces)
Koeficijent spljoštenosti slučajne varijable X je broj KE koji karakterizira zaobljenost razdiobe i definira se kao pomoću kvocijenta četvrtog centralnog momenta i četvrte potencije standardne devijacije σ :

      μ4-
KE =  σ4 - 3.

Definicija 11.11 Koeficijent spljoštenosti statističkog obilježja X, ako su vrijednosti statističkog obilježja date kao niz xi* s frekvencijama fi, i = 1,...,r, definira se kao

      ^μ
KE =  -44-- 3,
      ^σ

gdje je

     1 ∑r                ∑ r
^μ4 = --   (x*isr - x)4fi,   (   fi = n );
     n i=1                i=1
 2   1 ∑r   *    --2     ∑ r
^σ  = n-   (xisr - x) fi,   (   fi = n ).
       i=1                i=1

NAPOMENA 11.2 Ako je KE = 0 onda je razdioba frekvencija normalna razdioba. (Normalna razdioba ima KE = 0)
Ako je KE > 0 onda je graf funkcije razdiobe frekvencija uži od grafa normalne razdiobe (spljoštenost je manja).
Ako je KE < 0 onda je graf funkcije razdioba frekvencija širi od normalne razdiobe (spljoštenost je veća).


PIC

Slika 11.3: Spljoštenost


PRIMJER 11.14 Mjerenjem kontinuirane slučajne varijable X= prosječne težine studenata jednog turnusa na uzorku veličine 100 dobivena je vrijednost slučajnog uzorka (x1,x2,...,x100) dana u tablici:

|--------|-----|-------|--′-|--f--|-------|
|-razred--|x*isr-|--fi---|F-i-|--in--|-Fn(x)-|
| 60-62  | 61  |  5    | 5  |0,05 | 0,05  |
|--------|-----|-------|----|-----|-------|
|-63-65--|-64--|--18---|23--|0,18-|-0,23--|
|-66-68--|-67--|--42---|65--|0,42-|-0,65--|
| 69-71  | 70  |  27   |92  |0,27 | 0,92  |
|--------|-----|-------|----|-----|-------|
|-72-74--|-73--|--8----|100-|0,08-|-1,00--|
|ukupno  |     |n=100  |    |1,00 |       |
------------------------------------------

Odrediti očekivanje, varjancu, standardnu devijaciju, mod, medijan, prvi kvartil, treći kvartil, koeficijent varijacije, koeficijent asimetrije, koeficijent spljoštenosti.
NAPOMENA: Razredi su u tablici dati smbolično npr. razred 60 - 62 je razred 59.5 - 62.5 tako da je širina razreda d = 3.

Rješenje:
očekivanje   x =  1
100- i=15x isr*f i = 67.45
varijanca   ^σ2 = 1
n- i=1r(x isr*-x)2f i = 8.527
medijan  Me = LMe + d n2 - (f1 + f2 + ...+ fk)
--------f------------
         k+1, gdje je k + 1 = 3 izabran tako da je Fk = f1 + f2 = 23 n
2- = 50 f1 + f2 + f3 = 65 = Fk+1 ,
LMe = 65.5 je lijevi rub k + 1 = 3. razreda, d = 3 je širina razreda.

               n2 - (f1 + f2 + ...+ fk)          50 - 23
M e = LMe + d ⋅---------f----------- = 65.5+ 3 ⋅--42--- = 67.4.
                         k+1

prvi kvartil  Q1 = LQ1 + d n - (f + f  + ...+ f )
4-----1---2--------k-
        fk+1, gdje je k + 1 = 3 izabran tako da je Fk = f1 + f2 = 23 n
--
4 = 25 f1 + f2 + f3 = 65 = Fk+1 ,
LQ1 = 65.5 je lijevi rub k + 1 = 3. razreda, d = 3 je širina razreda.

              n
Q1 = LQ1 + d ⋅4---(f1 +-f2-+-...+-fk) = 65.5 + 3 ⋅ 25--23-= 65.643
                      fk+1                       42

treći kvartil  Q3 = LQ3 + d 34n--(f1-+-f2 +-...+-fk)-
        fk+1, gdje je k + 1 = 4 izabran tako da je Fk = f1 + f2 + f3 = 65 3n
-4- = 75 f1 + f2 + f + f4 = 92 = Fk+1 ,
LQ3 = 68.5 je lijevi rub k + 1 = 4. razreda, d = 3 je širina razreda.

              3n
Q  = L   + d ⋅-4---(f1 +-f2-+-...+-fk) = 68.5+ 3 ⋅ 75--65= 69.611.
  3    Q3              fk+1                       27

mod Mo = LMo + d    Δ1
Δ---+-Δ-
  1    2, gdje je k = 3 izabran tako da je fk = 42 maksimalan, LMo = 65.5 je lijevi rub k = 3. razreda, d = 3 je širina razreda, Δ1 = fk - fk-1 = f3 - f2 = 42 - 18, Δ2 = fk - fk+1 = f3 - f4 = 42 - 27.

                  Δ1                  24
M  o = LMo + d⋅ Δ--+-Δ--=  65.5 + 3⋅ 24+-15-= 67.346.
                 1     2

koeficijent varijacije  KV = ^σ-
x- 100% = √-----
-8.527-
 67.45 100% = 4.32%
KV = Q3---Q1-
Q3 + Q1 = 69.611---65.643-
69.611 + 65.643 = 2.9337 × 10-2
koeficijet asimetrije i spljoštenosti  ^μ 3 = 1-
n i=1r(x isr*-x)3f i = -2.293
^μ4 = -1
n i=1r(x isr*-x)4f i = 199.37

K   = ^μ3-= - 0.14,  K  =  ^μ4-- 3 = - 0.26
  A   ^σ3             E    ^σ4