Tilastoissa poikkeava tai "outlier" on peruspiste, joka poikkeaa hyvin kaukana muista otoksen tai peruspisteiden sisältämistä peruspisteistä (peruspisteitä kutsutaan dataksi). Usein nollapistejoukon poikkeama voi toimia tilastotieteilijänä varoituksena mittausten epänormaalisuudesta tai kokeellisesta virheestä, mikä voi johtaa tilastotieteilijän poistamaan poikkeama peruspistejoukosta. Jos tilastotieteilijä poistaa poikkeamat nollapistejoukosta, tutkimuksesta tehdyt johtopäätökset voivat olla hyvin erilaisia. Siksi poikkeavien arvojen laskeminen ja analysoiminen on erittäin tärkeää, jotta voidaan varmistaa tilastollisen datumjoukon oikea ymmärtäminen.
Vaihe
Vaihe 1. Opi tunnistamaan mahdollisesti poikkeavat peruspisteet
Ennen kuin päätämme, poistetaanko poikkeavat peruspisteet datumjoukosta vai ei, meidän on tietysti tunnistettava, mitkä peruspisteet voivat tulla poikkeaviksi. Yleensä outlier on peruspiste, joka poikkeaa hyvin kaukana yhden datumjoukon muista nollapisteistä - toisin sanoen outlier on muiden datumin ulkopuolella. Yleensä poikkeamat on helppo havaita tietotaulukosta tai (erityisesti) kaaviosta. Jos yhtä peruspistejoukkoa kuvataan visuaalisesti kaavion avulla, poikkeava peruspiste näyttää olevan "hyvin kaukana" muista nollapisteistä. Jos esimerkiksi suurin osa nollapistejoukon peruspisteistä muodostaa suoran viivan, ulkopuolista peruspistettä ei kohtuudella tulkita muodostavan kyseistä viivaa.
Katsotaanpa nollapisteitä, jotka edustavat huoneen 12 eri kohteen lämpötiloja. Jos 11 kohteen lämpötila on noin 70 Fahrenheit (21 astetta), mutta 12. kohteen, uunin, lämpötila on 150 Fahrenheit (300 Fahrenheit), voidaan heti nähdä, että uunin lämpötila on todennäköisesti outo
Vaihe 2. Järjestä peruspisteet nollapisteestä korkeimpaan
Ensimmäinen askel poikkeusarvojen laskemiseen peruspistejoukossa on löytää kyseisen perusjoukon mediaani (keskiarvo). Tästä tehtävästä tulee hyvin yksinkertainen, jos nollapistejoukon nollapisteet on järjestetty pienimmästä suurimpaan. Järjestä siis peruspisteet yhteen tällaiseen peruspistejoukkoon ennen jatkamista.
Jatketaan yllä olevaa esimerkkiä. Tämä on meidän peruspisteemme, jotka edustavat huoneen useiden kohteiden lämpötiloja: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jos järjestämme peruspisteet alimmasta korkeimpaan, peruspisteiden järjestykseen tulee: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Vaihe 3. Laske peruspisteen mediaani
Peruspistejoukon mediaani on peruspiste, jossa nollapisteen toinen puoli on tuon peruspisteen yläpuolella ja loput puolet sen alapuolella - pohjimmiltaan tämä peruspiste on peruspiste, joka on peruspistejoukon "keskellä". Jos peruspisteiden määrä nollapistejoukossa on pariton, se on erittäin helppo löytää - mediaani on peruspiste, jonka ylä- ja alapuolella on sama numero. Kuitenkin, jos peruspisteiden joukko nollapisteiden joukossa on parillinen, niin koska kukaan peruspiste ei sovi keskelle, keskellä olevat kaksi peruspistettä lasketaan keskiarvo mediaanin löytämiseksi. On huomattava, että poikkeamia laskettaessa mediaanille annetaan yleensä muuttuja Q2-ni, koska Q2 on Q1: n ja Q3: n välillä, alempi ja ylempi kvartiili, josta keskustelemme myöhemmin.
- Ei pidä sekoittaa peruspistejoukkoon, jossa peruspisteiden määrä on parillinen-kahden keskipisteen keskiarvo palauttaa usein luvun, joka ei ole itse peruspistejoukossa-tämä on okei. Kuitenkin, jos kaksi keskipistettä ovat sama luku, keskiarvo on tietysti myös sama luku, mikä on myös hyvä.
- Yllä olevassa esimerkissä meillä on 12 peruspistettä. Kaksi keskimmäistä nollapistettä ovat kuudes ja seitsemäs nollapiste-70 ja 71. Vastaavasti peruspistejoukon mediaani on näiden kahden luvun keskiarvo: ((70 + 71) / 2), = 70.5.
Vaihe 4. Laske alempi kvartiili
Tämä arvo, jonka annamme muuttujalle Q1, on peruspiste, joka edustaa 25 prosenttia (tai neljäsosa) peruspisteistä. Toisin sanoen se on peruspiste, joka jakaa mediaanin alapuolella olevat peruspisteet. Jos mediaanin alapuolella olevien nollapisteiden määrä on parillinen, sinun on jälleen laskettava keskelle kaksi peruspistettä löytääksesi Q1, aivan kuten itse mediaani.
Esimerkissämme on 6 peruspistettä, jotka sijaitsevat mediaanin yläpuolella, ja 6 peruspistettä, jotka ovat mediaanin alapuolella. Tämä tarkoittaa sitä, että alemman kvartiilin löytämiseksi meidän on keskitettävä 2 peruspistettä keskelle kuutta nollapistettä mediaanin alapuolelle. Kolme ja neljä peruspistettä 6 nollapistettä mediaanin alapuolella ovat molemmat 70. Joten keskiarvo on ((70 + 70) / 2), = 70. 70: stä tulee Q1.
Vaihe 5. Laske ylempi kvartiili
Tämä arvo, jonka annamme muuttujalle Q3, on peruspiste, johon peruspistejoukossa on 25 prosenttia nollapisteistä. Q3: n löytäminen on suunnilleen sama asia kuin Q1, paitsi että tässä tapauksessa tarkastelemme mediaanin yläpuolella olevia peruspisteitä, ei mediaanin alapuolella.
Jatkamalla yllä olevaa esimerkkiämme, 2 peruspistettä kuuden peruspisteen keskellä mediaanin yläpuolella ovat 71 ja 72. Näiden kahden peruspisteen keskiarvo on ((71 + 72)/2), = 71, 5. 71, 5 on Q3.
Vaihe 6. Etsi neljännesvälinen etäisyys
Nyt kun olemme löytäneet Q1 ja Q3, meidän on laskettava näiden kahden muuttujan välinen etäisyys. Etäisyys Q1: stä Q3: een saadaan vähentämällä Q1 Q3: sta. Neljänneksen välisille etäisyyksille saadut arvot ovat erittäin tärkeitä määritettäessä peruspisteiden ei-poikkeavien peruspisteiden rajat.
- Esimerkissämme arvomme Q1 ja Q3 ovat 70 ja 71, 5. Jotta löydettäisiin neljännesvälinen etäisyys, vähennämme Q3 - Q1 = 71,5 - 70 = 1, 5.
- On huomattava, että tämä pätee myös, vaikka Q1, Q3 tai molemmat ovat negatiivisia lukuja. Jos esimerkiksi Q1 -arvomme oli -70, oikea kvartaalien välinen etäisyys olisi 71,5 -(-70) = 141, 5.
Vaihe 7. Etsi”sisempi aita” peruspisteestä
Poikkeamat saadaan selville tarkistamalla, onko peruspiste "sisäaita" ja "ulompi aita" olevien numerorajojen sisällä. Peruspistettä, joka jää peruspisteen sisäisen aidan ulkopuolelle, kutsutaan "vähäiseksi poikkeamaksi", kun taas ulomman aidan ulkopuolelle jäävää peruspistettä kutsutaan "suureksi poikkeamaksi". Löydät peruspisteen sisäisen aidan kertomalla ensin neljännesvälin etäisyyden 1, 5. Lisää sitten tulos Q3: lla ja vähennä se myös Q1: stä. Kaksi saamaasi arvoa ovat peruspisteen sisäiset aidan rajat.
-
Esimerkissämme kvartiilien välinen etäisyys on (71,5 - 70) tai 1,5. Kerro 1,5 1,5: llä, jolloin tuloksena on 2,25. Lisäämme tämän luvun Q3: een ja vähennämme Q1 tällä numerolla löytääksesi sisä aidan rajat seuraavasti:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Joten sisäisen aidamme rajat ovat 67, 75 ja 73, 75.
-
Perusarjoissamme vain uunin lämpötila, 300 Fahrenheit - on näiden rajojen ulkopuolella, joten tämä peruspiste on vähäinen poikkeama. Emme ole kuitenkaan vielä laskeneet, onko tämä lämpötila merkittävä poikkeama, joten älä tee johtopäätöksiä ennen kuin olemme tehneet laskelmamme.
Vaihe 8. Etsi”ulompi aita” peruspisteestä
Tämä tehdään samalla tavalla kuin sisemmän aidan löytäminen, paitsi että neljänneksen välinen etäisyys kerrotaan 3: lla 1,5: n sijaan. Tulos lisätään sitten Q3: een ja vähennetään Q1: stä, jotta voidaan löytää ulomman aidan ylä- ja alarajat.
-
Esimerkissämme neljännesvälin etäisyyden kertominen 3 antaa (1, 5 x 3) tai 4, 5. Löydämme ulko -aidan rajat samalla tavalla kuin ennen:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Ulko -aidan rajat ovat 65,5 ja 76.
-
Ulkoisen aidan rajan ulkopuolella olevia peruspisteitä kutsutaan suuriksi poikkeamiksi. Tässä esimerkissä uunin lämpötila, 300 Fahrenheit, on selvästi ulomman aidan ulkopuolella, joten tämä nollapiste on "ehdottomasti" merkittävä poikkeama.
Vaihe 9. Käytä kvalitatiivista harkintaa sen määrittämiseen, hylätäänkö poikkeava nollapiste
Edellä kuvatun menetelmän avulla voidaan määrittää, onko peruspiste vähäinen, suuri peruspiste vai ei lainkaan poikkeava. Älä kuitenkaan erehdy - datumin löytäminen poikkeajaksi merkitsee vain tuon datumin "ehdokkaaksi" poistettavaksi peruspistejoukosta, ei datumiksi, joka "pitäisi" hylätä. "Syy", joka saa poikkeavan datumin poikkeamaan muista peruspisteistä peruspistejoukossa, on erittäin tärkeä määritettäessä, hylätäänkö se vai ei. Yleensä esimerkiksi mittaus-, tallennus- tai kokeellisen suunnitteluvirheen aiheuttama poikkeama voidaan hylätä. Toisaalta poikkeamat, jotka eivät johdu virheestä ja jotka osoittavat uutta tietoa tai suuntauksia, joita ei ole aiemmin ennustettu, yleensä "hylätään".
- Toinen huomioon otettava kriteeri on, onko poikkeavalla aineella suuri vaikutus perusjoukon keskiarvoon, toisin sanoen, sekoittaako poikkeama sen tai näyttääkö se väärältä. Tämä on erittäin tärkeää harkita, jos aiot tehdä johtopäätöksiä tietojoukon keskiarvosta.
-
Tutkitaan esimerkkiämme. Tässä esimerkissä, koska näyttää "erittäin" epätodennäköiseltä, että uuni saavuttaa 300 Fahrenheit -asteen arvaamattomien luonnonvoimien kautta, voimme melkein varmasti päätellä, että uuni jätettiin vahingossa päälle, mikä aiheutti korkean lämpötilan nollapisteen poikkeavuuden. Lisäksi jos emme poista poikkeamia, peruspisteemme keskiarvo on (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 astetta)), kun taas keskiarvo, jos poistamme poikkeamat, on (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 astetta).
Koska nämä poikkeamat johtuivat inhimillisestä erehdyksestä ja koska olisi väärin sanoa, että keskimääräinen huonelämpötila saavuttaa lähes 90 Fahrenheit (32 celsiusastetta), meidän on parempi valita "heittää pois" poikkeamat
Vaihe 10. Tiedä poikkeavuuksien säilyttämisen tärkeys (joskus)
Vaikka jotkin poikkeamat olisi poistettava peruspistejoukosta, koska ne aiheuttavat virheitä ja/tai tekevät tuloksista epätarkkoja tai virheellisiä, jotkut poikkeamat on säilytettävä. Jos esimerkiksi poikkeama näyttää olevan luonnostaan hankittu (eli ei seurausta virheestä) ja/tai antaa uuden näkökulman tutkittavaan ilmiöön, poikkeamaa ei tule poistaa peruspistejoukosta. Tieteellinen tutkimus on yleensä erittäin arkaluonteinen tilanne poikkeamien suhteen - poikkeavien virheellinen poistaminen voi tarkoittaa uuden trendin tai löydöksen osoittavan tiedon hylkäämistä.