Poikkeavien havaitseminen: 10 vaihetta (kuvilla)

Sisällysluettelo:

Poikkeavien havaitseminen: 10 vaihetta (kuvilla)
Poikkeavien havaitseminen: 10 vaihetta (kuvilla)

Video: Poikkeavien havaitseminen: 10 vaihetta (kuvilla)

Video: Poikkeavien havaitseminen: 10 vaihetta (kuvilla)
Video: #5 tapaa tulla rikaaksi 2024, Huhtikuu
Anonim

Tilastoissa poikkeava tai "outlier" on peruspiste, joka poikkeaa hyvin kaukana muista otoksen tai peruspisteiden sisältämistä peruspisteistä (peruspisteitä kutsutaan dataksi). Usein nollapistejoukon poikkeama voi toimia tilastotieteilijänä varoituksena mittausten epänormaalisuudesta tai kokeellisesta virheestä, mikä voi johtaa tilastotieteilijän poistamaan poikkeama peruspistejoukosta. Jos tilastotieteilijä poistaa poikkeamat nollapistejoukosta, tutkimuksesta tehdyt johtopäätökset voivat olla hyvin erilaisia. Siksi poikkeavien arvojen laskeminen ja analysoiminen on erittäin tärkeää, jotta voidaan varmistaa tilastollisen datumjoukon oikea ymmärtäminen.

Vaihe

Laske poikkeamat Vaihe 1
Laske poikkeamat Vaihe 1

Vaihe 1. Opi tunnistamaan mahdollisesti poikkeavat peruspisteet

Ennen kuin päätämme, poistetaanko poikkeavat peruspisteet datumjoukosta vai ei, meidän on tietysti tunnistettava, mitkä peruspisteet voivat tulla poikkeaviksi. Yleensä outlier on peruspiste, joka poikkeaa hyvin kaukana yhden datumjoukon muista nollapisteistä - toisin sanoen outlier on muiden datumin ulkopuolella. Yleensä poikkeamat on helppo havaita tietotaulukosta tai (erityisesti) kaaviosta. Jos yhtä peruspistejoukkoa kuvataan visuaalisesti kaavion avulla, poikkeava peruspiste näyttää olevan "hyvin kaukana" muista nollapisteistä. Jos esimerkiksi suurin osa nollapistejoukon peruspisteistä muodostaa suoran viivan, ulkopuolista peruspistettä ei kohtuudella tulkita muodostavan kyseistä viivaa.

Katsotaanpa nollapisteitä, jotka edustavat huoneen 12 eri kohteen lämpötiloja. Jos 11 kohteen lämpötila on noin 70 Fahrenheit (21 astetta), mutta 12. kohteen, uunin, lämpötila on 150 Fahrenheit (300 Fahrenheit), voidaan heti nähdä, että uunin lämpötila on todennäköisesti outo

Laske poikkeamat Vaihe 2
Laske poikkeamat Vaihe 2

Vaihe 2. Järjestä peruspisteet nollapisteestä korkeimpaan

Ensimmäinen askel poikkeusarvojen laskemiseen peruspistejoukossa on löytää kyseisen perusjoukon mediaani (keskiarvo). Tästä tehtävästä tulee hyvin yksinkertainen, jos nollapistejoukon nollapisteet on järjestetty pienimmästä suurimpaan. Järjestä siis peruspisteet yhteen tällaiseen peruspistejoukkoon ennen jatkamista.

Jatketaan yllä olevaa esimerkkiä. Tämä on meidän peruspisteemme, jotka edustavat huoneen useiden kohteiden lämpötiloja: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jos järjestämme peruspisteet alimmasta korkeimpaan, peruspisteiden järjestykseen tulee: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Laske poikkeamat Vaihe 3
Laske poikkeamat Vaihe 3

Vaihe 3. Laske peruspisteen mediaani

Peruspistejoukon mediaani on peruspiste, jossa nollapisteen toinen puoli on tuon peruspisteen yläpuolella ja loput puolet sen alapuolella - pohjimmiltaan tämä peruspiste on peruspiste, joka on peruspistejoukon "keskellä". Jos peruspisteiden määrä nollapistejoukossa on pariton, se on erittäin helppo löytää - mediaani on peruspiste, jonka ylä- ja alapuolella on sama numero. Kuitenkin, jos peruspisteiden joukko nollapisteiden joukossa on parillinen, niin koska kukaan peruspiste ei sovi keskelle, keskellä olevat kaksi peruspistettä lasketaan keskiarvo mediaanin löytämiseksi. On huomattava, että poikkeamia laskettaessa mediaanille annetaan yleensä muuttuja Q2-ni, koska Q2 on Q1: n ja Q3: n välillä, alempi ja ylempi kvartiili, josta keskustelemme myöhemmin.

  • Ei pidä sekoittaa peruspistejoukkoon, jossa peruspisteiden määrä on parillinen-kahden keskipisteen keskiarvo palauttaa usein luvun, joka ei ole itse peruspistejoukossa-tämä on okei. Kuitenkin, jos kaksi keskipistettä ovat sama luku, keskiarvo on tietysti myös sama luku, mikä on myös hyvä.
  • Yllä olevassa esimerkissä meillä on 12 peruspistettä. Kaksi keskimmäistä nollapistettä ovat kuudes ja seitsemäs nollapiste-70 ja 71. Vastaavasti peruspistejoukon mediaani on näiden kahden luvun keskiarvo: ((70 + 71) / 2), = 70.5.
Laske poikkeamat Vaihe 4
Laske poikkeamat Vaihe 4

Vaihe 4. Laske alempi kvartiili

Tämä arvo, jonka annamme muuttujalle Q1, on peruspiste, joka edustaa 25 prosenttia (tai neljäsosa) peruspisteistä. Toisin sanoen se on peruspiste, joka jakaa mediaanin alapuolella olevat peruspisteet. Jos mediaanin alapuolella olevien nollapisteiden määrä on parillinen, sinun on jälleen laskettava keskelle kaksi peruspistettä löytääksesi Q1, aivan kuten itse mediaani.

Esimerkissämme on 6 peruspistettä, jotka sijaitsevat mediaanin yläpuolella, ja 6 peruspistettä, jotka ovat mediaanin alapuolella. Tämä tarkoittaa sitä, että alemman kvartiilin löytämiseksi meidän on keskitettävä 2 peruspistettä keskelle kuutta nollapistettä mediaanin alapuolelle. Kolme ja neljä peruspistettä 6 nollapistettä mediaanin alapuolella ovat molemmat 70. Joten keskiarvo on ((70 + 70) / 2), = 70. 70: stä tulee Q1.

Laske poikkeamat Vaihe 5
Laske poikkeamat Vaihe 5

Vaihe 5. Laske ylempi kvartiili

Tämä arvo, jonka annamme muuttujalle Q3, on peruspiste, johon peruspistejoukossa on 25 prosenttia nollapisteistä. Q3: n löytäminen on suunnilleen sama asia kuin Q1, paitsi että tässä tapauksessa tarkastelemme mediaanin yläpuolella olevia peruspisteitä, ei mediaanin alapuolella.

Jatkamalla yllä olevaa esimerkkiämme, 2 peruspistettä kuuden peruspisteen keskellä mediaanin yläpuolella ovat 71 ja 72. Näiden kahden peruspisteen keskiarvo on ((71 + 72)/2), = 71, 5. 71, 5 on Q3.

Laske poikkeamat Vaihe 6
Laske poikkeamat Vaihe 6

Vaihe 6. Etsi neljännesvälinen etäisyys

Nyt kun olemme löytäneet Q1 ja Q3, meidän on laskettava näiden kahden muuttujan välinen etäisyys. Etäisyys Q1: stä Q3: een saadaan vähentämällä Q1 Q3: sta. Neljänneksen välisille etäisyyksille saadut arvot ovat erittäin tärkeitä määritettäessä peruspisteiden ei-poikkeavien peruspisteiden rajat.

  • Esimerkissämme arvomme Q1 ja Q3 ovat 70 ja 71, 5. Jotta löydettäisiin neljännesvälinen etäisyys, vähennämme Q3 - Q1 = 71,5 - 70 = 1, 5.
  • On huomattava, että tämä pätee myös, vaikka Q1, Q3 tai molemmat ovat negatiivisia lukuja. Jos esimerkiksi Q1 -arvomme oli -70, oikea kvartaalien välinen etäisyys olisi 71,5 -(-70) = 141, 5.
Laske poikkeamat Vaihe 7
Laske poikkeamat Vaihe 7

Vaihe 7. Etsi”sisempi aita” peruspisteestä

Poikkeamat saadaan selville tarkistamalla, onko peruspiste "sisäaita" ja "ulompi aita" olevien numerorajojen sisällä. Peruspistettä, joka jää peruspisteen sisäisen aidan ulkopuolelle, kutsutaan "vähäiseksi poikkeamaksi", kun taas ulomman aidan ulkopuolelle jäävää peruspistettä kutsutaan "suureksi poikkeamaksi". Löydät peruspisteen sisäisen aidan kertomalla ensin neljännesvälin etäisyyden 1, 5. Lisää sitten tulos Q3: lla ja vähennä se myös Q1: stä. Kaksi saamaasi arvoa ovat peruspisteen sisäiset aidan rajat.

  • Esimerkissämme kvartiilien välinen etäisyys on (71,5 - 70) tai 1,5. Kerro 1,5 1,5: llä, jolloin tuloksena on 2,25. Lisäämme tämän luvun Q3: een ja vähennämme Q1 tällä numerolla löytääksesi sisä aidan rajat seuraavasti:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Joten sisäisen aidamme rajat ovat 67, 75 ja 73, 75.
  • Perusarjoissamme vain uunin lämpötila, 300 Fahrenheit - on näiden rajojen ulkopuolella, joten tämä peruspiste on vähäinen poikkeama. Emme ole kuitenkaan vielä laskeneet, onko tämä lämpötila merkittävä poikkeama, joten älä tee johtopäätöksiä ennen kuin olemme tehneet laskelmamme.

    Laske poikkeamat Vaihe 7 Bullet2
    Laske poikkeamat Vaihe 7 Bullet2
Laske poikkeamat Vaihe 8
Laske poikkeamat Vaihe 8

Vaihe 8. Etsi”ulompi aita” peruspisteestä

Tämä tehdään samalla tavalla kuin sisemmän aidan löytäminen, paitsi että neljänneksen välinen etäisyys kerrotaan 3: lla 1,5: n sijaan. Tulos lisätään sitten Q3: een ja vähennetään Q1: stä, jotta voidaan löytää ulomman aidan ylä- ja alarajat.

  • Esimerkissämme neljännesvälin etäisyyden kertominen 3 antaa (1, 5 x 3) tai 4, 5. Löydämme ulko -aidan rajat samalla tavalla kuin ennen:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Ulko -aidan rajat ovat 65,5 ja 76.
  • Ulkoisen aidan rajan ulkopuolella olevia peruspisteitä kutsutaan suuriksi poikkeamiksi. Tässä esimerkissä uunin lämpötila, 300 Fahrenheit, on selvästi ulomman aidan ulkopuolella, joten tämä nollapiste on "ehdottomasti" merkittävä poikkeama.

    Laske poikkeamat Vaihe 8 Bullet2
    Laske poikkeamat Vaihe 8 Bullet2
Laske poikkeamat Vaihe 9
Laske poikkeamat Vaihe 9

Vaihe 9. Käytä kvalitatiivista harkintaa sen määrittämiseen, hylätäänkö poikkeava nollapiste

Edellä kuvatun menetelmän avulla voidaan määrittää, onko peruspiste vähäinen, suuri peruspiste vai ei lainkaan poikkeava. Älä kuitenkaan erehdy - datumin löytäminen poikkeajaksi merkitsee vain tuon datumin "ehdokkaaksi" poistettavaksi peruspistejoukosta, ei datumiksi, joka "pitäisi" hylätä. "Syy", joka saa poikkeavan datumin poikkeamaan muista peruspisteistä peruspistejoukossa, on erittäin tärkeä määritettäessä, hylätäänkö se vai ei. Yleensä esimerkiksi mittaus-, tallennus- tai kokeellisen suunnitteluvirheen aiheuttama poikkeama voidaan hylätä. Toisaalta poikkeamat, jotka eivät johdu virheestä ja jotka osoittavat uutta tietoa tai suuntauksia, joita ei ole aiemmin ennustettu, yleensä "hylätään".

  • Toinen huomioon otettava kriteeri on, onko poikkeavalla aineella suuri vaikutus perusjoukon keskiarvoon, toisin sanoen, sekoittaako poikkeama sen tai näyttääkö se väärältä. Tämä on erittäin tärkeää harkita, jos aiot tehdä johtopäätöksiä tietojoukon keskiarvosta.
  • Tutkitaan esimerkkiämme. Tässä esimerkissä, koska näyttää "erittäin" epätodennäköiseltä, että uuni saavuttaa 300 Fahrenheit -asteen arvaamattomien luonnonvoimien kautta, voimme melkein varmasti päätellä, että uuni jätettiin vahingossa päälle, mikä aiheutti korkean lämpötilan nollapisteen poikkeavuuden. Lisäksi jos emme poista poikkeamia, peruspisteemme keskiarvo on (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 astetta)), kun taas keskiarvo, jos poistamme poikkeamat, on (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 astetta).

    Koska nämä poikkeamat johtuivat inhimillisestä erehdyksestä ja koska olisi väärin sanoa, että keskimääräinen huonelämpötila saavuttaa lähes 90 Fahrenheit (32 celsiusastetta), meidän on parempi valita "heittää pois" poikkeamat

Laske poikkeamat Vaihe 10
Laske poikkeamat Vaihe 10

Vaihe 10. Tiedä poikkeavuuksien säilyttämisen tärkeys (joskus)

Vaikka jotkin poikkeamat olisi poistettava peruspistejoukosta, koska ne aiheuttavat virheitä ja/tai tekevät tuloksista epätarkkoja tai virheellisiä, jotkut poikkeamat on säilytettävä. Jos esimerkiksi poikkeama näyttää olevan luonnostaan hankittu (eli ei seurausta virheestä) ja/tai antaa uuden näkökulman tutkittavaan ilmiöön, poikkeamaa ei tule poistaa peruspistejoukosta. Tieteellinen tutkimus on yleensä erittäin arkaluonteinen tilanne poikkeamien suhteen - poikkeavien virheellinen poistaminen voi tarkoittaa uuden trendin tai löydöksen osoittavan tiedon hylkäämistä.

Oletetaan esimerkiksi, että suunnittelemme uutta lääkettä kalojen koon kasvattamiseksi kalalammessa. Käytämme vanhoja peruspisteitämme ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), mutta tällä kertaa jokainen peruspiste edustaa kalan painoa (grammoina) sen jälkeen, kun hänelle on annettu eri kokeellinen lääke syntymästä lähtien. Toisin sanoen ensimmäinen lääke saa yhden kalan painamaan 71 grammaa, toinen lääke saa toisen kalan painamaan 70 grammaa jne. Tässä tapauksessa 300 on "edelleen" suuri poikkeama, mutta meidän ei pidä hylätä tätä peruspistettä, koska olettaen, että se on saatu virheettömästi, se edustaa tutkimusta. Lääke, joka voi saada kalat painamaan 300 grammaa, toimii paremmin kuin kaikki muut lääkkeet, joten tämä peruspiste on itse asiassa "tärkein" datumjoukossamme, ei "vähiten tärkeä"

Suositeltava: