Laske poikkeamat

Kirjoittaja: Charles Brown
Luomispäivä: 8 Helmikuu 2021
Päivityspäivä: 1 Heinäkuu 2024
Anonim
Lupauksemme sinulle: Kulutusvahti säästää sinut yllätyksiltä
Video: Lupauksemme sinulle: Kulutusvahti säästää sinut yllätyksiltä

Sisältö

A poikkeama tai poikkeama tilastossa on datapiste, joka eroaa merkittävästi muista otoksen datapisteistä. Usein poikkeamat osoittavat tilastotieteilijöille mittausten ristiriitaisuuksia tai virheitä, minkä jälkeen he voivat poistaa poikkeamat tietojoukosta. Jos he todella päättävät poistaa poikkeamat aineistosta, se voi aiheuttaa merkittäviä muutoksia tutkimuksen johtopäätöksiin. Siksi on tärkeää laskea ja määrittää poikkeamat, jos haluat tulkita tilastotiedot oikein.

Astua

  1. Opi havaitsemaan mahdolliset poikkeamat. Ennen kuin voimme päättää poistaako poikkeavat arvot tietystä tietojoukosta, meidän on tietysti ensin tunnistettava tietojoukon mahdolliset poikkeamat. Yleensä poikkeamat ovat datapisteitä, jotka poikkeavat merkittävästi trendistä, jotka muodostavat joukon muut arvot - toisin sanoen ne ampua ulos muista arvoista. Tämän on yleensä helppo tunnistaa taulukoissa ja (erityisesti) kaavioissa. Jos tietojoukko esitetään visuaalisesti, poikkeamat ovat "kaukana" muista arvoista. Esimerkiksi, jos suurin osa tietojoukon pisteistä muodostaa suoran, poikkeamat eivät ole tämän linjan mukaisia.
    • Katsotaanpa tietojoukko, joka näyttää huoneen 12 erilaisten esineiden lämpötilat. Jos 11 esineen lämpötila vaihtelee muutaman asteen enimmillään noin 21 ° C, kun taas yhden esineen, uunin, lämpötila on 150 ° C, voit nähdä yhdellä silmäyksellä, että uuni on todennäköisesti syrjäisempi.
  2. Lajittele kaikki datapisteet alimmasta korkeimpaan. Ensimmäinen vaihe poikkeamien laskemisessa on löytää tietojoukon mediaaniarvo (tai keskiarvo). Tämä tehtävä on paljon helpompaa, jos joukon arvot ovat järjestyksessä alimmasta korkeimpaan. Joten, ennen kuin jatkat, lajittele tietojoukon arvot tällä tavalla.
    • Jatketaan yllä olevaa esimerkkiä. Tässä on tietojoukkomme, joka näyttää huoneen eri kohteiden lämpötilat Fahrenheit-asteina: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jos lajittelemme joukon arvot pienimmistä korkeimpiin, siitä tulee uusi joukko: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Laske tietojoukon mediaani. Tietojoukon mediaani on datapiste, jossa puolet tiedoista on sen yläpuolella ja puolet tiedoista on sen alapuolella - se on itse asiassa tietojoukon "keskusta". Jos tietojoukko sisältää parittoman määrän pisteitä, mediaani on helppo löytää - mediaani on piste, jossa on niin monta pistettä kuin alla. Jos pisteitä on parillinen määrä, koska keskipisteitä ei ole, sinun on otettava keskiarvo kahdesta keskipisteestä löytääksesi mediaani. Laskettaessa poikkeamia mediaaniin viitataan yleensä muuttujalla Q2 - koska se on Q1: n ja Q3: n, ensimmäisen ja kolmannen kvartiilin, välillä. Määritämme nämä muuttujat myöhemmin.
    • Älä sekoita tietojoukkoihin, joissa on parillinen määrä pisteitä - kahden keskipisteen keskiarvo on usein luku, jota ei itse datajoukossa ole - tämä on ok. Jos kaksi keskipistettä ovat kuitenkin samat, keskiarvo on tietysti myös tämä luku - myös tämä on Okei.
    • Esimerkissämme meillä on 12 pistettä. Kaksi keskimmäistä termiä ovat pisteet 6 ja 7 - 70 ja 71. Joten tietojoukkomme mediaani on näiden kahden pisteen keskiarvo: ((70 + 71) / 2) =70,5.
  4. Laske ensimmäinen kvartiili. Tämä kohta, jota merkitsemme muuttujalla Q1, on datapiste, jonka alapuolella on 25 prosenttia (tai neljännes) havainnoista. Toisin sanoen tämä on kaikkien tietojoukon pisteiden keskipiste alla mediaani. Jos mediaanin alapuolella on parillinen määrä arvoja, sinun on jälleen otettava kahden keskiarvon keskiarvo löytääksesi Q1, kuten olet voinut tehdä itse mediaanin määrittämiseksi.
    • Esimerkissämme kuusi pistettä on mediaanin yläpuolella ja kuusi pistettä sen alapuolella. Joten ensimmäisen kvartiilin löytämiseksi meidän on otettava kahden keskipisteen keskiarvo kuuden alimman pisteen keskellä. Alimman kuuden pistettä 3 ja 4 ovat molemmat 70, joten niiden keskiarvo on ((70 + 70) / 2) =70. Joten Q1: n arvo on 70.
  5. Laske kolmas kvartiili. Tämä kohta, jota merkitsemme muuttujalla Q3, on datapiste, jonka yläpuolella on 25 prosenttia tiedoista. Q3: n löytäminen on käytännössä sama kuin Q1: n löytäminen, paitsi että tarkastelemme tässä tapauksessa pisteitä edellä mediaani.
    • Jatkamalla yllä olevaa esimerkkiä, näemme, että mediaanin yläpuolella olevien kuuden pisteen kaksi keskipistettä ovat 71 ja 72. Näiden kahden pisteen keskiarvo on ((71 + 72) / 2) =71,5. Joten Q3: n arvo on 71,5.
  6. Etsi kvartiilien välinen alue. Nyt kun olemme määrittäneet Q1 ja Q3, meidän on laskettava näiden kahden muuttujan välinen etäisyys. Löydät Q1: n ja Q3: n välisen etäisyyden vähentämällä Q1 Q3: sta. Kvartiilien väliselle alueelle saamasi arvo on ratkaiseva määritettäessä raja-arvoja tietojoukkosi poikkeaville pisteille.
    • Esimerkissämme Q1: n ja Q3: n arvot ovat vastaavasti 70 ja 71,5. Kvartiilien välisen alueen löytämiseksi laskemme Q3 - Q1: 71,5 - 70 =1,5.
    • Tämä toimii, vaikka Q1, Q3 tai molemmat luvut olisivat negatiivisia. Esimerkiksi, jos Q1: n arvo olisi -70, kvartiilien välinen alue olisi 71,5 - (-70) = 141,5, mikä on oikein.
  7. Etsi tietojoukon "sisäiset rajat". Voit tunnistaa poikkeamat määrittämällä, kuuluvatko ne useisiin numeerisiin rajoihin; niin kutsutut "sisärajat" ja "ulkorajat". Piste, joka jää tietojoukon sisärajojen ulkopuolelle, luokitellaan yhdeksi lievä ulospäin, ja ulkorajojen ulkopuolella oleva piste luokitellaan yhdeksi äärimmäinen outlier. Löydät tietojoukon sisärajat kertomalla ensin kvartiilien välinen alue 1,5: llä. Lisää tulos Q3: een ja vähennä se Q1: stä. Kaksi tulosta ovat tietojoukon sisäiset rajat.
    • Esimerkissämme kvartiilien välinen alue on (71,5 - 70) tai 1,5. Kerro tämä arvolla 1,5 saadaksesi arvon 2,25. Lisätään tämä luku Q3: een ja vähennetään Q1: stä sisärajojen löytämiseksi seuraavasti:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Joten sisärajat ovat 67,75 ja 73,75.
    • Tietojoukossa vain uunin lämpötila - 300 astetta Fahrenheit - on tämän alueen ulkopuolella. Joten tämä voi olla lievä poikkeama. Emme kuitenkaan ole vielä selvittäneet, onko tämä lämpötila äärimmäinen poikkeama, joten älä jätä vielä johtopäätöksiä.
  8. Etsi tietojoukon "ulkorajat". Teet tämän samalla tavalla kuin sisärajoilla, sillä ainoalla erolla, että kerrot kvartiilien välisen etäisyyden 3: lla 1,5: n sijasta. Lisäät sitten tulos Q3: een ja vähennät Q1: stä, jotta löydät ulommat raja-arvot.
    • Esimerkissämme kerrotaan kvartiilien välinen etäisyys 3: lla saadaksesi (1,5 * 3) tai 4,5. Voimme nyt löytää ulommat rajat samalla tavalla kuin sisäiset rajat:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Joten ulkorajat ovat 65,5 ja 76.
    • Ulkopuolisten rajojen ulkopuolella olevia datapisteitä pidetään äärimmäisinä poikkeamina. Esimerkissämme uunin lämpötila, 300 astetta Fahrenheit, ylittää reilusti ulkorajat. Joten uunin lämpötila on varmasti äärimmäinen outlier.
  9. Käytä kvalitatiivista arviointia, jos haluat "heittää" pois poikkeamat. Yllä olevalla menetelmällä voit selvittää, ovatko tietyt pisteet lieviä, äärimmäisiä vai eivät. Mutta älä tee virhettä - jos piste tunnustetaan ulkopuoliseksi, se on vain yksi ehdokas poistettava tietojoukosta, eikä välittömästi poistettavaa kohtaa on pakko muuttua. syy miksi poikkeama eroaa joukon muista pisteistä, on ratkaisevan tärkeää määritettäessä, pitäisikö poikkeama poistaa. Yleensä jonkin virheen aiheuttama poikkeama - virhe esimerkiksi mittauksissa, tallenteissa tai kokeellisessa suunnittelussa - poistetaan. Sen sijaan poikkeavista tekijöistä, jotka eivät johdu virheistä ja jotka paljastavat uutta, ennakoimattomaa tietoa tai suuntauksia, yleensä tulee ei poistettu.
    • Toinen harkittava kriteeri on, vaikuttavatko poikkeamat tietojoukon keskiarvoon väärällä tai harhaanjohtavalla tavalla. Tämä on erityisen tärkeää, jos aiot tehdä johtopäätöksiä tietojoukon keskiarvosta.
    • Arvioidaan esimerkkimme. Koska korkein On epätodennäköistä, että uuni saavuttaisi 300 ° F: n lämpötilan jonkin ennalta arvaamattoman luonnonvoiman vuoksi, esimerkissämme voimme todeta lähes 100% varmuudella, että uuni kytkettiin vahingossa päälle aiheuttaen epänormaalin korkean lämpötilan lukeman. Lisäksi, jos emme poista poikkeamia, tietojoukkomme keskiarvo tulee (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, kun taas keskiarvo ilman poikkeama tulee (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Koska poikkeama johtui inhimillisistä erehdyksistä ja koska on väärin sanoa, että huoneen keskilämpötila oli lähellä 32 ° C, meidän on valittava poikkeamamme. Poista.
  10. Ymmärrä syrjäytyneiden (joskus) säilyttämisen merkitys. Jotkut poikkeamat tulisi poistaa tietojoukosta, koska ne ovat virheiden seurausta tai koska ne vääristävät tuloksia harhaanjohtavalla tavalla, muut poikkeamat tulisi säilyttää. Esimerkiksi jos poikkeama on saatu oikein (eikä siis virheen seurauksena) ja / tai jos poikkeama tarjoaa uuden oivalluksen mitattavaan ilmiöön, sitä ei pitäisi poistaa välittömästi. Tieteelliset kokeet ovat erityisen arkaluonteisia tilanteita, kun on kyse poikkeavista tekijöistä - virheellisen poikkeaminen voi tarkoittaa tärkeän tiedon heittämistä uudesta trendistä tai löydöksestä.
    • Kuvitelkaa esimerkiksi, että suunnittelemme uutta lääkettä kalanviljelylaitoksen kalojen kasvattamiseksi. Käytetään vanhaa tietojoukkoamme ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) sillä erotuksella, että jokainen piste edustaa nyt kalan massaa (grammoina) ) hoidon jälkeen toisella kokeellisella lääkkeellä syntymästä lähtien. Toisin sanoen ensimmäinen lääke antoi yhdelle kalalle massa 71 grammaa, toinen antoi toiselle kalalle massa 70 grammaa jne. Tässä tilanteessa 300 edelleen valtava poikkeama, mutta meidän ei pitäisi poistaa sitä nyt. Koska, jos oletetaan, että poikkeama ei ole virheen tulos, se edustaa suurta menestystä kokeessamme. Lääke, joka tuotti 300 gramman kalaa, toimi paremmin kuin mikään muu lääke, joten tämä on se suurin osa tärkeä tietopiste joukossamme vähiten tärkeä datapiste.

Vinkkejä

  • Jos löydät poikkeavuuksia, yritä selittää ne ennen niiden poistamista tietojoukosta. ne voivat osoittaa mittausvirheitä tai poikkeamia jakaumassa.

Tarpeet

  • Laskin