Manglende data Mechanisms

Som nesten enhver forsker kan bevitne, manglende data er et utbredt problem. Data fra undersøkelser, eksperimenter, og sekundærkilder er ofte mangler noen data. Virkningen av de manglende data på resultatene av statistiske analysen avhenger av den mekanismen som forårsaket de data som skal mangler, og på hvilken måte dataene analytikeren avtaler med den. Dette er den første i en serie på tre artikler som drøfter problemene rundt manglende data. Denne artikkelen beskriver mekanismer for manglende data og noen av deres virkninger. Senere artikler vil forklare vanlige men problematiske løsninger på manglende data, nye og bedre løsninger, og programvare som er tilgjengelig for å implementere disse løsningene.

Data mangler for mange grunner. Fag i longitudinelle studier ofte dropper ut før studien er ferdig, fordi de har flyttet ut av området, døde, ikke lenger se personlig fordel å delta, eller ikke liker effekten av behandlingen. Undersøkelser lider mangler data når deltakerne nekter, eller ikke vet svaret på eller ved et uhell hoppe over et element. Noen undersøkelse forskere selv designe studien slik at noen spørsmål blir spurt av bare en undergruppe av deltakere. Eksperimentelle studier har mangler data når en forsker er rett og slett ikke i stand til å samle en observasjon. Dårlige værforhold kan gjøre observasjon umulig i feltforsøk. En forsker blir syk eller utstyr svikter. Data kan være mangler i noen form for undersøkelse på grunn av utilsiktet eller dataregistrering feil. En forsker dråper et brett med prøverør. En datafil blir skadet. De fleste forskere er svært godt kjent med en (eller flere) av disse situasjonene.

Manglende data er problematisk fordi de fleste statistiske prosedyrer krever en verdi for hver variabel. Når et datasett er ufullstendig, har data analytikeren å bestemme hvordan de skal håndtere det. Den vanligste beslutningen er å bruke komplett case analyse (også kalt listwise sletting) - analysere bare de tilfellene med komplette data. Personer med data mangler på noen variabler er utelatt fra analysen. Det har fordeler - det er lett å bruke, er meget enkel, og er standard på de fleste statistiske pakker. Men det har begrensninger. Det kan vesentlig senke prøvestørrelsen, som fører til en alvorlig mangel på kraft. Dette gjelder spesielt hvis det er mange variabler som er involvert i analysen, hver med data mangler i noen tilfeller. Det kan også føre til partisk resultater, avhengig av hvorfor dataene mangler.

Alt av årsakene til manglende data passer inn i fire klasser, som er basert på forholdet mellom den manglende data mekanismen og mangler, og observerte verdier. Disse klassene er viktig å forstå fordi problemene forårsaket av manglende data og løsninger på disse problemene er forskjellige for de fire klassene.

Den første er mangler helt tilfeldig (MCAR). MCAR betyr at den manglende data mekanismen er relatert til verdiene av noen variabler, enten mangler eller observert. Data som mangler fordi en forsker droppet reagensrørene eller deltakerne i undersøkelsen ved et uhell hoppet over spørsmål vil trolig bli MCAR. Dersom de observerte verdier er i hovedsak et tilfeldig utvalg av hele datasettet, gir fullstendig tilfellet analyse samme resultat som den fullstendige datasettet vil ha. Dessverre, de fleste mangler data er ikke MCAR.

I den motsatte enden av spekteret er det ikke-Ignorerbar (NI). NI betyr at den manglende datamekanismen er relatert til de manglende verdier. Det oppstår ofte når folk ikke ønsker å avsløre noe veldig personlig eller upopulært om seg selv. For eksempel, hvis personer med høyere inntekt er mindre sannsynlig å avsløre dem på en undersøkelse enn er personer med lavere inntekter, er det manglende data mekanisme for inntekts ikke-ignorable. Enten inntekt mangler eller observert er relatert til sin verdi. Komplett case analyse kan gi svært partiske resultater for NI manglende data. Hvis proporsjonalt mer lave og moderate inntekter personer er igjen i prøven fordi høy inntekt folk mangler, et anslag på gjennomsnittlig inntekt vil være lavere enn den faktiske befolkningen mener.

I mellom disse to ytterpunktene mangler tilfeldig (MAR) og kovariat Dependent (CD). Begge disse klassene krever at årsaken til den manglende data er relatert til de manglende verdier, men kan være relatert til de observerte verdiene av andre variabler. MAR betyr at manglende verdier knyttet til enten observerte kovariater eller responsvariabler, mens CD betyr at de manglende verdiene er knyttet kun til kovariater. Som et eksempel på CD manglende data, kan manglende inntektsdata være relatert til den faktiske inntekten verdier, men er relatert til utdanning. Kanskje folk med mer utdanning er mindre sannsynlig å avsløre sin inntekt enn de med lavere utdanning.

En viktig forskjell er om mekanismen er ignorable (dvs. MCAR, CD eller MAR) eller ikke-ignorable. Det er gode teknikker for håndtering ignorable manglende data. Non-ignorable manglende data er mer utfordrende og krever en annen tilnærming
.

forretningsrådgivning

  1. Måter å fremme din business
  2. Hvilken bør du bruke: forretningsplan, forslag eller Marketing Strategy
  3. Hva er Workers Compensation
  4. De mange fordelene ved å jobbe med virksomheten gjeld Collector
  5. Enkelte gjøre og ikke gjøre for å gjøre en klok forsuring decision
  6. Slik Renhet Custom Whiteboards
  7. Multitasking Og ditt barns Safety
  8. Hva bør du tenke på før du ansetter en Catering Service
  9. Hvorfor Multi Monitor Trading Datamaskiner er annerledes enn Gaming Computers
  10. Fordeler med å kjøpe elektroniske varer Online
  11. Begynn å oppnå suksess gjennom Small Business Loans
  12. Definere bedriftsbeskatning og Skatt Treaties
  13. Gi et elegant utseende til huset ditt med Stor Deck Design
  14. Har kjøretøy og andre produkter som leveres med Auto Shippers
  15. Twisted Soul Searcher
  16. Stipend og Grant studenter: Tips til å søke for
  17. Farene ved Water Damage
  18. Nødvendigheten av å bruke Flour Mill for Quality Flour
  19. Områder i Blomstrende Search Engine Marketing Du må lære About
  20. Hvordan Website Design hastigheter opp Business