Vurdere tilpasning av regresjon Models

En velsittende regresjon modellresultater i anslåtte verdier nær de observerte dataverdier. Middelverdien modell, som bruker middelverdien for hver spådd verdi, vanligvis ville bli brukt hvis det var ingen informative Predictor variabler. Tilpasning av en foreslått regresjonsmodell bør derfor være bedre enn tilpasning av mellommodellen

Tre statistikken brukes i Ordinary Least Squares (OLS) regresjon til å evaluere modellen fit.: R-squared, generell F- test, og Root Mean Square Error (RMSE). Alle tre er basert på to summer av kvadrater: Sum of Squares Total (SST) og Sum of Squares Error (SSE). SST måler hvor langt dataene er fra gjennomsnittet og SSE måler hvor langt dataene er fra modellens predikerte verdier. Ulike kombinasjoner av disse to verdiene gi forskjellig informasjon om hvordan regresjonsmodellen sammen til gjennomsnittet modell.

R-squared og Justert R-squared

Forskjellen mellom SST og SSE er forbedringen i prediksjon fra regresjonsmodellen, sammenlignet med den midlere modell. Splitte at forskjellen ved SST gir R-squared. Det er proporsjonal forbedring i prediksjon fra regresjonsmodellen, sammenlignet med den midlere modell. Det viser godhet tilpasning av modellen

R-squared har den nyttige egenskapen at omfanget er intuitivt. Det varierer fra null til en, med null indikerer at den foreslåtte modellen ikke blir bedre prognose over gjennomsnittet modell og en som indikerer perfekt prediksjon. Bedring i regresjonsmodellen resultater i proporsjonal økning i R-squared.

En fallgruve av R-squared er at det bare kan øke som predikator legges til regresjonsmodellen. Denne økningen er kunstig når prediktorer faktisk ikke bedre modellens passform. For å bøte på dette, en relatert statistikk, Justert R-squared, inkorporerer modellens grad av frihet. Justert R-squared vil avta som predikator legges hvis økningen i modellen passer ikke gjøre opp for tapet av frihetsgrader. Likeledes vil det øke som predikator legges hvis økningen i modellen i form er verdt. Justert R-kvadrat bør alltid benyttes med modeller med mer enn en prediktor variabel. Det tolkes som den andel av den totale varians som forklares av modellen.

Det finnes situasjoner hvor en høy R-kvadrat er ikke nødvendig eller relevant. Når interessen er i forholdet mellom variablene, ikke i prediksjon, er R-kvadrat mindre viktig. Et eksempel er en studie av hvordan religiøsitet påvirker helseutfall. Et godt resultat er en pålitelig forhold mellom religiosity og helse. Ingen ville forvente at religion forklarer en høy prosentandel av variasjonen i helse, som helse påvirkes av mange andre faktorer. Selv om modellen står for andre variabler som er kjent for å påvirke helsen, slik som inntekt og alder, en R-squared i området 0,10 til 0,15 er rimelig

F-test

. F-testen evaluerer nullhypotesen at alle regresjonskoeffisientene er lik null versus det alternativet som i det minste gjør man ikke. En tilsvarende null hypotesen er at R-kvadrat er lik null. En vesentlig F-testen viser at den observerte R-kvadrat er pålitelig, og er ikke en falsk resultat av rar i datasettet. Dermed bestemmer F-test på om den foreslåtte forholdet mellom responsvariabelen og sett prediktorer er statistisk pålitelig, og kan være nyttig når forskningen målet er enten prediksjon eller forklaring.

RMSE

Den RMSE er kvadratroten av variansen av restene. Det indikerer den absolutte tilpasning av modellen til data - hvor nær de observerte datapunkter er å modellens predikerte verdier. Mens R-squared er et relativt mål på passform, er RMSE et absolutt mål på passform. Som kvadratroten av en variasjon, kan RMSE tolkes som standardavviket av den uforklarte varians, og har den nyttige egenskap at de er i samme enheter som responsvariabelen. Lavere verdier av RMSE indikerer bedre passform. RMSE er et godt mål på hvor nøyaktig modellen predikerer respons, og er det viktigste kriteriet for passform hvis det viktigste formålet med modellen er anslag.

Det beste mål på modellen passer avhenger av forskerens mål, og mer enn en er ofte nyttig. Statistikken omtalt ovenfor gjelder for regresjonsmodeller som bruker OLS estimering. Mange typer regresjonsmodeller, derimot, for eksempel blandede modeller, generaliserte lineære modeller, og forløpsmodeller, bruke maximum likelihood estimering. Denne statistikken er ikke tilgjengelige for slike modeller. En fremtidig nyhetsbrev vil beskrive hvordan å vurdere modellen estimert maksimal sannsynlighet

Copyright © 2008, Karen Grace-Martin
.

forretningsrådgivning

  1. Business Tips - Best Practices for Problemløsing Forretnings Regularly
  2. Flere teknologiske verktøy for omtrent alle Better Organization
  3. Nigel Mayne`s Start-Up Plan for vellykket Small Business Franchisee
  4. Improve Your Business Marketing i 2013 - fem ting å Do
  5. Uskyldig eller Skadet Spouse
  6. Six Sigma er en bevist vinner i Bedrifts World
  7. Virkninger av reklame på vår Kjøpe Power
  8. Rolle av søkeord og fraser i SEO & Andre metoder for online Marketing
  9. FORDELER handel over INTERNET
  10. Fordeler med Outsourcing og trinn i Finne riktig Outsourcing Firm
  11. Slik kjøper du en strøm Yacht som ikke skuffer You
  12. Lyric Labs for å gå inn Malaysia Med Lavpris Services
  13. 30 år med Audi Quattro system
  14. Finn riktig finansiering på nettet er bare et klikk away
  15. Er Strategic Planning Recssion Proof?
  16. *** Ord er Weapons - Bruk dem med Care
  17. Health Care IT Solutions! En Boon til Suffering Patients
  18. Stor bedrift motiverende speakers
  19. Lær mer om kundene Preferences bruker sosiale medier Tracking
  20. Hvordan skrive en effektiv Business Forslag Letter