Ristvalideerimine

Ristvalideerimine (inglise cross-validation) on mudeli statistiline verifitseerimismeetod, mis võimaldab hinnata seda, kuidas statistiline mudel sobib kokku sõltumatu valimiga. Enamasti kasutatakse seda ennustavate mudelite puhul, kui tahetakse vaadata, kui hästi mudel saab hakkama ennustamise probleemiga, kasutades eelnevalt teadmata andmed. Ennustavas ülesandes jagatakse andmestik tavaliselt kolmeks osaks: andmed, millega mudelit õpetatakse (treeningandmed), andmed, mille abil valitakse mudeli kuju ja selle parameetrid (valideerimisandmed), ning tundmatud andmed, mida on kasutatud mudeli testimiseks (testandmed).[1]

Ristvalideerimise puhul jagatakse esimesel sammul andmestik kaheks mittelõikuvaks osaks. Järgmise sammuna teostatakse analüüs andmete esimese osaga ning hinnatakse analüüsi täpsust kasutades andmete teist osa. Selleks, et vähendada variaablust, korratakse neid kaht sammu mitu korda, kasutades andmete erinevat jaotust mudeli treenimiseks ja valideerimiseks. Viimasel sammul valideerimise tulemused keskmistatakse üle kõikide kordamiste, mis võimaldab hinnata ennustava mudeli lõplikku täpsust.

Ristvalideerimist kasutatakse siis, kui tekib andmepuuduse probleem ehk kui andmeid ei ole piisavalt palju, et neid jagada treening- ja testandmeteks ilma mudeli olulisust vähendamata.[2]

  1. G. James, D. Witten, T. Hastie, R. Tibshirani (2013). An Introduction to Statistical Learning. New York: Springer Texts in Statistics. Lk 175–184.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  2. R.Grossman, G. Seni, J. Elder, N. Agarwal, H. Liu (2010). Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictions. Morgan & Claypool.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Tubidy