Care este diferența dintre setul de validare și setul de teste?


Răspunsul 1:

Setul de validare conține informații de intrare și țintă, care sunt noi pentru algoritm. Înainte de setul de validare, algoritmul ar fi trebuit să fie instruit cu un alt „set de instruire” care conține și informații de intrare și țintă. Puteți stabili dacă algoritmul poate identifica corect exemple noi relevante rulând-o pe setul de validare. În această etapă, puteți descoperi noi valori care afectează procesarea algoritmului. După validare, oamenii de știință de date trebuie să se întoarcă adesea la setul de instruire, modificând valorile și hiperparametrele din setul de instruire pentru a face algoritmul mai precis și mai precis.

Setul de testare este utilizat după o mulțime de îmbunătățiri și validări. În timp ce setul de validare avea etichete și informații țintă ca roți de antrenament pentru algoritm, testul a spus că are doar date de intrare. Oamenii de știință de date vor folosi setul de teste pentru a vedea dacă algoritmul poate face predicții bazate doar pe date de intrare și vor testa dacă algoritmul poate fi utilizat în aplicații din viața reală.

Iată o diagramă de flux cool care arată procesul de instruire AI și unde se încadrează validarea și setul de teste.

Sursa: Cum funcționează instruirea AI?


Răspunsul 2:

În timp ce vă antrenați, vă verificați modelul în funcție de setul de validare. Așadar, în timp ce setul de validare nu afectează niciodată direct parametrii modelului dvs. (în timp ce setul de formare o face), performanța setului de validare este utilizată pentru a decide hiperparametre, opriri timpurii și considerente de arhitectură - alegem care dintre cele de mai sus obțin cea mai bună performanță din setul de validare. .

Între timp, setul de testare nu este verificat până când modelul este terminat. Scopul setului de teste este de a raporta performanța - nu putem raporta performanța la setul de validare, deoarece am ales hiperparametrele și oprirea timpurie bazată pe performanța setului de validare, introducând prejudecată în acea măsură. Testul este cel mai bun mod de a măsura dacă modelul se va generaliza bine.


Răspunsul 3:

Dacă doriți să raportați performanța unui sistem, nu puteți utiliza etichetele din setul de test până la raportul final. Aceasta înseamnă că, dacă priviți etichetele din setul de teste și dacă vă reglați sistemul în consecință, nu mai este un set de teste. Devine o parte din setul tău de antrenament. Un astfel de set se numește „set de validare”. În ceea ce privește performanța din setul de validare (folosind etichetele de acolo), vă ajustați și optimizați sistemul. După ce totul este finalizat, raportați performanța pe un set de test complet independent și nevăzut.