Analiza cluster este un algoritm pentru explorarea datelor împărțite în grupuri pe baza unor caracteristici similare.

Obiectul cercetării în statistica aplicată îl constituie datele statistice obţinute în urma observaţiilor sau experimentelor. Datele statistice sunt o colecție de obiecte (observații, cazuri) și trăsături (variabile) care le caracterizează. De exemplu, obiecte de studiu - țări ale lumii și semne, - geografice și indicatori economici caracterizându-le: continent; înălțimea terenului deasupra nivelului mării; temperatura medie anuală; locul țării în listă în ceea ce privește calitatea vieții, ponderea în PIB pe cap de locuitor; cheltuieli publice pentru sănătate, educație, armată; speranța medie de viață; proporția șomajului, analfabeti; indicele calității vieții etc.
Variabilele sunt mărimi care, ca rezultat al măsurării, pot lua valori diferite.
Variabilele independente sunt variabile ale căror valori pot fi modificate în timpul experimentului, în timp ce variabilele dependente sunt variabile ale căror valori pot fi doar măsurate.
Variabilele pot fi măsurate pe o varietate de scale. Diferența dintre scale este determinată de conținutul lor informativ. Luați în considerare următoarele tipuri de scale, prezentate în ordinea crescătoare a conținutului lor informativ: nominal, ordinal, interval, scară de raport, absolut. Aceste scale diferă între ele și prin numărul de operații matematice permise. Scala „cea mai săracă” este nominală, deoarece nu este definită o singură operație aritmetică, cea „bogată” este absolută.
Măsurarea la scara nominală (clasificare) înseamnă determinarea apartenenței unui obiect (observare) la o anumită clasă. De exemplu: gen, ramură militară, profesie, continent etc. În această scară, puteți număra doar numărul de obiecte din clase - frecvență și frecvență relativă.
Măsurarea într-o scară ordinală (de rang), pe lângă determinarea clasei de apartenență, vă permite să simplificați observațiile comparându-le între ele într-o anumită privință. Cu toate acestea, această scară nu determină distanța dintre clase, ci doar care dintre cele două observații este de preferat. Prin urmare, datele experimentale ordinale, chiar dacă sunt reprezentate prin numere, nu pot fi considerate numere, iar operațiile aritmetice asupra lor nu pot fi efectuate 5. În această scară, pe lângă calcularea frecvenței obiectului, puteți calcula rangul obiectului. Exemple de variabile măsurate pe o scară ordinală: punctajele studenților, locurile premiate la concursuri, gradele militare, locul unei țări pe lista pentru calitatea vieții etc. Uneori, variabilele nominale și ordinale sunt numite categorice sau grupare, deoarece vă permit să împărțiți obiectele de studiu în subgrupe.
Când sunt măsurate pe o scară de interval, ordonarea observațiilor se poate face atât de precis încât distanțele dintre oricare două dintre ele să fie cunoscute. Scara intervalelor este unică până la transformările liniare (y = ax + b). Aceasta înseamnă că scara are un punct de referință arbitrar - un zero condiționat. Exemple de variabile măsurate pe o scară de interval: temperatură, timp, teren deasupra nivelului mării. Variabilele din această scară pot fi utilizate pentru a determina distanța dintre observații. Distanțele sunt numere cu drepturi depline și orice operație aritmetică poate fi efectuată asupra lor.
Scara rapoartelor este similară cu scara intervalului, dar este unică până la o transformare de forma y = ax. Aceasta înseamnă că scara are un punct de referință fix - zero absolut, dar o scară de măsură arbitrară. Exemple de variabile măsurate pe o scară de relații: lungime, greutate, amperaj, sumă de bani, cheltuieli publice pentru sănătate, educație, armată, speranță de viață etc. Măsurătorile la această scară sunt numere întregi și orice operații aritmetice pot fi efectuate pe ele.
O scară absolută are atât zero absolut, cât și o unitate de măsură absolută (scara). Un exemplu de scară absolută este o dreaptă numerică. Această scară este adimensională, astfel încât măsurătorile pe ea pot fi folosite ca exponent sau bază a unui logaritm. Exemple de măsurători la scară absolută: rata șomajului; proporţia analfabetilor, indicele calităţii vieţii etc.
Majoritatea metodelor statistice se referă la metodele statistice parametrice, care se bazează pe presupunerea că un vector aleator de variabile formează o distribuție multivariată, de obicei normală sau se transformă într-o distribuție normală. Dacă această ipoteză nu este confirmată, ar trebui să utilizați metode neparametrice de statistică matematică.

Analiza corelației.Între variabile poate exista o relație funcțională (variabile aleatoare), care se manifestă prin faptul că una dintre ele este definită în funcție de cealaltă. Dar între variabile poate exista şi o legătură de alt fel, manifestată prin faptul că una dintre ele reacţionează la o modificare a celeilalte prin modificarea legii de distribuţie. Această relație se numește stocastică. Apare atunci când există factori aleatori comuni care afectează ambele variabile. Coeficientul de corelație (r), care variază de la –1 la +1, este utilizat ca măsură a relației dintre variabile. Dacă coeficientul de corelație este negativ, înseamnă că pe măsură ce valorile unei variabile cresc, valorile celeilalte scad. Dacă variabilele sunt independente, atunci coeficientul de corelație este 0 (reversul este adevărat numai pentru variabilele cu distribuție normală). Dar dacă coeficientul de corelație nu este egal cu 0 (variabilele se numesc necorelate), atunci aceasta înseamnă că există o dependență între variabile. Cu cât valoarea r este mai aproape de 1, cu atât dependența este mai puternică. Coeficientul de corelație își atinge valorile limită +1 sau -1, dacă și numai dacă relația dintre variabile este liniară. Analiza corelației vă permite să stabiliți puterea și direcția relației stocastice dintre variabile (variabile aleatoare). Dacă variabilele sunt măsurate cel puțin pe o scară de interval și au o distribuție normală, atunci analiza corelației se realizează prin calcularea coeficientului de corelație Pearson, în caz contrar se folosesc corelațiile Spearman, Kendal tau sau Gamma.

Analiza regresiei. Analiza de regresie modelează relația dintre o variabilă aleatoare și una sau mai multe alte variabile aleatoare. Mai mult, prima variabilă se numește dependentă, iar restul se numește independente. Alegerea sau atribuirea variabilelor dependente și independente este arbitrară (condițională) și se realizează de către cercetător în funcție de problema pe care o rezolvă. Variabilele independente sunt numite factori, regresori sau predictori, iar variabila dependentă se numește caracteristica rezultatului sau răspuns.
Dacă numărul de predictori este 1, regresia se numește simplă, sau unidirecțională, dacă numărul de predictori este mai mare de 1 - multiplu sau multivariat. V caz general modelul de regresie poate fi scris astfel:

Y = f (x 1, x 2, ..., x n),

Unde y este variabila dependentă (răspuns), x i (i = 1,…, n) sunt predictori (factori), n este numărul de predictori.
Analiza de regresie poate fi utilizată pentru a rezolva o serie de probleme care sunt importante pentru problema studiată:
unu). Reducerea dimensiunii spațiului variabilelor analizate (spațiul factorilor) prin înlocuirea unora dintre factori cu o singură variabilă - răspunsul. Această problemă este rezolvată mai complet prin analiza factorială.
2). Cuantificarea efectului fiecărui factor, i.e. regresia multiplă, permite cercetătorului să pună o întrebare (și probabil să obțină un răspuns) despre „care este cel mai bun predictor pentru...”. În același timp, influența factorilor individuali asupra răspunsului devine mai clară, iar cercetătorul înțelege mai bine natura fenomenului studiat.
3). Calculul valorilor prezise ale răspunsului pentru anumite valori ale factorilor, de ex. analiza regresiei, creează baza unui experiment de calcul pentru a obține răspunsuri la întrebări precum „Ce se va întâmpla dacă...”.
4). În analiza de regresie, mecanismul cauzal apare într-o formă mai explicită. În acest caz, prognoza se pretează mai bine unei interpretări semnificative.

Analiza canonică. Analiza canonică este destinată analizei dependențelor dintre două liste de caracteristici (variabile independente) care caracterizează obiectele. De exemplu, puteți studia relația dintre diverși factori adversi și apariția unui anumit grup de simptome ale bolii sau relația dintre două grupuri de parametri (sindroame) clinici și de laborator ai unui pacient. Analiza canonică este o generalizare a corelației multiple ca măsură a relației dintre o variabilă și multe alte variabile. După cum știți, corelația multiplă este corelația maximă dintre o variabilă și o funcție liniară a altor variabile. Acest concept a fost generalizat la cazul relațiilor dintre seturi de variabile - trăsături care caracterizează obiectele. În acest caz, este suficient să ne restrângem la a lua în considerare un număr mic de combinații liniare cele mai corelate din fiecare mulțime. Să presupunem, de exemplu, că primul set de variabile este format din semnele у1, ..., ur, al doilea set este format din - х1, ..., хq, atunci relația dintre aceste mulțimi poate fi estimată ca corelație între combinații liniare a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, care se numește corelație canonică. Problema analizei canonice este de a găsi coeficienții de pondere în așa fel încât corelația canonică să fie maximă.

Metode de comparare medie.În cercetarea aplicată, există adesea cazuri când rezultatul mediu al unei anumite caracteristici a unei serii de experimente diferă de rezultatul mediu al altei serii. Deoarece mediile sunt rezultatele măsurătorilor, atunci, de regulă, ele diferă întotdeauna, întrebarea este dacă discrepanța descoperită a mijloacelor poate fi explicată prin erori aleatorii inevitabile ale experimentului sau este cauzată de anumite motive. Dacă vorbim de compararea a două medii, atunci se poate aplica testul Student (testul t). Acesta este un criteriu parametric, deoarece se presupune că caracteristica are o distribuție normală în fiecare serie de experimente. În prezent, a devenit la modă utilizarea criteriilor neparametrice pentru compararea mediei
Compararea rezultatului mediu este una dintre modalitățile de identificare a dependențelor dintre semnele variabile care caracterizează setul de obiecte studiat (observații). Dacă, la împărțirea obiectelor de studiu în subgrupe folosind variabila independentă categorică (predictor), ipoteza despre inegalitatea mediilor unei variabile dependente în subgrupuri este adevărată, atunci aceasta înseamnă că există o relație stocastică între această variabilă dependentă și predictorul categoric. Deci, de exemplu, dacă se stabilește că ipoteza despre egalitatea indicatorilor medii ai dezvoltării fizice și intelectuale a copiilor din grupurile de mame care au fumat și nu au fumat în timpul sarcinii se dovedește a fi incorectă, atunci aceasta înseamnă că exista o relatie intre fumatul mamei in timpul sarcinii si dezvoltarea sa intelectuala si fizica.
Cea mai comună metodă de comparare a mediilor este analiza varianței. În terminologia ANOVA, un predictor categoric este numit factor.
Analiza varianței poate fi definită ca o metodă parametrică, statistică, concepută pentru a evalua influența diferiților factori asupra rezultatului unui experiment, precum și pentru planificarea ulterioară a experimentelor. Prin urmare, în analiza varianței, este posibil să se investigheze dependența unei trăsături cantitative de una sau mai multe trăsături calitative ale factorilor. Dacă se ia în considerare un factor, atunci se utilizează ANOVA unidirecțional, în caz contrar se utilizează ANOVA multivariată.

Analiza de frecventa. Tabelele de frecvență, sau așa cum sunt numite tabele cu o singură intrare, sunt cea mai simplă metodă de analiză a variabilelor categoriale. Tabelele de frecvență pot fi, de asemenea, folosite cu succes pentru a investiga variabile cantitative, deși pot fi dificil de interpretat. Acest fel Cercetarea statistică este adesea folosită ca una dintre procedurile de analiză exploratorie pentru a vedea cum sunt distribuite diferite grupuri de observații într-un eșantion sau cum este distribuită valoarea unei caracteristici pe intervalul de la valoarea minimă la valoarea maximă. De obicei, tabelele de frecvență sunt ilustrate grafic cu histograme.

Tabulare încrucișată (împerechere)- procesul de combinare a două (sau mai multe) tabele de frecvență, astfel încât fiecare celulă din tabelul construit să fie reprezentată printr-o singură combinație de valori sau niveluri de variabile tabulate. Încrucișarea vă permite să combinați frecvențele de apariție a observațiilor la diferite niveluri ale factorilor luați în considerare. Examinând aceste frecvențe, puteți identifica relațiile dintre variabilele tabulate și puteți explora structura acestei relații. De obicei, variabilele categorice sau cantitative cu valori relativ puține sunt tabulate. Dacă este necesar să se tabulare o variabilă continuă (să zicem, zahărul din sânge), atunci mai întâi trebuie recodificată prin împărțirea intervalului de variație într-un număr mic de intervale (de exemplu, nivel: scăzut, mediu, ridicat).

Analiza corespondențelor. Analiza conformității conține metode descriptive și exploratorii mai puternice pentru analiza tabelelor cu două intrări și mai multe intrări în comparație cu analiza frecvenței. Metoda, la fel ca tabelele de contingență, vă permite să explorați structura și relația variabilelor de grupare incluse în tabel. În analiza corespondenței clasice, frecvențele din tabelul de contingență sunt standardizate (normalizate), astfel încât suma elementelor din toate celulele să fie egală cu 1.
Unul dintre scopurile analizei corespondenței este reprezentarea conținutului unui tabel de frecvențe relative ca distanțe între rândurile și/sau coloanele individuale ale tabelului într-un spațiu de dimensiuni inferioare.

Analiza grupului. Analiza cluster este o metodă de analiză de clasificare; scopul său principal este de a împărți setul de obiecte și trăsături studiate în grupuri omogene, sau clustere, într-un anumit sens. Aceasta este o metodă statistică multivariată, prin urmare se presupune că datele inițiale pot avea un volum semnificativ, adică. atât numărul de obiecte de studiu (observaţii), cât şi caracteristicile care caracterizează aceste obiecte pot fi semnificativ mai mari. Marele avantaj al analizei cluster este că face posibilă împărțirea obiectelor nu după o singură caracteristică, ci după un număr de caracteristici. În plus, analiza cluster, spre deosebire de majoritatea metodelor matematice și statistice, nu impune nicio restricție asupra tipului de obiecte luate în considerare și permite studierea unei varietăți de date inițiale de natură aproape arbitrară. Deoarece clusterele sunt grupuri de omogenitate, sarcina analizei cluster este de a împărți setul lor în m (m - întreg) clustere pe baza atributelor obiectelor, astfel încât fiecare obiect să aparțină unui singur grup de partiții. În acest caz, obiectele aparținând unui grup trebuie să fie omogene (similare), iar obiectele aparținând unor grupuri diferite trebuie să fie eterogene. Dacă obiectele de grupare sunt reprezentate ca puncte într-un spațiu de caracteristici n-dimensionale (n este numărul de caracteristici care caracterizează obiectele), atunci asemănarea dintre obiecte este determinată prin conceptul de distanță dintre puncte, deoarece este intuitiv clar că cu cât distanța este mai mică. între obiecte, cu atât sunt mai asemănătoare.

Analiză discriminantă. Analiza discriminantă include metode statistice de clasificare a observațiilor multivariate într-o situație în care cercetătorul are așa-numitele eșantioane de antrenament. Acest tip de analiză este multidimensional, deoarece utilizează mai multe caracteristici ale unui obiect, al căror număr poate fi atât de mare cât se dorește. Scopul analizei discriminante este de a o clasifica pe baza măsurării diferitelor caracteristici (trăsături) ale unui obiect, adică de a-l atribui unuia dintre mai multe grupuri (clase) specificate într-un mod optim. Se presupune că datele inițiale, împreună cu atributele obiectelor, conțin o variabilă categorială (grupare) care determină apartenența unui obiect la un anumit grup. Prin urmare, analiza discriminantă prevede verificarea coerenței clasificării efectuate prin metodă cu clasificarea empirică inițială. Metoda optimă este înțeleasă fie ca fiind așteptarea matematică minimă a pierderilor, fie probabilitatea minimă de clasificare falsă. În cazul general, problema discriminării (discriminării) se formulează astfel. Fie ca rezultatul observației asupra obiectului construcția unui vector aleator k-dimensional X = (X1, X2,…, XK), unde X1, X2,…, XK sunt caracteristicile obiectului. Este necesar să se stabilească o regulă conform căreia, în funcție de valorile coordonatelor vectorului X, obiectul este raportat la una dintre mulțimile posibile i, i = 1, 2,…, n. Metodele de discriminare pot fi împărțite în general în parametrice și neparametrice. În parametrii se știe că distribuția vectorilor caracteristici în fiecare populație este normală, dar nu există informații despre parametrii acestor distribuții. Metodele de discriminare neparametrică nu necesită cunoașterea formei funcționale exacte a distribuțiilor și permit rezolvarea problemelor de discriminare bazate pe informații a priori nesemnificative despre populații, ceea ce este deosebit de valoros pentru aplicații practice... Dacă sunt îndeplinite condițiile de aplicabilitate a analizei discriminante - variabile independente - semnele (se mai numesc și predictori) ar trebui măsurate cel puțin pe o scară de interval, distribuția lor trebuie să corespundă legii normale, este necesar să se utilizeze analiza discriminantă clasică , în caz contrar – prin metoda modelelor generale de analiză discriminantă.

Analiza factorilor. Analiza factorială este una dintre cele mai populare metode statistice multivariate. Dacă metodele cluster și discriminante clasifică observațiile împărțindu-le în grupuri de omogenitate, atunci analiza factorilor clasifică caracteristici (variabile) care descriu observații. Prin urmare, scopul principal al analizei factoriale este reducerea numărului de variabile pe baza clasificării variabilelor și a stabilirii structurii relațiilor dintre acestea. Reducerea se realizează prin evidențierea factorilor comuni ascunși (latenți) care explică relația dintre trăsăturile observate ale obiectului, i.e. în locul setului inițial de variabile, va fi posibilă analizarea datelor privind factorii selectați, al căror număr este semnificativ mai mic decât numărul inițial de variabile interdependente.

Arbori de clasificare. Arborele de clasificare sunt o metodă de analiză a clasificării care face posibilă prezicerea apartenenței obiectelor la o anumită clasă, în funcție de valorile corespunzătoare ale caracteristicilor care caracterizează obiectele. Caracteristicile sunt numite variabile independente, iar variabila care indică dacă obiectele aparțin unor clase se numește dependentă. Spre deosebire de analiza discriminantă clasică, arborii de clasificare sunt capabili să efectueze ramificare unidimensională pentru variabile de diferite tipuri, categoriale, ordinale și interval. Nu sunt impuse restricții cu privire la legea distribuției pentru variabilele cantitative. Prin analogie cu analiza discriminantă, metoda face posibilă analizarea contribuțiilor variabilelor individuale la procedura de clasificare. Arborii de clasificare pot fi, și uneori sunt, foarte complexi. Cu toate acestea, utilizarea unor proceduri grafice speciale face posibilă simplificarea interpretării rezultatelor, chiar și pentru arbori foarte complexi. Capacitatea de a reprezenta grafic rezultatele și ușurința de interpretare explică în mare măsură marea popularitate a arborilor de clasificare în zonele aplicate, cu toate acestea, cele mai importante proprietăți distinctive ale arborilor de clasificare sunt ierarhia și aplicabilitatea lor largă. Structura metodei este astfel încât utilizatorul are capacitatea de a parametri controlați construiți arbori de complexitate arbitrară, realizând erori minime de clasificare. Dar este dificil să clasificăm un nou obiect pe baza unui arbore complex, din cauza setului mare de reguli de decizie. Prin urmare, atunci când construiește un arbore de clasificare, utilizatorul trebuie să găsească un compromis rezonabil între complexitatea arborelui și complexitatea procedurii de clasificare. Domeniu largă Utilitatea arborilor de clasificare le face un instrument foarte atractiv pentru analiza datelor, dar nu trebuie presupus că se recomandă utilizarea lui în locul metodelor tradiționale de analiză a clasificării. Dimpotrivă, dacă sunt îndeplinite ipoteze teoretice mai riguroase impuse de metodele tradiționale, iar distribuția eșantionului are unele proprietăți speciale (de exemplu, corespondența distribuției variabilelor cu legea normală), atunci utilizarea metodelor tradiționale va fi mai mult efectiv. Cu toate acestea, ca metodă de analiză exploratorie sau ca ultimă soluție atunci când toate metodele tradiționale eșuează, Arborii de Clasificare, conform multor cercetători, sunt de neegalat.

Analiza și clasificarea componentelor principale.În practică, apare adesea sarcina de a analiza date de dimensiuni mari. Analiza și clasificarea componentelor principale pot rezolva această problemă și servesc două scopuri:
- reducerea numărului total de variabile (reducerea datelor) pentru a obţine variabile „principale” şi „necorelate”;
- clasificarea variabilelor si observatiilor, folosind spatiul factorial construit.
Metoda este similară cu analiza factorială în formularea problemelor care se rezolvă, dar are o serie de diferențe semnificative:
- în analiza componentelor principale nu sunt utilizate metode iterative a extrage factorii;
- alături de variabilele active și observațiile utilizate pentru extragerea componentelor principale, pot fi specificate variabile auxiliare și/sau observații; apoi variabilele auxiliare și observațiile sunt proiectate pe spațiul factorilor calculat pe baza variabilelor și observațiilor active;
- posibilitățile enumerate permit utilizarea metodei ca un instrument puternic de clasificare a variabilelor și a observațiilor în același timp.
Rezolvarea problemei principale a metodei se realizează prin crearea unui spațiu vectorial de variabile (factori) latente (ascunse) cu o dimensiune mai mică decât cea inițială. Dimensiunea originală este determinată de numărul de variabile pentru analiză din datele originale.

Scalare multidimensională. Metoda poate fi privită ca o alternativă la analiza factorială, în care se realizează o reducere a numărului de variabile prin evidențierea factorilor latenți (nu observabili direct) care explică relația dintre variabilele observate. Scopul scalării multidimensionale este de a găsi și interpreta variabile latente care permit utilizatorului să explice asemănările dintre obiectele date de puncte din spațiul caracteristic original. Indicatorii asemănării obiectelor în practică pot fi distanța sau gradul de legătură dintre ele. În analiza factorială, asemănările dintre variabile sunt exprimate folosind o matrice de coeficienți de corelație. În scalarea multidimensională, un tip arbitrar de matrice de similaritate a obiectelor poate fi utilizat ca date de intrare: distanțe, corelații etc. În ciuda faptului că există multe asemănări în natura problemelor studiate, metodele de scalare multivariată și analiza factorială au o serie de diferențe semnificative. Deci, analiza factorială necesită ca datele studiate să respecte o distribuție normală multivariată, iar dependențele să fie liniare. Scalare multidimensională nu impune astfel de restricții; ea poate fi aplicată dacă este specificată o matrice de asemănări în perechi ale obiectelor. În ceea ce privește diferențele dintre rezultatele obținute, analiza factorială tinde să extragă mai mulți factori – variabile latente comparativ cu scalarea multivariată. Prin urmare, scalarea multidimensională duce adesea la soluții mai ușor de interpretat. Cu toate acestea, mai important, metoda de scalare multidimensională poate fi aplicată la orice tip de distanță sau similaritate, în timp ce analiza factorială necesită ca matricea de corelație a variabilelor să fie utilizată ca date de intrare sau matricea de corelație trebuie mai întâi calculată din datele sursă. fişier. Presupunerea principală a scalarii multidimensionale este că există un anumit spațiu metric de caracteristici de bază esențiale, care implicit a servit drept bază pentru datele empirice obținute privind proximitatea dintre perechile de obiecte. Prin urmare, obiectele pot fi gândite ca puncte în acest spațiu. De asemenea, se presupune că obiectele mai apropiate (conform matricei inițiale) corespund unor distanțe mai mici în spațiul caracteristicilor de bază. Prin urmare, scalarea multidimensională este un set de metode de analiză a datelor empirice privind proximitatea obiectelor, cu ajutorul cărora se determină dimensiunea spațiului caracteristicilor obiectelor măsurate care sunt esențiale pentru o anumită problemă semnificativă și configurația de puncte (obiecte) din acest spațiu este construit. Acest spațiu („scara multidimensională”) este similar cu scalele utilizate în mod obișnuit, în sensul că valorile caracteristicilor esențiale ale obiectelor măsurate corespund anumitor poziții pe axele spațiului. Logica scalarii multidimensionale poate fi ilustrata cu urmatorul exemplu simplu. Să presupunem că există o matrice de distanțe în perechi (adică, asemănarea unor caracteristici) între unele orașe. Analizând matricea, este necesară poziționarea punctelor cu coordonatele orașelor într-un spațiu bidimensional (pe un plan), păstrând pe cât posibil distanțele efective dintre ele. Amplasarea rezultată a punctelor pe plan poate fi folosită ulterior ca o hartă geografică aproximativă. În cazul general, scalarea multidimensională permite astfel ca obiectele (orașele din exemplul nostru) să fie amplasate într-un spațiu de o anumită dimensiune (în acest caz, este egal cu două) pentru a reproduce adecvat distanțele observate între ele. Ca rezultat, aceste distanțe pot fi măsurate în termeni de variabile latente găsite. Deci, în exemplul nostru, putem explica distanțele în termenii unei perechi de coordonate geografice Nord / Sud și Est / Vest.

Modelarea ecuațiilor structurale (modelare cauzală). Progresele recente în analiza statistică multivariată și analiza structurilor de corelație, combinate cu cei mai recenti algoritmi de calcul, au servit drept punct de plecare pentru crearea unei noi, dar deja recunoscute tehnici de modelare a ecuațiilor structurale (SEPATH). Această tehnică incredibil de puternică de analiză multivariată include metode din diverse domenii ale statisticii, regresia multiplă și analiza factorială sunt dezvoltate și combinate în mod natural aici.
Obiectul modelării prin ecuații structurale îl reprezintă sistemele complexe, a căror structură internă nu este cunoscută („cutie neagră”). Observând parametrii sistemului folosind SEPATH, se pot investiga structura acestuia, se pot stabili relații cauză-efect între elementele sistemului.
Enunțarea problemei modelării structurale este următoarea. Să existe variabile pentru care momentele statistice sunt cunoscute, de exemplu, o matrice de coeficienți de corelație a eșantionului sau covarianță. Astfel de variabile sunt numite explicite. Ele pot fi caracteristicile unui sistem complex. Relațiile reale dintre variabilele explicite observate pot fi destul de complexe, dar presupunem că există o serie de variabile latente care explică structura acestor relații cu un anumit grad de acuratețe. Astfel, cu ajutorul variabilelor latente, se construiește un model de relații între variabilele explicite și implicite. În unele sarcini, variabilele latente pot fi considerate cauze, iar cele explicite drept consecințe, prin urmare, astfel de modele sunt numite cauzale. Se presupune că variabilele ascunse, la rândul lor, pot fi legate între ele. Structura legăturilor este permisă să fie destul de complexă, dar tipul său este postulat - acestea sunt legături descrise prin ecuații liniare. Unii parametri ai modelelor liniare sunt cunoscuți, alții nu și sunt parametri liberi.
Ideea principală a modelării ecuațiilor structurale este că puteți verifica dacă variabilele Y și X sunt legate printr-o relație liniară Y = aX analizând varianțele și covarianța acestora. Această idee se bazează pe o proprietate simplă a mediei și a varianței: dacă înmulțiți fiecare număr cu o constantă k, media se înmulțește și cu k, iar abaterea standard este înmulțită cu modulul k. De exemplu, luați în considerare un set de trei numere 1, 2, 3. Aceste numere au o medie de 2 și o abatere standard de 1. Dacă înmulțiți toate cele trei numere cu 4, puteți calcula cu ușurință că media este 8, standardul abaterea este 4, iar varianța este 16. Astfel, dacă există seturi de numere X și Y legate prin relația Y = 4X, atunci varianța lui Y trebuie să fie de 16 ori mai mare decât varianța lui X. Prin urmare, puteți testa ipoteza că Y și X sunt ecuații legate Y = 4X, comparând variațiile variabilelor Y și X. Această idee poate fi căi diferite generalizat la mai multe variabile, legate de sistem ecuatii lineare. În acest caz, regulile de transformare devin mai greoaie, calculele sunt mai complicate, dar sensul principal rămâne același - puteți verifica dacă variabilele sunt legate printr-o relație liniară studiind variațiile și covarianța lor.

Metode de analiză a supraviețuirii. Metodele de analiză a supraviețuirii au fost dezvoltate inițial în cercetarea medicală, biologică și în asigurări, dar apoi au devenit utilizate pe scară largă în domeniul social și stiinte economice, precum și în industrie în probleme de inginerie (analiza fiabilității și timpilor de defecțiune). Imaginează-ți că studiezi eficacitatea unui nou tratament sau medicament. Evident, cea mai importantă și obiectivă caracteristică este speranța medie de viață a pacienților din momentul internării în clinică sau durata medie de remisiune a bolii. Metodele standard parametrice și neparametrice ar putea fi utilizate pentru a descrie duratele medii de viață sau remisiile. Cu toate acestea, datele analizate au o caracteristică semnificativă - pot exista pacienți care au supraviețuit pe toată perioada de observație, iar la unii dintre ei boala este încă în remisie. Se poate forma, de asemenea, un grup de pacienți, contact cu care s-a pierdut înainte de sfârșitul experimentului (de exemplu, au fost transferați în alte clinici). Folosind metode standard de estimare a mediei, acest grup de pacienți ar trebui exclus, pierzând astfel informațiile importante greu de colectat. În plus, cei mai mulți dintre acești pacienți sunt supraviețuitori (recuperați) în perioada în care au fost observați, ceea ce sugerează o nouă metodă de tratament (medicament). Acest tip de informații, atunci când nu există date privind producerea evenimentului care ne interesează, se numesc incomplete. Dacă există date despre apariția unui eveniment care ne interesează, atunci informațiile se numesc complete. Observațiile care conțin informații incomplete se numesc observații cenzurate. Observațiile cenzurate sunt tipice atunci când observabilul reprezintă timpul până când apare un eveniment critic, iar durata observației este limitată în timp. Utilizarea observațiilor cenzurate este specifică metodei luate în considerare – analiza supraviețuirii. V aceasta metoda sunt investigate caracteristicile probabilistice ale intervalelor de timp dintre apariția succesivă a evenimentelor critice. Acest tip de cercetare se numeste analiza duratelor pana la momentul terminarii, care poate fi definita ca intervalele de timp dintre inceputul observarii unui obiect si momentul terminarii in care obiectul inceteaza sa raspunda proprietatilor specificate pentru observare. Scopul cercetării este de a determina probabilitățile condiționate asociate duratelor până la momentul încetării. Construirea tabelelor de durate de viață, potrivirea distribuției supraviețuirii, estimarea funcției de supraviețuire folosind procedura Kaplan-Meier sunt metode descriptive de examinare a datelor cenzurate. Unele dintre metodele propuse permit compararea ratelor de supraviețuire în două sau mai multe grupuri. În cele din urmă, analiza de supraviețuire conține modele de regresie pentru estimarea relațiilor dintre variabilele continue multivariate cu valori similare duratelor de viață.
Modele generale de analiză discriminantă. Dacă nu sunt îndeplinite condițiile de aplicabilitate a analizei discriminante (DA) - variabilele independente (predictorii) trebuie măsurate cel puțin pe o scară de interval, distribuția lor trebuie să corespundă legii normale, este necesar să se folosească metoda modelelor generale de analiza discriminantă (AOD). Metoda poartă această denumire deoarece utilizează Modelul Linear General (GLM) pentru a analiza funcțiile discriminante. În acest modul, analiza funcției discriminante este tratată ca un model liniar multivariat general în care variabila dependentă categorială (răspunsul) este reprezentată de vectori cu coduri care denotă diferitele grupuri pentru fiecare observație. Metoda ODA are o serie de avantaje semnificative față de analiza discriminantă clasică. De exemplu, nu sunt impuse restricții asupra tipului de predictor utilizat (categoric sau continuu) sau asupra tipului de model determinat, este posibil să se selecteze predictorii pas cu pas și să se selecteze cel mai bun subset de predictori, dacă există o încrucișare. eșantion validat în fișierul de date, selecția celui mai bun subset de predictori se poate baza pe clasificarea greșită pentru eșantionarea validată încrucișat etc.

Serii de timp. Seria temporală este domeniul cel mai intens dezvoltat și promițător al statisticii matematice. O serie de timp (dinamică) înseamnă o succesiune de observații ale unei trăsături X (variabilă aleatoare) la momente echidistante succesive t. Observațiile individuale se numesc niveluri ale seriei și se notează xt, t = 1, ..., n. Când studiem o serie temporală, se disting mai multe componente:
x t = u t + y t + c t + e t, t = 1,…, n,
unde u t este o tendință, o componentă în schimbare lină care descrie influența netă a factorilor pe termen lung (scăderea populației, scăderea veniturilor etc.); - componenta sezonieră, reflectând repetarea proceselor pe o perioadă nu foarte lungă (zi, săptămână, lună etc.); ct este o componentă ciclică care reflectă recurența proceselor pe perioade lungi de timp peste un an; t este o componentă aleatoare care reflectă influența unor factori aleatori care nu pot fi luați în considerare și înregistrați. Primele trei componente sunt componente deterministe. Componenta aleatorie se formează ca urmare a suprapunerii unui număr mare factori externi, fiecare individual având un efect nesemnificativ asupra modificării valorilor atributului X. Analiza și cercetarea seriilor temporale ne permit să construim modele pentru prezicerea valorilor atributului X pentru viitor, dacă succesiunea de observațiile din trecut sunt cunoscute.

Rețele neuronale. Rețelele neuronale sunt un sistem de calcul, a cărui arhitectură este analogă cu construcția țesutului nervos din neuroni. Valorile parametrilor de intrare sunt alimentate neuronilor din cel mai de jos strat, pe baza cărora trebuie luate anumite decizii. De exemplu, în conformitate cu valorile parametrilor clinici și de laborator ai pacientului, este necesar să-l atribuiți unui grup sau altui în funcție de severitatea bolii. Aceste valori sunt percepute de rețea ca semnale care sunt transmise la stratul următor, slăbindu-se sau amplificându-se în funcție de valorile numerice (greutăți) atribuite conexiunilor interneurale. Ca urmare, la ieșirea neuronului stratului superior se generează o anumită valoare, care este considerată un răspuns - răspunsul întregii rețele la parametrii de intrare. Pentru ca rețeaua să funcționeze, aceasta trebuie să fie „antrenată” (antrenată) pe date pentru care se cunosc valorile parametrilor de intrare și răspunsurile corecte la aceștia. Antrenamentul constă în selectarea ponderilor conexiunilor interneuronale care asigură cea mai apropiată apropiere posibilă a răspunsurilor de răspunsurile corecte cunoscute. Rețelele neuronale pot fi folosite pentru a clasifica observațiile.

Planificarea experimentului. Arta de a aranja observațiile într-o anumită ordine sau de a efectua inspecții special planificate pentru a utilizare deplină posibilitățile acestor metode și constituie conținutul subiectului „planificarea experimentului”. În prezent, metodele experimentale sunt utilizate pe scară largă atât în ​​știință, cât și în diverse domenii de activitate practică. De obicei, scopul principal al unui studiu științific este de a arăta semnificația statistică a efectului unui anumit factor asupra variabilei dependente de interes. De regulă, scopul principal al planificării experimentelor este extragerea cantității maxime de informații obiective despre influența factorilor studiați asupra indicatorului (variabila dependentă) de interes pentru cercetător folosind cel mai mic număr de observații costisitoare. Din păcate, în practică, în cele mai multe cazuri, nu se acordă suficientă atenție planificării cercetării. Ei colectează date (atât cât pot colecta), apoi efectuează procesări și analize statistice. Dar doar o analiză statistică efectuată corect nu este suficientă pentru a obține fiabilitatea științifică, deoarece calitatea oricărei informații obținute ca urmare a analizei datelor depinde de calitatea datelor în sine. Prin urmare, planificarea experimentelor este din ce în ce mai utilizată în cercetarea aplicată. Scopul metodelor de planificare a experimentelor este de a studia influența anumitor factori asupra procesului studiat și de a găsi nivelurile optime de factori care determină nivelul necesar derulării acestui proces.

Diagrame de control al calității.În condițiile lumii moderne, problema calității nu numai a produselor manufacturate, ci și a serviciilor oferite populației este extrem de urgentă. Bunăstarea oricărei firme, organizații sau instituții depinde în mare măsură de soluționarea cu succes a acestei probleme importante. Calitatea produselor și serviciilor se formează în acest proces cercetare științifică, design și evoluții tehnologice, este asigurată de o bună organizare a producției și serviciilor. Dar fabricarea produselor și prestarea serviciilor, indiferent de tipul lor, este întotdeauna asociată cu o anumită inconsecvență în condițiile de producție și prestare. Acest lucru duce la o anumită variabilitate în trăsăturile lor de calitate. Prin urmare, problemele dezvoltării metodelor de control al calității care vor permite identificarea în timp util a semnelor de încălcare sunt relevante. proces tehnologic sau furnizarea de servicii. Totodată, pentru a atinge și menține un nivel ridicat de calitate care să satisfacă consumatorul, sunt necesare metode care să nu vizeze eliminarea defectelor. produse terminateși inconsecvențele serviciilor, ci să prevină și să prezică cauzele apariției acestora. O diagramă de control este un instrument care vă permite să urmăriți progresul unui proces și să îl influențați (cu ajutorul unui feedback adecvat), prevenind abaterile acestuia de la cerințele procesului. Setul de instrumente pentru diagrama de control al calității folosește pe scară largă metodele statistice bazate pe teoria probabilității și statisticile matematice. Utilizarea metodelor statistice face posibilă, cu volume limitate de produse analizate, să se judece starea calității produselor cu un anumit grad de acuratețe și fiabilitate. Oferă prognoză, reglementarea optimă a problemelor de calitate, acceptarea credincioșilor decizii de management nu pe baza intuiției, ci cu ajutorul studiului științific și al identificării tiparelor în rețelele acumulate de informații numerice. /> /> /> /> /> /> /> /> /> /> /> /> /> /> /> /> /> /> /> /> /> /> />

2. Kritsman VA, Rozen B. Ya., Dmitrev IS La secretele structurii materiei. - Liceu, 1983.

Descoperirile revoluționare în știința naturii au fost adesea făcute sub influența rezultatelor experimentelor, puse în scenă de experimentatori talentați. Marile experimente în biologie, chimie, fizică au contribuit la schimbarea ideii de lume în care trăim, a structurii materiei, a mecanismelor de transmitere a eredității. Alte descoperiri teoretice și tehnologice au fost făcute pe baza rezultatelor marilor experimente.

§ 9. Metode de cercetare teoretică

Lecție-prelecție

Sunt lucruri mai importante pe lume

cele mai frumoase descoperiri -

este cunoaşterea metodelor prin care

au fost făcute

Leibniz

https://pandia.ru/text/78/355/images/image014_2.gif "alt =" (! LANG: Semnătura:!" align="left" width="42 height=41" height="41">Метод. Классификация. Систематизация. Систематика. Индукция. Дедукция.!}

Observarea și descrierea fenomenelor fizice. Legile fizice. (Fizică, clasele 7 - 9).

Ce este o metodă . Metodăîn știință ei numesc metoda de construire a cunoașterii, formă de stăpânire practică și teoretică a realității. Francis Bacon a comparat metoda cu o lampă care luminează calea unui călător în întuneric: „Chiar și un șchiop care merge pe drum este înaintea celui care merge fără drum”. Metoda aleasă corect ar trebui să fie clară, logică, să conducă la un obiectiv specific și să dea un rezultat. Se numește doctrina unui sistem de metode metodologie.

Metodele de cunoaștere care sunt utilizate în activitatea științifică sunt empiric ( metode practice, experimentale): observare, experimentși teoretic ( metode logice, raționale): analiză, sinteză, comparaţie, clasificare, sistematizare, abstractizare, generalizare, modelare, inducţie, deducere... În cunoștințele științifice reale, aceste metode sunt întotdeauna folosite în unitate. De exemplu, la elaborarea unui experiment este necesară o înțelegere teoretică preliminară a problemei, formularea unei ipoteze de cercetare, iar după experiment este necesară prelucrarea rezultatelor folosind metode matematice. Luați în considerare caracteristicile unor metode teoretice de cunoaștere.

Clasificare și sistematizare. Clasificarea vă permite să ordonați materialul în studiu grupând setul (clasa) obiectelor studiate în subseturi (subclase) în conformitate cu caracteristica selectată.

De exemplu, toți elevii dintr-o școală pot fi împărțiți în subclase - „fete” și „băieți”. De asemenea, puteți alege o altă caracteristică, cum ar fi înălțimea. În acest caz, clasificarea poate fi efectuată în moduri diferite. De exemplu, evidențiați limita de înălțime de 160 cm și clasificați elevii în subclase „jos” și „înalt”, sau împărțiți scala de creștere în segmente de 10 cm, apoi clasificarea va fi mai detaliată. Dacă comparăm rezultatele unei astfel de clasificări pe mai mulți ani, atunci aceasta va permite stabilirea empiric a tendințelor în dezvoltarea fizică a elevilor. În consecință, clasificarea ca metodă poate fi folosită pentru a obține noi cunoștințe și chiar poate servi ca bază pentru construirea de noi teorii științifice.

În știință, clasificările acelorași obiecte sunt de obicei folosite după diferite criterii, în funcție de scopuri. Cu toate acestea, caracteristica (baza clasificării) este întotdeauna selectată singură. De exemplu, chimiștii împart clasa „acizilor” în subclase atât după gradul de disociere (puternic și slab), cât și după prezența oxigenului (conținând oxigen și anoxic), cât și după proprietățile fizice (volatil - nevolatil; solubil - insolubil) și alte caracteristici.

Clasificarea se poate schimba în cursul dezvoltării științei.

La mijlocul secolului al XX-lea. studiul diferitelor reacții nucleare a condus la descoperirea particulelor elementare (nefisionabile). Inițial, au început să fie clasificate după masă, astfel au apărut leptonii (mici), mezonii (intermediari), barionii (mari) și hiperonii (supermari). Dezvoltarea ulterioară a fizicii a arătat că clasificarea după masă are puțină semnificație fizică, dar termenii au fost păstrați, în urma cărora au apărut leptonii, care sunt mult mai masivi decât barionii.

Este convenabil să reflectați clasificarea sub formă de tabele sau diagrame (grafice). De exemplu, clasificarea planetelor sistemului solar, reprezentată printr-o diagramă - un grafic, poate arăta astfel:

PLANETELE MAJORE

SISTEM SOLAR

GRUPUL PĂMÂNTULUI PLANETELE

PLANETE - UIGANTI

PLUTON

MERCU-

VENE

MARTE

JUPITER

SATURN

URANUS

Vă rugăm să rețineți că planeta Pluto din această clasificare reprezintă o subclasă separată, nu aparține nici planetelor terestre, nici planetelor gigantice. Oamenii de știință notează că Pluto este similar în proprietăți cu un asteroid, dintre care ar putea fi mulți la periferia sistemului solar.

În studiul sistemelor complexe ale naturii, clasificarea este de fapt primul pas către construirea unei teorii științifice naturale. Următorul nivel superior este sistematizarea (taxonomia). Sistematizarea se realizează pe baza clasificării unei cantități destul de mari de material. În același timp, se disting trăsăturile cele mai esențiale, care fac posibilă prezentarea materialului acumulat ca un sistem care reflectă toate relațiile variate dintre obiecte. Este necesar în cazurile în care există o varietate de obiecte și obiectele în sine sunt sisteme complexe. Rezultatul sistematizării datelor științifice este taxonomie sau altfel – taxonomie. Sistematica ca domeniu al științei dezvoltat în domenii de cunoaștere precum biologia, geologia, lingvistica, etnografia.

Unitatea de taxonomie se numește taxon. În biologie, taxonii sunt, de exemplu, un tip, o clasă, o familie, un gen, o ordine etc. Ele sunt combinate în sistem unificat taxoni de diferite ranguri conform principiului ierarhic. Un astfel de sistem include o descriere a tuturor organismelor existente și dispărute anterior, descoperă căile evoluției lor. Dacă oamenii de știință găsesc noul fel, atunci trebuie să-i confirme locul în sistemul general. Pot fi aduse modificări sistemului în sine, care rămâne în curs de dezvoltare și dinamic. Taxonomia face ușoară navigarea în toată diversitatea organismelor - doar animalele sunt cunoscute cu aproximativ 1,5 milioane de specii, iar plantele - peste 500 de mii de specii, fără a număra alte grupuri de organisme. Sistematica biologică modernă reflectă legea lui Saint-Hilaire: „Toată diversitatea formelor de viață formează un sistem taxonomic natural, constând din grupuri ierarhice de taxoni de diferite ranguri”.

Inducția și deducția. Calea cunoașterii, în care, pe baza sistematizării informațiilor acumulate - de la particular la general - se face o concluzie despre regularitatea existentă, se numește inducție. Această metodă ca metodă de studiu a naturii a fost dezvoltată de filozoful englez F. Bacon. El a scris: „Este necesar să luăm cât mai multe cazuri – atât cele în care fenomenul investigat este prezent, cât și cele în care acesta este absent, dar în care s-ar putea aștepta să fie întâlnit; atunci trebuie să le aranjezi metodic... și să dai explicația cea mai probabilă; în cele din urmă, încercați să verificați această explicație prin comparație suplimentară cu faptele.”

Gând și imagine

Portrete ale lui F. Bacon și S. Holmes

De ce portretele unui om de știință și ale unui erou literar sunt situate unul lângă celălalt?

Inducția nu este singura cale obținerea de cunoștințe științifice despre lume. Dacă fizica experimentală, chimia și biologia au fost construite ca științe în principal datorită inducției, atunci fizica teoretică, matematica modernă la baza lor aveau un sistem axiome- consistent, speculativ, de încredere din punct de vedere al bunului simț și al nivelului de dezvoltare istorică a afirmațiilor științifice. Apoi cunoașterea poate fi construită pe aceste axiome prin derivarea de inferențe de la general la particular, trecerea de la premisă la consecințe. Această metodă se numește deducție. A dezvoltat-o

René Descartes, filozof și om de știință francez.

Un exemplu izbitor de dobândire a cunoștințelor despre un subiect în moduri diferite este descoperirea legilor mișcării corpurilor cerești. I. Kepler pe baza unei cantități mari de date observaționale privind mișcarea planetei Marte în începutul XVII v. a descoperit prin inducție legile empirice ale mișcării planetare în sistemul solar. La sfârșitul aceluiași secol, Newton a dedus legile generalizate ale mișcării corpurilor cerești pe baza legii gravitației universale.

In realitate activitati de cercetare metodele de cercetare sunt interconectate.

1. ○ Explicați ce este o metodă de cercetare, metodologia științelor naturale?

Toate aceste aproximări ar trebui justificate și erorile introduse de fiecare dintre ele să fie estimate numeric.

Dezvoltarea științei arată că fiecare lege natural-științifică are limitele ei de aplicare. De exemplu, legile lui Newton se dovedesc a fi inaplicabile în studiul proceselor microlumii. Pentru a descrie aceste procese se formulează legile teoriei cuantice, care devin echivalente cu legile lui Newton dacă sunt aplicate pentru a descrie mișcarea corpurilor macroscopice. Din punct de vedere al modelării, aceasta înseamnă că legile lui Newton sunt un fel de model care urmează, sub anumite aproximări, dintr-o teorie mai generală. Totuși, legile teoriei cuantice nu sunt absolute și au limitări în aplicabilitatea lor. Au fost deja formulate legi mai generale și s-au obținut ecuații mai generale, care la rândul lor au și limitări. Și acest lanț nu are un capăt în vedere. Până acum, nu au fost obținute legi absolute care să descrie totul în natură, din care ar putea fi derivate toate legile particulare. Și nu este clar dacă astfel de legi pot fi formulate. Dar asta înseamnă că oricare dintre legile științifice naturale este de fapt un fel de model. Diferența față de modelele luate în considerare în această secțiune este doar în faptul că legile științelor naturale sunt un model aplicabil pentru a descrie nu un fenomen specific, ci pentru o clasă largă de fenomene.

Practic, data mining se referă la procesarea informațiilor și identificarea tiparelor și tendințelor în acestea care vă ajută să luați decizii. Principii analiza intelectuală datele sunt cunoscute de mulți ani, dar odată cu apariția Date mare au devenit și mai răspândite.

Big Data a condus la o creștere explozivă a popularității tehnicilor de extragere a datelor mai largi, în parte pentru că există mult mai multe informații și, prin însăși natura și conținutul lor, acestea devin din ce în ce mai diversificate și mai expansive. Când aveți de-a face cu seturi de date mari, statisticile relativ simple și directe nu mai sunt suficiente. Cu 30 de milioane sau 40 de milioane de înregistrări detaliate de achiziție, nu este suficient să știi că două milioane dintre ele sunt din aceeași locație. Pentru a satisface mai bine nevoile clienților, trebuie să înțelegeți dacă cei două milioane se află într-o anumită grupă de vârstă și să cunoașteți câștigurile lor medii.

Aceste cerințe de afaceri au trecut de la căutarea simplă și analiza statistică a datelor la extragerea datelor mai sofisticate. Pentru a rezolva problemele de afaceri, este necesară analiza datelor care vă permite să construiți un model de descriere a informațiilor și să conducă în cele din urmă la crearea unui raport rezultat. Acest proces este ilustrat.

Figura 1. Diagrama fluxului procesului

Procesul de analiză a datelor, căutarea și construirea unui model este adesea iterativ, deoarece trebuie să urmăriți și să dezvăluiți diverse informații care pot fi extrase. De asemenea, trebuie să înțelegeți cum să le legați, să le transformați și să le combinați cu alte date pentru a obține un rezultat. Odată ce sunt descoperite noi elemente și aspecte ale datelor, abordarea identificării surselor și formatelor de date și apoi a comparării acestor informații cu un rezultat dat se poate schimba.

Instrumente de extragere a datelor

Exploatarea datelor nu se referă doar la instrumentele sau software-ul de baze de date utilizate. Exploatarea datelor poate fi realizată cu sisteme de baze de date relativ modeste și instrumente simple, inclusiv crearea propriei dvs. sau folosind pachete disponibile. software... Exploatarea sofisticată a datelor se bazează pe experiența trecută și pe algoritmi definiți cu software-ul și pachetele existente, cu diferite instrumente specializate asociate cu diferite metode.

De exemplu, IBM SPSS®, care are rădăcini în analiza statistică și sondaje, vă permite să construiți modele predictive eficiente din tendințele trecute și să faceți predicții precise. IBM InfoSphere® Warehouse oferă descoperirea, preprocesarea și extragerea surselor de date într-un singur pachet, permițându-vă să extrageți informații din baza de date sursă direct în raportul final.

În ultimii ani, a devenit posibil să se lucreze cu seturi de date foarte mari și cu procesare de date în cluster/la scară largă, ceea ce permite generalizări și mai complexe ale rezultatelor extragerii de date între grupuri și comparații de date. O gamă complet nouă de instrumente și sisteme este disponibilă astăzi, inclusiv sisteme combinate de stocare și procesare a datelor.

Puteți analiza o mare varietate de seturi de date, inclusiv baze de date tradiționale SQL, date de text brut, seturi de chei/valori și baze de date de documente. Bazele de date grupate precum Hadoop, Cassandra, CouchDB și Couchbase Server stochează și accesează date în moduri care nu urmează o structură tabelară tradițională.

În special, un format mai flexibil pentru stocarea unei baze de documente conferă procesării informațiilor o nouă direcție și o complică. Bazele de date SQL sunt foarte structurate și aderă la schema, ceea ce face ușoară interogarea și analizarea datelor cu un format și o structură cunoscute.

Bazele de date documentare care urmează o structură standard precum JSON sau fișiere cu o structură care poate fi citită de mașină sunt, de asemenea, ușor de manevrat, deși acest lucru poate fi complicat de o structură variată și fluidă. De exemplu, în Hadoop, care prelucrează date complet „brute”, poate fi dificil să identifici și să extragi informații înainte de a le procesa și corela.

Metode de bază

Mai multe metode de bază care sunt utilizate pentru data mining descriu tipul de analiză și operația de recuperare a datelor. Din păcate, companii și soluții diferite nu folosesc întotdeauna aceiași termeni, ceea ce poate spori confuzia și complexitatea percepută.

Să aruncăm o privire la câteva dintre tehnicile cheie și exemplele de utilizare a unor instrumente specifice de data mining.

Asociere

Asocierea (sau relația) este probabil cea mai cunoscută, familiară și simplă tehnică de extragere a datelor. Pentru identificarea tiparelor se face o comparație simplă între două sau mai multe elemente, adesea de același tip. De exemplu, urmărind obiceiurile de cumpărături, este posibil să observați că, de obicei, smântâna este cumpărată cu căpșuni.

Nu este dificil să creezi instrumente de data mining bazate pe asocieri sau relații. De exemplu, InfoSphere Warehouse oferă un vrăjitor care vă ghidează prin configurațiile fluxului de informații pentru a crea asocieri prin examinarea sursei de intrare, a bazei de decizie și a informațiilor de ieșire. este oferit un exemplu pentru baza de date eșantion.

Figura 2. Fluxul de informații utilizat în abordarea de asociere

Clasificare

Clasificarea poate fi folosită pentru a vă face o idee despre tipul de client, produs sau obiect prin descrierea mai multor atribute pentru a identifica o anumită clasă. De exemplu, mașinile pot fi clasificate cu ușurință după tip (sedan, SUV, decapotabil) prin definirea diferitelor atribute (număr de locuri, forma caroseriei, roți motrice). Studiu mașină nouă, îl puteți atribui unei clase specifice comparând atributele cu o definiție cunoscută. Aceleași principii pot fi aplicate și clienților, de exemplu, prin clasificarea lor în funcție de vârstă și grup social.

În plus, clasificarea poate fi utilizată ca intrare pentru alte metode. De exemplu, arborii de decizie pot fi utilizați pentru a defini o clasificare. Clustering vă permite să utilizați atributele comune ale diferitelor clasificări pentru a identifica clustere.

Examinând unul sau mai multe atribute sau clase, puteți grupa elemente individuale de date împreună pentru a obține o concluzie structurată. La un nivel simplu, gruparea folosește unul sau mai multe atribute ca bază pentru definirea unui grup de rezultate similare. Gruparea este utilă în identificarea diferitelor informații, deoarece se corelează cu alte exemple, astfel încât să puteți vedea unde sunt de acord asemănările și intervalele.

Metoda de grupare funcționează în ambele sensuri. Puteți presupune că există un cluster la un anumit punct și apoi utilizați criteriile de identificare pentru a verifica acest lucru. Graficul prezentat este un exemplu ilustrativ. Aici, vârsta cumpărătorului este comparată cu prețul de achiziție. Este rezonabil să ne așteptăm ca persoanele cu vârste cuprinse între douăzeci și treizeci de ani (înainte de căsătorie și de a avea copii) și cei de 50 și 60 de ani (când copiii au plecat de acasă) să aibă un venit disponibil mai mare.

Figura 3. Clustering

În acest exemplu, sunt vizibile două clustere, unul în jur de 2000 USD / 20-30 de ani și celălalt în jur de 7000-8000 USD / 50-65 ani. În acest caz, am emis ipoteza și am testat-o ​​pe un grafic simplu care poate fi reprezentat folosind orice software de graficare adecvat. Pentru combinații mai complexe, este necesar un pachet analitic complet, mai ales dacă deciziile trebuie să se bazeze automat pe informații despre cel mai apropiat vecin.

Această grupare este un exemplu simplificat al așa-numitei imagini cel mai apropiat vecin... Cumpărătorii individuali se pot distinge prin apropierea lor literală unul de celălalt pe grafic. Este foarte probabil ca clienții din același cluster să aibă alte atribute comune, iar această ipoteză poate fi utilizată pentru a găsi, clasifica și alte analize ale membrilor unui set de date.

Metoda de grupare poate fi aplicată și în direcția opusă: având în vedere anumite atribute de intrare, pot fi identificate diverse artefacte. De exemplu, un studiu recent al codurilor PIN din patru cifre a găsit grupuri de numere în intervalele 1-12 și 1-31 pentru prima și a doua pereche. Prin trasarea acestor perechi pe un grafic, puteți vedea grupuri asociate cu date (zi de naștere, aniversări).

Prognoza

Prognoza este un subiect larg care variază de la prezicerea defecțiunilor componentelor până la detectarea fraudei și chiar prezicerea profitului unei companii. Atunci când este combinată cu alte tehnici de extragere a datelor, prognoza implică analiza tendințelor, clasificarea, potrivirea modelelor și relații. Analizând evenimentele sau cazurile trecute, viitorul poate fi prezis.

De exemplu, folosind datele de autorizare a cardului de credit, puteți combina analiza arborelui de decizie a tranzacțiilor anterioare ale unei persoane cu clasificarea și compararea cu modele istorice pentru a identifica tranzacțiile frauduloase. Dacă achiziția de bilete de avion în Statele Unite coincide cu tranzacțiile din Statele Unite, atunci este probabil ca acele tranzacții să fie autentice.

Modele secvențiale

Modelele secvenţiale, care sunt adesea folosite pentru analiza datelor pe termen lung, sunt o tehnică utilă pentru identificarea tendinţelor sau a recurenţelor regulate ale unor evenimente similare. De exemplu, analizând datele clienților, puteți spune că aceștia cumpără anumite seturi de produse în diferite perioade ale anului. Pe baza acestor informații, aplicația de predicție a coșului de cumpărături poate presupune automat că anumite produse vor fi adăugate în coșul de cumpărături în funcție de frecvența și istoricul cumpărăturilor.

Arbori de decizie

Un arbore de decizie asociat cu majoritatea celorlalte metode (în principal clasificarea și prognoza) poate fi utilizat fie în cadrul criteriilor de selecție, fie pentru a sprijini selecția de date specifice în cadrul structura generala... Arborele de decizie începe cu intrebare simpla care are două răspunsuri (uneori mai multe). Fiecare răspuns conduce la următoarea întrebare, ajutând la clasificarea și identificarea datelor sau la realizarea de predicții.

Figura 5. Pregătirea datelor

Sursa de date, locația și baza de date afectează modul în care informațiile sunt procesate și combinate.

Baza pe SQL

Cea mai simplă dintre toate abordările este adesea dependența de bazele de date SQL. SQL (și structura tabelului corespunzătoare) este bine înțeles, dar structura și formatul informațiilor nu pot fi ignorate complet. De exemplu, atunci când studiezi comportamentul utilizatorilor cu privire la datele de vânzări în Modelul de date SQL (și extragerea datelor în general), există două formate principale pe care le poți folosi: tranzacțional și comportamental-demografic.

Cu InfoSphere Warehouse, construirea unui model de comportament demografic pentru a analiza datele clienților pentru a înțelege comportamentul clienților implică utilizarea datelor SQL brute bazate pe informații despre tranzacții și parametri cunoscuți ai clienților, organizarea acestor informații într-o structură tabulară predefinită. InfoSphere Warehouse poate folosi apoi aceste informații pentru a extrage datele folosind tehnici de grupare și clasificare pentru a obține rezultatul dorit. Datele demografice și tranzacționale ale clienților pot fi combinate și apoi convertite într-un format care permite analiza unor date specifice, așa cum se arată în.

Figura 6. Format personalizat de analiză a datelor

De exemplu, datele de vânzări pot fi folosite pentru a identifica tendințele de vânzări pentru anumite produse. Datele originale de vânzări pentru articole individuale pot fi convertite în informații despre tranzacție, care mapează ID-urile clienților cu datele tranzacției și codurile articolului. Folosind aceste informații, este ușor să identificați consistențele și relațiile pentru produse individuale și cumpărători individuali în timp. Acest lucru permite InfoSphere Warehouse să calculeze informații consecvente, determinând, de exemplu, când este probabil ca un client să cumpere din nou același articol.

Din datele originale, puteți crea noi puncte de analiză a datelor. De exemplu, puteți extinde (sau rafina) informațiile despre produse prin potrivirea sau clasificarea produselor individuale în grupuri mai largi, apoi analizați datele pentru acele grupuri în loc de clienții individuali.

Figura 7. Structura MapReduce

În exemplul anterior, am procesat (în acest caz prin MapReduce) datele originale într-o bază de date de documente și le-am convertit într-un format tabelar într-o bază de date SQL în scopul extragerii de date.

Lucrul cu aceste informații complexe și chiar nestructurate poate necesita mai multă pregătire și procesare. Există tipuri și structuri de date complexe care nu pot fi procesate și pregătite în forma dorită într-un singur pas. În acest caz, puteți direcționa ieșirea MapReduce către oricare consistent transformarea și obținerea structurii de date necesare, așa cum se arată în sau pentru individual realizarea mai multor tabele de ieşire.

Figura 8. Lanțul de ieșire consecutiv al rezultatelor procesării MapReduce

De exemplu, într-o singură trecere, puteți lua informațiile sursă din baza de date documentară și puteți efectua operația MapReduce pentru a obține prezentare scurta aceste informații după date. Un exemplu bun procesul secvenţial este de a regenera informaţia şi de a combina rezultatele cu o matrice de decizie (creată la a doua etapă a procesării MapReduce) cu simplificarea ulterioară într-o structură secvenţială. În timpul fazei de procesare, MapReduce necesită acest lucru întregul set datele au sprijinit etapele individuale de prelucrare a datelor.

Indiferent de datele sursă, multe instrumente pot folosi fișiere plate, CSV sau alte surse de date. De exemplu, InfoSphere Warehouse poate analiza fișiere plate în plus față de conectarea directă la depozitul de date DB2.

Concluzie

Exploatarea datelor înseamnă mai mult decât efectuarea unor interogări complexe asupra datelor stocate în baza de date. Indiferent dacă utilizați SQL, baze de date bazate pe documente, cum ar fi Hadoop, sau simple fișiere plate, trebuie să lucrați cu, să formatați sau să restructurați datele. Doriți să definiți formatul informațiilor pe care se va baza metoda și analiza dvs. Apoi, când informațiile sunt în formatul potrivit, puteți aplica metode diferite(individual sau colectiv) independent de structura de date de bază sau de setul de date necesar.

Acasă> Prelegere

Subiectul 7.ANALIZA CLASIFICARE

Cursul numărul 9

1. Analiza exploratorie a datelor. Cântare de măsurare

2. Arbori de clasificare

3. Analiza discriminanta (clasificare cu pregatire)

4. Analiza cluster (clasificare fără pregătire)

5. Corelații canonice

1. Analiza exploratorie a datelor. Cântare de măsurare

În prezența unui număr mare de variabile și a absenței informațiilor despre relații și tipare, una dintre primele etape de analiză a datelor disponibile este așa-numita analiză exploratorie a datelor. De obicei, analiza exploratorie ia în considerare și compară un număr mare de variabile, iar căutările pentru variabile sunt clasificate și scalate. Variabilele diferă în ceea ce privește cât de bine pot fi măsurate sau, cu alte cuvinte, cât de multă informație este măsurată de amploarea măsurătorilor lor. Un alt factor care determină cantitatea de informații este tipul de scară în care se face măsurarea. În mod obișnuit, se folosesc următoarele tipuri de scale de măsurare: nominală, ordinală, intervalală și relativă. Variabile nominale sunt utilizate numai pentru clasificarea calitativă. Aceasta înseamnă că aceste variabile pot fi măsurate doar în ceea ce privește apartenența la niște clase semnificativ diferite. Exemple tipice de variabile nominale sunt producătorul, tipul de produs, semnul adecvării acestuia etc. Variabilele nominale sunt adesea denumite categorice. Variabile ordinale vă permit să ierarhăm obiectele, dacă este indicat care dintre ele, într-o măsură mai mare sau mai mică, posedă calitatea exprimată de o variabilă dată. Cu toate acestea, ele nu permit să se judece cât de mult mai mult sau cât de mai puțin o anumită calitate este conținută într-o variabilă. Un exemplu tipic este tipul de produs: cel mai mare, primul, al doilea, al treilea. Unul și același produs diferă calitativ, dar nu se poate spune că diferența dintre ele este de 25%. Variabilele categoriale și ordinale sunt deosebit de frecvente atunci când se pune întrebări, de exemplu, se măsoară și se compară diferențele dintre ele. Un exemplu este temperatura măsurată în grade formează o scară de interval, deoarece este posibil să se estimeze diferența de variabile deja sub formă numerică (40 de grade este mai mult de 30 cu 10). Scala intervalului poate fi ușor convertită în ordinală dacă luăm unele valori ale variabilelor ca limite ale diferitelor clase (de exemplu, este cald sau cald afară timp de o lună, luând granița dintre clasele „cald” și „fierbinte”. " în valoarea variabilei, dar caracteristica lor este prezența unui anumit punct zero absolut, de obicei variabile continue. 2. Arbori de clasificare Arbori de clasificare este o metodă care vă permite să preziceți apartenența observațiilor sau a obiectelor la o anumită clasă de variabile dependente categorice, în funcție de valorile corespunzătoare ale uneia sau mai multor variabile predictoare. Clădire arbori de clasificare- unul dintre dispozitivele ierarhice de sortare a monedelor. Să facem monedele să se rostogolească de-a lungul unui jgheab îngust cu o fantă de dimensiunea unei monede de un copeck. Dacă moneda a căzut în slot, atunci este 1 copeck; în caz contrar, continuă să se rostogolească mai departe de-a lungul jgheabului și se împiedică de fanta pentru o monedă de doi copeci; dacă eșuează acolo, atunci sunt 2 copeici, dacă nu (înseamnă că sunt 3 sau 5 copeici) - se va rostogoli mai departe și așa mai departe. Astfel, am construit un arbore de clasificare. Regula de decizie implementată în acest arbore de clasificare vă permite să sortați eficient o mână de monede și, în general, este aplicabilă unei game largi de probleme de clasificare. Arborii de clasificare sunt ideali pentru prezentarea grafică și, prin urmare, concluziile desprinse din ei sunt mult mai ușor de interpretat decât dacă ar fi prezentate doar în formă numerică. Structura ierarhica arborele de clasificare- unul din procesul Build arborele de clasificare constă din patru pași principali:

    Selectarea criteriului de precizie a prognozei

    Alegerea tipului de ramificare

    Stabilirea când să se oprească ramificarea

    Determinarea dimensiunilor „potrivite” arborilor

În cele din urmă, scopul analizei arborelui de clasificare este de a obține cea mai precisă predicție posibilă. Cele mai multe clasificări.

3. Analiza discriminanta (clasificare cu pregatire)

Analiza discriminantă este utilizată pentru a decide cărei clase (grup) să atribuiți un anumit obiect (proces) pe baza studiului parametrilor sau caracteristicilor acestuia.) A produsului și sarcina este de a stabili care dintre parametri contribuie la diferență (discriminare) între agregate (soiuri) de bunuri grupate separat care formează populaţia generală. După aceea, se ia o decizie privind apartenența acestui produs la un anumit grup. Prin urmare, acest tip de analiză statistică este multivariată, iar ideea principală a analizei discriminante este de a determina dacă populațiile diferă în media unui parametru (variabilă) și apoi de a utiliza această variabilă pentru a prezice noi membri ai domeniilor lor. Fiecare dintre zone diferă de cealaltă prin valoarea unui anumit parametru (sau mai degrabă valoarea mediei acestuia) sau seturi de parametri luați ca caracteristică de clasificare. Regula de discriminare este selectată în conformitate cu un anumit principiu al optimității, de exemplu, probabilitatea minimă de clasificare falsă. În calculele practice, discriminarea este transferată de la vectorul caracteristică la o funcție liniară (funcția discriminantă), care pentru două grupuri (clase) are forma unei ecuații de regresie multiplă lineară, în care caracteristicile codificate de diferențiere în grupuri acționează ca variabile dependente. Dacă există mai mult de două grupuri, atunci pot fi compilate mai multe funcții discriminante. De exemplu, atunci când există trei populații, atunci se poate evalua: (1) - funcția pentru sensul de discriminare este foarte asemănătoare cu analiza multivariată a varianței. Când se obțin funcții discriminante, se pune întrebarea cât de bine pot ele prezice Cărei populații îi aparține un anumit eșantion? Pentru aceasta se determină indicatori de clasificare sau funcții de clasificare și se atribuie următoarea observație sau un eșantion specific grupului pentru care grupa de clasificare are cea mai mare importanță. 4. Analiza cluster (clasificare fără pregătire) Analiza cluster este o metodă statistică care include un set de algoritmi diferiți pentru distribuirea obiectelor în clustere (claster - grup, cluster). Împărțirea obiectelor H într-un număr întreg de clustere K, astfel încât fiecare obiect să aparțină unuia și numai unui subset al partiției. În acest caz, obiectele aparținând aceluiași cluster trebuie să fie similare, iar obiectele aparținând unor clustere diferite trebuie să fie eterogene. Partițiile care îndeplinesc criteriul optimității sunt soluția problemei analizei cluster. Acest criteriu se numește funcție obiectiv, care poate fi, de exemplu, suma minimă a pătratelor abaterilor caracteristicilor obiectelor grupului de la medie.

min Σ (x i - x av) 2

Asemănarea și eterogenitatea obiectelor în grupuri vor fi caracterizate de o anumită valoare, care a primit numele - o funcție de distanță. Cu cât funcția distanței dintre obiecte este mai mare, cu atât acestea sunt mai eterogene. Este clar că dacă această funcție depășește o anumită limită stabilită, atunci obiectele ar trebui să fie legate de grupuri diferite(clustere). În funcție de algoritmul de clustering utilizat, se disting următoarele funcții de distanță: - metrica euclidiană (Σx i - xj) 2) 1/2; - distanta Manhattan Σ | x i - x j |; - distanța Chebyshev max | x i - x j | etc. sunt considerate ca grupuri separate. Ulterior, la fiecare pas al algoritmului, cele două grupuri cele mai apropiate sunt combinate și, ținând cont de funcția de distanță acceptată, toate distanțele sunt recalculate folosind formula. Când funcția țintă este atinsă, iterațiile sunt terminate. 5. Corelații canonice Analiza clasică a corelației vă permite să găsiți relații statistice între două variabile, așa-numitele două seturi de variabile folosesc metodele analizei canonice. Analiza canonică, fiind o generalizare a corelației multiple ca măsură a relației dintre o variabilă aleatoare și multe alte variabile aleatoare, are în vedere relația dintre seturile de variabile aleatoare. În același timp, se limitează la a lua în considerare un număr mic de combinații liniare cele mai corelate din fiecare set. Analiza corelației canonice se bazează pe utilizarea rădăcinilor canonice sau a variabilelor canonice, care sunt considerate variabile „ascunse” care caracterizează fenomenele observate. Numărul de rădăcini canonice este egal cu numărul de variabile din mulțimea mai mică. În practică, atunci când se definește o corelație canonică, se construiește o matrice de corelație separată, care este un produs al matricelor de corelație standard care caracterizează relația dintre două variabile separate. Apoi, se calculează atâtea valori proprii ale matricei rezultate câte rădăcini canonice există. Dacă extragem rădăcina pătrată a valorilor proprii obținute, obținem un set de numere care pot fi interpretate ca coeficienți de corelație. Deoarece sunt variabile canonice, ele sunt numite și corelații canonice. Este recomandabil să se evalueze munca de analiză discriminantă, cluster și canonică folosind pachete statistice speciale care implementează acești algoritmi pe un computer.

Anul trecut, compania Avito a organizat o serie de concursuri. Inclusiv un concurs pentru recunoașterea mărcilor de mașini, al cărui câștigător, Evgeny Nizhibitsky, a povestit despre decizia sa în timpul sesiunii de antrenament.


Formularea problemei... Este necesar să se determine marca și modelul din imaginile mașinilor. Metrica a fost acuratețea predicțiilor, adică proporția răspunsurilor corecte. Eșantionul a fost format din trei părți: prima parte a fost disponibilă pentru antrenament inițial, a doua a fost dată mai târziu, iar a treia a necesitat afișarea predicțiilor finale.


Resurse de calcul... Am folosit computerul de acasă, care îmi încălzea camera în tot acest timp, și serverele puse la dispoziție la serviciu.

Prezentare generală a modelului... Întrucât sarcina noastră este recunoașterea, primul lucru pe care vrem să-l facem este să profităm de progresul înregistrat la nivelul de calitate al clasificării imaginilor pe binecunoscutul ImageNet. După cum știți, arhitecturile moderne fac posibilă obținerea unei calități și mai mari decât cea a unei persoane. Așa că am început cu o revizuire a articolelor recente și am creat un tabel pivot cu arhitecturi, implementări și calități bazate pe ImageNet.


Rețineți că cea mai bună calitate se obține pe arhitecturi și.

Reglarea fină a rețelelor... Antrenarea unei rețele neuronale profunde de la zero este un exercițiu destul de consumator de timp și, în plus, nu este întotdeauna eficient în ceea ce privește rezultatele. Prin urmare, tehnica de instruire suplimentară a rețelelor este adesea folosită: se ia o rețea deja antrenată pe ImageNet, ultimul strat este înlocuit cu un strat cu numărul necesar de clase și apoi rețeaua este configurată cu o rată de învățare scăzută, dar folosind date din competiție. Această schemă vă permite să antrenați rețeaua mai rapid și cu o calitate mai bună.

Prima abordare a recalificării GoogLeNet a arătat o precizie de aproximativ 92% în validare.

Predicții de recoltare... Utilizarea unei rețele neuronale pentru predicție pe un eșantion de testare poate îmbunătăți calitatea. Pentru a face acest lucru, tăiați fragmente dimensiune potrivităîn diferite locuri ale imaginii originale și apoi media rezultatelor. O decupare de 1x10 înseamnă că este luat centrul imaginii, patru colțuri, apoi totul este la fel, dar reflectat orizontal. După cum puteți vedea, calitatea crește, dar timpul de predicție crește.

Validarea rezultatelor... După apariția rezultatului celei de-a doua părți a eșantionului, am împărțit proba în mai multe părți. Toate rezultatele ulterioare sunt afișate în această împărțire.

Torța ResNet-34... Puteți folosi depozitul gata făcut al autorilor arhitecturii, dar pentru a obține predicțiile asupra testului în formatul dorit, trebuie să remediați câteva scripturi. În plus, este necesar să se rezolve problemele consumului mare de memorie de către depozite. Precizia validării este de aproximativ 95%.


Inception-v3 TensorFlow... Și aici a fost folosită o implementare gata făcută, dar preprocesarea imaginilor a fost schimbată și, de asemenea, tăierea imaginilor la generarea unui lot a fost limitată. Rezultatul este o precizie de aproape 96%.


Ansamblu de modele... Rezultatul sunt două modele ResNet și două modele Inception-v3. Ce calitate de validare se poate obține prin amestecarea modelelor? Probabilitățile de clasă au fost mediate folosind media geometrică. Greutățile (în acest caz, gradele) au fost selectate pe un eșantion amânat.


rezultate... Antrenamentul ResNet a durat 60 de ore pe GTX 980, iar Inception-v3 pe TitanX a durat 48 de ore. În timpul competiției, am reușit să încercăm noi cadre cu arhitecturi noi.


Problema clasificării clienților băncilor

Link către Kaggle.

Stanislav Semyonov povestește cum el și alți membri ai topului Kaggle s-au unit și au câștigat un premiu în competiția pentru clasificarea comenzilor clienților unei bănci mari - BNP Paribas.


Formularea problemei... Pe baza datelor obscucate din daunele de asigurare, este necesar să se prezică dacă cererea poate fi confirmată fără verificări manuale suplimentare. Pentru o bancă, acesta este procesul de automatizare a procesării aplicațiilor, iar pentru analiștii de date, este doar o sarcină de învățare automată a clasificării binare. Există aproximativ 230 de mii de obiecte și 130 de caracteristici. Metric - LogLoss. Este de remarcat faptul că echipa câștigătoare a decriptat datele, ceea ce i-a ajutat să câștige competiția.

A scăpa de zgomotul artificial din indicatoare... Primul pas este să te uiți la datele. Mai multe lucruri sunt imediat evidente. În primul rând, toate caracteristicile iau valori de la 0 la 20. În al doilea rând, dacă vă uitați la distribuția oricăreia dintre caracteristici, puteți vedea următoarea imagine:

De ce este asta? Faptul este că, în etapa de anonimizare și zgomot de date, zgomotul aleatoriu a fost adăugat la toate valorile, iar apoi scalarea a fost efectuată de un segment de la 0 la 20. Transformarea inversă a fost efectuată în doi pași: mai întâi, valorile ​au fost rotunjite la o anumită zecimală, iar apoi numitorul a fost selectat... A fost acest lucru necesar dacă copacul încă ridică pragul la despicare? Da, după transformarea inversă, diferențele variabilelor încep să aibă mai mult sens, iar pentru variabilele categoriale devine posibilă efectuarea unei codări one-hot.

Eliminarea caracteristicilor dependente liniar... De asemenea, am observat că unele trăsături sunt suma altora. Este clar că nu sunt necesare. Pentru a le determina, au fost luate subseturi de caracteristici. Regresia a fost construită pe astfel de subseturi pentru a prezice o altă variabilă. Și dacă valorile prezise erau apropiate de cele adevărate (merită să luați în considerare zgomotul artificial), atunci caracteristica ar putea fi eliminată. Dar echipa nu s-a deranjat cu acest lucru și a folosit un set gata făcut de caracteristici filtrate. Trusa a fost pregătită de altcineva. Una dintre caracteristicile Kaggle este prezența unui forum și a soluțiilor publice prin care membrii își împărtășesc constatările.

De unde știi ce să folosești? Există un mic hack. Să presupunem că știi că cineva din vechile competiții a folosit o tehnică care l-a ajutat să se claseze înalt (de obicei scriu soluții scurte pe forumuri). Dacă în competiția actuală acest participant este din nou printre lideri - cel mai probabil, aceeași tehnică va trage aici.

Codificarea variabilelor categoriale... A fost izbitor că o anumită variabilă V22 are un număr mare de valori, dar, în același timp, dacă luăm un subeșantion cu o anumită valoare, numărul de niveluri (valori diferite) ale altor variabile scade semnificativ. Aceasta include o corelație bună cu variabila țintă. Ce se poate face? Cea mai simplă soluție este să construiești un model separat pentru fiecare valoare a lui V22, dar acesta este același ca în prima împărțire a arborelui pentru a face o împărțire peste toate valorile variabilei.

Există o altă modalitate de a utiliza informațiile obținute - codificarea cu media variabilei țintă. Cu alte cuvinte, fiecare valoare a variabilei categorice este înlocuită cu valoarea medie a țintei pentru obiectele pentru care acest atribut ia aceeași valoare. Este imposibil să efectuați o astfel de codare direct pentru întregul set de antrenament: în acest proces, vom adăuga implicit informații despre variabila țintă la caracteristici. Vorbim despre informații pe care aproape orice model le va găsi cu siguranță.

Prin urmare, acești statisticieni contează pe falduri. Iată un exemplu:

Să presupunem că datele sunt împărțite în trei părți. Pentru fiecare fold al setului de antrenament, vom calcula o nouă caracteristică pe baza altor două fold-uri, iar pentru setul de testare - pe întregul set de antrenament. Apoi informațiile despre variabila țintă nu vor fi incluse în eșantion atât de explicit, iar modelul va putea folosi cunoștințele acumulate.

Vor mai fi probleme cu altceva? Da - cu categorii rare și validare încrucișată.

Categorii rare... Să presupunem că o anumită categorie a fost întâlnită doar de câteva ori și obiectele corespunzătoare aparțin clasei 0. Atunci valoarea medie a variabilei țintă va fi, de asemenea, zero. Cu toate acestea, pe eșantionul de testat poate apărea o situație complet diferită. Soluția este media netezită (sau probabilitatea netezită), care se calculează folosind următoarea formulă:

Aici media globală este valoarea medie a variabilei țintă pe întregul eșantion, nrows este de câte ori a fost întâlnită o anumită valoare a variabilei categoriale, alfa este parametrul de regularizare (de exemplu, 10). Acum, dacă o anumită valoare este rară, media globală va avea mai multă pondere și, dacă este suficient de des, rezultatul va fi apropiat de media categoriei de pornire. Apropo, această formulă vă permite să procesați valori necunoscute anterior ale unei variabile categoriale.

Validare încrucișată... Să presupunem că am calculat toate mediile netezite pentru variabilele categoriale pentru alte pliuri. Putem evalua calitatea modelului utilizând validarea încrucișată standard în k-fold? Nu. Să luăm un exemplu.

De exemplu, dorim să evaluăm un model de pe a treia ori. Antrenăm modelul pe primele două ori, dar au o nouă variabilă cu media variabilei țintă, pe care am calculat-o deja folosind a treia ori de testare. Acest lucru nu ne permite să evaluăm corect rezultatele, dar problema care a apărut este rezolvată prin calcularea statisticilor privind pliurile în pliuri. Să ne uităm din nou la exemplu:

Încă vrem să evaluăm modelul de pe a treia ori. Să împărțim primele două ori (eșantionul de antrenament al estimării noastre) în alte trei ori, în ele vom calcula noua caracteristică conform scenariului deja analizat, iar pentru a treia ori (acesta este un eșantion de testare al estimării noastre) vom calcula împreună primele două pliuri. Apoi, nicio informație din a treia ori nu va fi utilizată atunci când antrenați modelul și estimarea va fi corectă. În competiția pe care o discutăm, doar o astfel de validare încrucișată a permis evaluarea corectă a calității modelului. Desigur, numărul de pliuri „exterior” și „interior” poate fi oricare.

Caracteristicile clădirii... Am folosit nu numai mijloacele netezite deja menționate ale variabilei țintă, ci și ponderile dovezilor. Este aproape la fel, dar cu o transformare logaritmică. În plus, caracteristici precum diferența dintre numărul de obiecte ale claselor pozitive și negative dintr-un grup fără nicio normalizare s-au dovedit a fi utile. Intuiția este următoarea: scala arată gradul de încredere în clasă, dar ce să faci cu indicatorii cantitativi? La urma urmei, dacă le procesați într-un mod similar, atunci toate valorile vor fi „ciocănite” de regularizarea mediei globale. Una dintre opțiuni este împărțirea valorilor în coșuri, care sunt apoi calculate. categorii separate... O altă modalitate este pur și simplu să construiești un fel de model liniar pe o caracteristică cu aceeași țintă. În total, am primit aproximativ două mii de funcții din 80 de cele filtrate.

Stivuire și amestecare... Ca și în cazul majorității competițiilor, stivuirea modelelor este o parte importantă a soluției. Pe scurt, esența stivuirii este că transferăm predicțiile unui model ca caracteristică către alt model. Cu toate acestea, este important să nu vă recalificați. Să luăm doar un exemplu:


Preluat de pe blogul lui Alexander Dyakonov

De exemplu, am decis să ne împărțim proba în trei ori în timpul fazei de mizare. Similar cu calculul statisticilor, trebuie să antrenăm modelul pe două pliuri și să adăugăm valorile prezise pentru pliul rămas. Pentru un eșantion de testare, puteți face media predicțiilor modelelor din fiecare pereche de pliuri. Fiecare nivel de stivuire se numește procesul de adăugare a unui grup de caracteristici de predicție model noi bazate pe setul de date existent.

La primul nivel, echipa a avut 200-250 de modele diferite, la al doilea - încă 20-30, la al treilea - mai multe. Rezultatul este amestecarea, adică amestecarea predicțiilor diferitelor modele. Au fost folosiți diverși algoritmi: creșterea gradientului cu diferiți parametri, păduri aleatorii, rețele neuronale. Ideea principală este să folosiți cele mai diverse modele cu parametri diferiți, chiar dacă nu oferă cea mai înaltă calitate.

lucru in echipa... De obicei, participanții formează echipe înainte de sfârșitul competiției, când fiecare are deja propria experiență. Am făcut echipă cu alți „Kagler” încă de la început. Fiecare membru al echipei avea un folder în cloud partajat în care se aflau seturile de date și scripturile. Procedura generala validările încrucișate au fost aprobate în prealabil, astfel încât să se poată face comparații. Rolurile au fost distribuite după cum urmează: am venit cu noi funcții, al doilea participant a construit modele, al treilea le-a selectat, iar al patrulea gestionează întregul proces.

De unde să obțineți puterea... Testarea unui număr mare de ipoteze, construirea de stivuire pe mai multe niveluri și formarea modelelor pot fi consumatoare de timp cu un laptop. Prin urmare, mulți participanți folosesc servere de calcul cu un număr mare de nuclee și RAM. De obicei folosesc servere AWS, iar membrii echipei mele se dovedesc că folosesc mașini la serviciu pentru competiții în timp ce sunt inactivi.

Comunicare cu firma organizatoare... După o performanță de succes în competiție, comunicarea cu compania are loc sub forma unei conferințe comune. Participanții vorbesc despre decizia lor și răspund la întrebări. La BNP, oamenii nu au fost surprinși de stivuirea pe mai multe niveluri, ci au fost, desigur, interesați să construiască funcții, să lucreze în echipă, să valideze rezultatele - tot ceea ce le poate fi util în îmbunătățirea propriului sistem.

Trebuie să decriptez setul de date... Echipa câștigătoare a observat o particularitate în date. Unele dintre caracteristici au valori lipsă, iar altele nu. Adică, unele caracteristici nu depind de anumite persoane. În plus, au existat 360 de valori unice. Este logic să presupunem că vorbim despre niște mărci temporale. S-a dovedit că, dacă luați diferența dintre două astfel de caracteristici și sortați întregul eșantion după ea, la început vor fi zerouri mai des, iar apoi unele. Exact de asta au profitat și câștigătorii.

Echipa noastră a ocupat locul trei. În total, au participat aproape trei mii de echipe.

Sarcina de a recunoaște o categorie de anunțuri

Link către DataRing.

Aceasta este o altă competiție Avito. S-a desfășurat în mai multe etape, dintre care prima (precum și a treia, de altfel) a fost câștigată de Arthur Kuzin.


Formularea problemei... Este necesar să se determine categoria pe baza fotografiilor din anunț. Fiecare anunț avea una până la cinci imagini. Metrica a ținut cont de suprapunerea categoriilor la diferite niveluri ale ierarhiei - de la general la cele mai restrânse (ultimul nivel conține 194 de categorii). În total, au existat aproape un milion de imagini în eșantionul de antrenament, ceea ce este aproape de dimensiunea ImageNet.


Dificultăți de recunoaștere... S-ar părea că trebuie doar să înveți să deosebești un televizor de o mașină și o mașină de pantofi. Dar, de exemplu, există o categorie „Pisici britanice”, și există „alte pisici”, iar printre ele există imagini foarte asemănătoare - deși încă le puteți distinge unele de altele. Dar anvelope, discuri și roți? Un bărbat nu poate face față. Aceste dificultăți sunt motivul apariției unei anumite limite a rezultatelor tuturor participanților.


Resurse și cadru... Am avut la dispozitie trei calculatoare cu placi video puternice: unul de acasa pus la dispozitie de un laborator la MIPT si un calculator la serviciu. Prin urmare, a fost posibil (și a trebuit) să antreneze mai multe rețele în același timp. MXNet a fost ales ca cadru principal pentru antrenamentul rețelelor neuronale, creat de aceiași băieți care au scris binecunoscutul XGBoost. Doar acesta a fost motivul pentru a avea încredere în noul lor produs. Avantajul MXNet este că un iterator eficient cu mărire standard este disponibil imediat din cutie, ceea ce este suficient pentru majoritatea sarcinilor.


Arhitecturi de rețea... Experiența de participare la una dintre competițiile anterioare a arătat că cea mai bună calitate este demonstrată de arhitecturile seriei Inception. Le-am folosit si aici. A fost adăugat la GoogLeNet deoarece a făcut învățarea modelului mai rapidă. Am folosit, de asemenea, arhitecturile Inception-v3 și Inception BN din biblioteca de modele Model Zoo, la care a fost adăugat un abandon înainte de ultimul strat complet conectat. Din cauza unor probleme tehnice, nu a fost posibil să se antreneze rețeaua utilizând coborâre în gradient stocastic, așa că Adam a fost folosit ca optimizator.



Augmentarea datelor... Pentru a îmbunătăți calitatea rețelei, s-a folosit mărirea - adăugarea de imagini distorsionate la eșantion pentru a crește varietatea datelor. Au fost implicate transformări, cum ar fi tăierea accidentală a fotografiei, răsturnarea, rotirea cu un unghi mic, modificarea raportului de aspect și schimbarea.

Acuratețea și viteza de învățare... La început, am împărțit proba în trei părți, dar apoi am abandonat unul dintre pașii de validare pentru amestecarea modelelor. Prin urmare, a doua parte a eșantionului a fost adăugată ulterior la setul de instruire, ceea ce a îmbunătățit calitatea rețelelor. În plus, GoogLeNet a fost antrenat inițial pe Titan Black, care are jumătate din memorie în comparație cu Titan X. Așa că această rețea a fost reantrenată cu o dimensiune mare a lotului, iar precizia sa a crescut. Dacă ne uităm la timpul de antrenament al rețelelor, putem concluziona că în condițiile unui interval de timp limitat, nu merită să folosiți Inception-v3, deoarece antrenamentul este mult mai rapid cu celelalte două arhitecturi. Motivul este în numărul de parametri. Inception BN învață cel mai repede.

Făcând predicții.

Asemenea lui Eugene în competiția cu mărcile de mașini, Arthur a folosit predicții de recoltă - dar nu pe 10 site-uri, ci pe 24. Site-urile erau colțuri, reflexele lor, centrul, întoarcerile părților centrale și încă zece aleatorii.

Dacă salvați starea rețelei după fiecare epocă, rezultatul sunt multe modele diferite, nu doar rețeaua finală. Ținând cont de timpul rămas până la finalul competiției, aș putea folosi predicții pentru 11 epoci-model - deoarece construirea predicțiilor folosind rețeaua necesită și mult. Toate aceste predicții au fost mediate conform următoarei scheme: mai întâi, folosind media aritmetică în cadrul grupelor de culturi, apoi folosind media geometrică cu ponderi selectate pe setul de validare. Aceste trei grupe se amestecă, apoi repetăm ​​operația pentru toate epocile. La final, probabilitățile de clasă ale tuturor imaginilor unui anunț sunt mediate folosind media geometrică fără ponderi.


rezultate... La selectarea ponderilor în etapa de validare a fost utilizată metrica competiției, deoarece nu se corela prea mult cu acuratețea obișnuită. Predicția pe diferite părți ale imaginilor oferă doar o mică parte din calitate în comparație cu o predicție unificată, dar datorită acestei creșteri este posibil să se arate cel mai bun rezultat. La finalul competiției, s-a dovedit că primele trei locuri diferă în rezultate cu miimi. De exemplu, Zhenya Nizhibitsky avea singurul model, care era destul de inferior ansamblului meu de modele.


Învățarea de la zero vs. reglaj fin... După încheierea competiției, s-a dovedit că, în ciuda dimensiunii mari a eșantionului, a meritat să antrenați rețeaua nu de la zero, ci să folosiți o rețea pre-antrenată. Această abordare arată rezultate mai bune.

Problemă de învățare prin întărire

The Black Box Challenge, despre care, nu a fost deloc ca un „Kagle” obișnuit. Ideea este că nu a fost suficient să se marcheze o probă „de test” pentru soluție. Era necesar să se programeze și să se încarce codul „agent” în sistem, care a fost plasat într-un mediu necunoscut pentru participant și a luat decizii în mod independent în acesta. Astfel de sarcini aparțin domeniului învățării prin întărire.

Mikhail Pavlov de la compania 5vision a vorbit despre abordările soluției. În competiție, a ocupat locul doi.


Formularea problemei... Pentru un mediu cu reguli necunoscute, a fost necesar să se scrie un „agent” care să interacționeze cu mediul specificat. Schematic, acesta este un fel de creier care primește informații despre o stare și o recompensă dintr-o cutie neagră, ia o decizie cu privire la o acțiune și apoi primește o nouă stare și o recompensă pentru acțiunea efectuată. Acțiunile se repetă una după alta în timpul jocului. Starea curentă este descrisă de un vector de 36 de numere. Un agent poate întreprinde patru acțiuni. Scopul este de a maximiza cantitatea de recompense pentru întregul joc.


Analiza mediului... Studiul distribuției variabilelor de stare a mediului a arătat că primele 35 de componente nu depind de acțiunea selectată și doar a 36-a componentă se modifică în funcție de aceasta. În același timp, diferite acțiuni au influențat în moduri diferite: unele au crescut sau au scăzut, altele nu s-au schimbat în niciun fel. Dar nu se poate spune că întregul mediu depinde de o componentă: pot exista unele variabile ascunse în el. În plus, experimentul a arătat că dacă efectuați mai mult de 100 de acțiuni identice la rând, atunci recompensa devine negativă. Așa că strategiile precum „efectuați o singură acțiune” au dispărut imediat. Unii dintre participanții la competiție au observat că recompensa este proporțională cu aceeași componentă a 36-a. La forum s-a sugerat că cutia neagră imită piața financiară, unde portofoliul este componenta a 36-a, iar acțiunile sunt cumpărarea, vânzarea și decizia de a nu face nimic. Aceste opțiuni s-au corelat cu modificările portofoliului, iar sensul unei acțiuni nu era clar.


Q-learning... În timpul participării, scopul principal a fost să încercăm diverse tehnici Consolidarea învățării. Una dintre cele mai simple și mai cunoscute metode este q-learning. Esența sa este în încercarea de a construi o funcție Q, care depinde de starea și de acțiunea selectată. Q evaluează cât de „bine” este să alegi o anumită acțiune într-o anumită stare. Bunul include recompensa pe care o vom primi nu numai acum, ci și în viitor. O astfel de funcție este antrenată iterativ. În timpul fiecărei iterații, încercăm să aducem funcția mai aproape de sine în următorul pas al jocului, ținând cont de recompensa pe care am primit-o acum. Puteți citi mai multe despre el. Utilizarea q-learning presupune lucrul cu procese Markov pe deplin observabile (cu alte cuvinte, starea curentă ar trebui să conțină toate informațiile din mediu). În ciuda faptului că mediul, conform organizatorilor, nu a îndeplinit această cerință, a fost posibil să se folosească q-learning cu destul de mult succes.

Adaptare la cutia neagră... S-a constatat experimental că învățarea q-n pași era cea mai potrivită pentru mediu, unde recompensa a fost folosită nu pentru o ultimă acțiune, ci pentru n pași înainte. Mediul v-a permis să salvați starea curentă și să reveniți la ea, ceea ce a făcut mai ușoară colectarea probei - puteți încerca să efectuați fiecare acțiune dintr-o singură stare, și nu doar una. Chiar la începutul antrenamentului, când funcția q nu era încă capabilă să evalueze acțiunile, strategia a fost „efectuează acțiunea 3”. S-a presupus că nu a schimbat nimic și a fost posibil să începeți antrenamentul pe date fără zgomot.

Proces de invatare... Antrenamentul a decurs astfel: redăm întregul episod cu politica curentă (strategia agentului), acumulând eșantionul, apoi folosind proba obținută actualizăm funcția q și așa mai departe - secvența se repetă pentru un anumit număr a epocilor. Rezultatele au fost mai bune decât actualizarea funcției q în timpul jocului. Alte metode sunt tehnica memoriei de reluare (cu bancă comună date pentru antrenament, unde sunt înregistrate episoade noi ale jocului) și antrenamentul simultan al mai multor agenți care joacă asincron - de asemenea, s-au dovedit a fi mai puțin eficiente.

Modele... Soluția a folosit trei regresii (fiecare o dată pe acțiune) și două rețele neuronale. Au fost adăugate unele caracteristici și interacțiuni pătratice. Modelul rezultat este un amestec al tuturor celor cinci modele (cinci funcții Q) cu greutăți egale. În plus, s-a folosit instruire suplimentară online: în procesul de testare, ponderile vechilor regresii au fost amestecate cu noile ponderi obținute pe proba de testare. Acest lucru a fost făcut doar pentru regresii, deoarece soluțiile lor pot fi scrise analitic și recalculate destul de repede.


Mai multe idei... Desigur, nu toate ideile au îmbunătățit rezultatul final. De exemplu, reducerea recompensei (când nu maximizăm doar recompensa totală, ci considerăm fiecare mișcare următoare mai puțin utilă), rețelele profunde, arhitectura de duel (cu o evaluare a utilității statului și a fiecărei acțiuni separat) nu au dat naștere. la rezultate. Din cauza unor probleme tehnice, nu a fost posibilă aplicarea rețelelor recurente - deși într-un ansamblu cu alte modele, acestea ar putea oferi unele beneficii.


Rezultate... Echipa 5vision a ocupat locul doi, dar cu o marjă foarte mică față de medaliați cu bronz.


Deci, de ce trebuie să concurați în competițiile de știință a datelor?

  • Premii. Performanța de succes în majoritatea competițiilor este răsplătită cu premii în bani sau alte cadouri valoroase. Peste șapte milioane de dolari au fost atrași de Kaggle în șapte ani.
  • Carieră. Uneori un loc premiat.
  • Experienţă. Acesta este, desigur, cel mai important lucru. Puteți explora o zonă nouă și puteți începe să abordați provocări pe care nu le-ați mai întâlnit până acum.

Antrenamentul de învățare automată se desfășoară acum sâmbăta la două săptămâni. Locul de desfășurare este biroul Yandex din Moscova, numărul standard de oaspeți (oaspeți plus Yandex) este de 60-80 de persoane. Principala caracteristică a antrenamentului este relevanța sa: de fiecare dată competiția, care s-a încheiat cu una sau două săptămâni în urmă, este rezolvată. Acest lucru face dificil să planific totul cu precizie, dar competiția este încă proaspătă în memoria mea și mulți oameni se adună în sală pentru a încerca mâna. Training-ul este supravegheat de Emil Kayumov, care, de altfel, a ajutat la scrierea acestei postări.

În plus, există un alt format: permisele, în care specialiștii începători participă în comun la competițiile existente. Rezoluțiile se țin sâmbăta când nu există antrenament. Oricine poate participa la evenimente de ambele tipuri, anunturile sunt publicate in grupuri

 

Ar putea fi util să citiți: