Laborator „Aplicarea metodelor de analiză a datelor de explorare primară în rezolvarea problemelor de extragere a datelor (IAD) folosind sistemul Statistica integrat. Metode de extragere a datelor Informații

Actualizat 29.07.2008

Gândurile mele destul de haotice privind aplicarea metodelor statistice în procesarea datelor proteomice.

APLICAREA STATISTICILOR ÎN PROTEOMICĂ

Prezentare generală a metodelor de analiză a datelor experimentale

Pyatnitsky M.A.

Institutul de Cercetare Biomedicală de Stat denumit după V.N. Orekhovich RAMS

119121, Moscova, Pogodinskaya St. 10,

e-mail: mpyat @bioinformatica.ru

Experimentele proteomice necesită o procesare statistică atentă a rezultatelor. Există câteva caracteristici importante care caracterizează datele proteomice:

  • există un număr mare de variabile
  • relații complexe între aceste variabile. Se înțelege că aceste relații reflectă fapte biologice.
  • numărul de variabile este mult mai mare decât numărul de probe. Acest lucru face ca munca multor metode statistice să fie foarte dificilă.

Cu toate acestea, caracteristici similare sunt inerente în multe alte date obținute folosind tehnologii cu randament ridicat.

Obiectivele tipice ale unui experiment proteomic sunt:

  • compararea profilurilor de expresie proteică între diferite grupuri (de exemplu, cancer / normal). De obicei, sarcina constă în construirea unei reguli de decizie care vă permite să separați un grup de altul. Variabilele cu cea mai mare capacitate discriminatorie (biomarkeri) sunt, de asemenea, de interes.
  • studiul relațiilor dintre proteine.

Aici mă voi concentra în principal pe aplicarea statisticilor pentru analiza spectrelor de masă. Cu toate acestea, o mare parte din cele de mai sus se aplică altor tipuri de date experimentale. Aici, metodele în sine nu sunt aproape luate în considerare (cu excepția unei descrieri mai detaliate a curbelor ROC), ci mai degrabă un arsenal de metode pentru analiza datelor este prezentat foarte pe scurt și sunt prezentate linii directoare pentru aplicarea lor semnificativă.

Analiza exploratorie

Cel mai important pas în lucrul cu orice tablou de date este analiza datelor exploratorii (EDA). În opinia mea, acesta este poate cel mai important punct în prelucrarea statistică a datelor. În această etapă trebuie să vă faceți o idee despre date, să înțelegeți care sunt metodele cele mai utilizate și, mai important, ce rezultate pot fi așteptate. În caz contrar, va fi un joc orb (și să încercăm o astfel de metodă), o enumerare fără sens a arsenalului de statistici, dragarea de date. Statisticile sunt atât de periculoase încât vor produce întotdeauna orice rezultat. Acum, când lansarea celei mai complicate metode de calcul necesită doar câteva clicuri ale mouse-ului, acest lucru este valabil mai ales.

Potrivit lui Tukey, obiectivele analizei de explorare sunt:

  • maximizarea intuiției asupra unui set de date;
  • descoperiți structura de bază;
  • extrage variabile importante;
  • detectează valorile exterioare și anomaliile;
  • testarea ipotezelor de bază;
  • dezvolta modele parsimonioase; și
  • determinați setările optime ale factorilor.

În această etapă, este rezonabil să obțineți cât mai multe informații despre date, folosind în primul rând mijloace grafice. Construiți histograme pentru fiecare variabilă. Având în vedere că nu este foarte amănunțit, aruncă o privire la statisticile descriptive. Este util să privim graficele de împrăștiere (în timp ce desenăm puncte cu diverse simboluri care indică apartenența la clasă). Interesant să vezi rezultatele PCA (analiza componentelor principale)și MDS (scalare multidimensională).Deci, EDA este în primul rând o utilizare pe scară largă a vizualizării grafice.

Utilizarea metodelor de urmărire a proiecțiilor pentru a găsi cea mai „interesantă” proiecție de date este promițătoare. De obicei, este posibil un anumit grad de automatizare a acestei lucrări (GGobi). Arbitrarul este alegerea indexului pentru a căuta proiecții interesante.

Normalizare

De obicei, datele nu sunt distribuite în mod normal, ceea ce nu este convenabil pentru procedurile statistice. Adesea există o distribuție log-normal. Un logaritm simplu poate face distribuția mult mai plăcută. În general, nu subestimați metode simple precum logaritmele și alte transformări de date. În practică, există mai multe cazuri când, după logaritm, încep să se obțină rezultate semnificative, deși înainte de preprocesare rezultatele nu aveau semnificație (aici este un exemplu despre spectrometria de masă a vinurilor).

În general, alegerea normalizării este o sarcină separată, căreia îi sunt dedicate multe lucrări. Alegerea metodei de preprocesare și scalare poate afecta semnificativ rezultatele analizei (Berg și colab., 2006). În opinia mea, este întotdeauna mai bine să efectuezi în mod implicit cea mai simplă normalizare (de exemplu, dacă distribuția este simetrică sau logaritmul este în alt caz) decât să nu folosești deloc aceste metode.

Iată câteva exemple de vizualizare grafică și utilizarea metodelor statistice simple pentru analiza datelor exploratorii.

Exemple

Mai jos sunt exemple de grafice pe care ar putea avea sens să le construim pentru fiecare variabilă. Densitățile de distribuție pentru fiecare din cele două clase sunt afișate pe stânga (cancer roșu, albastru - control). Vă rugăm să rețineți că sub graficele sunt prezentate valorile în funcție de care este creată estimarea densității. Curba ROC este afișată în partea dreaptă, iar zona de sub ea este afișată. Astfel, puteți vedea imediat potențialul fiecărei variabile ca fiind discriminatoriu între clase. Într-adevăr, discriminarea între clase este de obicei scopul final al analizei statistice a datelor proteomice.

Următoarea figură arată o ilustrare a normalizării: o distribuție tipică a intensității maxime în spectrul de masă (stânga) în timpul logaritmului oferă o distribuție aproape de normală (dreapta).

În continuare, vom arăta utilizarea hărții de căldură pentru analiza datelor exploratorii. Pacienți în coloane, gene în rânduri. Culoarea indică o valoare numerică. O diviziune clară în mai multe grupuri este vizibilă. Acesta este un excelent exemplu de EDA, care oferă imediat o imagine clară a datelor.

Următoarea imagine prezintă un exemplu de diagramă de vizualizare în gel. Aceasta este o tehnică standard pentru vizualizarea unei game largi de spectre. Fiecare rând este un model, fiecare coloană este un vârf. Culoarea codifica intensitatea valorii (cu cât este mai luminos cu atât mai bine). Astfel de imagini pot fi obținute, de exemplu, în ClinProTools. Dar există un mare dezavantaj - liniile (eșantioanele) merg în ordinea în care au fost încărcate. Este mult mai corect să reorganizezi liniile (eșantioanele) astfel încât mostrele apropiate să fie localizate lângă și pe grafic. De fapt, este o foaie de căldură fără a sorta coloane și dendrograme pe laturi.

Imaginea următoare prezintă un exemplu de aplicare a scalării multidimensionale. Cercuri - control, triunghiuri - cancer. Se poate observa că cancerul are o dispersie semnificativ mai mare, iar construcția regulii decizionale este destul de posibilă. Un astfel de rezultat interesant este obținut doar pentru primele două coordonate! Privind această imagine, puteți fi optimist cu privire la rezultatele procesării ulterioare a datelor.

Problema valorilor lipsă

Următoarea problemă cu care se confruntă cercetătorul este problema lipsei valorilor. Din nou, multe cărți sunt dedicate acestui subiect, fiecare dintre acestea descrie zeci de moduri de a rezolva această problemă. Valorile lipsă sunt adesea găsite în datele care sunt obținute prin experimente cu un randament ridicat. Multe metode statistice necesită date complete.

Iată principalele modalități de a rezolva problema valorilor lipsă:

. eliminați rândurile / coloanele cu valori lipsă. Este justificat dacă lipsesc relativ puține valori, altfel va trebui să eliminați toate

. generați date noi în loc de datele lipsă (înlocuiți cu media, obțineți din distribuția estimată)

. folosiți metode insensibile la datele lipsă

. pune din nou experimentul!

Problema emisiilor

Mai devreme este un eșantion cu indicatori dramatic diferiți din grupul principal. Din nou, acest subiect este profund dezvoltat și extins în literatura relevantă.

Care este pericolul emisiilor? În primul rând, acest lucru poate afecta în mod semnificativ funcționarea procedurilor statistice non-solide (nerezistente la emisii). Prezența chiar a unuia mai devreme în date poate schimba semnificativ media și variația estimărilor.

Outliers sunt dificil de observat în datele multidimensionale, deoarece ele pot apărea doar în valorile uneia sau a două variabile (reamintesc că într-un caz tipic experimentul proteomic este descris de sute de variabile). Aici, analiza fiecărei variabile separat este utilă - atunci când vizualizați statistici descriptive sau histograme (cum ar fi cele care au fost date mai sus), o astfel de ieșire este ușor de detectat.

Două strategii pentru găsirea emisiilor sunt posibile:

1) manual - analiza de dispersie, PCA și alte metode de analiză exploratorie. Încercați să construiți o dendrogramă - pe ea, primele vor fi vizibile ca o ramură separată, care se îndepărtează de rădăcină din timp.

2) 2) a dezvoltat o mulțime de criterii pentru detectare (Yang, Mardia, Schjwager, ...)

Controlul emisiilor

. eliminarea emisiilor

. se aplică metode statistice rezistente la emisii (robuste)

În același timp, trebuie reținut că este posibilă o eliberare - aceasta nu este o eroare experimentală, ci un fapt biologic esențial nou. Deși acest lucru se întâmplă extrem de rar, dar totuși ...

Figura următoare arată tipurile posibile de emisii în funcție de tipul impactului lor asupra statisticilor.

Să ilustrăm modul în care emisiile afectează comportamentul coeficienților de corelație.

Ne interesează cazul (f). Se poate observa că prezența a doar 3 valori exterioare conferă coeficientului de corelație Pearson egal cu 0,68, în timp ce coeficienții Spearman și Kendall dau estimări mult mai rezonabile (fără corelație). Așa este, coeficientul de corelație al lui Pearson este statisticile non-solide.

Vă arătăm aplicarea metodei PCA pentru detectarea vizuală.

Desigur, nu ar trebui să te bazezi întotdeauna pe astfel de metode de detectare „artizanale”. Este mai bine să apelezi la literatura de specialitate.

Clasificare și reducerea dimensiunilor

De obicei, scopul principal al analizei datelor proteomice este construirea unei reguli de decizie de a separa un grup de eșantioane de altul (de exemplu, cancer / normă). După efectuarea unei analize și normalizări exploratorii, de obicei, următorul pas este reducerea dimensionalității spațiului caracteristic (reducerea dimensionalității).

Selecție variabilă

Un număr mare de variabile (și aceasta este o situație standard în experimentele proteomice):

. complică analiza datelor

. de obicei nu toate variabilele au o interpretare biologică

. deseori obiectivul este să selectăm variabile „interesante” (biomarkeri)

. degradează funcționarea algoritmilor de clasificare. Din această cauză - supracompletare.

Prin urmare, etapa standard este aplicarea reducerii dimensionalității înainte de clasificare

Metode de reducere a nsionalității poate fi împărțit în 2 tipuri:

1) Filtru

Sarcinile acestui grup de metode sunt fie ștergerea variabilelor „neinteresante” existente, fie crearea de noi variabile ca combinații liniare ale celor vechi. Acestea includ

PCA, MDS,

metodele teoriei informației etc.

O altă idee este selecția direcționată a „variabilelor interesante”: de exemplu, variabilele bimodale sunt întotdeauna interesante pentru vizualizare (în mod ideal, fiecare vârf corespunde clasei sale de clasificare binară). Cu toate acestea, acest lucru poate fi atribuit analizei exploratorii.

O altă abordare este eliminarea variabilelor puternic corelate. Cu această abordare, variabilele sunt grupate folosind coeficienții de corelație ca măsură a distanței. Puteți utiliza nu numai corelația Pearson, ci și alți coeficienți. Doar unul din fiecare grup de variabile corelate este lăsat (de exemplu, după criteriul celei mai mari suprafețe dinROC-curba).

Figura arată un exemplu de vizualizare folosind o astfel de analiză de vârf de clusterharta termografica . Matricea este simetrică, culoarea arată valorile coeficientului de corelație Pearson (valori de corelație albastru - înalt, roșu - valori mici). Mai multe grupuri de variabile extrem de dependente sunt distincte în mod clar.



2) ambalaj

Aici, algoritmii de clasificare sunt folosiți ca măsură a calității unui set de variabile selectate. Soluția optimă este o enumerare completă a tuturor combinațiilor de variabile, deoarece cu relații complexe între variabile

este foarte posibil ca două variabile separate care nu sunt discriminatorii atunci când sunt adăugate la a treia să devină astfel. Evident, căutarea exhaustivă nu este posibilă din punct de vedere computerizat cu un număr semnificativ de variabile.

O încercare de a depăși acest „blestem al dimensionalității” este utilizarea algoritmilor genetici pentru a găsi setul optim de variabile. O altă strategie este să includă / să excludem variabilele pe rând, în timp ce monitorizăm valorile Criteriilor de informații Akaike sau ale Criteriilor de informații Bayes.

Validarea încrucișată este obligatorie pentru acest grup de metode. Citiți mai multe despre acest lucru în secțiunea privind compararea clasificatoarelor.

Clasificare

Sarcina este să construim o regulă decisivă care să ne permită să atribuim eșantionul nou procesat unei clase sau altei clase.

Învățare fără învățătură - analiza grupului. Aceasta este o căutare a celor mai bune (într-un sens) grupări de obiecte. Din păcate, de obicei, trebuie să specificați numărul de clustere a priori sau selectați un prag de decupare (pentru gruparea ierarhică). Întotdeauna face arbitrar neplăcut.

Pregătirea profesorilor: rețele neuronale, SVM, arbori de decizie, ...

Este necesară o probă mare cu obiecte pre-clasificate.

De obicei, funcționează mai bine decât învățarea fără un profesor. Validare încrucișată - în absența unei probe de testare. Există o problemă de montare

Un test important și simplu care se efectuează rar este acela de a rula un clasificator instruit pe date aleatorii. Generați o matrice cu o dimensiune egală cu dimensiunea eșantionului inițial, completați-o cu zgomot aleatoriu sau distribuție normală, efectuați toate metodele, inclusiv normalizarea, selecția variabilelor și antrenamentul În cazul în care se obțin rezultate rezonabile (adică ai învățat să recunoști zgomotul la întâmplare) - vor exista motive mai puțin de a crede în clasificatorul construit.

Există un mod mai simplu - schimbați la întâmplare etichetele de clasă pentru fiecare obiect, fără a atinge celelalte variabile. Astfel, obținem din nou un set de date fără sens pe care merită să fie executat clasificatorul.

Mi se pare că puteți avea încredere în clasificatorul construit numai dacă a fost efectuat cel puțin unul dintre testele date pentru recunoașterea datelor aleatorii.

ROC - curbă

Curba caracteristică a funcționării receptorului

. Folosit pentru a reprezenta rezultatele clasificării în 2 clase, cu condiția ca răspunsul să fie cunoscut, adică. partiția corectă este cunoscută.

. Se presupune că clasificatorul are un parametru (punct de tăiere), care variază care este obținut una sau alta divizare în două clase.

În acest caz, se determină proporția de rezultate fals pozitive (FP) și fals negative (FN). Sensibilitatea și specificitatea sunt calculate, un grafic este reprezentat în coordonate (1-specificitate, sensibilitate). Când parametrul clasificator este variat, se obțin valori diferite de FP și FN, iar punctul se deplasează de-a lungul curbei ROC.

. Precizie \u003d (TP + TN) / (TP + FP + FN + TN)

. Sensibilitate \u003d TP / TP + FN

. Specificitate \u003d TN / TN + FP

Ceea ce este un eveniment „pozitiv” depinde de condițiile sarcinii. Dacă este prevăzută probabilitatea prezenței bolii, atunci un rezultat pozitiv este clasa „pacient bolnav”, un rezultat negativ este clasa „pacient sănătos”

Cea mai evidentă explicație (cu aplicații Java excelente care ilustrează esența ideii ROC) am văzut la http://www.anaesthetist.com/mnm/stats/roc/Findex.htm

ROC-curba:

. Este convenabil de utilizat pentru analiza eficienței comparative a două clasificatoare.

. Cu cât curba este mai aproape de colțul din stânga sus, cu atât este mai mare capacitatea predictivă a modelului.

. Linia diagonală corespunde „clasificatorului inutil”, adică nedistinguibilitatea completă a claselor

. Comparația vizuală nu permite întotdeauna o evaluare exactă a clasificatorului care este preferabil.

. AUC - Area Under Curve - o estimare calculată care vă permite să comparați curbele ROC.

. Valorile sunt de la 0 la 1.

Comparația a două curbe ROC

Zona sub curbă (ASC) ca măsură pentru compararea clasificatorilor.

Alte exemple de curbe ROC sunt prezentate în secțiunea de explorare.

Analiza comparativă a clasificatorilor

Există multe opțiuni pentru aplicarea metodelor de recunoaștere a modelelor. O sarcină importantă este de a compara între ele diferite abordări și de a alege cele mai bune.

Cea mai comună modalitate de a compara clasificatorii în articole despre proteomice (și nu numai) este validarea încrucișată. În opinia mea, nu există sens într-o singură aplicare a procedurii de validare încrucișată. O abordare mai rezonabilă este de a rula validarea încrucișată de mai multe ori (ideal, cu atât mai bine) și construirea de intervale de încredere pentru a evalua exactitatea clasificării. Prezența intervalelor de încredere face posibilă decizia rezonabilă dacă, de exemplu, o îmbunătățire a calității clasificării cu 0,5% este semnificativă statistic sau nu. Din păcate, doar un număr mic de lucrări au intervale de încredere pentru precizie, sensibilitate și specificitate. Numerele date în alte lucrări, din acest motiv, sunt greu de comparat între ele, deoarece intervalul de valori posibile nu este indicat.

O altă problemă este alegerea tipului de validare încrucișată. Prefer validarea încrucișată de 10 ori sau de 5 ori în loc de leave -one -out.

Desigur, folosirea validării încrucișate este un „act de disperare”. În mod ideal, eșantionul trebuie împărțit în 3 părți: modelul este construit pe prima parte, parametrii acestui model sunt optimizați în a doua parte, iar verificarea se face pe a treia parte. Validarea încrucișată este o încercare de a evita aceste construcții și este justificată doar cu un număr mic de eșantioane.

Dintre numeroasele lansări ale procedurii de validare încrucișată, pot fi obținute alte informații utile. De exemplu, este interesant de văzut pe ce obiecte este greșită mai des procedura de recunoaștere. Poate că acestea sunt erori de date, valori exterioare sau alte cazuri interesante. După ce ai studiat proprietățile caracteristice ale acestor obiecte, poți înțelege uneori în ce direcție trebuie îmbunătățită procedura de clasificare.

Tabelul de mai jos compară clasificatorii pentru opera lui Moshkovskii et al, 2007. SVM și Logistic Regression (LR) au fost utilizate ca clasificatori. Metodele de selectare a trăsăturilor au fost RFE (Reeliminarea caracteristică de ordin) și Perechi de punctaj de top (TSP).Utilizarea intervalelor de încredere face posibilă aprecierea rezonabilă a avantajelor semnificative ale diverselor scheme de clasificare.

Literatură

Iată câteva cărți și articole care pot fi utile în analiza datelor proteomice.

C. Episcop, Rețele neuronale pentru recunoașterea modelului

* Berrar, Dubitzky, Granzow. Abordare practică pentru analiza datelor microarray (Kluwer, 2003).Cartea este dedicată procesării microarray (deși nu aș recomanda-o pentru explorarea subiectului), dar există câteva capitole interesante. Ilustrația cu efectul valorilor exterioare asupra coeficienților de corelație este luată de acolo.

Literatura marcată cu * este în formă electronică, iar autorul o împarte gratuit (adică degeaba)

), etc. Mai mult decât atât, apariția computerelor moderne rapide și a software-ului gratuit (cum ar fi R) a făcut ca toate aceste metode intensiv de calcul să fie puse la dispoziția aproape tuturor cercetătorilor. Cu toate acestea, o astfel de accesibilitate agravează în continuare problema binecunoscută a tuturor metodelor statistice, care în engleză este adesea descrisă ca " gunoiul, gunoiul afară„Adică„ gunoi la intrare - gunoi la ieșire. ”Vorbim despre următoarele: miracole nu se întâmplă și dacă nu acordăm atenția cuvenită modului în care funcționează o anumită metodă și ce cerințe prezintă pentru datele analizate, atunci rezultatele obținute cu ajutorul său nu pot fi luate în serios. De aceea, de fiecare dată cercetătorul ar trebui să își înceapă activitatea prin familiarizarea cu atenție a proprietăților datelor obținute și verificarea condițiilor necesare pentru aplicabilitatea metodelor statistice corespunzătoare. exploratorie(Analiza datelor exploratorii).

În literatura de specialitate, puteți găsi multe recomandări pentru implementarea analizei datelor exploratorii (ADR). Acum doi ani într-o revistă Metode în ecologie și evoluție Un articol excelent a fost publicat în care aceste recomandări sunt rezumate într-un singur protocol pentru implementarea ADR: Zuur A. F., Ieno E. N., Elphick C. S. (2010) Un protocol pentru explorarea datelor pentru a evita problemele statistice comune. Metode în ecologie și evoluție 1 (1): 3-14. În ciuda faptului că articolul a fost scris pentru biologi (în special pentru ecologiști), principiile expuse în acesta sunt cu siguranță adevărate în raport cu alte discipline științifice. În acest post și în postările ulterioare de pe blog, voi oferi extrase din lucrare Zuur și colab. (2010) și voi descrie protocolul RDA propus de autori. La fel cum a fost făcut în articolul inițial, descrierea etapelor de protocol individuale va fi însoțită de scurte recomandări privind utilizarea funcțiilor și pachetelor corespunzătoare ale sistemului R.

Protocolul propus include următoarele elemente principale:

  1. Formularea unei ipoteze de cercetare. Efectuați experimente / observații pentru a colecta date.
  2. Analiza datelor exploratorii:
    • Identificarea punctelor de prelevare
    • Verificarea uniformității dispersiilor
    • Verificați că distribuția datelor este normală
    • Identificarea numărului excesiv de valori zero
    • Identificarea variabilelor colineare
    • Identificarea naturii relației dintre variabilele analizate
    • Identificați interacțiunile dintre variabilele predictoare
    • Identificarea corelațiilor spațio-temporale între valorile unei variabile dependente
  3. Aplicarea situației relevante a metodei (modelului) statistic.

Zuur și colab.(2010) notează că RDA este cel mai eficient atunci când se utilizează o varietate de instrumente grafice, deoarece grafice adesea oferă o mai bună înțelegere a structurii și proprietăților datelor analizate decât testele statistice formale.

Începem examinarea protocolului RDA dat cu detectarea punctului de emisie. Sensibilitatea diferitelor metode statistice la prezența valorilor exterioare în date nu este aceeași. Deci, atunci când utilizați un model liniar generalizat pentru a analiza o variabilă dependentă distribuită în conformitate cu legea lui Poisson (de exemplu, numărul de cazuri de boală în diferite orașe), prezența valorilor exterioare poate provoca o dispersie excesivă, ceea ce va face ca modelul să fie aplicabil. În același timp, atunci când se utilizează scalarea multidimensională non-parametrică bazată pe indicele Jacquard, toate datele sursă sunt traduse într-o scară nominală cu două valori (1/0), iar prezența valorilor exterioare nu afectează în niciun fel rezultatul analizei. Cercetătorul trebuie să înțeleagă clar aceste diferențe între diferite metode și, dacă este necesar, să verifice prezența eșantionării în date. Dăm o definiție funcțională: prin „izbucnire” înseamnă o observație „prea” mare sau „prea” mică în comparație cu majoritatea celorlalte observații disponibile.

Folosit de obicei pentru detectarea emisiilor diagrame de întindere . În R, atunci când se construiește diagrame de span, se utilizează estimări stabile (robuste) ale tendinței centrale (mediană) și a împrăștierii (intervalului interquartile, RBI). „Biciul” superior se extinde de la limita superioară a „casetei” până la cea mai mare valoare a eșantionului la distanța de 1,5 x RBI de la această limită. În mod similar, „whisker” inferior se extinde de la marginea inferioară a „cutiei” până la cea mai mică valoare a eșantionului la distanța de 1,5 x RBI de la acest chenar. Observațiile din afara „mustaței” sunt considerate emisii potențiale (figura 1).

Figura 1. Structura diagramei.

Exemple de funcții de la R care sunt utilizate pentru a construi diagrame de span:
  • Funcția de bază a boxplot () (vezi detalii).
  • Pachetul Ggplot2: obiect geometric (" geom") boxplot. De exemplu:
    p<- ggplot (mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() # или: qplot (factor(cyl), mpg, data = mtcars, geom = "boxplot" )
Un alt instrument foarte util, dar, din păcate, subutilizat grafic pentru identificarea eșantioanelor este graficul Scatter din Cleveland. Pe un astfel de grafic, numerele ordinale ale observațiilor individuale sunt reprezentate de-a lungul axei ordonate, iar valorile acestor observații sunt reprezentate de-a lungul axei abscisei. Observațiile care „ies în evidență” în mod semnificativ din norul principal de puncte pot fi valori superioare (Figura 2).

Figura 2. Parcela de împrăștiere din Cleveland care prezintă date despre lungimea aripii pentru 1295 vrăbii (Zuur și colab. 2010). În acest exemplu, datele au fost pre-ordonate în funcție de greutatea păsărilor și, prin urmare, norul de punct are aproximativ forma de S.


În figura 2 se evidențiază clar punctul corespunzător lungimii aripii de 68 mm. Totuși, această valoare a lungimii aripii nu trebuie considerată ca una mai veche, deoarece diferă doar ușor de alte valori ale lungimii. Acest punct se remarcă pe fundalul general numai pentru că valorile originale ale lungimii aripii au fost ordonate în funcție de greutatea păsărilor. În consecință, cele anterioare ar trebui să fie căutate printre valorile de greutate (adică, o valoare foarte mare a lungimii aripii (68 mm) a fost observată la o vrabie neobișnuit de mică cântărită pentru asta)

Până în acest moment, am numit „mai de demult” o observație care „semnificativ” diferă de majoritatea celorlalte observații din populația studiată. Cu toate acestea, o abordare mai riguroasă a determinării emisiilor este evaluarea modului în care aceste observații neobișnuite afectează rezultatele analizei. În acest caz, trebuie făcută o distincție între observații neobișnuite pentru variabile dependente și independente (predictori). De exemplu, atunci când studiem dependența abundenței unei specii biologice de temperatură, majoritatea valorilor de temperatură pot varia de la 15 la 20 ° C, iar o singură valoare poate fi egală cu 25 ° C. Un astfel de design experimental, pentru a spune cu ușurință, nu este ideal, deoarece temperatura cuprinsă între 20 și 25 ° C va fi studiată în mod neuniform. Cu toate acestea, atunci când se efectuează o cercetare reală pe teren, oportunitatea de a lua măsurători pentru temperaturi ridicate poate apărea o singură dată. Ce să faci atunci cu această măsurare neobișnuită, efectuată la 25 ° C? Cu un volum mare de observații, astfel de observații rare pot fi excluse din analiză. Cu toate acestea, cu o cantitate relativ mică de date, reducerea sa și mai mare poate fi nedorită din punctul de vedere al semnificației statistice a rezultatelor. Dacă eliminarea valorilor neobișnuite ale predictorului dintr-un motiv sau altul nu este posibilă, o anumită transformare a acestui predictor poate fi de ajutor (de exemplu, logaritmul).

Este mai dificil să „luptați” cu valori neobișnuite ale variabilei dependente, mai ales atunci când construiți modele de regresie. Transformarea prin, de exemplu, logaritmul, poate ajuta, dar, deoarece variabila dependentă prezintă un interes deosebit în construcția modelelor de regresie, este mai bine să încercați să alegeți o metodă de analiză care să se bazeze pe o distribuție de probabilitate care să permită o răspândire mai mare a valorilor pentru valori medii mari (de exemplu, distribuția gamma pentru continuu variabile sau distribuție Poisson pentru variabile cantitative discrete). O astfel de abordare va permite lucrul cu valorile inițiale ale variabilei dependente.

În cele din urmă, decizia de a elimina valorile neobișnuite din analiză este luată de cercetător. Cu toate acestea, el trebuie să-și amintească că motivele pentru care au apărut astfel de observații pot fi diferite. Așadar, eliminarea emisiilor care rezultă din proiectarea slabă a experimentului (vezi exemplul de temperatură de mai sus) poate fi justificată. De asemenea, se va justifica eliminarea emisiilor care se datorează în mod clar erorilor de măsurare. În același timp, observațiile neobișnuite între valorile variabilei dependente pot necesita o abordare mai subtilă, mai ales dacă reflectă variabilitatea naturală a acestei variabile. În acest sens, este important să se efectueze o documentare detaliată a condițiilor în care se desfășoară partea experimentală a studiului - acest lucru poate ajuta la interpretarea „valorilor” în timpul analizei datelor. Indiferent de motivele apariției observațiilor neobișnuite, în raportul științific final (de exemplu, într-un articol) este important să informăm cititorul atât despre faptul că dezvăluie astfel de observații, cât și despre măsurile luate în legătură cu acestea.

Statistica oferă o selecție largă de metode pentru analiza statistică exploratorie. Sistemul poate calcula aproape toate statisticile descriptive, inclusiv mediana, modul, quartile, procentele definite de utilizator, media și abaterile standard, intervale de încredere pentru medie, coeficienții de asimetrie, kurtoza (cu erorile lor standard), media armonică și geometrică și multe alte descriptive statistici. Selectarea criteriilor pentru testarea normalității distribuției este posibilă (testul Kolmogorov-Smirnov, Liliefors, Shapiro-Wilks). O mare varietate de grafice ajută la analiza exploratorie.

2. Corelații.

Această secțiune include un număr mare de instrumente pentru a explora relațiile dintre variabile. Este posibil să se calculeze aproape toate măsurile generale de dependență, inclusiv coeficientul de corelație Pearson, coeficientul de corelație de rang al lui Spearman, Tau (b, c) Kendall, Gamma, coeficientul de conjugare al atributelor C și multe altele.

Matricile de corelație pot fi, de asemenea, calculate pentru datele cu lacune, folosind metode speciale pentru prelucrarea valorilor lipsă.

Capacitățile grafice speciale vă permit să selectați puncte individuale pe diagrama de împrăștiere și să evaluați contribuția lor la curba de regresie sau la orice altă curbă încadrată la date.

3. t - criterii (și alte criterii pentru diferențele de grup).

Procedurile fac posibilă calcularea criteriilor t pentru eșantioane dependente și independente, precum și statistici Hotteling (vezi și ANOVA / MANOVA).

4. Tabelele de frecvență și tabelele de încrucișare.

Modulul conține un set extins de proceduri care oferă tabularea variabilelor continue, categorice, dicotomice, variabile obținute ca urmare a sondajelor multivariate. Se calculează atât frecvențele cumulate, cât și cele relative. Sunt disponibile teste pentru frecvențe stabilizate încrucișate. Se calculează statisticile Pearson, probabilitatea maximă, corecția lui Jehs, statul chi-pătrat, Fisher, McNemer și multe altele.

Modul de regresie multiplă

Modulul de regresie multiplă include un set exhaustiv de instrumente de regresie liniară și fixă \u200b\u200bnon-liniară (în special, polinomiale, exponențiale, logaritmice etc.), incluzând metode pas cu pas, ierarhice și alte metode, precum și regresie creastă.

Sistem Statistica vă permite să calculați un set cuprinzător de statistici și diagnostice avansate, incluzând un tabel de regresie complet, corelații parțiale și parțiale și covarianțe pentru greutăți de regresie, matrice de măturare, statistici Darbin-Watson, distanțe Mahalanobis și Cook, reziduuri la distanță și multe altele. Analiza reziduurilor și a emisiilor poate fi realizată folosind o gamă largă de grafice, inclusiv o varietate de parcele de împrăștiere, parcele de corelație parțială și multe altele. Sistemul de predicție permite utilizatorului să efectueze analize ce-dacă. Sunt permise sarcini de regresie extrem de mari (până la 300 de variabile în procedura de regresie exploratorie). Statistica conține, de asemenea, „modulul de estimare neliniară”, cu ajutorul căruia se pot estima practic orice modele neliniare definite de utilizator, inclusiv logit, regresie spartă etc.

Modulul "Analiza varianței". Modul comun ANOVA / MANOVA

Modulul ANOVA / MANOVA este un set de proceduri pentru analiza generală unidimensională și multidimensională a varianței și covarianței.

Modulul prezintă cea mai largă selecție de proceduri statistice pentru verificarea ipotezelor de bază ale analizei variației, în special a criteriilor Bartlett, Cochran, Hartley, Box și altele.

Modul de analiză discriminatorie

Metodele analizei discriminante permit construirea, pe baza mai multor presupuneri, a unei reguli de clasificare pentru clasificarea unui obiect ca fiind una dintre mai multe clase, minimizând unele criterii rezonabile, de exemplu, probabilitatea unei clasificări false sau a unei funcții de pierdere definite de utilizator. Alegerea criteriilor este determinată de utilizator din motive de daune pe care le va suferi din cauza erorilor de clasificare.

Modul de analiză discriminant de sistem Statistica conține un set complet de proceduri pentru analiza discriminantă funcțională pas cu pas multiple. Statistica vă permite să efectuați analiză pas cu pas, atât înainte cât și înapoi, precum și în interiorul unui bloc de variabile definite de utilizator în model.

Modulul „Statistici neparametrice și montarea distribuțiilor”

Modulul conține un set extins de criterii nonparametrice pentru acord, în special criteriul Kolmogorov-Smirnov, criteriile de clasare Mann-Whitney, Val-da-Wolfowitz, Wilcoxon și multe altele.

Toate criteriile de clasament implementate sunt disponibile în cazul gradelor de potrivire și corecții de utilizare pentru eșantioane mici.

Procedurile statistice ale modulului permit utilizatorului să compare cu ușurință distribuția valorilor observate cu un număr mare de distribuții teoretice diferite. Puteți potrivi normal, uniform, liniar, exponențial, Gamma, lognorm, chi-pătrat, Weibull, Gompertz, binomial, Poisson, distribuții geometrice, distribuții Bernoulli la date. Precizia ajustării este evaluată folosind testul chi-pătrat sau testul Kolmogorov-Smirnov cu un singur eșantion (parametrii de potrivire pot fi controlați); Testele Lillifors și Shapiro-Wilks sunt, de asemenea, acceptate.

Modulul "Analiza factorilor"

Modulul de analiză a factorilor conține o gamă largă de metode și opțiuni care oferă utilizatorului mijloace complete de analiză a factorilor.

În special, include metoda principală a componentelor, metoda reziduală minimă, metoda probabilității maxime, etc., cu diagnosticare avansată și o gamă extrem de largă de grafice analitice și exploratorii. Modulul poate calcula principalele componente ale analizei generale și ierarhice a factorului cu un tablou care conține până la 300 de variabile. Spațiul factorilor obișnuiți poate fi reprezentat și vizualizat fie „felie prin felie”, fie pe scatterplote cu 2 sau 3 dimensiuni cu variabile punctate.

După determinarea soluției, utilizatorul poate recalcula matricea de corelație din numărul corespunzător de factori pentru a evalua calitatea modelului construit.

In afara de asta, Statisticaconține modulul de scalare multidimensională, modulul de analiză a fiabilității, modulul de analiză cluster, modulul de analiză liniară, modulul de estimare neliniară, modulul de corelație canonică, modulul de analiză a expectanței de viață, modulul de analiză a timpului serie și prognoză ”și altele.

Rezultate numerice ale analizei statistice în sistem Statistica sunt afișate sub formă de foi de calcul speciale numite tabele de rezultate - Scrohsheets ™. Mese Scrollsheet poate conține orice informații (atât numerice cât și textuale), de la o linie scurtă la megabyte de rezultate. În sistem Statistica aceste informații sunt afișate ca o secvență (coadă), care constă dintr-un set de tabele Scrollsheet și grafice.

Statistica conține un număr mare de instrumente pentru vizualizarea convenabilă a rezultatelor analizei statistice și vizualizarea acestora. Acestea includ operațiuni standard de editare a tabelelor (inclusiv operațiuni pe blocuri de valori, Drag-and-Drop - Drag and Drop, blocuri de completare automată etc.), operațiuni de vizualizare convenabile (mutarea marginilor coloanelor, defilarea separării într-un tabel etc.), accesul la statisticile de bază și la capacitățile grafice ale sistemului STATISTICA. Când se afișează un număr de rezultate (de exemplu, o matrice de corelație) Statistica Notează coeficienții de corelație semnificativă a culorilor. Utilizatorul are, de asemenea, capacitatea de a evidenția valorile necesare în tabel folosind culoarea Scrollsheet

Dacă utilizatorul trebuie să efectueze o analiză statistică detaliată a rezultatelor intermediare, atunci puteți salva tabelul Scrollsheet în format de fișier de date Statistica continuați să lucrați cu ea ca și în cazul datelor obișnuite.

În plus față de rezultatul analizei rezultă sub formă de ferestre separate cu grafice și tabele Scrollsheet pe spațiul de lucru al sistemului STATISTICA, sistemul are capacitatea de a crea un raport în fereastra căruia pot fi afișate toate aceste informații. Un raport este un document (în format RTF) care poate conține informații textuale sau grafice. ÎN Statistica Este posibil să se creeze automat un raport, așa-numitul raport auto. Mai mult, orice masă Scrollsheet sau programul poate fi trimis automat la raport.

Răspuns:

Folosind metode grafice, puteți găsi dependențe, tendințe și compensări care sunt „ascunse” în seturile de date nestructurate.

Metodele de vizualizare includ:

Prezentarea datelor sub formă de bare, diagrame liniare în spațiul multidimensional;

Suprapuneți și îmbinați mai multe imagini;

Identificarea și etichetarea subgrupurilor de date care îndeplinesc anumite condiții;

Divizarea sau comasarea subgrupurilor de date pe un grafic;

Agregarea datelor;

Netezirea datelor;

Construcție de pictograme;

Crearea structurilor de mozaic;

Avioane spectrale, hărți cu linii de nivel; metode de rotație dinamică și stratificare dinamică a imaginilor tridimensionale; evidențierea unor seturi și blocuri de date specifice etc.

Tipuri de grafice în Statistica:

§ grafice bidimensionale; (histograme)

§ grafică tridimensională;

§ grafice matriceale;

§ pictograme.

Răspuns:Aceste parcele sunt seturi de parcele bidimensionale, tridimensionale, ternare sau n-dimensionale (cum ar fi histograme, parcele de dispersie, linii, suprafețe, diagrame), o diagramă pentru fiecare categorie (subset) selectată de observații.

Un grafic este un set de grafice, diagrame pentru fiecare categorie specifică a unei variabile selectate (2 sexe - 2 sexe).

Structura datelor clasificate poate fi procesată într-un mod similar. : de exemplu, s-au acumulat statistici cu privire la clienți și este necesar să se analizeze cuantumul achiziției în diverse categorii (bărbați-femei, bătrâni-maturi-tineret).

În statistici - histograme, tablouri de dispersie, grafice de linie, diagrame, grafice 3D, grafice ternare 3D

După cum puteți vedea, această variabilă în ansamblu are o distribuție normală pentru fiecare grup (tip de culoare).

5. Ce informații despre natura datelor pot fi obținute analizând scatterplot-uri și scatterplot-uri clasificate?

Răspuns:

Scatterplot-urile sunt de obicei utilizate pentru a identifica natura relației dintre două variabile (de exemplu, profit și salarizare), deoarece oferă mult mai multe informații decât coeficientul de corelație.



Dacă se presupune că unul dintre parametri depinde de celălalt, atunci de obicei valorile parametrului independent sunt reprezentate de-a lungul axei orizontale, iar valorile parametrului dependent sunt reprezentate de-a lungul axei verticale. Scatterplot-urile sunt utilizate pentru a demonstra prezența sau absența corelației între două variabile.

Fiecare punct marcat în diagrama include două caracteristici, de exemplu, vârsta și venitul unei persoane, fiecare trasat de-a lungul axei sale. Adesea, acest lucru ajută să aflăm dacă există vreo relație statistică semnificativă între aceste caracteristici și ce tip de funcție are sens să selectăm. ȘI

6. Ce informații despre natura datelor pot fi obținute din analiza histogramelor și histogramelor clasificate?

Răspuns

: Histogramele sunt utilizate pentru a studia distribuțiile de frecvență ale valorilor variabile. O astfel de distribuție de frecvență arată care valori particulare sau intervale de valori ale variabilei studiate se găsesc cel mai adesea, cât diferă aceste valori, indiferent dacă majoritatea observațiilor sunt situate în apropierea valorii medii, este distribuția simetrică sau asimetrică, multimodală (adică are două sau mai multe vârfuri), sau single-mode etc. Histogramele sunt de asemenea utilizate pentru compararea distribuțiilor observate și teoretice sau așteptate.



Histogramele categorizate sunt seturi de histograme corespunzătoare valorilor diferite ale uneia sau mai multor variabile de categorizare sau seturi de condiții de categorizare logică.

O histogramă este o modalitate de prezentare a datelor statistice în formă grafică - sub forma unui grafic de bare. Afișează distribuția măsurătorilor individuale ale parametrilor produsului sau procesului. Uneori se numește distribuția frecvenței, deoarece histograma arată frecvența apariției valorilor măsurate ale parametrilor obiectului.

Înălțimea fiecărei coloane indică frecvența apariției valorilor parametrilor în intervalul selectat, iar numărul de coloane indică numărul de intervale selectate.

Un avantaj important al histogramei este că vă permite să vizualizați tendințele parametrilor de calitate măsurați ai obiectului și să evaluați vizual distribuția acestora. În plus, histograma face posibilă determinarea rapidă a centrului, răspândirii și formei distribuției unei variabile aleatorii. O histogramă este construită, de regulă, pentru o modificare a intervalului în valorile parametrului măsurat.

7. Care este diferența dintre graficele clasificate și cele matrice din sistemul Statistica?

Răspuns:

Graficele matrice constau, de asemenea, din mai multe grafice; cu toate acestea, aici fiecare dintre ele se bazează (sau se poate baza) pe același set de observații, iar graficele sunt construite pentru toate combinațiile de variabile dintr-una sau două liste.

grafica atrica. Graficele matricei prezintă dependențele dintre mai multe variabile sub forma unei matrice de grafice XY. Cel mai obișnuit tip de diagramă matricială este matricea plotului de dispersie, care poate fi considerată echivalentul grafic al unei matrice de corelație.

Parcele matriciale - Parcele de dispersie. Graficul matricial de acest tip prezintă dispersie 2M organizate sub formă de matrice (valorile variabilei din coloană sunt utilizate ca coordonate X, și valorile variabile de-a lungul liniei sub formă de coordonate Y) Histogramele care ilustrează distribuția fiecărei variabile sunt situate pe diagonala matricei (în cazul matricei pătrate) sau de-a lungul marginilor (în cazul matricilor dreptunghiulare).

Consultați și secțiunea Reducerea dimensiunii eșantionului.

Pentru grafice categorizate, este necesară aceeași alegere a variabilelor ca și pentru graficele necategorizate de tipul corespunzător (de exemplu, două variabile pentru o diagramă scatter). În același timp, pentru grafice clasificate, este necesar să se indice cel puțin o variabilă de grupare (sau o modalitate de divizare a observațiilor în categorii), care ar conține informații despre fiecare observație aparținând unei anumite subgrupuri. Variabila de grupare nu va fi afișată direct pe grafic (adică, nu va fi reprezentată grafic), însă va servi drept criteriu pentru împărțirea tuturor cazurilor analizate în subgrupuri separate. Pentru fiecare grup (categorie) determinată de variabila de grupare, se va construi un grafic.

8. Care sunt avantajele și dezavantajele metodelor grafice de analiză a datelor de explorare?

Răspuns:+ Vizibilitate și simplitate.

Vizibilitate (reprezentare grafică multidimensională a datelor, conform căreia analistul însuși dezvăluie tiparele și relațiile dintre date).

- Metodele dau valori aproximative.

n - O proporție mare de subiectivitate în interpretarea rezultatelor.

n Lipsa modelelor analitice.

9. Ce metode analitice de analiză a datelor de explorare primare cunoașteți?

Răspuns:Metode statistice, rețele neuronale.

10. Cum se testează ipoteza conform căreia distribuția datelor de probă este în concordanță cu modelul normal de distribuție în sistemul Statistica?

Răspuns:Distribuția x2 (chi-pătrat) cu n grade de libertate este distribuția sumei pătratelor din n variabile aleatoare normale standard independente.

Chi-pătratul este o măsură a diferenței. Am stabilit nivelul de eroare egal cu a \u003d 0,05. În consecință, dacă p\u003e a, distribuția este optimă.

- pentru a testa ipoteza conform căreia distribuția datelor de eșantion este de acord cu modelul normal de distribuție folosind criteriul chi-pătrat, selectați elementul de meniu Statistici / Fitinguri de distribuție. Apoi, în caseta de dialog Adecvarea distribuției controversate, specificați tipul de distribuție teoretică - Normal, selectați variabila - Variabile, setați parametrii de analiză - Parametri.

11. Care sunt principalele caracteristici statistice ale variabilelor cantitative pe care le cunoașteți? Descrierea și interpretarea acestora în ceea ce privește problema rezolvată.

Răspuns:Principalele caracteristici statistice ale variabilelor cantitative:

așteptări matematice (media dintre eșantion, suma valorilor \\ n, volumul de producție gri între întreprinderi)

mediană (punct mediu)

abatere standard (rădăcina pătrată a variației)

varianță (o măsură a răspândirii unei variabile aleatorii date, adică abaterea ei de la așteptarea matematică)

coeficient de asimetrie (Determinați decalarea în raport cu centrul de simetrie conform regulii: dacă B1\u003e 0, atunci decalarea spre stânga, altfel spre dreapta.)

coeficientul kurtosis (apropierea de distribuția normală)

valoarea minimă a eșantionului, valoarea maximă a eșantionului,

împrăștia

quartile superioare și inferioare selective

Moda (valoarea maximă)

12. Ce contoare de comunicare sunt utilizate pentru a măsura gradul de etanșeitate a relației dintre variabilele cantitative și ordinale? Calculul lor în statistica și interpretare.

Răspuns:Corelația este o relație statistică între două sau mai multe variabile aleatorii.

În acest caz, modificările în una sau mai multe dintre aceste cantități duc la o modificare sistematică a altei sau a altor cantități. O măsură a corelației a două variabile aleatorii este coeficientul de corelație.

Cantitativ:

Coeficientul de corelație este un indicator al naturii modificării a două variabile aleatorii.

Coeficientul de corelație Pearson (măsoară gradul de relații liniare între variabile. Se poate spune că corelația determină gradul în care valorile a două variabile sunt proporționale între ele.)

Coeficientul de corelație parțială (măsoară gradul de etanșeitate dintre variabile, cu condiția ca valorile celorlalte variabile să fie fixate la un nivel constant).

Calitativ:

Coeficientul de corelație de rang al lui Spearman (utilizat pentru studiul statistic al relației dintre fenomene. Obiectele studiate sunt ordonate în raport cu un anumit atribut, adică le sunt atribuite numere de serie - ranguri.)

| lectură următoare \u003d\u003d\u003e

ÎN Statistica metodele clasice de analiză a clusterului sunt implementate, incluzând metode de mijloace k, clustering ierarhic și combinare cu două intrări.

Datele pot veni atât în \u200b\u200bforma sa originală, cât și sub forma unei matrice de distanțe între obiecte.

Observațiile și variabilele pot fi grupate folosind diferite măsuri de distanță (euclidiene, pătrat euclidian, Manhattan, Chebyshev, etc.) și diverse reguli de unire a clusterului (conexiune unică, completă, medie neponderată și ponderată, în perechi, etc.).

Formularea problemei

Fișierul de date sursă conține următoarele informații despre mașini și proprietarii acestora:

Scopul acestei analize este de a descompune mașinile și proprietarii acestora în clase, fiecare corespunzând unui anumit grup de risc. Observațiile care se încadrează într-un grup sunt caracterizate de aceeași probabilitate a unui eveniment asigurat, care este evaluat ulterior de către asigurător.

Utilizarea analizei clusterului pentru rezolvarea acestei probleme este cea mai eficientă. În cazul general, analiza clusterului este concepută pentru a combina unele obiecte în clase (clustere), astfel încât cele mai similare se încadrează într-o clasă, iar obiectele din clase diferite sunt cât se poate de diferite unele de altele. Un indicator cantitativ de similaritate este calculat într-o manieră predeterminată pe baza datelor care caracterizează obiectele.

Scara de măsurare

Toți algoritmii de cluster au nevoie de estimări ale distanțelor dintre clustere sau obiecte și este clar că la calcularea distanței, este necesar să se stabilească scara de măsurare.

Deoarece măsurători diferite utilizează tipuri de scale complet diferite, datele trebuie standardizate (în meniu Date selectați elementul Standardiza), astfel încât fiecare variabilă va avea o medie de 0 și o abatere standard de 1.

Un tabel cu variabile standardizate este prezentat mai jos.

Etapa 1. Clasificarea ierarhică

În prima etapă, vom afla dacă mașinile formează clustere „naturale” care pot fi semnificative.

Alege Analiza grupului în meniu Analiză - Analiza explorării multivariate pentru a afișa panoul de pornire al modulului Analiza grupului. În acest dialog, selectați Clasificarea ierarhică și faceți clic pe O.K.

apasa butonul variabilealege Toate, în câmp Obiectele alege observaţii (siruri de caractere) De regulă de asociere, remarcăm Metoda de comunicare completă, ca măsură de proximitate - distanta euclidiana. presa O.K.

Metoda de comunicare completă definește distanța dintre clustere ca cea mai mare distanță între oricare două obiecte din grupuri diferite (adică „vecini mai îndepărtați”).

Măsura de proximitate determinată de distanța euclidiană este distanța geometrică în spațiul n-dimensional și se calculează astfel:

Cel mai important rezultat obținut prin clusteringul arborelui este un arbore ierarhic. Faceți clic pe buton Dendrograma verticală.

La început, diagramele arborilor pot părea un pic confuzi, dar după unele studii devin mai înțelegătoare. Diagrama începe de sus (pentru o dendrogramă verticală), cu fiecare mașină în clusterul propriu.

De îndată ce începeți să vă deplasați, mașinile care „intră în contact strâns între ele” se combină și formează clustere. Fiecare nod al diagramei de mai sus reprezintă uniunea a două sau mai multe clustere, poziția nodurilor pe axa verticală determină distanța la care au fost combinate grupurile corespunzătoare.

Pasul 2. Clustering mediu K

Pe baza prezentării vizuale a rezultatelor, putem presupune că mașinile formează patru clustere naturale. Verificăm această presupunere prin împărțirea datelor inițiale prin metoda medie K în 4 clustere și verificăm semnificația diferenței dintre grupurile obținute.

În panoul de pornire al modulului Analiza grupului alege Clustering mediu K.

apasa butonul variabile și alege Toate, în câmp Obiectele alege observaţii (siruri de caractere), definim 4 grupuri de partiție.

Metodă K-mediu constă în următoarele: calculele încep cu k observații alese aleatoriu (în cazul nostru k \u003d 4), care devin centrele grupurilor, după care se modifică compoziția obiectului clusterilor pentru a minimiza variabilitatea în cadrul clusterelor și a maximiza variabilitatea între clustere.

Fiecare observație următoare (K + 1) aparține grupului a cărui măsură de similitudine cu centrul de greutate este minimă.

După schimbarea compoziției clusterului, se calculează un nou centru de gravitație, cel mai adesea ca vector de mijloace pentru fiecare parametru. Algoritmul continuă până când compoziția clusterelor nu mai schimbă.

Atunci când se obțin rezultatele clasificării, este posibil să se calculeze valoarea medie a indicatorilor pentru fiecare cluster pentru a evalua cât de mult diferă între ei.

La fereastră Rezultatele metodei K alege Analiza variatiei pentru a determina semnificația diferențelor dintre grupurile rezultate.

Deci valoarea p<0.05, что говорит о значимом различии.

apasa butonul Elemente de cluster și distanțe pentru a vizualiza observațiile incluse în fiecare dintre grupuri. Opțiunea vă permite, de asemenea, să afișați distanțele euclidiene ale obiectelor de la centre (valori medii) ale grupurilor respective.

Primul cluster:

Al doilea grup:

Al treilea cluster:

Al patrulea grup:

Deci, în fiecare din cele patru clustere există obiecte cu efect similar asupra procesului de pierderi.

 

Ar putea fi util să citiți: