Laborator „Aplicarea metodelor de analiză exploratorie primară a datelor în rezolvarea problemelor de data mining (IAD) prin intermediul sistemului integrat Statistica. Tehnici de extragere a datelor Inteligenta Analiza datelor

Actualizat 29.07.

Gândurile mele destul de confuze despre utilizarea metodelor statistice în procesarea datelor proteomice.

APLICAREA STATISTICII ÎN PROTEOMICĂ

Revizuirea metodelor de analiză a datelor experimentale

Piatnitsky M.A.

GU Institutul de Cercetare de Chimie Biomedicală numit după V.I. V.N. Orehovici RAMN

119121, Moscova, strada Pogodinskaya. 10,

e-mail: mpyat @bioinformatica.ru

Experimentele proteomice necesită o prelucrare statistică atentă a rezultatelor. Există mai multe caracteristici importante care caracterizează datele proteomice:

  • sunt o multime de variabile
  • relații complexe între aceste variabile. Aceste relații sunt înțelese ca reflectă fapte biologice.
  • numărul de variabile este mult mai mare decât numărul de mostre. Acest lucru face foarte dificilă funcționarea multor metode statistice.

Cu toate acestea, semne similare sunt inerente în multe alte date obținute folosind tehnologii de mare debit.

Obiectivele tipice ale unui experiment proteomic sunt:

  • compararea profilurilor de expresie a proteinelor între de grupuri diferite(de exemplu, cancer / normă). De obicei, sarcina este de a construi o regulă de decizie care să separe un grup de altul. Variabilele cu cea mai mare capacitate de discriminare (biomarkeri) sunt de asemenea de interes.
  • studiul relației dintre proteine.

Aici mă voi concentra în principal pe aplicarea statisticilor pentru analiza spectrelor de masă. Cu toate acestea, multe din ceea ce s-a spus se aplică și altor tipuri de date experimentale. Metodele în sine sunt cu greu luate în considerare aici (cu excepția unei descrieri mai detaliate a curbelor ROC), ci mai degrabă este subliniat un arsenal foarte scurt de metode pentru analiza datelor și sunt prezentate schițe pentru aplicarea sa semnificativă.

Analiza exploratorie

Cel mai important pas atunci când lucrați cu orice set de date este analiza exploratorie a datelor (EDA). În opinia mea, acesta este poate cel mai important punct în prelucrarea datelor statistice. În această etapă trebuie să vă faceți o idee despre date, să înțelegeți ce metode sunt cele mai bune de aplicat și, mai important, ce rezultate pot fi așteptate. În caz contrar, va fi un joc „orb” (să încercăm așa și o metodă), o enumerare fără sens a arsenalului de statistici, dragarea datelor. Statisticile sunt atât de periculoase încât vor da întotdeauna un fel de rezultat. Acum, când lansarea celei mai complexe metode de calcul necesită doar câteva clicuri de mouse, acest lucru este deosebit de important.

Potrivit lui Tukey, obiectivele analizei exploratorii sunt:

  • maximizarea perspectivei asupra unui set de date;
  • descoperă structura de bază;
  • extrage variabile importante;
  • detectează valori aberante și anomalii;
  • testarea ipotezelor subiacente;
  • dezvolta modele parcimonioase; și
  • determina setările optime ale factorilor.

În această etapă, este înțelept să obțineți cât mai multe informații despre date, folosind în primul rând instrumente grafice. Trasează histograme pentru fiecare variabilă. Oricât de banal pare, aruncați o privire la statisticile descriptive. Este util să priviți diagramele de dispersie (în timp ce desenați punctele cu simboluri diferite care indică apartenența la clase). Rezultate interesante PCA (analiza componentelor principale)și MDS (scalare multidimensională). Deci, EDA este în primul rând o utilizare pe scară largă a vizualizării grafice.

Utilizarea metodelor de urmărire a proiecției pentru a găsi cele mai „interesante” proiecții de date este promițătoare. De obicei, este posibil un anumit grad de automatizare a acestei lucrări (GGobi). Este arbitrar să alegeți un index pentru a căuta proiecții interesante.

Normalizare

De obicei, datele nu sunt distribuite în mod normal, ceea ce este incomod pentru procedurile statistice. Distribuția log-normală este comună. Logaritmii simpli pot face distribuția mult mai plăcută. În general, nu subestima tehnici atât de simple precum luarea de logaritmi și alte transformări de date. În practică, de mai multe ori sunt cazuri când, după luarea logaritmului, încep să se obțină rezultate semnificative, deși înainte de preprocesare rezultatele aveau puțină semnificație (iată un exemplu despre spectrometria de masă a vinurilor).

În general, alegerea normalizării este o problemă separată, căreia îi sunt dedicate multe lucrări. Alegerea metodei de preprocesare și scalare poate afecta semnificativ rezultatele analizei (Berg et al, 2006). În opinia mea, este mai bine să efectuați întotdeauna cea mai simplă normalizare în mod implicit (de exemplu, dacă distribuția este simetrică sau logaritmică în alt caz) decât să nu utilizați deloc aceste metode.

Iată câteva exemple de vizualizare grafică și utilizarea unor tehnici statistice simple pentru analiza exploratorie a datelor.

Exemple de

Mai jos sunt exemple de grafice care ar putea avea sens să fie reprezentate pentru fiecare variabilă. În stânga, estimările densității sunt afișate pentru fiecare dintre cele două clase (roșu - cancer, albastru - martor). Vă rugăm să rețineți că sub grafice sunt prezentate chiar valorile utilizate pentru a estima densitatea. Curba ROC este afișată în dreapta, iar zona de sub ea este afișată. Astfel, se poate vedea imediat potențialul fiecărei variabile ca discriminator între clase. La urma urmei, discriminarea între clase este de obicei Scopul final analiza statistică a datelor proteomice.

Următoarea figură prezintă o ilustrare a normalizării: o distribuție tipică a intensității de vârf în spectrul de masă (stânga) atunci când este luată logaritmul dă o distribuție apropiată de normal (dreapta).

În continuare, vom arăta utilizarea hărții termice pentru analiza exploratorie a datelor. Pe coloane - pacienți, pe rânduri - gene. Culoarea indică valoarea numerică. Există o împărțire clară în mai multe grupuri. Acesta este un exemplu excelent al modului în care EDA poate fi utilizat pentru a oferi o imagine vizuală imediată a datelor.

Următoarea imagine prezintă un exemplu de grafic de vizualizare gel. Aceasta este o tehnică standard pentru vizualizarea unui set mare de spectre. Fiecare rând este un eșantion, fiecare coloană este un vârf. Culoarea codificată intensitatea valorii (cu cât este mai luminos, cu atât mai bine). Astfel de imagini pot fi obținute, de exemplu, în ClinProTools. Dar există un mare dezavantaj - liniile (eșantioanele) sunt în ordinea în care au fost încărcate. Este mult mai corect să rearanjați liniile (eșantioanele) în așa fel încât mostrele apropiate să fie situate una lângă alta și pe grafic. De fapt, este o hartă termică fără a sorta coloanele și dendrogramele din laterale.

Următoarea imagine prezintă un exemplu de utilizare a scalării multidimensionale. Cercurile sunt control, triunghiurile sunt cancer. Se poate observa că cancerul are o variație semnificativ mai mare și construirea unei reguli de decizie este destul de posibilă. Un rezultat atât de interesant se obține doar pentru primele două coordonate! Privind la o astfel de imagine, cineva poate deveni optimist cu privire la rezultatele prelucrării ulterioare a datelor.

Problema cu valorile lipsă

Următoarea problemă cu care se confruntă cercetătorul este problema valorilor lipsă. Din nou, există multe cărți dedicate acestui subiect, fiecare dintre acestea descriind zeci de moduri de a rezolva această problemă. Valorile lipsă se găsesc adesea în datele obținute prin experimente cu randament ridicat. Multe metode statistice necesită date complete.

Iată principalele modalități de a rezolva problema valorilor lipsă:

. eliminați rândurile / coloanele cu valori lipsă. Este justificat dacă sunt relativ puține valori lipsă, altfel va trebui să eliminați totul.

. generați date noi în locul celor lipsă (înlocuiți cu media, obțineți din distribuția estimată)

. utilizați metode care nu sunt sensibile la datele lipsă

. experimentează din nou!

Problema emisiilor

Outlier este un eșantion cu rate drastic diferite față de grupul principal. Din nou, acest subiect a fost dezvoltat profund și extensiv în literatura de specialitate.

Care este pericolul emisiilor? În primul rând, acest lucru poate afecta în mod semnificativ funcționarea procedurilor statistice non-robuste (nu rezistente la valori aberante). Prezența chiar și a unei valori aberante în date poate schimba semnificativ estimările mediei și varianței.

Valorile aberante sunt greu de observat în datele multivariate, deoarece se pot manifesta doar în valorile uneia sau a două variabile (amintim că, într-un caz tipic, un experiment proteomic este descris de sute de variabile). Aici este utilă analiza fiecărei variabile - atunci când ne uităm la statistici descriptive sau histograme (cum ar fi cele prezentate mai sus), un astfel de valori aberante este ușor de identificat.

Există două strategii pentru a găsi valori aberante:

1) manual - analiza graficelor de dispersie, PCA și alte metode de analiză exploratorie. Încercați să construiți o dendrogramă - pe ea, valoarea anormală va fi văzută ca o ramură separată, care se îndepărtează devreme de la rădăcină.

2) 2) au fost dezvoltate multe criterii de detectare (Yang, Mardia, Schjwager, ...)

Produse pentru controlul emisiilor

. eliminarea valorii aberante

. aplica metode statistice rezistente la valori aberante (robuste).

În același timp, trebuie să aveți în vedere că o posibilă izbucnire nu este o eroare experimentală, ci un fapt biologic esențial nou. Deși acest lucru, desigur, se întâmplă extrem de rar, dar totuși...

Următoarea figură arată tipurile posibile de valori aberante în funcție de tipul efectului lor asupra statisticilor.

Să ilustrăm modul în care valorile aberante afectează comportamentul coeficienților de corelație.

Ne interesează cazul (f). Se poate observa cum prezența a doar 3 valori aberante dă coeficientul de corelație Pearson egal cu 0,68, în timp ce coeficienții Spearman și Kendall oferă estimări mult mai rezonabile (nu există corelație). Așa este, coeficientul de corelație al lui Pearson este o statistică nesolidă.

Să arătăm aplicarea metodei PCA pentru detectarea vizuală a valorii aberante.

Desigur, nu ar trebui să vă bazați întotdeauna pe astfel de metode de detectare „artizanale”. Mai bine să apelezi la literatură.

Clasificare și reducerea dimensiunilor

De obicei, scopul principal al analizei datelor proteomice este de a construi o regulă de decizie pentru a separa un grup de probe de altul (de exemplu, cancer / normă). După analiza exploratorie și normalizare, de obicei, următorul pas este reducerea dimensionalității.

Selectarea variabilelor

Un număr mare de variabile (și aceasta este situația standard în experimentele proteomice):

. complică analiza datelor

. de obicei nu toate variabilele au o interpretare biologică

. adesea scopul lucrării este de a selecta variabile „interesante” (biomarkeri)

. degradează performanța algoritmilor de clasificare. Din această cauză, supraadaptarea.

Prin urmare, pasul standard este aplicarea reducerii dimensionalității înainte de clasificare.

Metode de reducere a dimensiunilor poate fi împărțit în 2 tipuri:

1) Filtru

Sarcinile acestui grup de metode sunt fie de a elimina variabilele „neinteresante” existente, fie de a crea variabile noi ca combinații liniare ale celor vechi. Aceasta include

PCA, MDS,

metode de teoria informaţiei etc.

O altă idee este selecția țintită a „variabilelor interesante”: de exemplu, variabilele bimodale sunt întotdeauna interesante de privit (în mod ideal, fiecare vârf corespunde propriei sale clase pentru clasificarea binară). Cu toate acestea, acest lucru poate fi atribuit analizei exploratorii.

O altă abordare este excluderea variabilelor foarte corelate. În această abordare, variabilele sunt grupate folosind coeficienții de corelație ca măsură a distanței. Puteți utiliza nu numai corelația Pearson, ci și alți coeficienți. Din fiecare grup de variabile corelate, rămâne doar una (de exemplu, după criteriul celei mai mari zone de sub ROC-curba).

Figura prezintă un exemplu de vizualizare a unei astfel de analize cluster a vârfurilor folosind harta termografica ... Matricea este simetrică, culoarea arată valorile coeficientului de corelație Pearson (albastru - valori de corelație ridicate, roșu - valori scăzute). Se disting clar mai multe grupuri de variabile foarte dependente.



2) Înveliș

Utilizează algoritmi de clasificare ca măsură a calității setului de variabile selectate. Soluția optimă este o enumerare completă a tuturor combinațiilor de variabile, deoarece cu relații complexe între variabile

este foarte posibil ca două variabile care separat nu sunt discriminatorii să devină astfel atunci când se adaugă a treia. În mod evident, căutarea exhaustivă este imposibilă din punct de vedere computațional pentru orice număr semnificativ de variabile.

O încercare de a depăși acest „blestem al dimensiunii” este utilizarea algoritmilor genetici pentru a găsi setul optim de variabile. O altă strategie este să includeți/excludeți variabilele pe rând în timp ce verificați valoarea Akaike Information Criteria sau Bayes Information Criteria.

Validarea încrucișată este obligatorie pentru acest grup de metode. Citiți mai multe despre acest lucru în secțiunea despre compararea clasificatorilor.

Clasificare

Sarcina este de a construi o regulă de decizie care să permită ca eșantionul nou procesat să fie alocat uneia sau alteia clase.

Învățați fără profesor- analiza grupului. Aceasta este o căutare a celor mai bune (într-un anumit sens) grupări de obiecte. Din păcate, de obicei trebuie să specificați numărul de clustere a priori, sau alegeți un prag de limită (pentru gruparea ierarhică). Acest lucru aduce întotdeauna un arbitrar neplăcut.

Învățare supravegheată: rețele neuronale, SVM, arbori de decizie, ...

Este necesar un eșantion mare cu obiecte preclasificate.

De obicei funcționează mai bine decât învățarea nesupravegheată.Validare încrucișată - în absența unui eșantion de testare. Apare problema de supraadaptare

Un test important și simplu care este rar efectuat este rularea unui clasificator antrenat pe date aleatorii. Generați o matrice cu o dimensiune egală cu dimensiunea eșantionului original, umpleți-o cu zgomot aleatoriu sau distribuție normală, efectuați toate tehnicile, inclusiv normalizarea, selectarea variabilelor și antrenament. Dacă se obțin rezultate rezonabile (adică ați învățat să recunoașteți zgomotul aleatoriu), vor fi mai puține motive să credeți în clasificatorul construit.

Există o modalitate mai ușoară - doar schimbați aleatoriu etichetele de clasă pentru fiecare obiect, fără a afecta restul variabilelor. Astfel, veți obține din nou un set de date fără sens, pe care merită să rulați clasificatorul.

Mi se pare că clasificatorul construit poate fi de încredere numai dacă a fost efectuat cel puțin unul dintre testele de mai sus pentru recunoașterea datelor aleatorii.

ROC - curbă

Curba caracteristică de funcționare a receptorului

. Este folosit pentru a prezenta rezultatele clasificării în 2 clase, cu condiția ca răspunsul să fie cunoscut, i.e. se cunoaște partiția corectă.

. Se presupune că clasificatorul are un parametru (punct de tăiere), variind care se obține una sau alta diviziune în două clase.

Aceasta determină proporția de rezultate fals pozitive (FP) și fals negative (FN). Se calculează sensibilitatea și specificitatea, un grafic este reprezentat în coordonate (specificitate 1, sensibilitate). Variind parametrul clasificatorului, se obțin valori diferite ale FP și FN, iar punctul se deplasează de-a lungul curbei ROC.

. Precizie = (TP + TN) / (TP + FP + FN + TN)

. Sensibilitate = TP / TP + FN

. Specificitate = TN / TN + FP

Ce este un eveniment „pozitiv” depinde de condițiile problemei. Dacă este prezisă probabilitatea prezenței bolii, atunci un rezultat pozitiv - clasa „pacient bolnav”, un rezultat negativ - clasa „pacient sănătos”

Cea mai clară explicație (cu appleturi java excelente care ilustrează esența ideii ROC) am văzut-o la http://www.anaesthetist.com/mnm/stats/roc/Findex.htm

curba ROC:

. Este convenabil de utilizat pentru a analiza eficacitatea comparativă a doi clasificatori.

. Cu cât curba este mai aproape de colțul din stânga sus, cu atât puterea de predicție a modelului este mai mare.

. Linia diagonală corespunde „clasificatorului inutil”, adică. indistinguirea completă a claselor

. Comparația vizuală nu ne permite întotdeauna să evaluăm cu exactitate ce clasificator este de preferat.

. AUC - Area Under Curve - o estimare numerică care vă permite să comparați curbele ROC.

. Valori de la 0 la 1.

Comparația a două curbe ROC

Aria sub curbă (AUC) ca măsură pentru compararea clasificatorilor.

Alte exemple de curbe ROC sunt date în secțiunea de analiză exploratorie.

Analiza comparativă a clasificatorilor

Există multe opțiuni pentru aplicarea metodelor de recunoaștere a modelelor. Compararea diferitelor abordări și alegerea celei mai bune este o sarcină importantă.

Cel mai comun mod de a compara clasificatorii din articolele despre proteomică (și nu numai) astăzi este validarea încrucișată. În opinia mea, o singură aplicare a procedurii de validare încrucișată nu are sens. O abordare mai inteligentă este să rulați validarea încrucișată de mai multe ori (în mod ideal, cu cât mai multe, cu atât mai bine) și să construiți intervale de încredere pentru a estima acuratețea clasificării. Prezența intervalelor de încredere face posibil să se decidă în mod rezonabil dacă, de exemplu, o îmbunătățire a calității clasificării cu 0,5% este semnificativă statistic sau nu. Din păcate, doar un număr mic de lucrări au intervale de încredere pentru acuratețe, sensibilitate și specificitate. Din acest motiv, cifrele date în alte lucrări sunt dificil de comparat între ele, deoarece intervalul de valori posibile nu este indicat.

O altă problemă este alegerea tipului de validare încrucișată. Prefer validarea încrucișată de 10 ori de 5 ori în loc de lăsarea -one -out.

Desigur, folosirea validării încrucișate este un „act de disperare”. În mod ideal, eșantionul ar trebui să fie împărțit în 3 părți: în prima parte, modelul este construit, în a doua parte, parametrii acestui model sunt optimizați, iar în a treia parte se efectuează o verificare. Validarea încrucișată este o încercare de a evita aceste constructe și este justificată doar cu un număr mic de mostre.

Alte informații utile pot fi adunate din numeroasele rulări ale procedurii de validare încrucișată. De exemplu, este interesant să ne uităm la ce obiecte greșește mai des procedura de recunoaștere. Poate că acestea sunt erori de date, valori aberante sau alte cazuri interesante. După ce ați studiat proprietățile caracteristice ale acestor obiecte, uneori puteți înțelege în ce direcție merită să vă îmbunătățiți procedura de clasificare.

Mai jos este un tabel de comparație a clasificatorilor pentru lucrările lui Moshkovskii et al, 2007. SVM și regresia logistică (LR) au fost utilizate ca clasificatori. Metodele de selectare a caracteristicilor au fost RFE (Re Eliminarea caracteristicilor cursive) și Perechi cu cel mai bun punctaj (TSP). Utilizarea intervalelor de încredere face posibilă evaluarea rezonabilă a avantajelor semnificative ale diferitelor scheme de clasificare.

Literatură

Iată câteva cărți și articole care pot fi utile în analiza datelor proteomice.

C. Bishop, Rețele neuronale pentru recunoașterea modelelor

* Berrar, Dubitzky, Granzow. Abordare practică a analizei datelor cu microarray (Kluwer, 2003). Această carte este despre procesarea microarray (deși nu aș recomanda-o pentru o introducere în subiect), dar există și câteva capitole interesante. De aici este luată o ilustrație care arată efectul valorilor aberante asupra coeficienților de corelație.

Literatura marcată cu * este în în format electronic, iar autorul îl distribuie gratuit (adică gratuit)

), etc. Mai mult, apariția computerelor moderne rapide și gratuite software(precum R) a pus toate aceste metode intensive din punct de vedere computațional la dispoziția aproape tuturor cercetătorilor. Cu toate acestea, această accesibilitate exacerbează și mai mult problema binecunoscută a tuturor metodelor statistice, care pe limba engleză este adesea descris ca „ gunoi în, gunoi afară„, adică” gunoi la intrare – gunoi la ieșire. „Vorbim despre următoarele: miracolele nu se întâmplă, iar dacă nu acordăm atenția cuvenită modului în care funcționează cutare sau cutare metodă și ce cerințe le pune asupra celor analizate. date, atunci rezultatele obținute cu ajutorul acestuia nu pot fi luate în serios.De aceea, de fiecare dată cercetătorul ar trebui să-și înceapă munca cu o cunoaștere aprofundată a proprietăților datelor obținute și verificând conditiile necesare aplicabilitatea metodelor statistice relevante. Acest Primul stagiu se numeste analiza exploratorie(Analiza exploratorie a datelor).

Există multe recomandări în literatura de statistică pentru efectuarea analizei exploratorii a datelor (EDA). Acum doi ani în revistă Metode în ecologie și evoluție a fost publicat un articol excelent în care aceste recomandări au fost consolidate într-un singur protocol pentru implementarea ADR: Zuur A. F., Ieno E. N., Elphick C. S. (2010) Un protocol pentru explorarea datelor pentru a evita problemele statistice comune. Metode în ecologie și evoluție 1 (1): 3-14... În ciuda faptului că articolul a fost scris pentru biologi (în special, pentru ecologisti), principiile subliniate în el sunt cu siguranță adevărate în raport cu alte discipline științifice. În această postare de blog și în cele ulterioare, voi oferi fragmente din muncă Zuur şi colab.(2010) și descriu protocolul RDA propus de autori. La fel ca în articolul original, descrierea pașilor individuali ai protocolului va fi însoțită de scurte recomandări privind utilizarea funcțiilor și pachetelor corespunzătoare ale sistemului R.

Protocolul propus include următoarele elemente principale:

  1. Formularea ipotezei de cercetare. Efectuarea de experimente/observații pentru a colecta date.
  2. Analiza exploratorie a datelor:
    • Identificarea punctelor de prelevare
    • Verificarea uniformității dispersiilor
    • Verificarea normalității distribuției datelor
    • Identificarea excesului de valori zero
    • Identificarea variabilelor coliniare
    • Dezvăluirea naturii relației dintre variabilele analizate
    • Identificarea interacțiunilor dintre variabilele predictoare
    • Dezvăluirea corelațiilor spațio-temporale între valorile variabilei dependente
  3. Aplicarea unei metode (model) statistice adecvate situaţiei.

Zuur şi colab.(2010) notează că RDA este cel mai eficient atunci când se utilizează o varietate de instrumente grafice, deoarece graficele oferă adesea o mai bună înțelegere a structurii și proprietăților datelor analizate decât testele statistice formale.

Începem examinarea protocolului RDA dat cu identificarea punctelor aberante... Sensibilitatea diferitelor metode statistice la prezența valorilor aberante în date variază. Deci, atunci când se utilizează un model liniar generalizat pentru a analiza variabila dependentă distribuită conform legii lui Poisson (de exemplu, numărul de cazuri ale unei boli în diferite orașe), prezența unor valori aberante poate provoca o variație excesivă, ceea ce va face modelul inaplicabil. În același timp, atunci când se utilizează scalarea multivariată neparametrică bazată pe indicele Jaccard, toate datele inițiale sunt convertite la o scară nominală cu două valori (1/0), iar prezența valorilor aberante nu afectează în niciun fel rezultatul analizei. . Cercetătorul ar trebui să înțeleagă clar aceste diferențe între diferite metode și, dacă este necesar, să verifice prezența selecțiilor în date. Să dăm definiție de lucru: prin „outlier” înțelegem o observație care este „prea” mare sau „prea mică” în comparație cu majoritatea celorlalte observații disponibile.

De obicei, pentru a detecta valorile aberante, se folosește diagrame de interval... R utilizează estimări robuste (solide) ale tendinței centrale (mediană) și ale împrăștierii (interval interquartile, RBI) pentru a construi diagrame de interval. Mustația superioară se extinde de la marginea superioară a cutiei până la cea mai mare valoare eșantionată pe o distanță de 1,5 x RBI de la această margine. De asemenea, mustața inferioară se extinde de la marginea inferioară a cutiei până la cea mai mică valoare eșantionată pe o distanță de 1,5 x IFR de acea margine. Observațiile din afara mustaților sunt considerate potențiale valori aberante (Figura 1).

Figura 1. Structura diagramei intervalului.

Exemple de funcții de la R pentru trasarea graficelor swing:
  • Funcția de bază boxplot () (vezi detalii).
  • Pachetul Ggplot2: obiect geometric (" geom") boxplot. De exemplu:
    p<- ggplot (mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() # или: qplot (factor(cyl), mpg, data = mtcars, geom = "boxplot" )
Un alt instrument foarte util, dar, din păcate, subutilizat, este diagramă de dispersie din Cleveland... Pe un astfel de grafic, ordonata este folosită pentru a reprezenta un grafic numerele ordinale ale observațiilor individuale, iar abscisa este valorile acestor observații. Observațiile care ies „semnificativ” din norul de puncte principal pot fi potențial valori aberante (Figura 2).

Figura 2. Graficul de dispersie Cleveland care prezintă datele privind lungimea aripilor pentru 1.295 de vrăbii (Zuur et al. 2010). În acest exemplu, datele au fost precomandate în funcție de greutatea păsărilor, astfel încât norul de puncte este aproximativ în formă de S.


În figura 2, punctul corespunzător unei aripi de 68 mm iese bine în evidență. Cu toate acestea, această lungime a aripii nu ar trebui considerată o valoare anormală, deoarece diferă doar puțin de alte lungimi. Acest punct iese în evidență pe fondul general doar pentru că lungimile aripilor originale au fost ordonate în funcție de greutatea păsărilor. În consecință, este mai probabil să se caute valorile aberante printre valorile greutății (adică, o lungime a aripii foarte mare (68 mm) a fost observată într-o vrabie neobișnuit de ușoară pentru aceasta).

Până în acest punct, am numit „outlier” o observație care este „semnificativ” diferită de majoritatea celorlalte observații din populația țintă. Cu toate acestea, o abordare mai riguroasă pentru determinarea valorii aberante este de a evalua modul în care aceste observații neobișnuite afectează rezultatele analizei. Procedând astfel, ar trebui făcută o distincție între observațiile neobișnuite pentru variabilele dependente și independente (predictorii). De exemplu, atunci când se studiază dependența numărului unei specii biologice de temperatură, majoritatea valorilor temperaturii se pot situa în intervalul de la 15 la 20 ° С și o singură valoare poate fi egală cu 25 ° С. Un astfel de design experimental, pentru a spune ușor, nu este ideal, deoarece intervalul de temperatură de la 20 la 25 ° C va fi studiat inegal. Cu toate acestea, în studiile reale de teren, este posibil să fie posibilă măsurarea la temperaturi ridicate o singură dată. Atunci, ce trebuie făcut cu această măsurătoare neobișnuită luată la 25 ° C? Cu un volum mare de observații, astfel de observații rare pot fi excluse din analiză. Cu toate acestea, cu o cantitate relativ mică de date, scăderea ei și mai mare poate fi nedorită din punct de vedere al semnificației statistice a rezultatelor obținute. Dacă nu este posibilă eliminarea valorilor neobișnuite ale unui predictor dintr-un motiv sau altul, o anumită transformare a acestui predictor (de exemplu, luarea logaritmului) poate ajuta.

Valorile neobișnuite ale variabilei dependente sunt mai dificil de „tratat”, mai ales atunci când se construiesc modele de regresie. Transformarea, de exemplu, luând un logaritm poate ajuta, dar deoarece variabila dependentă prezintă un interes deosebit atunci când construim modele de regresie, cel mai bine este să încercați să găsiți o metodă de analiză care să se bazeze pe o distribuție de probabilitate care să permită o gamă mai largă de valori pentru valori medii mari (de exemplu, o distribuție gamma pentru variabile continue sau distribuție Poisson pentru variabile cantitative discrete). Această abordare vă va permite să lucrați cu valorile originale ale variabilei dependente.

În cele din urmă, este la latitudinea cercetătorului să decidă dacă să elimine valorile neobișnuite din analiză. În același timp, trebuie să-și amintească că motivele apariției unor astfel de observații pot fi diferite. Astfel, eliminarea valorii aberante rezultate din proiectarea experimentală nereușită (a se vedea exemplul de mai sus cu temperatură) poate fi destul de justificată. De asemenea, va fi justificată eliminarea valorii aberante care se datorează în mod clar erorilor de măsurare. În același timp, observațiile neobișnuite între valorile variabilei dependente pot necesita o abordare mai sofisticată, mai ales dacă reflectă variabilitatea naturală a acelei variabile. În acest sens, este important să se mențină o documentație detaliată a condițiilor în care are loc porțiunea experimentală a studiului - acest lucru poate ajuta la interpretarea „outlierilor” în timpul analizei datelor. Indiferent de motivele apariției unor observații neobișnuite, în raportul științific final (de exemplu, într-un articol) este important să se informeze cititorul atât despre faptul identificării unor astfel de observații, cât și despre măsurile luate în legătură cu acestea.

STATISTICA oferă o gamă largă de metode de analiză statistică exploratorie. Sistemul poate calcula practic toate statisticile descriptive, inclusiv mediana, modul, quartilele, percentilele definite de utilizator, mediile și abaterile standard, intervalele de încredere pentru medie, coeficienții de asimetrie, kurtoza (cu erorile lor standard), media armonică și geometrică și multe alte statistici descriptive. Alegerea criteriilor de testare a normalității distribuției este posibilă (testul Kolmogorov-Smirnov, Liliefors, Shapiro-Wilks). O selecție largă de diagrame ajută la analiza exploratorie.

2. Corelații.

Această secțiune include un număr mare de instrumente pentru a explora dependențele dintre variabile. Este posibil să se calculeze aproape toate măsurile generale ale dependenței, inclusiv coeficientul de corelație al lui Pearson, coeficientul de corelație al rangului lui Spearman, Tau (b, c) al lui Kendall, Gamma, coeficientul de contingență C și multe altele.

Matricele de corelație pot fi, de asemenea, calculate pentru date cu lacune folosind tehnici speciale pentru tratarea valorilor lipsă.

Graficele accesibile vă permit să selectați puncte individuale într-un grafic de dispersie și să evaluați contribuția acestora la o curbă de regresie sau la orice altă curbă adaptată datelor.

3. t - criterii (și alte criterii pentru diferențele de grup).

Procedurile permit calcularea testelor t pentru probe dependente și independente, precum și statistici Hotteling (vezi și ANOVA / MANOVA).

4. Tabele de frecvențe și tabele de tabeluri încrucișate.

Modulul conține un set extins de proceduri care oferă tabelarea variabilelor continue, categoriale, dihotomice, variabile obținute în urma anchetelor multivariate. Sunt calculate atât frecvențele cumulate, cât și frecvențele relative. Sunt disponibile teste pentru frecvențele încrucișate. Sunt calculate statisticile lui Pearson, probabilitatea maximă, corecția Jegs, chi-pătrat, statisticile lui Fisher, McNemer și multe altele.

Modulul „Regresie multiplă”

Modulul Regresie multiplă include un set cuprinzător de instrumente pentru regresia multiplă liniară și fixă ​​neliniară (în special, polinomială, exponențială, logaritmică etc.), inclusiv metode treptate, ierarhice și alte metode, precum și regresia de creastă.

Sistem STATISTICA vă permite să calculați un set cuprinzător de statistici și diagnostice avansate, inclusiv un tabel complet de regresie, corelații și covarianțe parțiale și parțiale pentru ponderi de regresie, matrici de baleiere, statistici Durbin-Watson, distanțe Mahalanobis și Cook, reziduuri la distanță și multe altele. Analiza reziduală și a valorii aberante poate fi efectuată folosind o mare varietate de diagrame, inclusiv o varietate de diagrame cu puncte, diagrame de corelație parțială și multe altele. Sistemul de prognoză permite utilizatorului să efectueze o analiză ce se întâmplă dacă. Sunt permise probleme de regresie extrem de mari (până la 300 de variabile într-o procedură de regresie exploratorie). STATISTICA conține, de asemenea, un „Modul de estimare neliniară” cu care poate fi estimat aproape orice model neliniar definit de utilizator, inclusiv logit, regresie probit și multe altele.

modulul ANOVA. Modul ANOVA / MANOVA generic

Modulul ANOVA / MANOVA este un set de proceduri pentru analiza generală univariată și multivariată a varianței și covarianței.

Modulul oferă cea mai largă selecție de proceduri statistice pentru testarea ipotezelor de bază ale analizei varianței, în special testele Bartlett, Cochran, Hartley, Box și altele.

Modul de analiză discriminantă

Metodele de analiză discriminantă permit construirea unei reguli de clasificare pentru atribuirea unui obiect uneia dintre mai multe clase pe baza unui număr de ipoteze, minimizând un criteriu rezonabil, de exemplu, probabilitatea unei clasificări false sau o funcție de pierdere definită de utilizator. Alegerea criteriului este determinată de utilizator din motive de prejudiciu pe care acesta le va suferi din cauza erorilor de clasificare.

Modul de analiză discriminantă a sistemului STATISTICA conține un set complet de proceduri pentru analiza discriminantă funcțională în mai multe etape. STATISTICA vă permite să efectuați analize pas cu pas, atât înainte, cât și înapoi, și, de asemenea, în cadrul unui bloc de variabile definit de utilizator în model.

Modulul „Statistici neparametrice și distribuții de potrivire”

Modulul conține un set extins de teste neparametrice de bunătate de potrivire, în special, testul Kolmogorov-Smirnov, Mann-Whitney, Wal-da-Wolfowitz, teste de rang Wilcoxon și multe altele.

Toate testele de rang implementate sunt disponibile în cazul rangurilor coincidente și utilizează corecții pentru eșantioane mici.

Procedurile statistice ale modulului permit utilizatorului să compare cu ușurință distribuția valorilor observate cu un număr mare de distribuții teoretice diferite. Puteți potrivi datele la Normal, Uniform, Linear, Exponențial, Gamma, Lognormal, Chi-Pătrat, Weibull, Gompertz, Binomial, Poisson, Geometric, Distribuția Bernoulli. Precizia potrivirii este evaluată folosind testul chi-pătrat sau testul Kolmogorov-Smirnov cu un eșantion (parametrii de potrivire pot fi controlați); Testele Lillifors și Shapiro-Wilks sunt de asemenea acceptate.

Modul de analiză factorială

Modulul de analiză factorială conține o gamă largă de metode și opțiuni care oferă utilizatorului instrumente cuprinzătoare de analiză factorială.

Acesta, în special, include metoda componentelor principale, metoda reziduurilor minime, metoda probabilității maxime etc. cu diagnosticare extinsă și o gamă extrem de largă de diagrame analitice și exploratorii. Modulul poate efectua calculul componentelor principale ale analizei factoriale generale și ierarhice cu o matrice care conține până la 300 de variabile. Spațiul factorilor comuni poate fi reprezentat și vizualizat fie felie cu felie, fie în diagrame de dispersie 2D sau 3D cu variabile punctuale etichetate.

După ce soluția este determinată, utilizatorul poate recalcula matricea de corelație din numărul corespunzător de factori pentru a evalua calitatea modelului construit.

In afara de asta, STATISTICA conține modulul „Scalarea multidimensională”, modulul „Analiza fiabilității”, modulul „ Analiza grupului"," Analiza log-liniară "modul", "modul" de estimare neliniară, "modulul" corelație canonică, "modulul" de analiză a duratei de viață, "modulul" de analiză și prognoza seriilor de timp și altele.

Rezultatele numerice ale analizei statistice în sistem STATISTICA sunt scoase sub formă de foi de calcul speciale, care sunt numite tabele de rezultate - ScroHsheets™. Mese Foaie de defilare poate conține orice informație (atât numerică, cât și text), de la o linie scurtă până la megaocteți de rezultate. În sistem STATISTICA aceste informații sunt afișate ca o secvență (coadă), care constă dintr-un set de tabele Foaie de defilareși grafice.

STATISTICA conține un număr mare de instrumente pentru vizualizarea ușoară a rezultatelor analizei statistice și vizualizarea acestora. Acestea includ operații standard pentru editarea unui tabel (inclusiv operațiuni pe blocuri de valori, Drag-and-Drop - „Trasați și plasați”, blocuri de completare automată, etc.), operațiuni ușoare de vizualizare (limite de coloane mobile, defilare divizată în tabel etc.), acces la statisticile de bază și capabilitățile grafice ale sistemului STATISTICA. La afișarea unui interval de rezultate (de exemplu, o matrice de corelație) STATISTICA marchează coeficienți de corelație semnificativi cu culoarea. Utilizatorul are, de asemenea, capacitatea de a evidenția valorile necesare în tabel folosind culoarea Foaie de defilare.

Dacă utilizatorul trebuie să efectueze o analiză statistică detaliată a rezultatelor intermediare, atunci puteți salva tabelul Foaie de defilareîn format de fișier de date STATISTICAși apoi lucrați cu el ca cu datele obișnuite.

Pe lângă afișarea rezultatelor analizei sub formă de ferestre separate cu grafice și tabele Foaie de defilareîn spațiul de lucru al sistemului STATISTICA, sistemul are capacitatea de a crea un raport, în fereastra căruia pot fi afișate toate aceste informații. Un raport este un document (în format RTF), care poate conține orice informație textuală sau grafică. V STATISTICA este posibil să se creeze automat un raport, așa-numitul raport automat. Mai mult, orice masă Foaie de defilare sau graficul poate fi trimis automat la raport.

Răspuns:

Tehnicile grafice pot fi folosite pentru a găsi dependențe, tendințe și compensații ascunse în seturile de date nestructurate.

Metodele de vizualizare includ:

Prezentarea datelor sub formă de diagrame cu bare, linii în spațiu multidimensional;

Suprapuneți și îmbinați mai multe imagini;

Identificarea și etichetarea subgrupurilor de date care îndeplinesc anumite condiții;

Împărțirea sau îmbinarea subgrupurilor de date pe un grafic;

agregarea datelor;

netezirea datelor;

Construire de pictograme;

Crearea structurilor de mozaic;

Planuri spectrale, hărți cu linii de nivel; metode de rotație dinamică și stratificare dinamică a imaginilor 3D; alocarea anumitor seturi și blocuri de date etc.

Tipuri de grafice în Statistica:

§ diagrame bidimensionale; (histograme)

§ grafica tridimensionala;

§ grafice matriceale;

§ pictograme.

Răspuns:Aceste diagrame sunt colecții de diagrame 2D, 3D, ternare sau n-dimensionale (cum ar fi histograme, diagrame de dispersie, diagrame cu linii, suprafețe, diagrame circulare), câte o diagramă pentru fiecare categorie selectată (subset) de observații.

Un grafic este un set de grafice, diagrame circulare pentru fiecare categorie specifică a variabilei selectate (2 sexe - pentru 2 sexe).

O structură de date clasificată poate fi tratată într-un mod similar. : de exemplu, s-au acumulat statistici privind clientii si este necesara analizarea sumei de achizitie pe diverse categorii (barbati-femei, batrani-maturi-tineri).

În statistici - histograme, diagrame de dispersie, grafice cu linii, diagrame circulare, grafice 3D, grafice ternare 3D

După cum puteți vedea, această variabilă are în general o distribuție normală pentru fiecare grup (tip de culori).

5. Ce informații despre natura datelor pot fi obținute prin analiza scatterploturilor și scatterploturilor clasificate?

Răspuns:

Scatterploturile sunt utilizate în mod obișnuit pentru a dezvălui natura relației dintre două variabile (de exemplu, profit și salarizare), deoarece oferă mult mai multe informații decât coeficientul de corelație.



Dacă se presupune că unul dintre parametri depinde de celălalt, atunci, de obicei, valorile parametrului independent sunt reprezentate de-a lungul axei orizontale, iar valorile parametrului dependent sunt reprezentate pe verticală. Scatterploturile sunt folosite pentru a arăta prezența sau absența unei corelații între două variabile.

Fiecare punct marcat pe diagramă include două caracteristici, de exemplu, vârsta și venitul unei persoane, fiecare reprezentată de-a lungul propriei axe. Acest lucru ajută adesea la a afla dacă există vreo relație statistică semnificativă între aceste caracteristici și ce tip de funcție are sens să fie selectat. A

6. Ce informații despre natura datelor pot fi obținute prin analiza histogramelor și histogramelor clasificate?

Răspuns

: Histogramele sunt folosite pentru a studia distribuțiile de frecvență ale valorilor variabilelor. O astfel de distribuție de frecvență arată ce valori specifice sau intervale de valori ale variabilei studiate apar cel mai des, cât de diferite sunt aceste valori, dacă majoritatea observațiilor sunt situate în apropierea valorii medii, este distribuția simetrică sau asimetrică. , multimodal (adică are două sau mai multe vârfuri), sau unimodal etc. Histogramele sunt, de asemenea, folosite pentru comparând distribuțiile observate și teoretice sau așteptate.



Histogramele categorizate sunt seturi de histograme care corespund unor valori diferite ale uneia sau mai multor variabile de categorizare sau seturi de condiții de categorizare logică.

Histograma este o modalitate de prezentare a datelor statistice sub formă grafică - sub forma unei diagrame cu bare. Afișează distribuția măsurătorilor individuale ale parametrilor produsului sau procesului. Uneori se numește distribuția frecvenței, deoarece histograma arată frecvența de apariție a valorilor măsurate ale parametrilor obiectului.

Înălțimea fiecărei coloane indică frecvența de apariție a valorilor parametrilor în intervalul selectat, iar numărul de coloane indică numărul de intervale selectate.

Un avantaj important al histogramei este că vă permite să vizualizați tendințele de modificare a parametrilor de calitate măsurați ai obiectului și să evaluați vizual legea distribuției acestora. În plus, histograma face posibilă determinarea rapidă a centrului, răspândirii și formei distribuției unei variabile aleatorii. O histogramă este construită, de regulă, pentru o modificare a intervalului a valorilor parametrului măsurat.

7. Cum sunt în mod fundamental graficele clasificate diferite de graficele matrice din Statistica?

Răspuns:

Graficele matriceale constau, de asemenea, din mai multe diagrame; totuși, aici fiecare dintre ele se bazează (sau se poate baza) pe același set de observații și sunt desenate grafice pentru toate combinațiile de variabile din una sau două liste.

diagrame cu atrix. Diagramele matriceale descriu dependențele dintre mai multe variabile sub forma unei matrice de diagrame XY. Cel mai comun tip de diagramă matriceală este matricea grafică de dispersie, care poate fi considerată ca echivalentul grafic al matricei de corelație.

Diagrame matrice - Diagrame de dispersie. Diagramele matriceale de acest tip prezintă 2M diagrame de dispersie organizate sub forma unei matrice (valorile variabilei coloanei sunt folosite ca coordonate Xși valorile variabilei de-a lungul liniei - ca coordonate Y). Histogramele care descriu distribuția fiecărei variabile sunt situate pe diagonala matricei (în cazul matricelor pătrate) sau de-a lungul marginilor (în cazul matricelor dreptunghiulare).

Vezi și secțiunea Reducerea dimensiunii eșantionului.

Graficele categorizate necesită aceeași alegere de variabile ca și diagramele necategorizate de tipul corespunzător (de exemplu, două variabile pentru un grafic de dispersie). Totodată, pentru graficele categorizate, este necesar să se indice cel puțin o variabilă de grupare (sau o modalitate de împărțire a observațiilor în categorii), care să conțină informații despre apartenența fiecărei observații la un anumit subgrup. Variabila de grupare nu va fi reprezentată direct (adică nu va fi reprezentată grafic), dar va servi drept criteriu pentru împărțirea tuturor cazurilor analizate în subgrupuri separate. Se va reprezenta un grafic pentru fiecare grup (categorie) definit de variabila de grupare.

8. Care sunt avantajele și dezavantajele metodelor grafice de analiză exploratorie a datelor?

Răspuns:+ Vizibilitate și simplitate.

Vizibilitatea (prezentarea grafică multidimensională a datelor, conform căreia analistul însuși identifică tipare și relații între date).

- Metodele dau valori aproximative.

n - O proporție mare de subiectivitate în interpretarea rezultatelor.

n Lipsa modelelor analitice.

9. Ce metode analitice de analiză primară a datelor exploratorii cunoașteți?

Răspuns:Metode statistice, rețele neuronale.

10. Cum se testează ipoteza despre acordul distribuției datelor eșantionului cu modelul de distribuție normală în sistemul Statistica?

Răspuns:Distribuția x 2 (chi-pătrat) cu n grade de libertate este distribuția sumei pătratelor a n variabile aleatoare normale standard independente.

Chi-pătratul este o măsură a diferenței. Setăm nivelul de eroare egal cu a = 0,05. În consecință, dacă valoarea p> a, atunci distribuția este optimă.

- pentru a testa ipoteza despre concordanța distribuției datelor eșantionului cu modelul de distribuție normală utilizând testul chi-pătrat, selectați elementul de meniu Statistics / Distribution Fittings. Apoi, în caseta de dialog Fitting Contentious Distribution, setați tipul de distribuție teoretică - Normal, selectați variabila - Variabile, setați parametrii de analiză - Parametri.

11. Care sunt principalele caracteristici statistice ale variabilelor cantitative cunoașteți? Descrierea și interpretarea lor în ceea ce privește problema rezolvată.

Răspuns:Caracteristicile statistice de bază ale variabilelor cantitative:

așteptare (media în eșantion, suma valorilor \ n, al șaselea volum de producție între întreprinderi)

mediană (punctul de mijloc al valorilor.)

abatere standard (rădăcina pătrată a varianței)

varianță (o măsură a răspândirii unei variabile aleatoare date, adică abaterea acesteia de la așteptările matematice)

coeficient de asimetrie (Determinați decalajul relativ la centrul de simetrie conform regulii: dacă B1> 0, atunci decalajul la stânga, în caz contrar - la dreapta.)

coeficient de curtoză (aproape de distribuția normală)

valoarea eșantionată minimă, valoarea eșantionată maximă,

împrăștia

quartilele superioare și inferioare prelevate

Moda (valoare de vârf)

12. Ce măsuri ale relației sunt folosite pentru a măsura gradul de apropiere a relației dintre variabilele cantitative și ordinale? Calculul lor în Statistică și interpretare.

Răspuns:Corelația este o relație statistică între două sau mai multe variabile aleatoare.

În acest caz, modificările uneia sau mai multor dintre aceste cantități conduc la o modificare sistematică a uneia sau a altor cantități. O măsură a corelației a două variabile aleatoare este coeficientul de corelație.

Cantitativ:

Coeficientul de corelație este un indicator al naturii modificărilor a două variabile aleatorii.

Coeficientul de corelație al lui Pearson (măsoară gradul de relații liniare dintre variabile. Se poate spune că corelația determină gradul în care valorile a două variabile sunt proporționale între ele.)

Coeficient de corelație parțială (măsoară gradul de apropiere dintre variabile, cu condiția ca valorile altor variabile să fie fixate la un nivel constant).

Calitativ:

Coeficientul de corelație a rangului lui Spearman (utilizat în scopul studierii statistice a relației dintre fenomene. Obiectele studiate sunt ordonate în raport cu un anumit atribut, adică li se atribuie numere ordinale - ranguri.)

| următoarea prelegere =>

V STATISTICA a implementat metode clasice de analiză a clusterelor, inclusiv metode de k-means, clustering ierarhic și îmbinare cu două intrări.

Datele pot veni atât în ​​forma sa originală, cât și sub forma unei matrice a distanțelor dintre obiecte.

Observațiile și variabilele pot fi grupate folosind diferite măsuri de distanță (euclidian, pătrat euclidian, Manhattan, Chebyshev etc.) și diferite reguli pentru combinarea clusterelor (singure, conexiune completă, medie neponderată și ponderată pe perechi pentru grupuri etc.).

Formularea problemei

Fișierul de date original conține următoarea informație despre mașini și proprietarii lor:

Scopul acestei analize este de a clasifica mașinile și proprietarii acestora în clase, fiecare dintre acestea corespunzând unui grup de risc specific. Observațiile care se încadrează într-un singur grup sunt caracterizate de aceeași probabilitate de apariție a unui eveniment asigurat, care este evaluată ulterior de către asigurător.

Utilizarea analizei cluster pentru a rezolva această problemă este cea mai eficientă. V caz general Analiza cluster este concepută pentru a combina unele obiecte în clase (clustere) în așa fel încât cele mai asemănătoare să se încadreze într-o singură clasă, iar obiectele din clase diferite să difere cât mai mult unul de celălalt. Indicatorul cantitativ de similitudine este calculat într-un mod dat pe baza datelor care caracterizează obiectele.

Scala de măsurare

Tot algoritmi de cluster au nevoie de estimări ale distanțelor dintre grupuri sau obiecte și este clar că atunci când se calculează distanța, este necesar să se stabilească scara măsurătorilor.

Deoarece măsurătorile diferite folosesc tipuri complet diferite de scale, datele trebuie să fie standardizate (în meniu Date selectați elementul Standardiza), astfel încât fiecare variabilă va avea o medie de 0 și o abatere standard de 1.

Un tabel cu variabile standardizate este prezentat mai jos.

Pasul 1. Clasificarea ierarhică

Primul pas este să afli dacă mașinile formează grupuri „naturale” care pot fi conceptualizate.

Să alegem Analiza grupuluiîn meniu Analiză - Analiză exploratorie multivariată pentru a afișa panoul de pornire al modulului Analiza grupului... În acest dialog, selectați Clasificarea ierarhicăși apăsați Bine.

apasa butonul Variabile, alege Tot, în câmp Obiecte alege Observatii (siruri de caractere). Ca regulă sindicală, rețineți Metoda de conectare completă, ca măsură a proximității - distanta euclidiana... Clic Bine.

Metoda de legare completă definește distanța dintre clustere ca fiind cea mai mare distanță dintre oricare două caracteristici din clustere diferite (adică, „cei mai îndepărtați vecini”).

Măsura proximității, definită de distanța euclidiană, este distanța geometrică în spațiul n-dimensional și se calculează după cum urmează:

Cel mai important rezultat al grupării arborilor este arborele ierarhic. Faceți clic pe butonul Dendrograma verticală.

Diagramele arborelui pot părea puțin confuze la început, dar după unele studii devin mai ușor de înțeles. Diagrama începe în partea de sus (pentru o dendrogramă verticală) cu fiecare vehicul în propriul său grup.

De îndată ce începi să te miști în jos, mașinile care „se ating mai strâns” se îmbină și formează grupuri. Fiecare nod din diagrama de mai sus reprezintă unirea a două sau mai multe clustere, poziția nodurilor pe axa verticală determină distanța la care au fost combinate clusterele corespunzătoare.

Pasul 2. K înseamnă grupare

Pe baza prezentării vizuale a rezultatelor, se poate presupune că mașinile formează patru grupuri naturale. Să verificăm această ipoteză împărțind datele inițiale prin metoda K mijloacelor în 4 clustere și să verificăm semnificația diferenței dintre grupurile obținute.

În panoul de pornire al modulului Analiza grupului alege K-Means Clustering.

apasa butonul Variabileși alegeți Tot, în câmp Obiecte alege Observatii (siruri de caractere), definiți 4 clustere ale partiției.

Metodă K-înseamnă este după cum urmează: calculele încep cu k observații selectate aleatoriu (în cazul nostru, k = 4), care devin centrele grupurilor, după care compoziția obiectului clusterelor se modifică pentru a minimiza variabilitatea în cadrul clusterelor și a maximiza variabilitatea între clustere.

Fiecare observație ulterioară (K + 1) aparține grupului, măsura asemănării cu centrul de greutate al căruia este minimă.

După modificarea compoziției clusterului, centru nou gravitația, cel mai adesea ca vector de medii pentru fiecare parametru. Algoritmul continuă până când compoziția clusterelor încetează să se schimbe.

Când sunt obținute rezultatele clasificării, puteți calcula valoarea medie a indicatorilor pentru fiecare grup pentru a evalua modul în care diferă unul de celălalt.

La fereastră Rezultatele metodei K înseamnă alege ANOVA pentru a determina semnificația diferenței dintre clusterele rezultate.

Deci valoarea p<0.05, что говорит о значимом различии.

apasa butonul Cluster elemente și distanțe pentru a vizualiza observațiile incluse în fiecare dintre clustere. Opțiunea vă permite, de asemenea, să afișați distanțele euclidiene ale obiectelor față de centrele (valorile medii) ale clusterelor corespunzătoare.

Primul cluster:

Al doilea grup:

Al treilea cluster:

Al patrulea grup:

Deci, în fiecare dintre cele patru clustere există obiecte cu o influență similară asupra procesului de pierderi.

 

Ar putea fi util să citiți: