Clasificarea și analiza datelor

2. Către r și tsman V. A., Rosen B. Ya., D m și t și r în I. S. La secretele unei structuri de substanțe. - Liceul, 1983.

Descoperirile revoluționare în știința naturală au fost adesea făcute sub influența rezultatelor experimentelor stabilite de experimentatori talentați. Mari experimente în biologie, chimie și fizică au contribuit la schimbarea conceptului de lume în care trăim, a structurii materiei și a mecanismelor de transmitere a eredității. Pe baza rezultatelor unor mari experimente, au fost făcute alte descoperiri teoretice și tehnologice.

§ 9. Metode de cercetare teoretică

Lecție de lecție

Există lucruri mai importante în lume

cele mai frumoase descoperiri -

această cunoaștere a metodelor prin care

au fost făcuți

Leibniz

https://pandia.ru/text/78/355/images/image014_2.gif "alt \u003d" (! LANG: Semnătură :!" align="left" width="42 height=41" height="41">Метод. Классификация. Систематизация. Систематика. Индукция. Дедукция.!}

Observarea și descrierea fenomenelor fizice. Legile fizice. (Fizică, 7 - 9 celule.).

Ce este o metodă? . Metodăîn știință, ei numesc un mod de a construi cunoștințe, o formă de dezvoltare practică și teoretică a realității. Francis Bacon a comparat metoda cu o lampă care luminează drumul unui călător în întuneric: „Chiar și un șchiop care merge pe un drum este în fața cuiva care se duce fără drum.” O metodă aleasă corect ar trebui să fie clară, logică, să conducă la un obiectiv specific, să dea un rezultat. Doctrina sistemului de metode este numită metodologie.

Metodele de cunoaștere care sunt utilizate în activitatea științifică sunt empiric (metode practice, experimentale): observare, experiment și teoretic (metode logice, raționale): analiză, sinteză, comparaţie, clasificare, sistematizare, abstracție, generalizare, modelare, inducţie, deducere. În cunoștințele științifice reale, aceste metode sunt întotdeauna utilizate în unitate. De exemplu, atunci când dezvoltăm un experiment, este necesară o înțelegere teoretică preliminară a problemei, formularea unei ipoteze de cercetare, iar după experiment, este necesară prelucrarea rezultatelor folosind metode matematice. Luați în considerare caracteristicile unor metode teoretice de cunoaștere.

Clasificare și sistematizare. Clasificarea vă permite să organizați materialul studiat prin gruparea (clasa) obiectelor studiate în subseturi (subclase), în conformitate cu atributul selectat.

De exemplu, toți elevii școlii pot fi împărțiți în subclase - „fete” și „băieți”. Puteți alege un alt semn, cum ar fi creșterea. În acest caz, clasificarea se poate face în diferite moduri. De exemplu, pentru a distinge o graniță de înălțime de 160 cm și a clasifica elevii în subclase „joase” și „înalte” sau împărți scara de creștere în segmente de 10 cm, atunci clasificarea va fi mai detaliată. Dacă comparăm rezultatele acestei clasificări pe parcursul mai multor ani, acest lucru ne va permite să stabilim empiric tendințele în dezvoltarea fizică a elevilor. Prin urmare, clasificarea ca metodă poate fi utilizată pentru a obține noi cunoștințe și chiar servi ca bază pentru construirea de noi teorii științifice.

În știință, clasificările acelorași obiecte sunt de obicei utilizate în funcție de semne diferite, în funcție de obiective. Cu toate acestea, semnul (baza clasificării) este ales întotdeauna unul. De exemplu, chimiștii clasifică clasa „acid” în subclase atât din punct de vedere al gradului de disociere (puternic și slab), cât și în prezența oxigenului (care conține oxigen și fără oxigen), precum și în proprietăți fizice (volatile - nevolatile; solubile - insolubile) și în alte semne.

Clasificarea se poate schimba în timpul dezvoltării științei.

La mijlocul secolului xx. studiul diferitelor reacții nucleare a dus la descoperirea particulelor elementare (care nu sunt fisile). Inițial, acestea au început să fie clasificate în funcție de masă, astfel încât au apărut leptonele (mici), mezoanele (intermediare), barionii (mari) și hiperonii (super-mari). Dezvoltarea ulterioară a fizicii a arătat că clasificarea pe masă are un sens semnificativ fizic, cu toate acestea, termenii au fost păstrați, ca urmare a apariției leptonilor, care erau mult mai masivi decât barionii.

Clasificarea este reflectată în mod convenabil sub formă de tabele sau diagrame (grafice). De exemplu, clasificarea planetelor sistemului solar, reprezentată de o diagramă - un grafic, poate arăta astfel:

PLANETE MAJOR

SISTEM SOLAR

PLANETE GRUP GRUP

PLANETE - GANTE

PLUTON

MERCU-

VENE-

MARTE

JUPITER

SATURN

URANUS

Rețineți că planeta Pluto din această clasificare reprezintă o subclasă separată, nu aparține planetelor grupului pământesc și nici planetelor uriașe. Oamenii de știință remarcă faptul că Pluton este similar în proprietăți cu un asteroid, care poate fi multe pe periferia sistemului solar.

În studiul sistemelor complexe ale naturii, clasificarea este de fapt primul pas către construirea unei teorii natural-științifice. Următorul nivel superior este sistematizarea (taxonomia). Sistematizarea se bazează pe clasificarea unei cantități suficient de mari de material. În același timp, se disting cele mai importante caracteristici, permițând să reprezinte materialul acumulat ca un sistem în care sunt reflectate toate diferitele relații între obiecte. Este necesar în cazurile în care există o varietate de obiecte și obiectele în sine sunt sisteme complexe. Rezultatul sistematizării datelor științifice este taxonomie sau altceva - taxonomie. Sistematica ca domeniu al științei s-a dezvoltat în domenii de cunoaștere precum biologia, geologia, lingvistica, etnografia.

Unitatea de taxonomie se numește taxon. În biologie, taxonii sunt, de exemplu, tipul, clasa, familia, sexul, ordinea etc. Sunt combinate într-un singur sistem de taxoni de diferite ranguri, conform unui principiu ierarhic. Un astfel de sistem include o descriere a tuturor organismelor existente și anterior dispărute, află modalitățile de evoluție a acestora. Dacă oamenii de știință găsesc o nouă specie, atunci ei trebuie să-și confirme locul în sistemul general. Modificările pot fi aduse sistemului în sine, care rămâne în evoluție, dinamic. Sistematica facilitează navigarea în întreaga varietate de organisme - doar animalele cunosc aproximativ 1,5 milioane de specii, iar plantele - mai mult de 500 de mii de specii, fără a număra alte grupuri de organisme. Sistemul biologic modern reflectă legea Sf. Hilaire: „Întreaga diversitate a formelor de viață formează un sistem taxonomic natural format din grupuri ierarhice de taxoni de diferite ranguri.”

Inducție și deducție. Modul de cunoaștere, în care, pe baza sistematizării informațiilor acumulate - de la particular la general - face o concluzie despre regularitatea existentă, se numește inducție. Această metodă ca metodă de studiu a naturii a fost dezvoltată de filosoful englez F. Bacon. El a scris: „Este necesar să luăm cât mai multe cazuri - atât cele în care fenomenul investigat este prezent, cât și cele în care acesta este absent, dar unde se poate aștepta să se întâlnească; atunci trebuie să le aranjați metodic ... și să oferiți cea mai probabilă explicație; în sfârșit, încercați să verificați această explicație prin comparație suplimentară cu faptele. "

Gândire și imagine

Portretele lui F. Bacon și S. Holmes

De ce sunt localizate portretele eroului învățat și literar?

Inducția nu este singura cale de a obține cunoștințe științifice despre lume. Dacă fizica experimentală, chimia și biologia erau construite ca științe, în principal datorită inducției, atunci fizica teoretică, matematica modernă, în baza lor, aveau un sistem axiome - consecvent, speculativ, fiabil din punct de vedere al bunului simț și al nivelului de dezvoltare istorică a afirmațiilor științifice. Apoi, cunoașterea se poate construi pe aceste axiome prin deducerea inferențelor de la general la particular și trecând de la premisa la consecințe. Această metodă se numește deducție. A fost dezvoltat

René Descartes, filozof și om de știință francez.

Un exemplu izbitor de obținere a cunoștințelor despre un subiect în moduri diferite este descoperirea legilor mișcării corpurilor cerești. I. Kepler bazat pe o cantitate mare de date observaționale despre mișcarea planetei Marte la începutul secolului al XVII-lea. El a descoperit prin inducție legile empirice ale mișcării planetare în sistemul solar. La sfârșitul aceluiași secol, Newton a dedus în mod dedus legile generalizate ale mișcării corpurilor cerești pe baza legii gravitației universale.

În cercetarea reală, metodele de cercetare sunt interconectate.

1. ○ Explicați ce este o metodă de cercetare, o metodologie de științe naturale?

Toate aceste aproximări ar trebui să fie fundamentate și să fie estimate erori numerice introduse de fiecare dintre ele.

Dezvoltarea științei arată că fiecare lege natural-științifică are limitele aplicării sale. De exemplu, legile lui Newton nu sunt aplicabile în studiul proceselor microworld. Pentru a descrie aceste procese, sunt formulate legile teoriei cuantice, care devin echivalente cu legile lui Newton, dacă sunt aplicate pentru a descrie mișcarea corpurilor macroscopice. Din punct de vedere al modelării, aceasta înseamnă că legile lui Newton sunt un model care urmează cu anumite aproximări dintr-o teorie mai generală. Cu toate acestea, legile teoriei cuantice nu sunt absolute și au limitele lor în aplicabilitate. Au fost deja formulate legi mai generale și s-au obținut ecuații mai generale, care, la rândul lor, au și limitări. Și acest lanț nu are niciun sfârșit în vedere. Nu s-au obținut încă legi absolute care descriu tot ceea ce este în natură, din care s-ar putea deduce toate legile particulare. Și nu este clar dacă astfel de legi pot fi formulate. Dar asta înseamnă că oricare dintre legile științei este de fapt un model. Diferența față de acele modele care au fost luate în considerare în această secțiune este doar în faptul că legile științei naturale sunt un model care se aplică pentru a descrie nu un fenomen specific, ci pentru o clasă largă de fenomene.

Dispoziții derivate din pur
logic înseamnă atunci când se compară
cu realitatea sunt
complet gol.
A. Einstein

Cum să analizezi și să clasifici datele? De ce avem nevoie de grafice și diagrame?

Atelier

Obiectiv. Aflați cum puteți clasifica și analiza datele derivate din text.

Plan de muncă. 1. Analiza textului pentru a determina proprietățile esențiale ale subiectului menționat. 2. Structurarea conținutului textului pentru a distinge clasele de obiecte la care se face referire. 3. Înțelegeți rolul circuitelor logice, grafice, diagrame pentru înțelegerea materialului studiat, stabilirea conexiunilor logice, sistematizarea.

Analizați textul. Pentru a face acest lucru, trebuie să identificați mental subiectul din text - esențial. Selectați, împărțiți-o în părțile sale constitutive pentru a găsi elemente individuale, semne, laturi ale acestui subiect.

Ivan Kramskoy. D. I. Mendeleev

Celor portrete ale oamenilor de știință sistematizatori ați adăuga la această serie?

RETRAT DE LUMINI BALL. „Portretul fenomenului misterios al naturii - fulgerul cu bile a fost realizat de specialiști ai principalului observator geofizic numit A. I. Voyeykova, folosind serviciile de calculatoare și., Metode de criminalistică. „Fotobotul” unui străin misterios a fost compilat pe baza datelor publicate în presă de trei secole, rezultatele sondajelor de cercetare și rapoartele martorilor oculari din diferite țări.

Care dintre secrete le-a spus oamenilor de știință un cheag în creștere?

Cel mai mult îl observă în timpul furtunilor. În orice moment, au existat patru forme de fulgere cu bile: sferă, ovală, disc, tijă. Generarea de electricitate atmosferică a apărut în mod natural mai ales în aer. Cu toate acestea, conform sondajelor americane, cu frecvență egală, fulgerul poate fi văzut și așezându-se și pe diverse obiecte - stâlpi de telegraf, copaci, case. Dimensiunile uimitorului însoțitor al furtunilor sunt de la 15 la 40 cm. Trei sferturi de martori oculari au urmărit bile strălucitoare de roșu, galben și roz.

Viața unui cheag electric cu plasmă este cu adevărat molie, de obicei în cinci secunde. Mai mult decât această perioadă, dar nu mai mult de 30 de secunde, până la 36% dintre martorii oculari au văzut-o. Aproape întotdeauna, moartea ei a fost aceeași - a explodat spontan, lovind uneori în diverse obstacole. „Portretele colective” realizate de observatorii diferitelor timpuri și popoare au coincis. "

Dacă, după citirea textului, ai reușit să răspunzi la întrebările despre ceea ce spune textul, care sunt principalele caracteristici, elemente, laturi, proprietăți ale subiectului raționamentului, atunci l-ai analizat. În acest caz, subiectul, conținutul principal al textului este ideea fulgerului cu bile. Proprietățile fulgerului cu bile sunt aspectul său: mărimea, forma, culoarea, precum și durata de viață, comportamentul.

Pe baza analizei textului, determinați structura logică a acestuia. Sugerați forme de colaborare cu acest text pentru asimilarea, memorarea, utilizarea acestuia ca material interesant, neobișnuit în viitoarea dvs. activitate academică - în discuții, discursuri.

ALUZIE. Puteți întocmi un plan pentru acest text, sinopsisul său, tezele (generalizări și concluzii pe care le considerați principalele gânduri ale textului). Este util să evidențiați ce este nou pentru dvs., necunoscut în material. Puteți face, de asemenea, o diagramă logică a materialului. Pentru a face acest lucru, după analizarea textului, evidențiați informațiile care vă sunt relevante, încercați să-l combinați în grupuri și să afișați conexiunile dintre aceste grupuri.

Utilizarea de tabele, grafice, diagrame ne ajută să sistematizăm atunci când studiem subiecte de știință naturală. Să avem la dispoziție date cu privire la temperaturile medii lunare zilnice pentru un an pentru Sankt Petersburg și Sochi. Pentru a identifica orice tipare, este necesară analiza și sistematizarea acestui material.

Imaginează-ți un set diferit de date sub forma unui tabel, apoi sub forma unui grafic și a unei diagrame (Fig. 5, 6). Găsiți tiparele în distribuția temperaturii. Raspunde la intrebari:

  1. Care sunt caracteristicile distribuției temperaturilor pe lună în diferite orașe? Cum diferă aceste distribuții?
  2. Care este motivul proceselor care duc la o astfel de distribuție?
  3. Sistematizarea materialului cu ajutorul unui grafic sau grafic v-a ajutat să finalizați sarcina?

Temperaturile medii lunare zilnice pentru un an pentru Sankt Petersburg și Sochi

Fig. 5. Programul temperaturilor medii lunare zilnice pentru un an pentru Sankt Petersburg și Sochi

Fig. 6. Grafic: temperaturi medii lunare pe zi pentru un an în orașele din Sankt Petersburg și Sochi

Pași importanți pentru stăpânirea metodelor cunoștințelor științifice sunt:

  1. Analiza textului logic.
  2. Elaborarea unui plan, scheme, alocarea structurii materialelor.
  3. Rezumarea textului sau scrierea rezumatelor.
  4. Evidențierea noilor cunoștințe și utilizarea acesteia în discuții, discursuri, în rezolvarea de noi probleme, probleme.

Literatură pentru lectură suplimentară

  1. Einstein A. Fără formule / A. Einstein; comp. K. Kedrov; pe. din engleza - M .: Gândul. 2003.
  2. Metodologia științei și progresul științific. - Novosibirsk: Știință. 1981.
  3. Feyrabend P. Lucrări selectate privind metodologia științei / P. Feyrabend. - M .: Progres, 1986

Anul trecut, Avito a organizat o serie de competiții. Inclusiv - o competiție pentru recunoașterea mărcilor de mașini, a cărei câștigătoare, Evgeny Nizhibitsky, a vorbit despre decizia sa în timpul antrenamentului.


Formularea problemei. Din imaginile mașinilor, este necesar să se stabilească marca și modelul. Metrica a fost precizia previziunilor, adică proporția de răspunsuri corecte. Eșantionul a fost format din trei părți: prima parte a fost disponibilă pentru instruire inițial, a doua a fost dată mai târziu, iar a treia necesară pentru a arăta predicțiile finale.


Resurse de calcul. Am profitat de computerul de acasă, care îmi încălzea camera în tot acest timp și de serverele furnizate la locul de muncă.

Prezentare generală a modelului. Deoarece sarcina noastră este recunoașterea, primul lucru de care dorim să profităm este progresul nivelului calității clasificării imaginilor pe cunoscutul ImageNet. După cum știți, arhitectura modernă poate obține o calitate chiar mai ridicată decât cea a omului. Așa că am început cu o trecere în revistă a articolelor recente și am pregătit un tabel sumar al arhitecturilor, implementărilor și calităților bazate pe ImageNet.


Rețineți că cea mai bună calitate este obținută pe arhitecturi.

Rețele de reglare fină. Formarea unei rețele neuronale profunde de la zero este o sarcină care necesită mult timp și nu este întotdeauna eficientă în ceea ce privește rezultatele. Prin urmare, se folosește adesea tehnica de retratare a rețelei: este preluată o rețea deja antrenată pe ImageNet, ultimul strat este înlocuit cu un strat cu numărul necesar de clase, iar apoi rețeaua continuă să fie configurată cu o rată de învățare scăzută, dar folosind date din concurență. Această schemă vă permite să antrenați rețeaua mai repede și cu o calitate superioară.

Prima abordare de recalificare GoogLeNet a arătat o precizie de aproximativ 92% în timpul validării.

Preziceri de recoltă. Utilizarea unei rețele neuronale pentru a prezice pe un eșantion de testare poate îmbunătăți calitatea. Pentru a face acest lucru, tăiați fragmente cu o dimensiune adecvată în diferite locuri ale imaginii originale, apoi medieți rezultatele. O recoltă de 1x10 înseamnă că centrul imaginii este luat, patru colțuri, apoi totul este la fel, dar reflectat pe orizontală. După cum puteți vedea, calitatea crește, dar timpul de predicție este în creștere.

Validarea rezultatelor. După apariția celei de-a doua părți a probei, am împărțit proba în mai multe părți. Toate rezultatele ulterioare sunt afișate în această partiție.

ResNet-34 Torch. Puteți utiliza depozitul gata de autori de arhitectură, dar pentru a obține predicțiile la test în formatul potrivit, trebuie să repariți câteva scripturi. În plus, trebuie să rezolvați problemele consumului ridicat de memorie din depozitele de gunoi. Precizia validării este de aproximativ 95%.


Inception-v3 TensorFlow. Aici a fost utilizată și o implementare gata pregătită, dar preprocesarea imaginii a fost modificată, iar decuparea imaginilor a fost limitată și la generarea lotului. Rezultatul este o precizie de aproape 96%.


Ansamblu de modele. Rezultatul este două modele ResNet și două modele Inception-v3. Ce calitate în timpul validării poate fi obținută prin amestecarea modelelor? Probabilitățile de clasă au fost mediate folosind o medie geometrică. Ponderile (în acest caz, grade) au fost selectate pe un eșantion în așteptare.


rezultate. Antrenamentul ResNet pe GTX 980 a durat 60 de ore, în timp ce Inception-v3 pe TitanX a durat 48 de ore. În cadrul concursului, am reușit să încercăm cadre noi cu arhitecturi noi.


Sarcina de a clasifica clienții băncii

Link către Kaggle.

Stanislav Semenov povestește cum el și alți participanți la topul Kaggle s-au unit și au câștigat un premiu în competiția pentru clasificarea cererilor de la clienții unei bănci mari - BNP Paribas.


Formularea problemei. Conform datelor ofuscate din aplicațiile de asigurare, este necesar să se prevadă dacă solicitarea poate fi confirmată fără verificări manuale suplimentare. Pentru bancă, acesta este procesul de automatizare a procesării cererilor, iar pentru analiștii de date, este pur și simplu o sarcină de învățare automată conform clasificării binare. Există aproximativ 230 de mii de obiecte și 130 de semne. Metric - LogLoss. De remarcat este faptul că echipa câștigătoare a decriptat datele, ceea ce i-a ajutat să câștige competiția.

Scăparea zgomotului artificial în semne. Primul lucru de făcut este să te uiți la date. Câteva lucruri sunt aparente imediat. În primul rând, toate semnele iau valori de la 0 la 20. În al doilea rând, dacă priviți distribuția oricăruia dintre semne, puteți vedea următoarea imagine:

De ce este asta? Cert este că, în stadiul de anonimizare și de zgomot, s-a adăugat zgomot la întâmplare la toate valorile, apoi s-a efectuat scalarea pentru un segment de la 0 la 20. Transformarea inversă a fost realizată în două etape: mai întâi, valorile au fost rotunjite la un anumit zecimal, apoi a fost selectat un numitor . Acest lucru a fost necesar dacă arborele mai ridică un prag la despicare? Da, după transformarea inversă, diferențele dintre variabile încep să aibă mai mult sens, iar pentru variabilele categorice devine posibilă efectuarea unei codări unice.

Înlăturarea caracteristicilor liniar dependente. Am observat, de asemenea, că unele semne sunt suma altora. Este clar că nu sunt necesare. Pentru determinarea lor, au fost prelevate subseturi de caracteristici. Regresia a fost construită pe astfel de subseturi pentru a prezice o altă variabilă. Și dacă valorile preconizate au fost apropiate de adevărat (merită luat în considerare zgomotul artificial), atunci semnul ar putea fi eliminat. Dar echipa nu s-a deranjat de acest lucru și a profitat de setul gata de atribute filtrate. Trusa a fost pregătită de altcineva. Una dintre caracteristicile Kaggle este prezența unui forum și a soluțiilor publice prin care participanții își împărtășesc concluziile.

Cum să înțelegeți ce să folosiți? Există un mic hack. Să presupunem că știți că cineva la unele competiții vechi a folosit o tehnică care l-a ajutat să ocupe un loc înalt (deciziile scurte sunt de obicei scrise pe forumuri). Dacă în competiția actuală, acest participant se află din nou printre lideri - cel mai probabil, aceeași tehnică va filma aici.

Codarea variabilelor categorice. A fost izbitor faptul că o anumită variabilă V22 are un număr mare de valori, dar, în același timp, dacă luăm un subsemplu de o anumită valoare, numărul de niveluri (diverse valori) ale altor variabile scade semnificativ. În special, există o corelație bună cu variabila țintă. Ce se poate face? Cea mai simplă soluție este să construiți un model separat pentru fiecare valoare V22, dar aceasta este aceeași cu împărțirea tuturor valorilor variabilei în prima împărțire a arborelui.

Există un alt mod de a utiliza informațiile obținute - codificarea valorii medii a variabilei țintă. Cu alte cuvinte, fiecare valoare a variabilei categorice este înlocuită cu valoarea medie a țintei pentru obiectele pentru care acest atribut ia aceeași valoare. Este imposibil să faceți o astfel de codificare direct pentru întregul set de instruire: în acest proces, implicit introducem informații despre variabila țintă în atribute. Vorbim despre informații pe care aproape orice model le va detecta în mod necesar.

Prin urmare, astfel de statistici sunt considerate pentru falduri. Iată un exemplu:

Să presupunem că datele sunt împărțite în trei părți. Pentru fiecare dublu al eșantionului de antrenament, vom lua în considerare o caracteristică nouă pentru celelalte două falduri și pentru proba de testare pentru întregul set de antrenament. Apoi, informațiile despre variabila țintă nu vor fi introduse în eșantion atât de explicit, iar modelul va putea folosi cunoștințele dobândite.

Vor fi probleme cu altceva? Da - cu categorii rare și validare încrucișată.

Categorii rare. Să presupunem că o anumită categorie apare doar de câteva ori, iar obiectele corespunzătoare aparțin clasei 0. Atunci valoarea medie a variabilei țintă va fi, de asemenea, zero. Cu toate acestea, în eșantionul de testare poate apărea o situație complet diferită. Soluția este o medie netezită (sau o probabilitate redusă), care este calculată după următoarea formulă:

Aici media globală este valoarea medie a variabilei țintă pe întregul eșantion, nrows este numărul de ori în care a fost întâlnită o anumită valoare a variabilei categorice, alfa este parametrul de regularizare (de exemplu, 10). Acum, dacă o anumită valoare este rară, media globală va avea mai multă greutate și, dacă este suficient de des, rezultatul va fi aproape de media inițială a categoriei. Apropo, această formulă vă permite, de asemenea, să procesați valorile necunoscute anterior ale unei variabile categorice.

Validare încrucișată. Să presupunem că am calculat toate mediile netezite pentru variabilele categorice pentru alte falduri. Putem evalua calitatea modelului prin k-fold-ul de validare încrucișată standard? Nu. Să ne uităm la un exemplu.

De exemplu, dorim să evaluăm modelul pe a treia oară. Formăm modelul pe primele două falduri, dar ele au o nouă variabilă cu valoarea medie a variabilei țintă, în calculul pe care l-am folosit deja al treilea dublu de testare. Acest lucru nu ne permite să evaluăm corect rezultatele, dar problema apărută se rezolvă prin numărarea statisticilor pe pliurile din interiorul faldurilor. Să ne uităm din nou la un exemplu:

Încă vrem să evaluăm modelul pe a treia oară. Împărțim primele două falduri (eșantionul de formare al estimării noastre) în alte trei falduri, în ele calculăm noul semn în funcție de scenariul deja analizat, iar pentru cel de-al treilea rând (acesta este eșantionul de testare al estimării noastre) calculăm primele două ori. Apoi, nu se vor folosi nicio informație din al treilea rând atunci când se antrenează modelul și evaluarea va fi sinceră. În competiția pe care o discutăm, numai o asemenea validare încrucișată a permis evaluarea corectă a calității modelului. Desigur, numărul de „pliuri” externe și „interne” poate fi orice.

Caracterizare. Am utilizat nu numai valorile medii netezite menționate anterior ale variabilei țintă, ci și ponderile dovezilor. Acest lucru este aproape același, dar cu o conversie logaritmică. În plus, caracteristicile formei diferenței de număr de obiecte din clase pozitive și negative dintr-un grup, fără nicio normalizare, s-au dovedit utile. Intuiția este următoarea: scala arată gradul de încredere în clasă, dar ce trebuie făcut cu atributele cantitative? Într-adevăr, dacă sunt procesate într-un mod similar, toate valorile vor fi „înfundate” cu regularizarea mediei globale. O opțiune este divizarea valorilor în coșuri, care sunt considerate apoi categorii separate. Un alt mod este pur și simplu să construiți un anumit model liniar pe același semn cu aceeași țintă. În total, aproximativ două mii de semne din cele 80 filtrate s-au dovedit.

Stivuirea și amestecarea. Ca și în majoritatea competițiilor, o parte importantă a soluției este stivuirea modelelor. Pe scurt, esența stivuirii este că transferăm predicțiile unui model ca semn la alt model. Cu toate acestea, este important să nu reîncercare. Să luăm doar un exemplu:


Adaptat de pe blogul lui Alexander Dyakonov

De exemplu, am decis să împărțim eșantionul în trei falduri în faza de stivuire Similar cu statisticile, trebuie să instruim modelul pe două falduri și să adăugăm valorile previzionate pentru restul de pliere. Pentru proba de test, putem media previziunile modelului din fiecare pereche de pliuri. Fiecare nivel de stivuire este procesul de adăugare a unui grup de noi caracteristici-predicții de modele bazate pe setul de date existent.

La primul nivel, echipa a avut 200-250 de modele diferite, la al doilea - alte 20-30, la al treilea - încă câteva. Rezultatul este amestecarea, adică amestecarea predicțiilor diferitelor modele. S-au folosit o varietate de algoritmi: creșterea gradientului cu parametri diferiți, păduri aleatorii, rețele neuronale. Ideea principală este să aplici cele mai diverse modele cu diverși parametri, chiar dacă nu dau cea mai înaltă calitate.

lucru in echipa. De obicei, participanții se alătură echipelor înainte de sfârșitul competiției, când fiecare are deja propriile realizări. Am făcut echipă cu alți Keglers chiar de la început. Fiecare membru al echipei avea un folder în cloud-ul comun, care găzduia seturi de date și scripturi. Procedura generală de validare încrucișată a fost aprobată în avans pentru a putea fi comparată între ele. Rolurile au fost distribuite după cum urmează: Am venit cu semne noi, al doilea participant a construit modele, al treilea - le-a selectat, iar al patrulea a controlat întregul proces.

Unde să obții putere. Testarea unui număr mare de ipoteze, construirea de modele de stivuire și formare pe mai multe niveluri poate dura prea mult dacă utilizați un laptop. Prin urmare, mulți participanți folosesc servere de calcul cu un număr mare de nuclee și memorie RAM. De obicei folosesc servere AWS, iar membrii echipei mele, după cum s-a dovedit, folosesc utilaje la lucru pentru competiții în timp ce sunt inactivi.

Comunicarea cu compania organizatoare. După o performanță de succes în competiție, comunicarea cu compania are loc sub forma unui apel de conferință comun. Participanții vorbesc despre decizia lor și răspund la întrebări. În BNP, oamenii nu au fost surprinși de stivuirea pe mai multe niveluri, dar erau interesați, desigur, de construirea atributelor, de a lucra în echipă, de a valida rezultatele - tot ceea ce le-ar putea fi utile în îmbunătățirea propriului sistem.

Trebuie să decriptez setul de date. Echipa câștigătoare a observat o caracteristică în date. Unele caracteristici au valori lipsă, iar altele nu. Adică unele caracteristici nu depindeau de persoane specifice. În plus, au fost obținute 360 \u200b\u200bde valori unice. Este logic să presupunem că vorbim despre anumite timbre de timp. S-a dovedit că dacă luăm diferența între două astfel de semne și sortăm întregul eșantion după acesta, atunci primele zerouri vor merge mai des, apoi unitățile. De asta au profitat câștigătorii.

Echipa noastră a ocupat locul trei. În total, au participat aproape trei mii de echipe.

Sarcina de recunoaștere a categoriei de anunțuri

Link către DataRing.

Acesta este un alt concurs Avito. El a trecut prin mai multe etape, dintre care prima (ca, totuși, și a treia) a fost câștigată de Arthur Kuzin.


Formularea problemei. Din fotografiile din anunț, trebuie să determinați categoria. Fiecare anunț a corespuns la una până la cinci imagini. Metrica a ținut cont de coincidența categoriilor la diferite niveluri ale ierarhiei - de la general la mai restrâns (ultimul nivel conține 194 de categorii). În total, au existat aproape un milion de imagini în setul de antrenament, care este aproape de dimensiunea ImageNet.


Dificultăți de recunoaștere. S-ar părea că trebuie doar să înveți cum să distingi un televizor de o mașină și o mașină de pantofi. Dar, de exemplu, există categoria „pisici britanice” și există „alte pisici”, iar printre ele există imagini foarte asemănătoare - deși încă le puteți distinge unele de altele. Dar anvelopele, roțile și roțile? Aici, omul nu poate face față. Dificultatile indicate sunt motivul aparitiei unei anumite limite a rezultatelor tuturor participantilor.


Resurse și cadru. Aveam la dispoziție trei computere cu plăci grafice puternice: un computer de acasă furnizat de laboratorul de la MIPT și un computer la locul de muncă. Prin urmare, a fost posibil (și a trebuit) să antreneze mai multe rețele simultan. MXNet a fost ales ca principal cadru de formare a rețelelor neuronale, creat de aceiași tipi care au scris cunoscutul XGBoost. Numai asta a servit ca ocazie pentru a avea încredere în noul lor produs. Avantajul MXNet este că un iterator eficient cu mărire standard este disponibil chiar din cutie, ceea ce este suficient pentru majoritatea sarcinilor.


Arhitectură de rețea. Experiența participării la una dintre competițiile anterioare a arătat că arhitecturile din seria Inception arată cea mai bună calitate. Le-am folosit aici. GoogLeNet a fost adăugat pe măsură ce a accelerat pregătirea modelelor. De asemenea, au fost utilizate arhitecturile Inception-v3 și Inception BN din biblioteca de modele Zoo Model, la care a fost adăugat un abandon înainte de ultimul strat complet conectat. Din cauza problemelor tehnice, nu a fost posibilă instruirea rețelei folosind descendență de gradient stocastic, astfel încât Adam a fost folosit ca un optimizator.



Mărirea datelor. Pentru a îmbunătăți calitatea rețelei, s-a utilizat o marire - adăugarea de imagini distorsionate la eșantion pentru a crește varietatea de date. Au fost implicate transformări, cum ar fi tăierea accidentală a unei fotografii, reflectarea, rotirea unui unghi mic, schimbarea raportului de aspect și schimbarea.

Precizia și viteza antrenamentului. La început am împărțit proba în trei părți, dar apoi am abandonat unul dintre pașii de validare pentru amestecarea modelelor. Prin urmare, ulterior, a doua parte a eșantionului a fost adăugată la setul de instruire, care a îmbunătățit calitatea rețelelor. În plus, GoogLeNet a fost inițial instruit pe Titan Black, care are jumătate din memorie în comparație cu Titan X. Deci, această rețea a fost recondiționată cu o dimensiune mare a lotului, iar precizia acesteia a crescut. Dacă te uiți la timpul de pregătire pentru rețele, putem concluziona că în condițiile unui timp limitat, nu ar trebui să folosești Inception-v3, deoarece cu alte două arhitecturi, instruirea este mult mai rapidă. Motivul este numărul de parametri. Incepția BN este cel mai rapid de învățat.

Făcând predicții.

La fel ca Eugene în competiția cu mărci de mașini, Arthur a folosit predicții despre recoltă - nu în 10 secțiuni, ci în 24. Secțiunile erau colțuri, reflectările lor, centrul, rotațiile părților centrale și încă zece altele.

Dacă mențineți starea rețelei după fiecare epocă, rezultatul este o mulțime de modele diferite și nu doar rețeaua finală. Având în vedere timpul rămas până la sfârșitul competiției, aș putea folosi predicțiile a 11 modele-eras - deoarece previziunile de construire folosind rețeaua durează foarte mult. Toate aceste predicții au fost mediate în conformitate cu următoarea schemă: mai întâi, folosind media aritmetică în cadrul grupurilor de culturi, apoi folosind media geometrică cu greutățile selectate pe setul de validare. Aceste trei grupuri sunt amestecate, apoi repetați operația pentru toate perioadele. La sfârșit, sunt mediate probabilitățile de clasă ale tuturor imaginilor dintr-un singur anunț folosind media geometrică fără greutăți.


rezultate. La selectarea greutăților în stadiul de validare, s-a utilizat metrica de concurență, deoarece nu s-a corelat prea mult cu precizia obișnuită. Predicția în diferite părți ale imaginilor oferă doar o mică parte din calitate comparativ cu o singură predicție, dar se datorează acestei creșteri că este posibil să se arate cel mai bun rezultat. La sfârșitul competiției, s-a dovedit că primele trei locuri diferă în rezultate cu mii. De exemplu, Zhenya Nizhibitsky a avut singurul model care a fost destul de inferior ansamblului meu de modele.


Învățarea de la zero vs. reglaj fin. Deja după finalizarea concursului, s-a dovedit că, în ciuda mărimii mari a eșantionului, a meritat să instruiți rețeaua nu de la zero, ci folosind o rețea pre-instruită. Această abordare demonstrează rezultate mai bune.

Sarcina de învățare a consolidării

Competiția Black Box Challenge, despre care nu era deloc o „vultur” obișnuită. Cert este că, pentru soluție, nu a fost suficient să marcați un eșantion de „test”. I s-a solicitat programarea și încărcarea în sistem a codului „agentului”, care a fost plasat într-un mediu necunoscut de participant și luat în mod independent decizii în el. Astfel de sarcini se referă la domeniul învățării de consolidare.

Mikhail Pavlov din 5vision a vorbit despre abordări ale soluției. În competiție, a ocupat locul doi.


Formularea problemei. Pentru un mediu cu reguli necunoscute, a trebuit să scrieți un „agent” care a interacționat cu mediul specificat. Schematic, acesta este un creier care primește informații despre o stare și o recompensă dintr-o cutie neagră, ia o decizie despre o acțiune, apoi primește o nouă stare și o recompensă pentru o acțiune comisă. Acțiunile se repetă una după alta în timpul jocului. Starea curentă este descrisă de un vector cu 36 de numere. Un agent poate face patru lucruri. Scopul este de a maximiza cantitatea de recompense pentru întregul joc.


Analiza mediului. Un studiu al distribuției variabilelor de stare de mediu a arătat că primele 35 de componente sunt independente de acțiunea selectată și doar cea de-a 36-a componentă se schimbă în funcție de aceasta. Mai mult, diferite acțiuni au influențat în moduri diferite: unele au crescut sau au scăzut, altele nu s-au schimbat în niciun fel. Dar nu se poate spune că întregul mediu depinde de o componentă: poate conține unele variabile ascunse. În plus, experimentul a arătat că dacă efectuați peste 100 de acțiuni identice la rând, recompensa devine negativă. Deci strategiile de tipul „efectuează o singură acțiune” au căzut imediat. Cineva de la concurs a remarcat că premiul este proporțional cu aceeași a 36-a componentă. Forumul a sugerat că caseta neagră imită piața financiară, unde portofoliul este a 36-a componentă, iar acțiunile sunt cumpărarea, vânzarea și decizia de a nu face nimic. Aceste opțiuni au fost corelate cu o modificare a portofoliului, dar semnificația unei acțiuni nu a fost clară.


Q-learning. Pe parcursul participării, obiectivul principal a fost încercarea diverselor tehnici de antrenament de întărire. Una dintre cele mai simple și cunoscute metode este q-learning. Esența sa este în încercarea de a construi o funcție Q, care depinde de starea și acțiunea selectată. Q evaluează cât de „bun” este alegerea unei acțiuni specifice într-o anumită stare. Conceptul de „bun” include un premiu pe care îl vom primi nu numai acum, ci și în viitor. Învățarea unei astfel de funcții este iterativă. În timpul fiecărei iterații, încercăm să apropiem funcția de noi înșine la următorul pas al jocului, ținând cont de premiul primit acum. Mai multe detalii pot fi citite. Utilizarea q-learning implică lucrul cu procese Markov complet observabile (cu alte cuvinte, toate informațiile din mediu ar trebui să fie conținute în starea actuală). În ciuda faptului că mediul, potrivit organizatorilor, nu a satisfăcut această cerință, învățarea q ar putea fi folosită destul de cu succes.

Adaptare la cutie neagră. S-a stabilit experimental că învățarea n-pas q a fost cea mai potrivită pentru mediu, unde recompensa a fost folosită nu pentru o ultimă acțiune, ci pentru n acțiuni înainte. Mediul a făcut posibilă salvarea stării actuale și rularea înapoi la acesta, ceea ce a facilitat colectarea eșantioanelor - a fost posibil să încercați să efectuați fiecare acțiune dintr-o singură stare și nu doar una. La începutul antrenamentului, când funcția q nu a fost încă în măsură să evalueze acțiunile, a fost utilizată strategia „efectuați acțiunea 3”. S-a presupus că nu a schimbat nimic și se poate începe să învețe din date fără zgomot.

Proces de invatare. Instruirea s-a desfășurat după cum urmează: cu politica actuală (strategia agentului), jucăm întregul episod, acumulând eșantionul, apoi cu ajutorul eșantionului obținut actualizăm funcția q și așa mai departe - secvența se repetă pentru o serie de erori. Rezultatele au fost mai bune decât la actualizarea funcției q în timpul jocului. Alte metode - tehnica de memorie a redării (cu o bancă de date comună pentru antrenament unde sunt înregistrate noi episoade ale jocului) și antrenarea simultană a mai multor agenți care joacă asincron - s-au dovedit, de asemenea, mai puțin eficienți.

modele. În soluție au fost utilizate trei regresii (fiecare o dată pentru fiecare acțiune) și două rețele neuronale. Au fost adăugate câteva caracteristici și interacțiuni patratice. Modelul final este un amestec dintre toate cele cinci modele (cinci funcții Q) cu greutăți egale. În plus, s-a utilizat recalificarea online: în timpul testării, ponderile vechilor regresii au fost amestecate cu noile greutăți obținute din eșantionul de testare. Acest lucru a fost făcut numai pentru regresii, deoarece soluțiile lor pot fi scrise analitic și numărate suficient de repede.


Alte idei. Desigur, nu toate ideile au îmbunătățit rezultatul final. De exemplu, reducerea recompensei (atunci când nu maximizăm doar recompensa totală, ci considerăm că fiecare mișcare următoare este mai puțin utilă), rețelele profunde, arhitectura duelului (cu o evaluare a utilității statului și a fiecărei acțiuni separat) nu a crescut rezultatele. Din cauza problemelor tehnice, nu a fost posibilă utilizarea rețelelor recurente - deși într-un ansamblu cu alte modele, acestea ar oferi probabil un anumit beneficiu.


rezumat. Echipa 5vision a ocupat locul doi, dar cu o marjă foarte mică din partea proprietarilor „bronzului”.


Deci, de ce trebuie să participați la competiții de analiză a datelor?

  • Premiile Performanțele de succes în majoritatea competițiilor sunt răsplătite cu premii în bani sau alte cadouri valoroase. Peste șapte milioane de dolari s-au jucat la Kaggle în șapte ani.
  • Carieră. Uneori un premiu.
  • Experienţă. Acesta este, desigur, cel mai important lucru. Puteți explora o nouă zonă și puteți începe să rezolvați probleme pe care nu le-ați întâlnit până acum.

Ședințele de învățare automată sunt acum sâmbătă în fiecare a doua săptămână. Locul de desfășurare - biroul Yandex din Moscova, numărul standard de invitați (oaspeți plus Yandexoids) - 60-80 de persoane. Proprietatea principală a antrenamentului este actualitatea lor: de fiecare dată când este examinată o competiție, care s-a încheiat în urmă cu una sau două săptămâni. Acest lucru face dificil să planifici totul cu exactitate, dar competiția este încă proaspătă în memorie și o mulțime de oameni se adună în sală care au încercat mâna la ea. Emil Kayumov supraveghează instruirea, care, întâmplător, a ajutat la redactarea acestei postări.

În plus, există un alt format: interdicții, unde specialiștii începători participă în comun la competiții în desfășurare. Tăierile sunt organizate sâmbătă, când nu există antrenamente. Orice eveniment poate veni la evenimente de ambele tipuri; anunțurile sunt publicate în grupuri

De fapt, extragerea datelor este prelucrarea informațiilor și identificarea tiparelor și tendințelor în acestea care ajută la luarea deciziilor. Principiile mineritului de date sunt cunoscuți de mai mulți ani, dar odată cu apariția date mare ele sunt și mai răspândite.

Datele mari au condus la o creștere explozivă a popularității metodelor mai extinse de extragere a datelor, în parte pentru că există mult mai multe informații și, prin natura și conținutul acesteia, devine din ce în ce mai diversă și mai extinsă. Când lucrați cu seturi de date mari, statisticile relativ simple și simple nu mai sunt suficiente. Cu 30 sau 40 de milioane de înregistrări de achiziții detaliate, nu este suficient să știm că două milioane dintre ele sunt făcute în același loc. Pentru a răspunde mai bine nevoilor clienților, este necesar să înțelegem dacă aceste două milioane aparțin unei anumite grupe de vârstă și să le cunoaștem câștigurile medii.

Aceste cerințe de afaceri au condus de la o simplă exploatare a datelor și analize statistice până la extragerea de date mai sofisticată. Pentru a rezolva problemele de afaceri, este necesară o astfel de analiză a datelor care vă permite să construiți un model pentru descrierea informațiilor și, în final, să conducă la crearea unui raport rezultat. Acest proces ilustrează.

Figura 1. Schema procesului

Procesul de analiză a datelor, căutare și construirea unui model este adesea iterativ, deoarece trebuie să găsiți și să identificați diverse informații care pot fi extrase. De asemenea, trebuie să înțelegeți cum să le conectați, să le transformați și să le combinați cu alte date pentru a obține un rezultat. După descoperirea de noi elemente și aspecte ale datelor, abordarea identificării surselor și formatelor de date cu potrivirea ulterioară a acestor informații cu un rezultat dat se poate schimba.

Instrumente de extragere a datelor

Minerirea datelor nu este folosită doar de instrumente de baze de date sau software. Exploatarea datelor poate fi realizată cu sisteme de baze de date relativ modeste și instrumente simple, inclusiv crearea propriei dvs. sau utilizarea pachetelor software off-the-raft. Exploatarea sofisticată de date se bazează pe experiența trecută și algoritmi definiți folosind software-ul și pachetele existente și diferite instrumente specializate sunt asociate cu diverse metode.

De exemplu, IBM SPSS®, care este înrădăcinată în analize statistice și sondaje, vă permite să construiți modele predictive eficiente bazate pe tendințele trecute și să oferiți previziuni exacte. IBM InfoSphere® Warehouse furnizează căutarea sursei de date, preprocesarea și extragerea datelor într-un singur pachet, permițându-vă să extrageți informații din baza de date sursă direct în raportul final.

Recent, a devenit posibil să lucreze cu seturi de date foarte mari și procesare de date pe cluster / la scară largă, ceea ce face posibilă generalizări și mai complexe ale rezultatelor extragerii datelor pe grupe și comparații de date. Astăzi, există o gamă complet nouă de instrumente și sisteme, inclusiv sisteme combinate de stocare și procesare.

Puteți analiza o varietate de seturi de date, inclusiv baze de date tradiționale SQL, date text brute, seturi de chei / valori și baze de date de documente. Bazele de date de cluster, precum Hadoop, Cassandra, CouchDB și Couchbase Server, stochează și oferă acces la date în moduri care nu sunt în concordanță cu structura tradițională a tabelelor.

În special, un format mai flexibil pentru stocarea unei baze de date de documente oferă procesării informațiilor un accent nou și îl complică. Bazele de date SQL reglementează strict structura și respectă strict schema, ceea ce simplifică interogarea și analizarea datelor cu un format și o structură cunoscute.

Bazele de date de documente care se conformează unei structuri standard asemănătoare JSON, sau fișierelor cu o structură care poate fi citită de mașini, sunt, de asemenea, ușor de procesat, deși acest lucru poate fi complicat printr-o structură diversă și schimbătoare. De exemplu, în Hadoop, care procesează date complet brute, poate fi dificil de identificat și extras informația înainte de a putea fi procesată și comparată.

Metode principale

Mai multe metode de bază care sunt utilizate pentru extragerea datelor descriu tipul de analiză și operațiunea de recuperare a datelor. Din păcate, companii și soluții diferite nu folosesc întotdeauna aceiași termeni, ceea ce poate agrava confuzia și complexitatea aparentă.

Să ne uităm la câteva metode și exemple cheie despre modul de utilizare a anumitor instrumente pentru extragerea datelor.

Asociere

O asociere (sau o atitudine) este probabil cea mai faimoasă, familiară și simplă metodă de exploatare a datelor. Pentru identificarea tiparelor, se face o comparație simplă a două sau mai multe elemente, adesea de același tip. De exemplu, urmărindu-ți obiceiurile de cumpărare, poți observa că crema este de obicei cumpărată cu căpșuni.

Crearea instrumentelor de extragere a datelor din asociații sau relații este ușoară. De exemplu, InfoSphere Warehouse are un asistent care furnizează configurații ale fluxurilor de informații pentru crearea de asociații, examinarea sursei de informații de intrare, baza luării deciziilor și informațiile de ieșire. Este prezentat exemplul corespunzător pentru o bază de date de probă.

Figura 2. Fluxul de informații utilizat în abordarea de asociere

Clasificare

Clasificarea poate fi utilizată pentru a vă face o idee despre tipul de client, produs sau articol, prin descrierea mai multor atribute pentru identificarea unei anumite clase. De exemplu, mașinile pot fi ușor clasificate în funcție de tip (sedan, SUV, convertibile), prin definirea diverselor atribute (număr de scaune, forma corpului, roți de antrenare). Studiind o mașină nouă, puteți să o atribuiți unei anumite clase, comparând atribute cu o definiție binecunoscută. Aceleași principii pot fi aplicate clienților, de exemplu, clasificarea lor în funcție de vârstă și grup social.

În plus, clasificarea poate fi utilizată ca input la alte metode. De exemplu, arborii de decizie pot fi folosiți pentru a defini clasificarea. Clusteringul permite utilizarea atributelor comune ale diverselor clasificări pentru a identifica clustere.

Examinând unul sau mai multe atribute sau clase, puteți grupa elemente de date individuale împreună pentru a obține o concluzie structurată. La un nivel simplu, clusteringul folosește unul sau mai multe atribute ca bază pentru determinarea unui grup de rezultate similare. Clusteringul este util în definirea diverselor informații, deoarece se corelează cu alte exemple, astfel încât puteți vedea unde sunt similare și intervalele.

Metoda de clustering funcționează în ambele moduri. Se poate presupune că există un cluster într-un anumit moment, apoi folosiți criteriile de identificare pentru a verifica acest lucru. Graficul ilustrat în ilustrează un exemplu bun. Aici, vârsta cumpărătorului este comparată cu prețul de achiziție. Este rezonabil să ne așteptăm ca persoanele cu vârsta între douăzeci și treizeci de ani (înainte de căsătorie și nașterea copiilor), precum și cei de 50-60 de ani (când copiii au plecat de acasă) să aibă un venit disponibil mai mare.

Figura 3. Clustering

În acest exemplu, două clustere sunt vizibile, unul în regiunea de 2000 $ / 20-30 ani și celălalt în regiunea de 7000-8000 $ / 50-65 ani. În acest caz, am prezentat o ipoteză și am testat-o \u200b\u200bpe un grafic simplu care poate fi construit folosind orice software de grafică adecvat. Combinații mai complexe necesită un pachet analitic complet, mai ales dacă trebuie să vă bazați automat deciziile pe informații cel mai apropiat vecin.

Această construcție de cluster este un exemplu simplificat al așa-numitei imagini cel mai apropiat vecin. Cumpărătorii individuali se pot distinge prin apropierea lor literală de unul pe celălalt pe grafic. Este foarte probabil ca cumpărătorii din același cluster să împărtășească alte atribute comune, iar această presupunere poate fi folosită pentru a căuta, clasifica și analiza alte tipuri de membri ai setului de date.

Metoda de clustering poate fi folosită și în direcția opusă: date anumite atribute de intrare, identificați diverse artefacte. De exemplu, un studiu recent al codurilor PIN de patru cifre a evidențiat grupuri de numere în intervalele 1-12 și 1-31 pentru prima și a doua perechi. După ce au reprezentat aceste perechi în grafic, puteți vedea grupuri asociate cu datele (zile de naștere, aniversări).

Estimarea

Prognoza este un subiect larg, care se extinde de la prezicerea eșecurilor componentelor echipamentului, până la detectarea fraudei și chiar prezicerea profiturilor companiei. În combinație cu alte metode de extragere a datelor, prognoza implică analiza tendințelor, clasificarea, potrivirea modelelor și relațiile. Analizând evenimente sau instanțe trecute, se poate prezice viitorul.

De exemplu, folosind datele de autorizare a cardului de credit, puteți combina o analiză în arborele de decizie a tranzacțiilor anterioare ale unei persoane cu clasificarea și compararea cu modelele istorice pentru a identifica tranzacțiile frauduloase. Dacă achiziționarea de bilete de avion în Statele Unite coincide cu tranzacțiile din Statele Unite, atunci este probabil ca aceste tranzacții să fie autentice.

Modele secvențiale

Tiparele secvențiale care sunt adesea utilizate pentru a analiza datele pe termen lung sunt o metodă utilă pentru identificarea tendințelor sau repetări regulate ale unor astfel de evenimente. De exemplu, conform datelor clienților, puteți determina că în diferite perioade ale anului cumpără anumite seturi de produse. Conform acestor informații, aplicația de previziune a coșurilor de cumpărături, în funcție de frecvența și istoricul achizițiilor, poate presupune automat că anumite produse vor fi adăugate în coșul de cumpărături.

Arbori de decizie

Arborele decizional asociat cu majoritatea celorlalte metode (în principal clasificare și prognoză) poate fi utilizat fie în cadrul criteriilor de selecție, fie pentru a sprijini selecția anumitor date din structura generală. Arborele decizional începe cu o întrebare simplă care are două răspunsuri (uneori mai multe). Fiecare răspuns duce la următoarea întrebare, ajutând la clasificarea și identificarea datelor sau la realizarea de predicții.

Figura 5. Pregătirea datelor

Sursa de date, locația și baza de date afectează modul în care informațiile sunt procesate și combinate.

Încredere în SQL

Încrederea în bazele de date SQL este adesea cea mai simplă dintre toate abordările. SQL (și structura tabelului corespunzător) este bine înțeles, dar structura și formatul informațiilor nu pot fi ignorate complet. De exemplu, atunci când studiați comportamentul utilizatorului din datele de vânzare din modelul de date SQL (și extragerea datelor în general), există două formate principale care pot fi utilizate: demografică tranzacțională și comportamentală.

Când lucrați cu InfoSphere Warehouse, crearea unui model comportamental-demografic pentru a analiza datele clienților pentru a înțelege modelele de comportament implică utilizarea datelor sursă SQL bazate pe informații de tranzacție și parametrii cunoscuți ai clienților cu organizarea acestor informații într-o structură de tabel predefinită. InfoSphere Warehouse poate folosi apoi aceste informații pentru extragerea datelor prin clustering și clasificare pentru a obține rezultatul dorit. Datele demografice ale cumpărătorului și datele tranzacțiilor pot fi combinate și apoi convertite într-un format care permite analiza anumitor date, așa cum este arătat.

Figura 6. Format de analiză a datelor personalizate

De exemplu, pe baza datelor de vânzări, puteți identifica tendințele de vânzare pentru anumite produse. Datele inițiale de vânzări ale bunurilor individuale pot fi transformate în informații despre tranzacții, în care identificatorii clienților sunt comparați cu datele de tranzacție și codurile produselor. Folosind aceste informații, este ușor de identificat secvențe și relații pentru produse individuale și clienți individuali în timp. Aceasta permite InfoSphere Warehouse să calculeze informații consecvente, determinând, de exemplu, când un client este probabil să achiziționeze din nou același produs.

Din datele sursă, puteți crea noi puncte de analiză a datelor. De exemplu, puteți extinde (sau perfecționa) informațiile despre produs comparând sau clasificând produsele individuale în grupuri mai largi, apoi analizați datele pentru aceste grupuri în loc de clienți individuali.

Figura 7. Structura MapReduce

În exemplul precedent, am prelucrat (în acest caz, MapReduce) datele sursă dintr-o bază de date de documente și le-am transformat într-un format tabel într-o bază de date SQL în scopuri de extragere a datelor.

Lucrul cu această informație complexă și chiar nestructurată poate necesita o pregătire și o prelucrare mai amănunțite. Există tipuri complexe și structuri de date care nu pot fi procesate și pregătite în formularul de care aveți nevoie într-o singură etapă. În acest caz, puteți direcționa ieșirea MapReduce către oricare consistent transformarea și obținerea structurii de date necesare, așa cum este arătat pe sau pentru individual realizarea mai multor tabele de ieșire.

Figura 8. Serial MapReduce lanțul de ieșire

De exemplu, într-o singură trecere, puteți lua informațiile sursă din baza de date de documente și puteți efectua operațiunea MapReduce pentru a obține o scurtă prezentare generală a acestor informații în funcție de date. Un bun exemplu de proces secvențial este regenerarea informațiilor și combinarea rezultatelor cu o matrice de decizie (creată în a doua etapă a procesării MapReduce), urmată de o simplificare suplimentară într-o structură secvențială. Etapa de procesare MapReduce necesită acest lucru ansamblu întreg Datele au fost acceptate prin etape separate de procesare a datelor.

Indiferent de datele sursă, multe instrumente pot utiliza fișiere nestructurate, CSV sau alte surse de date. De exemplu, InfoSphere Warehouse, pe lângă comunicarea directă cu depozitul de date DB2, poate analiza fișierele nestructurate.

Concluzie

Exploatarea datelor nu înseamnă numai executarea unor interogări complexe asupra datelor stocate în baza de date. Indiferent dacă utilizați baze de date SQL, bazate pe documente precum Hadoop sau fișiere simple nestructurate, trebuie să lucrați cu datele, să le formatați sau să le restructurați. Este necesar să se stabilească formatul informațiilor pe care se vor baza metoda și analiza dvs. Apoi, când informațiile sunt în formatul dorit, se pot aplica diferite metode (individual sau în total), independent de structura de date necesară sau setul de date.

În ciuda faptului că „procesul de analiză a informațiilor” este mai degrabă un termen tehnic, dar conținutul său este legat de 90% de activitățile umane.

Înțelegerea nevoilor din centrul oricărei sarcini de analiză informațională este strâns legată de înțelegerea activității companiei. Colectarea de date din surse adecvate necesită experiență în selectarea lor, indiferent de cât de automatizat este procesul final de colectare a datelor. Pentru a transforma datele colectate în concluzii analitice și a le pune în practică în practică, este necesară cunoașterea profundă a proceselor de afaceri și prezența abilităților de consultanță.

Procesul de analiză a informațiilor este un flux ciclic de evenimente care începe cu o analiză a nevoilor din zona analizată. Urmează apoi colectarea de informații din surse secundare și (sau) primare, analiza și pregătirea unui raport pentru factorii de decizie care îl vor folosi, precum și să-și dea feedback și să pregătească propuneri.

La nivel internațional, procesul de analiză a informațiilor este caracterizat după cum urmează:

  • În primul rând, procesele cheie de afaceri determină etapele luării deciziilor, care sunt comparate cu rezultatele finale standard ale analizei informațiilor.
  • Procesul de analiză a informațiilor începe cu o evaluare a nevoilor la nivel internațional, adică cu identificarea nevoilor viitoare legate de luarea deciziilor și verificarea acestora.
  • Etapa de culegere a informațiilor este automatizată, ceea ce vă permite să alocați timp și resurse analizei inițiale a informațiilor și, în consecință, să creșteți valoarea informațiilor secundare existente.
  • O parte semnificativă a timpului și resurselor este alocată analizei informațiilor, concluziilor și interpretării.
  • Informațiile analitice obținute ca urmare sunt aduse la cunoștința fiecărei persoane responsabile de luarea deciziilor în mod individual, cu monitorizarea procesului de utilizare ulterioară a acesteia.
  • Membrii grupului angajat în analiza informațiilor au format o atitudine față de îmbunătățirea continuă.

Introducere: Ciclul de analiză a informațiilor

Termenul „proces de analiză a informațiilor” înseamnă un proces continuu, ciclic, care începe cu determinarea nevoilor de informații ale persoanelor responsabile de luarea deciziilor și se încheie cu furnizarea cantității de informații care răspund acestor nevoi. În acest sens, trebuie făcută imediat o distincție între cantitatea de informații și procesul de analiză a informațiilor. Determinarea cantității de informații are ca scop identificarea obiectivelor și nevoilor de resurse informaționale pentru întregul program de analiză informațională, în timp ce procesul de analiză a informațiilor începe cu determinarea nevoilor pentru unul, chiar dacă este nesemnificativ, rezultatul final al unei astfel de analize.

Procesul de analiză a informațiilor ar trebui să fie întotdeauna legat de procesele existente în companie, adică de planificarea strategică, vânzări, marketing sau managementul producției bunurilor, în cadrul cărora vor fi utilizate aceste informații. În practică, utilizarea informațiilor primite la rezultat ar trebui să fie direct legată de situațiile de luare a deciziilor, sau aceste informații ar trebui să contribuie la creșterea nivelului de conștientizare a organizației în acele domenii de activitate operaționale care sunt relevante pentru diverse procese de afaceri.

În fig. Figura 1 prezintă etapele unui proces ciclic de analiză a informațiilor (vezi mai jos pentru mai multe detalii). La rândul său, partea dreaptă a diagramei arată rezultatele specifice ale procesului de analiză a informațiilor atunci când deciziile sunt luate pe baza cercetărilor generale de piață, precum și rezultatele procesului de analiză a informațiilor legate direct de diverse procese și proiecte de afaceri.

Faceți clic pe imagine pentru ao mări.

Ciclul de analiză a informației este format din șase etape. Descrierea detaliată a acestora este prezentată mai jos.

1. Analiza nevoilor

O evaluare minuțioasă a nevoilor vă permite să determinați obiectivele și sfera sarcinii de analiză a informațiilor. Chiar dacă cei care rezolvă o astfel de problemă vor colecta informații pentru propria lor utilizare, este logic să conturați clar domeniile cheie în rezolvarea acestei probleme pentru concentrarea resurselor în cele mai potrivite zone. Cu toate acestea, în marea majoritate a cazurilor, cei care efectuează cercetări nu sunt utilizatori finali ai rezultatelor sale. Prin urmare, acestea ar trebui să înțeleagă pe deplin la ce vor fi utilizate rezultatele finale, pentru a exclude colectarea și analiza datelor care, în cele din urmă, pot fi irelevante pentru utilizatori. Pentru etapa de analiză a nevoilor, au fost elaborate diverse șabloane și chestionare care stabilesc un nivel ridicat de calitate în etapa inițială de soluționare a problemei.

Cu toate acestea, cel mai important este că nevoile organizației în analiza informațiilor trebuie studiate și transformate în detaliu de la extern la intern pentru ca programul de analiză a informației să reprezinte o anumită valoare. Șabloanele și chestionarele singure nu pot atinge acest obiectiv. Desigur, acestea s-ar putea dovedi utile, dar au existat momente în care o analiză excelentă a nevoilor a fost realizată pur și simplu pe baza unei conversații informale cu directorii companiei. Aceasta, la rândul său, necesită ca echipa de analiză a informațiilor să adopte o abordare consultativă sau cel puțin capacitatea de a conduce negocieri comerciale în mod productiv cu cei responsabili de luarea deciziilor.

2. Acoperirea surselor secundare de informații

Ca parte a ciclului de analiză a informațiilor, separatăm colectarea informațiilor din surse secundare și primare. Există o serie de motive pentru acest lucru. În primul rând, colectarea informațiilor din surse disponibile public este mai ieftină decât contactarea directă cu sursele primare. În al doilea rând, este mai simplu, cu condiția, desigur, ca condiția ca persoanele care se confruntă cu o astfel de sarcină să aibă suficientă experiență în studierea surselor secundare disponibile. De fapt, gestionarea surselor de informații și optimizarea costurilor asociate sunt ele însele un domeniu separat de cunoaștere. În al treilea rând, acoperirea surselor secundare de informații înainte de a efectua cercetări sub forma unui interviu va oferi celor care efectuează o astfel de cercetare informații de bază valoroase de natură generală care pot fi verificate și utilizate prin emiterea acesteia ca răspuns la informațiile persoanelor intervievate. În plus, dacă în cursul studierii surselor secundare este posibil să se obțină răspunsuri la unele întrebări, acest lucru va reduce costul etapei de cercetare a surselor primare și, uneori, va elimina complet necesitatea acestora.

3. Studii ale surselor primare

Oricât de mare este volumul de informații disponibile public disponibil astăzi, nu toate informațiile pot fi accesate printr-un studiu al surselor secundare. După examinarea surselor secundare, lacunele de cercetare pot fi completate intervievând experți care sunt familiarizați cu subiectul studiului. Această etapă se poate dovedi a fi relativ scumpă în comparație cu studiul surselor secundare, care, desigur, depinde de amploarea sarcinii, precum și de resursele implicate: companiile sunt adesea implicate în cercetarea surselor primare ale contractorilor terți.

4. Analiza

După colectarea informațiilor din diverse surse, trebuie să vă dați seama exact ce este necesar pentru analiza nevoilor inițiale, în conformitate cu sarcina. Din nou, în funcție de obiectivul sarcinii, această etapă a cercetării poate fi destul de costisitoare, deoarece include cel puțin costurile de timp ale resurselor interne, și uneori externe, și, eventual, o verificare suplimentară a corectitudinii rezultatelor analizei. interviu.

5. Raportare

Formatul de prezentare a rezultatelor după finalizarea sarcinii de analiză a informațiilor nu are o importanță redusă pentru utilizatorii finali. De regulă, persoanele responsabile de luarea deciziilor nu au timp să caute rezultatele analizei cheie într-o cantitate mare de date pe care le primesc. Conținutul principal trebuie tradus într-un format ușor de înțeles, ținând cont de cerințele acestora. În același timp, ar trebui să oferiți un acces convenabil la datele suplimentare de fundal pentru cei interesați și doresc să „sape mai adânc”. Aceste reguli de bază se aplică indiferent de formatul informațiilor furnizate, fie că este vorba despre software-ul bazei de date, un buletin informativ, o prezentare PowerPoint, o întâlnire personală sau un seminar. În plus, există un alt motiv pentru care am separat etapa de furnizare a informațiilor de utilizarea finală, precum și primirea de feedback și sugestii cu privire la informațiile analitice furnizate. Uneori, deciziile vor fi luate în aceeași succesiune în care vor fi furnizate informații analitice. Cu toate acestea, mai des, materiale de referință, de referință vor fi furnizate înainte de apariția situației reale de luare a deciziilor, prin urmare, formatul, canalul și metoda de furnizare a informațiilor afectează modul în care acestea vor fi percepute.

6. Utilizare și comentariu

Etapa de utilizare servește ca un fel de test litmus pentru evaluarea succesului sarcinii de analiză a informațiilor. Vă permite să înțelegeți dacă rezultatele obținute răspund nevoilor identificate chiar de la începutul procesului de analiză a informațiilor. Indiferent dacă au fost primite răspunsuri la toate întrebările inițiale, în stadiul de utilizare, de regulă, apar noi întrebări și necesitatea unei noi analize a nevoilor, mai ales dacă nevoia de analiză a informațiilor este în curs. În plus, ca urmare a eforturilor comune de a crea materiale informaționale de către utilizatorii finali și experți în domeniul analizei informațiilor până la momentul trecerii la stadiul de utilizare a acesteia, se poate dovedi că utilizatorii finali ai acestor informații au contribuit deja la rezultatul scontat. Pe de altă parte, cei care s-au angajat în principal în analiză pot fi implicați activ în procesul de tragere a concluziilor și interpretarea rezultatelor, pe baza cărora se vor lua decizii finale. În mod ideal, comentarii și comentarii atente în faza de utilizare pot fi deja utilizate ca bază pentru evaluarea nevoilor ca parte a următoarei sarcini de analiză a informațiilor. Astfel, ciclul procesului de analiză a informațiilor se încheie.

Noțiuni introductive: dezvoltarea unui proces de analiză a informațiilor

Determinarea etapelor de luare a deciziilor în procesele de afaceri care necesită cercetare analitică de piață

Termenul „analiză informațională pentru faza de luare a deciziilor” devine din ce în ce mai popular, deoarece companiile care au deja un program de analiză a informațiilor au început să ia în considerare diverse opțiuni pentru integrarea mai eficientă a acestor programe în procesele de luare a deciziilor. Cât de abstracte sau viceversa vor fi măsurile pentru „îmbunătățirea conexiunii dintre rezultatele finale ale analizei informațiilor și procesele de afaceri”, va depinde în mare măsură dacă aceste procese de afaceri au fost definite în mod formal, precum și dacă grupul are înțelegerea analizei informaționale a nevoilor informaționale specifice asociate cu etapele de luare a deciziilor în aceste procese.

După cum am menționat în capitolul 1, metodele și tehnicile discutate în această carte sunt cele mai potrivite pentru companiile care au deja procese structurate de afaceri, cum ar fi un proces de dezvoltare a strategiei. Companiile al căror management nu este atât de clar structurat ar trebui să fie creative atunci când folosesc abordări ale metodologiei de analiză a pieței internaționale, ținând cont de schemele lor de management curente. Cu toate acestea, principiile de bază pe care le avem în vedere aici sunt potrivite pentru orice companie.

Analiza necesită analiza informației: de ce este atât de importantă?

Dat fiind faptul că înțelegerea cerințelor cheie pentru analizarea informațiilor la începutul acestui proces are un impact mai mare asupra calității rezultatelor finale decât oricare etapă a acestui proces, este izbitor faptul că se acordă adesea prea puțină atenție etapei de evaluare a nevoilor. În ciuda resurselor limitate potențiale în alte etape ale procesului de analiză a informațiilor, doar o atenție atentă la evaluarea nevoilor în multe cazuri ar crește semnificativ valoarea și aplicabilitatea rezultatelor finale ale acestui proces, justificând astfel timpul și resursele petrecute în sarcina analizării informațiilor. Mai jos analizăm modalități specifice de îmbunătățire a calității evaluărilor nevoilor.

Adesea se presupune automat că managementul știe ce informații are nevoie de companie. Cu toate acestea, în realitate, conducerea superioară, de regulă, are o idee despre doar o parte din nevoile de informații ale organizației lor și, chiar și în acest caz, este posibil să nu se afle în cea mai bună poziție pentru a determina exact ce informații sunt necesare, fără a mai menționa unde sunt poate fi găsit.

Drept urmare, situația se repetă în mod constant atunci când nu există nici o idee clar formulată a problemei și nici contextul său de activitate pentru îndeplinirea sarcinilor de analiză a informațiilor. Cei care sunt cel mai bine familiarizați cu sursele de informații și metodele de analiză petrec timp pentru procesarea dezordonată, aparent, și nu văd întreaga imagine, precum și acele abordări care sunt cele mai importante pentru companie. Nu este surprinzător faptul că, în consecință, factorii de decizie primesc mult mai multe informații decât au nevoie, ceea ce este în principiu contraproductiv, deoarece în curând vor începe să ignore nu numai informațiile inutile, ci și cele importante. Nu au nevoie de mai multe informații, ci de informații mai bune și mai precise.

În același timp, factorii de decizie pot avea așteptări nerealiste cu privire la disponibilitatea și acuratețea informațiilor, deoarece nu au consultat experți în domeniul analizei informațiilor înainte de a stabili sarcina. Prin urmare, în mod ideal, experții în domeniul analizei informațiilor și persoanele responsabile pentru luarea deciziilor ar trebui să fie în contact constant între ele și să lucreze împreună pentru ca ambele părți să aibă aceeași idee despre nevoile primare de informații. Abilitatea de a gestiona acest proces va necesita o serie de abilități din partea analiștilor care lucrează în această direcție:

  • Analistul trebuie să înțeleagă cum să identifice și să identifice nevoile de informații ale persoanelor responsabile de luarea deciziilor.
  • Analistul trebuie să dezvolte abilități pentru o comunicare eficientă, realizând interviuri și prezentări.
  • În mod ideal, analistul ar trebui să înțeleagă tipurile psihologice ale personalității pentru a ține cont de diferitele orientări ale persoanelor responsabile de luarea deciziilor.
  • Analistul trebuie să cunoască structura organizațională, cultura și mediul înconjurător, precum și persoanele cheie intervievate.
  • Analistul trebuie să rămână obiectiv.

Lucrați în cadrul ciclului de analiză a informațiilor și eliminând blocajele în acest proces

În etapele inițiale ale implementării programului de analiză a informațiilor, grupul țintă pentru evenimente este de obicei limitat, precum și rezultatele finale pe care le oferă programul. În mod similar, atunci când prelucrăm rezultatele finale, apar deseori diferite dificultăți (așa-numitele „blocaje”): chiar și colectarea simplă a datelor disparate din surse secundare și primare poate necesita cunoștințe și experiență pe care compania nu le are, iar după colectarea informațiilor se poate dovedi acel moment. iar resursele pentru efectuarea unei analize detaliate a datelor colectate nu sunt suficiente, fără a menționa pregătirea prezentărilor informative și concepute cu atenție, care ar putea fi utilizate de persoanele responsabile pentru luarea deciziilor. Mai mult, în etapele inițiale ale dezvoltării unui program de analiză a informațiilor, aproape nicio companie nu are instrumente speciale pentru stocarea și diseminarea rezultatelor unei astfel de analize. De regulă, la final, rezultatele sunt prezentate grupurilor țintă sub formă de atașamente regulate trimise prin e-mail.

Dificultățile de a efectua o sarcină analitică în cadrul ciclului de analiză informațională pot fi descrise folosind triunghiul standard de gestionare a proiectului, adică este necesar să finalizați sarcina și să produceți rezultatul sub trei constrângeri principale: bugetul, calendarul și volumul lucrărilor. În multe cazuri, aceste trei restricții concurează între ele: în sarcina standard de analiză a informațiilor, o creștere a volumului de muncă va necesita o creștere a timpului și a bugetului; o limită de timp limitată poate însemna o creștere a bugetului și o reducere simultană a volumului de muncă, iar un buget limitat este probabil să însemne atât o limitare a volumului de muncă, cât și o reducere a intervalului de timp pentru proiect.

Apariția „blocajelor” în procesul de analiză a informațiilor duce, de obicei, la o frecare semnificativă atunci când îndepliniți o sarcină de cercetare, ca parte a unui ciclu de analiză a informațiilor în etapele inițiale ale dezvoltării unui program pentru o astfel de analiză. Întrucât resursele sunt limitate, cele mai critice blocaje ar trebui abordate mai întâi. Are echipa de analiză a informațiilor capacitatea de a o efectua? Este necesară o pregătire suplimentară? Sau este mai probabil problema că analiștii nu au informații valoroase cu care să lucreze - cu alte cuvinte, cea mai critică gâtuire este colectarea informațiilor? Sau poate că grupul de analiză a informațiilor pur și simplu nu are suficient timp, adică grupul nu este în măsură să răspundă la cererile urgente în timp util?

Pentru a crește eficiența sarcinii analitice în cadrul ciclului de analiză informațională se poate face în două direcții. „Productivitatea” ciclului, adică minuțiozitatea cu care echipa de analiză a informațiilor poate prelucra sarcini analitice în fiecare etapă și viteza de a răspunde la întrebare. În fig. Figura 2 arată diferența dintre aceste abordări și, în general, diferența dintre sarcinile de analiză strategică și solicitările de cercetare care necesită un răspuns operațional.

Deși ambele abordări implică trecerea sarcinii analitice prin toate etapele ciclului de analiză informațională, grupul de analiză informațională, care are sarcina de a efectua rapid cercetări, va lucra în paralel cu studierea surselor secundare și primare (uneori, un apel telefonic către un specialist poate oferi răspunsurile necesare la întrebările puse în cererea de cercetare). În plus, în multe cazuri, analiza și furnizarea de informații sunt combinate, de exemplu, într-o scurtă privire de ansamblu, pe care analistul o transmite managerului care a solicitat aceste informații.

Productivitatea ciclului de analiză a informațiilor poate fi îmbunătățită prin adăugarea de resurse interne (angajate) sau externe (dobândite) acolo unde sunt necesare, ceea ce va permite obținerea unor rezultate mai bune și extinderea capacității de a servi un număr tot mai mare de grupuri de utilizatori în cadrul organizației.

Același principiu se aplică asigurării vitezei în implementarea secvenței de operații, adică este important cât de repede trece sarcina urgentă de a conduce cercetarea prin diferitele etape ale ciclului. Conform tradiției, companiile se concentrează în principal pe asigurarea unei lățimi de bandă stabile prin planificarea pe termen lung a resurselor și a schemelor de formare a personalului. Cu toate acestea, odată cu dezvoltarea unei zone specializate precum analiza informațiilor și creșterea accesibilității resurselor profesionale globale atrase din exterior, schemele temporare implementate în fiecare caz specific și care oferă flexibilitatea necesară sunt din ce în ce mai răspândite.

În fig. Figura 3 prezintă două tipuri de rezultate finale ale ciclului de analiză informațională, adică analize strategice și cercetare care necesită un răspuns operațional (a se vedea graficul rezultatelor finale ale analizei informației). În ciuda faptului că sarcinile de efectuare a cercetării care necesită un răspuns operațional sunt de obicei asociate proceselor de afaceri, nivelul analizei acestora nu este foarte mare din cauza lipsei de timp banale pentru o astfel de analiză. Pe de altă parte, sarcinile analizei strategice, de regulă, sunt asociate cu un nivel ridicat de creativitate comună în etapa de analiză și furnizare de informații, ceea ce le pune aproape în vârful triunghiului, unde informațiile sunt interpretate și aplicate.

Dezvoltare continuă: eforturi pentru un nivel internațional de analiză informațională

Procesul de depanare a analizei informațiilor poate fi reprezentat grafic ca un grafic al unui ciclu de grosime uniformă (Fig. 2), în sensul că un proces de analiză informațională matură nu are „legături slabe” sau „blocaje semnificative” în organizarea succesiunii operațiilor. O astfel de uniformitate necesită o planificare adecvată a resurselor în fiecare etapă, care, la rândul său, se realizează datorită trecerii repetate a ciclului, ținând cont de toate detaliile. De exemplu, evaluarea nevoilor inițiale poate fi îmbunătățită treptat prin faptul că persoanele responsabile de luarea deciziilor și de utilizarea rezultatelor muncii vor observa deficiențe și discrepanțe tipice în etapa inițială a îndeplinirii sarcinilor privind cercetarea de piață analitică. Cu același succes, este posibil să se dezvolte cooperarea de-a lungul timpului între specialiștii în recuperarea informațiilor și analiști (dacă cele două funcții sunt separate), datorită faptului că întrebările care anterior nu au fost detectate și au fost ridicate în timpul analizei sunt transferate către specialiștii în recuperarea informațiilor pentru a colecta date suplimentare . În timp, experiența va arăta ce resurse sunt necesare pentru fiecare dintre acești pași pentru a obține rezultate optime.

Ce rezultate sunt în cele din urmă „optime” este determinat de cât de exact informațiile primite la rezultat corespund nevoilor persoanelor responsabile de luarea deciziilor în cadrul proceselor de afaceri. Și asta ne readuce din nou la grosimea uniformă a ciclului de analiză a informațiilor: procesul de analiză a informațiilor la nivel internațional nu începe cu o evaluare a nevoilor ca atare, ci cu o definiție clară a locului și a modului în care vor fi aplicate informațiile primite la ieșire. De fapt, comunicarea dintre factorii de decizie și specialiștii în analiza informației pe parcursul procesului analitic la nivel internațional ar trebui să fie constantă, informativă și direcționată în ambele direcții.

O modalitate de a consolida legătura dintre luarea deciziilor și cercetarea de piață este de a încheia acorduri la nivel de serviciu cu părțile interesate cheie deservite de un program de analiză de piață. Coordonarea nivelului necesar de servicii de cercetare de piață cu manageri superiori în planificarea strategică, vânzări, marketing și cercetare și dezvoltare va determina clar rezultatele finale ale acestor studii și activități analitice pentru fiecare grup de părți interesate pentru următoarele 6-12 luni, inclusiv bugetul pentru cercetarea de piață , persoane implicate, etapele principale și interacțiunea de-a lungul procesului.

Încheierea acordurilor la nivel de serviciu prezintă mai multe avantaje:

  • Este nevoie de timp pentru a sta jos și pentru a discuta obiectivele principale și etapele de luare a deciziilor pentru cei responsabili pentru procesele cheie de afaceri \u003d grupul de cercetare de piață obține o imagine mai completă a ceea ce este important pentru management și, în același timp, îmbunătățește relațiile personale.
  • Riscul supraîncărcării neprevăzute pe proiectele speciale este redus prin identificarea zonelor pentru revizuire periodică, analiza strategică a informațiilor etc.
  • Există timp pentru o creativitate comună în procesul de analiză a informațiilor: adesea întâlnirile și seminarele privind cercetarea de piață analitică cu participarea managerilor ocupați constant trebuie planificate pentru câteva luni.
  • Datorită stabilirii obiectivelor și evaluării clare a rezultatelor, activitățile de cercetare de piață sunt simplificate și analizele sunt îmbunătățite.
  • În general, închiderea organizației și așa-numita „gătit în sucul propriu” sunt reduse, iar cooperarea dintre manageri și experți în cercetarea de piață analitică devine mai fructuoasă.

Cele două exemple de la sfârșit demonstrează clar modul în care, datorită procesului de analiză informațional simplificat, grupul analitic poate răspunde la diverse cerințe conținute în sarcina de analiză a informațiilor, în funcție de regiunea geografică care este analizată ca parte a acestei sarcini. În „lumea occidentală”, o mare cantitate de informații fiabile pot fi obținute din surse secundare pe aproape orice subiect. Datorită acestui lucru, sarcina specialiștilor în domeniul analizei informațiilor se reduce la găsirea celor mai bune surse pentru colectarea de informații rentabile în vederea analizării și raportării ulterioare.

Pe de altă parte, pe piețele emergente există deseori lipsa unor surse secundare fiabile sau o lipsă de date necesare în limba engleză. Prin urmare, specialiștii în domeniul analizei informațiilor trebuie să apeleze rapid la sursele primare și să conducă interviuri, de obicei în limba țării. În această situație, este important să ne bazăm pe un număr suficient de mare de surse pentru a evalua corectitudinea rezultatelor cercetării înainte de a continua analiza lor.

Exemplu. Studiul ciclului de afaceri pentru o întreprindere chimică

O companie care operează în industria chimică a necesitat o cantitate mare de informații despre ciclurile de afaceri preexistente, actuale și viitoare, în mai multe domenii ale producției de produse chimice pe piața din America de Nord. Aceste informații trebuiau folosite pentru a evalua creșterea viitoare în anumite domenii ale producției de produse chimice, precum și pentru planificarea dezvoltării afacerilor bazată pe o înțelegere a ciclurilor de afaceri din industrie.

Analiza a fost realizată folosind metode statistice, inclusiv regresie și analiză vizuală. Analiza ciclurilor de afaceri a fost realizată atât cantitativ cât și calitativ, ținând cont de opiniile experților din industrie asupra creșterii pe termen lung. La finalizarea sarcinii, au fost utilizate surse de informații exclusiv secundare, iar metodele statistice, inclusiv regresia și analiza vizuală, au fost utilizate pentru a efectua analiza. Drept urmare, a fost prezentat un raport analitic detaliat care descrie durata și natura ciclurilor de afaceri, precum și evaluarea perspectivelor viitoare pentru domeniile cheie ale producției companiei (etilenă, polietilenă, stiren, amoniac și cauciuc butilic).

Exemplu. Evaluarea de piață a hidrodifluorurii de amoniu și a acidului hidrofluoric din Rusia și CSI

Unul dintre cele mai mari centre nucleare din lume s-a confruntat cu sarcina de a studia piața acestor două subproduse ale producției sale, respectiv hidrodifluorura de amoniu și acidul fluorhidric, din Rusia și CSI. Dată fiind capacitatea insuficientă a acestei piețe, acestea ar trebui să investească în construcția de instalații pentru eliminarea acestor produse.

Studiile surselor secundare au fost realizate atât la nivelul Rusiei, cât și al CSI, dar și la nivel global. Datorită naturii extrem de specializate a pieței și a consumului intern ridicat de produse secundare, accentul principal a fost pus pe cercetarea surselor primare. Pentru pregătirea analizei ulterioare, au fost realizate 50 de interviuri detaliate cu clienți potențiali, concurenți și experți din industrie.

Raportul final a prezentat o evaluare a volumului pieței, fără a ține cont de consumul intern, analiza segmentelor, analiza importurilor, analiza lanțului valoric, analiza tehnologiilor și produselor substitutive pentru fiecare segment industrial, prognoza dezvoltării pieței, analiza prețurilor și, în final, evaluarea oportunităților potențiale ale pieței în Rusia și CSI.

Exemplu. Un proces eficient de analiză a informațiilor bazat pe o evaluare a tendințelor predominante de raportare către manageri

Cea mai importantă companie energetică și petrochimică a îmbunătățit cu succes procesul de analiză a informațiilor, bazând analiza scenariilor strategice pentru colectarea, analiza și furnizarea informațiilor.

Datorită integrării măsurilor de analiză a informațiilor în procesele de afaceri cheie în etapa de planificare, a fost posibilă identificarea clară a adevăratelor nevoi strategice ale organizației și aducerea lor la grupul analitic, care, în consecință, a putut organiza procesul de analiză în așa fel încât accentul principal să fie pus pe strategie și acțiuni. Procesul de analiză a informațiilor într-o companie începe cu un studiu al tendințelor predominante și se încheie cu exemple ilustrative de răspuns la risc, cu recomandări pentru management.

Cheia creșterii eficienței programului de analiză informațională a fost o evaluare a nevoilor de succes în ceea ce privește obiectivele strategice ale companiei. În același timp, persoanele responsabile de luarea deciziilor au participat la procesul de analiză a informațiilor în faza inițială (discuții, întâlniri, seminarii). Aceasta a contribuit la stabilirea unui dialog bilateral și la o integrare mai completă a programului de analiză a informațiilor în alte domenii ale companiei.

Exemplu. O companie globală de biotehnologie a dezvoltat un ciclu de analiză a informațiilor pentru furnizarea la timp a datelor analitice și luarea de decizii proactive.

Scopul programului de analiză a informațiilor a fost furnizarea de informații în scopul avertizării și avertizării timpurii, ceea ce ar permite implementarea strategiilor fezabile și fezabile pe toate piețele unde operează compania. A fost lansat un ciclu de analiză a informațiilor, în care, în mai multe etape, au fost implicate persoane interesate să analizeze informații (atât pentru introducerea, cât și pentru furnizarea informațiilor), precum și numeroase surse de informații.

Cei interesați să analizeze informațiile au reprezentat patru funcții cheie ale companiei (grup de strategie, marketing și vânzări, finanțe, relații cu investitorii și directorii). Cele mai active activități au fost desfășurate în etapele de planificare și implementare. Implementarea cu succes a ciclului de analiză a informațiilor, care a reunit părțile interesate interne (pentru a evalua nevoile) și numeroase surse de informații, ca parte a unui proces clar definit pentru prezentarea rezultatelor analizei, a însemnat că programul analitic implementat a avut un anumit impact asupra dezvoltării strategiei și a procesului decizional proactiv.

 

Ar putea fi util să citiți: