Clasificarea și analiza datelor

2. Kritzman VA, Rozen B. Ya., Dmitrev IS La secretele structurii materiei. - Liceu, 1983.

Descoperirile revoluționare în știința naturii au fost adesea făcute sub influența rezultatelor experimentelor, puse în scenă de experimentatori talentați. Marile experimente în biologie, chimie, fizică au contribuit la schimbarea ideii de lume în care trăim, a structurii materiei, a mecanismelor de transmitere a eredității. Alte descoperiri teoretice și tehnologice au fost făcute pe baza rezultatelor marilor experimente.

§ 9. Metode de cercetare teoretică

Lecție-prelecție

Sunt lucruri mai importante pe lume

cele mai frumoase descoperiri -

este cunoaşterea metodelor prin care

au fost făcute

Leibniz

https://pandia.ru/text/78/355/images/image014_2.gif "alt =" (! LANG: Semnătura:!" align="left" width="42 height=41" height="41">Метод. Классификация. Систематизация. Систематика. Индукция. Дедукция.!}

Observarea și descrierea fenomenelor fizice. Legile fizice. (Fizică, clasele 7 - 9).

Ce este o metodă . Metodăîn știință ei numesc metoda de construire a cunoașterii, formă de asimilare practică și teoretică a realității. Francis Bacon a comparat metoda cu o lampă care luminează calea unui călător în întuneric: „Chiar și un șchiop care merge pe drum este înaintea celui care merge fără drum”. Metoda aleasă corect ar trebui să fie clară, logică, să conducă la un scop anume, da rezultatul. Se numește doctrina sistemului de metode metodologie.

Metodele de cunoaștere care sunt utilizate în activitatea științifică sunt empiric ( metode practice, experimentale): observare, experimentși teoretic ( metode logice, raționale): analiză, sinteză, comparaţie, clasificare, sistematizare, abstractizare, generalizare, modelare, inducţie, deducere... În cunoștințele științifice reale, aceste metode sunt întotdeauna folosite în unitate. De exemplu, la elaborarea unui experiment este necesară o înțelegere teoretică preliminară a problemei, formularea unei ipoteze de cercetare, iar după experiment este necesară prelucrarea rezultatelor folosind metode matematice. Luați în considerare caracteristicile unor metode teoretice de cunoaștere.

Clasificare și sistematizare. Clasificarea vă permite să ordonați materialul în studiu grupând setul (clasa) obiectelor studiate în subseturi (subclase) în conformitate cu caracteristica selectată.

De exemplu, toți elevii dintr-o școală pot fi împărțiți în subclase - „fete” și „băieți”. Puteți alege o altă caracteristică, de exemplu, înălțimea. În acest caz, clasificarea poate fi efectuată în moduri diferite. De exemplu, evidențiați limita de înălțime de 160 cm și clasificați elevii în subclase „jos” și „înalt”, sau împărțiți scala de creștere în segmente de 10 cm, apoi clasificarea va fi mai detaliată. Dacă comparăm rezultatele unei astfel de clasificări pe mai mulți ani, atunci aceasta va permite stabilirea empiric a tendințelor în dezvoltarea fizică a elevilor. În consecință, clasificarea ca metodă poate fi folosită pentru a obține noi cunoștințe și chiar poate servi ca bază pentru construirea de noi teorii științifice.

În știință, clasificările acelorași obiecte sunt de obicei folosite după diferite criterii, în funcție de scopuri. Cu toate acestea, caracteristica (baza clasificării) este întotdeauna selectată singură. De exemplu, chimiștii împart clasa „acid” în subclase atât după gradul de disociere (puternic și slab), cât și prin prezența oxigenului (conținând oxigen și anoxic), cât și după proprietățile fizice (volatil - nevolatil; solubil). - insolubil) și alte caracteristici.

Clasificarea se poate schimba în cursul dezvoltării științei.

La mijlocul secolului al XX-lea. studiul diferitelor reacții nucleare a condus la descoperirea particulelor elementare (nefisionabile). Inițial, au început să fie clasificate după masă, astfel au apărut leptonii (mici), mezonii (intermediari), barionii (mari) și hiperonii (supermari). Dezvoltarea ulterioară a fizicii a arătat că clasificarea după masă are puțină semnificație fizică, dar termenii au fost păstrați, în urma cărora au apărut leptonii, care sunt mult mai masivi decât barionii.

Este convenabil să reflectați clasificarea sub formă de tabele sau diagrame (grafice). De exemplu, clasificarea planetelor sistemului solar, reprezentată printr-o diagramă - un grafic, poate arăta astfel:

PLANETELE MAJORE

SISTEM SOLAR

GRUPUL PĂMÂNTULUI PLANETELE

PLANETE - UIGANTI

PLUTON

MERCU-

VENE

MARTE

JUPITER

SATURN

URANUS

Vă rugăm să rețineți că planeta Pluto din această clasificare reprezintă o subclasă separată, nu aparține nici planetelor terestre, nici planetelor gigantice. Oamenii de știință notează că Pluto este similar în proprietăți cu un asteroid, dintre care ar putea fi mulți la periferia sistemului solar.

În studiul sistemelor complexe ale naturii, clasificarea este de fapt primul pas către construirea unei teorii științifice naturale. Următorul nivel superior este sistematizarea (taxonomia). Sistematizarea se realizează pe baza clasificării unei cantități destul de mari de material. În același timp, se disting trăsăturile cele mai esențiale, care fac posibilă prezentarea materialului acumulat ca un sistem care reflectă toate relațiile variate dintre obiecte. Este necesar în cazurile în care există o varietate de obiecte și obiectele în sine sunt sisteme complexe... Rezultatul sistematizării datelor științifice este taxonomie sau altfel – taxonomie. Sistematica ca domeniu al științei dezvoltat în domenii de cunoaștere precum biologia, geologia, lingvistica, etnografia.

Unitatea de taxonomie se numește taxon. În biologie, taxonii sunt, de exemplu, un tip, o clasă, o familie, un gen, o ordine etc. Ele sunt combinate în sistem unificat taxoni de diferite ranguri conform principiului ierarhic. Un astfel de sistem include o descriere a tuturor organismelor existente și dispărute anterior, descoperă căile evoluției lor. Dacă oamenii de știință găsesc noul fel, atunci trebuie să-i confirme locul în sistem comun... Pot fi aduse modificări sistemului în sine, care rămâne în curs de dezvoltare și dinamic. Taxonomia face ușoară navigarea în toată varietatea de organisme - doar animalele sunt cunoscute aproximativ 1,5 milioane de specii, iar plantele - peste 500 de mii de specii, fără a număra alte grupuri de organisme. Sistematica biologică modernă reflectă legea lui Saint-Hilaire: „Toată diversitatea formelor de viață formează un sistem taxonomic natural, constând din grupuri ierarhice de taxoni de diferite ranguri”.

Inducția și deducția. Calea cunoașterii, în care, pe baza sistematizării informațiilor acumulate - de la particular la general - se face o concluzie despre modelul existent, se numește inducție. Această metodă ca metodă de studiu a naturii a fost dezvoltată de filozoful englez F. Bacon. El a scris: „Ar trebui luate cât mai multe cazuri – atât cele în care fenomenul investigat este prezent, cât și cele în care acesta este absent, dar în care s-ar putea aștepta să fie întâlnit; atunci trebuie să le aranjezi metodic... și să dai explicația cea mai probabilă; în cele din urmă, încercați să verificați această explicație prin comparație suplimentară cu faptele.”

Gând și imagine

Portrete ale lui F. Bacon și S. Holmes

De ce portretele unui om de știință și ale unui erou literar sunt situate unul lângă celălalt?

Inducția nu este singura cale obținerea de cunoștințe științifice despre lume. Dacă fizica experimentală, chimia și biologia au fost construite ca științe în principal datorită inducției, atunci fizica teoretică, matematica modernă la baza lor aveau un sistem axiome- consistent, speculativ, de încredere din punct de vedere bun simțşi nivelul de dezvoltare istorică a afirmaţiilor ştiinţifice. Apoi cunoașterea poate fi construită pe aceste axiome prin derivarea concluziilor de la general la particular, trecerea de la premisă la consecințe. Această metodă se numește deducție. A fost dezvoltat

René Descartes, filozof și om de știință francez.

Un exemplu izbitor de obținere a cunoștințelor despre un subiect în moduri diferite este descoperirea legilor mișcării corpurilor cerești. I. Kepler pe baza unei cantități mari de date observaționale privind mișcarea planetei Marte în începutul XVII v. a descoperit prin inducție legile empirice ale mișcării planetare în sistemul solar. La sfârșitul aceluiași secol, Newton a dedus legile generalizate ale mișcării corpurilor cerești pe baza legii gravitației universale.

In realitate activitati de cercetare metode cercetare științifică interconectate.

1. ○ Explicați ce este o metodă de cercetare, metodologia științelor naturale?

Toate aceste aproximări ar trebui justificate și erorile introduse de fiecare dintre ele să fie estimate numeric.

Dezvoltarea științei arată că fiecare lege natural-științifică are limitele ei de aplicare. De exemplu, legile lui Newton se dovedesc a fi inaplicabile în studiul proceselor microlumii. Pentru a descrie aceste procese, au fost formulate legile teoriei cuantice, care devin echivalente cu legile lui Newton dacă sunt aplicate pentru a descrie mișcarea corpurilor macroscopice. Din punct de vedere al modelării, aceasta înseamnă că legile lui Newton sunt un fel de model care urmează, sub anumite aproximări, dintr-o teorie mai generală. Totuși, legile teoriei cuantice nu sunt absolute și au limitări în aplicabilitatea lor. Au fost deja formulate legi mai generale și s-au obținut ecuații mai generale, care la rândul lor au și limitări. Și acest lanț nu are un capăt în vedere. Până acum, nu au fost obținute legi absolute care să descrie totul în natură, din care ar putea fi derivate toate legile particulare. Și nu este clar dacă astfel de legi pot fi formulate. Dar asta înseamnă că oricare dintre legile științifice naturale este de fapt un fel de model. Diferența față de modelele luate în considerare în această secțiune este doar în faptul că legile științelor naturale sunt un model aplicabil pentru a descrie nu un fenomen specific, ci pentru o clasă largă de fenomene.

Poziții derivate din pur
mijloace logice, la comparare
cu realitatea rezulta
complet gol.
A. Einstein

Cum să analizați și să clasificați corect datele? De ce avem nevoie de grafice și diagrame?

Lecție-atelier

scopul muncii... Aflați cum să clasificați și să analizați datele obținute din text.

Plan de muncă... 1. Analizați textul pentru a determina proprietățile esențiale ale obiectului la care se face referire. 2. Să structureze conținutul textului pentru a evidenția clasele de obiecte despre care se vorbește. 3. Înțelegerea rolului schemelor logice, graficelor, diagramelor pentru înțelegerea materialului studiat, stabilirea legăturilor logice, sistematizarea.

Analizați textul. Pentru a face acest lucru, trebuie să definiți mental subiectul în text - esențialul. Selectați, dezmembrați-l în părțile sale componente pentru a găsi elemente individuale, semne, laturi ale acestui obiect.

Ivan Kramskoy. D. I. Mendeleev

Ale cui portrete ale oamenilor de știință-sistematizatori le-ați adăuga la această serie?

PORTRET AL FULGERULUI BILULUI... „Portretul unui fenomen misterios al naturii - fulgerul cu minge a fost realizat de specialiștii principalului observator geofizic numit după AI Voeikova, folosind serviciile de calculatoare și., Metode de criminalistică. „Imaginea compozită” a străinului misterios a fost compilată pe baza datelor publicate în tipărire timp de trei secole, a rezultatelor anchetelor de cercetare și a rapoartelor martorilor oculari din diferite țări.

Care dintre secretele sale le-a spus grupul de energie plutitoare oamenilor de știință?

Se observă mai ales în timpul furtunilor. În orice moment, au existat patru forme de fulger cu bile: o sferă, un oval, un disc și o tijă. Generarea de electricitate atmosferică, în mod natural, a apărut în mare parte în aer. Totuși, conform sondajelor americane, fulgerele pot fi văzute cu frecvență egală și așezate pe diverse obiecte - stâlpi de telegraf, copaci, case. Dimensiunile uimitorului însoțitor al furtunilor sunt de la 15 la 40 cm. Culoare? Trei sferturi dintre martorii oculari au privit bilele strălucitoare de roșu, galben și roz.

Viața unei grămadă de plasmă electrică este cu adevărat viața moliei, de obicei în cinci secunde. Mai lungă decât această perioadă, dar nu mai mult de 30 de secunde, până la 36% dintre martorii oculari l-au văzut. Aproape întotdeauna, moartea ei a fost aceeași - ea a explodat spontan, izbindu-se uneori de diverse obstacole. „Portretele colective” realizate de observatori din timpuri și popoare diferite au coincis.

Dacă, după citirea textului, ați putut să răspundeți la întrebări, ce se spune în text, care sunt principalele trăsături, elemente, laturi, proprietăți ale subiectului de raționament, atunci ați analizat-o. În acest caz, subiectul, conținutul principal al textului este ideea fulgerului cu minge. Proprietățile fulgerului mingii - sale aspect: dimensiune, formă, culoare, precum și durata de viață, caracteristici de comportament.

Pe baza analizei textului, determinați-i structura logică. Propuneți modalități de a lucra cu acest text pentru asimilarea, memorarea, utilizarea lui ca material interesant, neobișnuit în continuarea dvs. munca educațională- în discuții, discursuri.

PROMPT... Puteți întocmi un plan pentru acest text, schița lui, teze (generalizări și concluzii pe care le considerați principalele gânduri ale textului). Este util să evidențiezi ceea ce este nou pentru tine, necunoscut în material. De asemenea, puteți înregistra materialul. Pentru a face acest lucru, după ce ați analizat textul, evidențiați informațiile care sunt semnificative pentru dvs., încercați să le combinați în grupuri, afișați conexiunile dintre aceste grupuri.

Utilizarea tabelelor, graficelor, diagramelor ne ajută să organizăm studiul disciplinelor de științe naturale. Să presupunem că avem la dispoziție date despre temperaturile medii lunare pe timpul zilei pentru un an pentru Sankt Petersburg și pentru Soci. Este necesară analizarea și sistematizarea acestui material pentru a identifica orice tipare.

Să reprezentăm setul de date disparat sub forma unui tabel, apoi sub forma unui grafic și a unei diagrame (Fig. 5, 6). Găsiți modele în distribuția temperaturii. Raspunde la intrebari:

Care sunt caracteristicile distribuției temperaturii pe luni în diferite orașe? Cum diferă aceste distribuții?
Care este motivul proceselor care duc la această distribuție?
V-ați ajutat să finalizați sarcina organizând materialul folosind un grafic, diagramă?

Temperaturile medii lunare pe timpul zilei timp de un an pentru Sankt Petersburg și Soci

Orez. 5. Graficul cursului temperaturilor medii lunare pe timpul zilei timp de un an pentru Sankt Petersburg și Soci

Orez. 6. Diagrama: temperaturi medii lunare pe timp de un an în orașele Sankt Petersburg și Soci

Pașii importanți pentru stăpânirea metodelor de cunoaștere științifică sunt:

Analiza logică a textului.
Întocmirea unui plan, diagrame, evidențierea structurii materialului.
Rezumate de text sau rezumate scrise.
Alocarea de noi cunoștințe și utilizarea lor în discuții, discursuri, în rezolvarea de noi probleme, probleme.

Literatură suplimentară de lectură

Einstein A. Fără formule / A. Einstein; comp. K. Kedrov; pe. din engleza - M .: Gând. 2003.
Metodologia științei și progresul științific. - Novosibirsk: Știință. 1981.
Feyrabend P. Lucrări alese despre metodologia științei / P. Feyrabend. - M .: Progres, 1986

Anul trecut, compania Avito a organizat o serie de concursuri. Inclusiv competiția pentru recunoașterea mărcilor de mașini, al cărei câștigător, Evgeny Nizhibitsky, a povestit despre decizia sa în timpul sesiunii de antrenament.

Formularea problemei... Este necesar să se determine marca și modelul din imaginile mașinilor. Metrica a fost acuratețea predicțiilor, adică proporția răspunsurilor corecte. Eșantionul a fost format din trei părți: prima parte a fost disponibilă pentru antrenament inițial, a doua a fost dată mai târziu, iar a treia a necesitat afișarea predicțiilor finale.

Resurse de calcul... Am folosit computerul de acasă, care îmi încălzea camera în tot acest timp, și serverele puse la dispoziție la serviciu.

Prezentare generală a modelului... Întrucât sarcina noastră este recunoașterea, primul lucru pe care vrem să-l facem este să profităm de progresul înregistrat la nivelul de calitate al clasificării imaginilor pe binecunoscutul ImageNet. După cum știți, arhitecturile moderne vă permit să obțineți o calitate și mai mare decât cea a unei persoane. Așa că am început cu o revizuire a articolelor recente și am creat un tabel pivot cu arhitecturi, implementări și calități bazate pe ImageNet.

Rețineți că cea mai bună calitate se obține pe arhitecturi și.

Reglarea fină a rețelelor... A antrena o rețea neuronală profundă de la zero este un exercițiu destul de consumator de timp, în plus, nu este întotdeauna eficient în ceea ce privește rezultatele. Prin urmare, tehnica de instruire suplimentară a rețelelor este adesea folosită: se ia o rețea deja antrenată pe ImageNet, ultimul strat este înlocuit cu un strat cu numărul necesar de clase și apoi rețeaua este configurată cu o rată de învățare scăzută, dar folosind date din competiție. Această schemă vă permite să antrenați rețeaua mai rapid și cu o calitate mai bună.

Prima abordare a recalificării GoogLeNet a arătat o acuratețe de aproximativ 92% în validare.

Predicții de recoltare... Utilizarea unei rețele neuronale pentru predicție pe un eșantion de testare poate îmbunătăți calitatea. Pentru a face acest lucru, tăiați fragmente dimensiune potrivităîn locuri diferite din imaginea originală și apoi media rezultatelor. O decupare de 1x10 înseamnă că este luat centrul imaginii, patru colțuri, apoi totul este la fel, dar reflectat orizontal. După cum puteți vedea, calitatea crește, dar timpul de predicție crește.

Validarea rezultatelor... După ce a apărut cea de-a doua parte a probei, am împărțit proba în mai multe părți. Toate rezultatele ulterioare sunt afișate în această împărțire.

Torța ResNet-34... Puteți folosi depozitul gata făcut al autorilor arhitecturii, dar pentru a obține predicții asupra testului în formatul dorit, trebuie să remediați câteva scripturi. În plus, este necesar să se rezolve problemele consumului mare de memorie de către depozite. Precizia validării este de aproximativ 95%.

Inception-v3 TensorFlow... A fost folosit și aici implementare finalizată, dar preprocesarea imaginilor a fost modificată, precum și decuparea imaginilor la generarea unui lot a fost limitată. Rezultatul este o precizie de aproape 96%.

Ansamblu de modele... Rezultatul sunt două modele ResNet și două modele Inception-v3. Ce calitate de validare se poate obține prin amestecarea modelelor? Probabilitățile de clasă au fost mediate folosind media geometrică. Greutățile (în acest caz, gradele) au fost selectate pe un eșantion amânat.

rezultate... ResNet a durat 60 de ore pentru a se antrena pe GTX 980, iar Inception-v3 pe TitanX a durat 48 de ore. În timpul competiției, am reușit să încercăm noi cadre cu arhitecturi noi.

Problema clasificării clienților băncilor

Link către Kaggle.

Stanislav Semyonov povestește cum el și alți membri ai topului Kaggle s-au unit și au câștigat un premiu în competiția pentru clasificarea comenzilor clienților unei bănci mari - BNP Paribas.

Formularea problemei... Folosind date ascunse din daunele de asigurare, este necesar să se prezică dacă cererea poate fi confirmată fără verificări manuale suplimentare. Pentru o bancă, acesta este procesul de automatizare a procesării aplicațiilor, iar pentru analiștii de date, este doar o sarcină de învățare automată a clasificării binare. Există aproximativ 230 de mii de obiecte și 130 de caracteristici. Metric - LogLoss. Este de remarcat faptul că echipa câștigătoare a decriptat datele, ceea ce i-a ajutat să câștige competiția.

A scăpa de zgomotul artificial din indicatoare... Primul pas este să te uiți la datele. Mai multe lucruri sunt imediat evidente. În primul rând, toate caracteristicile iau valori de la 0 la 20. În al doilea rând, dacă vă uitați la distribuția oricăreia dintre caracteristici, puteți vedea următoarea imagine:

De ce este asta? Faptul este că, în etapa de anonimizare și zgomot de date, zgomotul aleatoriu a fost adăugat la toate valorile, iar apoi scalarea a fost efectuată de un segment de la 0 la 20. Transformarea inversă a fost efectuată în doi pași: mai întâi, valorile au fost rotunjite la o anumită zecimală, iar apoi numitorul a fost selectat... A fost acest lucru necesar dacă copacul încă ridică pragul la despicare? Da, după transformarea inversă, diferențele variabilelor încep să aibă mai mult sens, iar pentru variabilele categoriale devine posibilă efectuarea unei codări one-hot.

Eliminarea caracteristicilor dependente liniar... De asemenea, am observat că unele trăsături sunt suma altora. Este clar că nu sunt necesare. Pentru a le determina, au fost luate subseturi de caracteristici. Regresia a fost construită pe astfel de subseturi pentru a prezice o altă variabilă. Și dacă valorile prezise erau apropiate de cele adevărate (merită să luați în considerare zgomotul artificial), atunci caracteristica ar putea fi eliminată. Dar echipa nu s-a deranjat cu acest lucru și a folosit un set gata făcut de caracteristici filtrate. Trusa a fost pregătită de altcineva. Una dintre caracteristicile Kaggle este prezența unui forum și a soluțiilor publice prin care membrii își împărtășesc constatările.

De unde știi ce să folosești? Există un mic hack. Să presupunem că știi că cineva din vechile competiții a folosit o tehnică care l-a ajutat să se claseze înalt (de obicei scriu soluții scurte pe forumuri). Dacă în competiția actuală acest participant este din nou printre lideri, cel mai probabil, aceeași tehnică va trage aici.

Codificarea variabilelor categoriale... A fost izbitor că o anumită variabilă V22 are un număr mare de valori, dar, în același timp, dacă luăm un subeșantion cu o anumită valoare, numărul de niveluri (valori diferite) ale altor variabile scade considerabil. Aceasta include o corelație bună cu variabila țintă. Ce se poate face? Cea mai simplă soluție este de a construi un model separat pentru fiecare valoare a lui V22, dar acesta este același ca în prima împărțire a arborelui pentru a împărți toate valorile variabilei.

Există o altă modalitate de a utiliza informațiile obținute - codificarea cu media variabilei țintă. Cu alte cuvinte, fiecare valoare a variabilei categorice este înlocuită cu valoarea medie a țintei pentru obiectele pentru care acest atribut ia aceeași valoare. Este imposibil să efectuați o astfel de codare direct pentru întregul set de antrenament: în acest proces, vom adăuga implicit informații despre variabila țintă la caracteristici. Vorbim despre informații pe care aproape orice model le va găsi cu siguranță.

Prin urmare, acești statisticieni contează pe falduri. Iată un exemplu:

Să presupunem că datele sunt împărțite în trei părți. Pentru fiecare fold al setului de antrenament, vom calcula o nouă caracteristică pe baza altor două fold-uri, iar pentru setul de testare - pe întregul set de antrenament. Apoi informațiile despre variabila țintă nu vor fi incluse în eșantion atât de explicit, iar modelul va putea folosi cunoștințele acumulate.

Vor mai fi probleme cu altceva? Da - cu categorii rare și validare încrucișată.

Categorii rare... Să presupunem că o anumită categorie a fost întâlnită doar de câteva ori și obiectele corespunzătoare aparțin clasei 0. Atunci valoarea medie a variabilei țintă va fi, de asemenea, zero. Cu toate acestea, pe eșantionul de testat poate apărea o situație complet diferită. Soluția este media netezită (sau probabilitatea netezită), care se calculează folosind următoarea formulă:

Aici media globală este valoarea medie a variabilei țintă pe întregul eșantion, nrows este de câte ori este întâlnită o anumită valoare a variabilei categoriale, alfa este parametrul de regularizare (de exemplu, 10). Acum, dacă o anumită valoare este rară, media globală va avea mai multă pondere și, dacă este suficient de des, rezultatul va fi apropiat de media categoriei de pornire. Apropo, această formulă vă permite să procesați valori necunoscute anterior ale unei variabile categoriale.

Validare încrucișată... Să presupunem că am calculat toate mediile netezite pentru variabilele categoriale pentru alte pliuri. Putem evalua calitatea modelului utilizând validarea încrucișată standard în k-fold? Nu. Să luăm un exemplu.

De exemplu, dorim să evaluăm un model de pe a treia ori. Antrenăm modelul pe primele două ori, dar au o nouă variabilă cu media variabilei țintă, pe care am calculat-o deja folosind a treia ori de testare. Acest lucru nu ne permite să evaluăm corect rezultatele, dar problema care a apărut este rezolvată prin calcularea statisticilor privind pliurile în pliuri. Să ne uităm din nou la exemplu:

Încă vrem să evaluăm modelul de pe a treia ori. Să împărțim primele două ori (eșantionul de antrenament al estimării noastre) în alte trei ori, în ele vom calcula noua caracteristică conform scenariului deja analizat, iar pentru a treia ori (acesta este un eșantion de testare al estimării noastre) vom calcula împreună primele două pliuri. Apoi, nicio informație din a treia ori nu va fi folosită atunci când antrenați modelul și estimarea va fi corectă. În competiția pe care o discutăm, doar acest tip de validare încrucișată ne-a permis să evaluăm corect calitatea modelului. Desigur, numărul de pliuri „exterior” și „interior” poate fi oricare.

Caracteristicile clădirii... Am folosit nu numai valorile medii netezite deja menționate ale variabilei țintă, ci și ponderile dovezilor. Este aproape la fel, dar cu o transformare logaritmică. În plus, caracteristici precum diferența dintre numărul de obiecte ale claselor pozitive și negative dintr-un grup fără nicio normalizare s-au dovedit a fi utile. Intuiția este următoarea: scara arată gradul de încredere în clasă, dar ce să faci cu semnele cantitative? La urma urmei, dacă le procesați într-un mod similar, atunci toate valorile vor fi „ciocănite” de regularizarea mediei globale. O opțiune este împărțirea valorilor în coșuri, care sunt apoi considerate categorii separate. O altă modalitate este pur și simplu să construiești un fel de model liniar pe o caracteristică cu aceeași țintă. În total, am primit aproximativ două mii de funcții din 80 de cele filtrate.

Stivuire și amestecare... Ca și în cazul majorității competițiilor, stivuirea modelelor este o parte importantă a soluției. Pe scurt, esența stivuirii este că transferăm predicțiile unui model ca caracteristică către alt model. Cu toate acestea, este important să nu vă recalificați. Să luăm doar un exemplu:

Preluat de pe blogul lui Alexander Dyakonov

De exemplu, am decis să ne împărțim proba în trei ori în timpul fazei de mizare. Similar cu calculul statisticilor, trebuie să antrenăm modelul pe două pliuri și să adăugăm valorile prezise pentru pliul rămas. Pentru un eșantion de testare, puteți face media predicțiilor modelelor din fiecare pereche de pliuri. Fiecare nivel de stivuire se numește procesul de adăugare a unui grup de caracteristici de predicție model noi bazate pe setul de date existent.

La primul nivel, echipa avea 200-250 de modele diferite, la al doilea - încă 20-30, la al treilea - mai multe. Rezultatul este amestecarea, adică amestecarea predicțiilor diferitelor modele. Au fost folosiți diverși algoritmi: creșterea gradientului cu diferiți parametri, păduri aleatorii, rețele neuronale. Ideea principală este să folosiți cele mai diverse modele cu parametri diferiți, chiar dacă nu oferă cea mai înaltă calitate.

lucru in echipa... De obicei, participanții se unesc în echipe înainte de încheierea competiției, când fiecare are deja propria experiență. Am făcut echipă cu alți „Kagler” încă de la început. Fiecare membru al echipei avea un folder în cloud partajat în care se aflau seturile de date și scripturile. Procedura generala validările încrucișate au fost aprobate în prealabil, astfel încât să se poată face comparații. Rolurile au fost distribuite după cum urmează: am venit cu noi funcții, al doilea participant a construit modele, al treilea le-a selectat, iar al patrulea gestionează întregul proces.

De unde să obțineți puterea... Testarea unui număr mare de ipoteze, construirea de stivuire pe mai multe niveluri și formarea modelelor pot fi consumatoare de timp cu un laptop. Prin urmare, mulți participanți folosesc servere de calcul cu un număr mare de nuclee și RAM. De obicei folosesc servere AWS, iar membrii echipei mele se dovedesc că folosesc mașini la serviciu pentru competiții în timp ce sunt inactivi.

Comunicare cu firma organizatoare... După performanța de succes în competiție, comunicarea cu compania are loc sub forma unei conferințe comune. Participanții vorbesc despre decizia lor și răspund la întrebări. La BNP, oamenii nu au fost surprinși de stivuirea pe mai multe niveluri, ci au fost, bineînțeles, interesați de construirea de caracteristici, lucrul în echipă, validarea rezultatelor - tot ceea ce le poate fi util în îmbunătățirea propriului sistem.

Trebuie să decriptez setul de date... Echipa câștigătoare a observat o particularitate în date. Unele dintre caracteristici au valori lipsă, iar altele nu. Adică, unele caracteristici nu depind de anumite persoane. În plus, au existat 360 de valori unice. Este logic să presupunem că vorbim despre niște mărci temporale. S-a dovedit că, dacă luăm diferența dintre două astfel de semne și sortăm întregul eșantion după ea, la început vor fi zerouri mai des și apoi unele. Exact de asta au profitat și câștigătorii.

Echipa noastră a ocupat locul trei. În total, au participat aproape trei mii de echipe.

Sarcina de a recunoaște categoria de anunțuri

Link către DataRing.

Acesta este un alt concurs Avito. S-a desfășurat în mai multe etape, dintre care prima (precum și a treia, de altfel) a fost câștigată de Arthur Kuzin.

Formularea problemei... Este necesar să se determine categoria pe baza fotografiilor din anunț. Fiecare anunț avea una până la cinci imagini. Metrica a ținut cont de coincidența categoriilor la diferite niveluri ale ierarhiei - de la general la cele mai restrânse (ultimul nivel conține 194 de categorii). În total, au existat aproape un milion de imagini în eșantionul de antrenament, ceea ce este aproape de dimensiunea ImageNet.

Dificultăți de recunoaștere... S-ar părea că trebuie doar să înveți să deosebești un televizor de o mașină și o mașină de pantofi. Dar, de exemplu, există categoria „pisici britanice”, și există „alte pisici”, iar printre ele există imagini foarte asemănătoare - deși este încă posibil să le distingem unele de altele. Dar anvelope, discuri și roți? Aici, și o persoană nu poate face față. Aceste dificultăți sunt motivul apariției unei anumite limite a rezultatelor tuturor participanților.

Resurse și cadru... Am avut la dispozitie trei calculatoare cu placi video puternice: unul de acasa pus la dispozitie de un laborator la MIPT si un calculator la serviciu. Prin urmare, a fost posibil (și a trebuit) să antreneze mai multe rețele în același timp. MXNet a fost ales ca cadru principal pentru antrenamentul rețelelor neuronale, creat de aceiași băieți care au scris binecunoscutul XGBoost. Doar acesta a fost motivul pentru a avea încredere în noul lor produs. Avantajul MXNet este că un iterator eficient cu mărire standard este disponibil imediat din cutie, ceea ce este suficient pentru majoritatea sarcinilor.

Arhitecturi de rețea... Experiența de participare la una dintre competițiile anterioare a arătat că cea mai bună calitate este demonstrată de arhitecturile seriei Inception. Le-am folosit aici. A fost adăugat la GoogLeNet deoarece a făcut învățarea modelului mai rapidă. Am folosit, de asemenea, arhitecturile Inception-v3 și Inception BN din biblioteca de modele Model Zoo, la care a fost adăugat un abandon înainte de ultimul strat complet conectat. Din cauza unor probleme tehnice, nu a fost posibil să se antreneze rețeaua utilizând coborâre în gradient stocastic, așa că Adam a fost folosit ca optimizator.

Augmentarea datelor... Pentru a îmbunătăți calitatea rețelei, s-a folosit mărirea - adăugarea de imagini distorsionate la eșantion pentru a crește varietatea datelor. Au fost implicate transformări, cum ar fi tăierea accidentală a fotografiei, răsturnarea, rotirea cu un unghi mic, modificarea raportului de aspect și schimbarea.

Acuratețea și viteza de învățare... La început, am împărțit proba în trei părți, dar apoi am abandonat unul dintre pașii de validare pentru amestecarea modelelor. Prin urmare, a doua parte a eșantionului a fost adăugată ulterior la setul de instruire, ceea ce a îmbunătățit calitatea rețelelor. În plus, GoogLeNet a fost antrenat inițial pe Titan Black, care are jumătate din memorie în comparație cu Titan X. Așa că această rețea a fost reantrenată cu o dimensiune mare a lotului, iar precizia sa a crescut. Dacă ne uităm la timpul de antrenament al rețelei, putem concluziona că într-un interval de timp limitat, nu ar trebui să utilizați Inception-v3, deoarece antrenamentul este mult mai rapid cu celelalte două arhitecturi. Motivul este în numărul de parametri. Inception BN învață cel mai repede.

Făcând predicții.

La fel ca Evgeny în competiția cu mărci de mașini, Arthur a folosit predicții de recoltă - dar nu pe 10 secțiuni, ci pe 24. Secțiunile erau colțuri, reflexele lor, centrul, întoarcerile părților centrale și încă zece aleatorii.

Dacă salvați starea rețelei după fiecare epocă, rezultatul sunt multe modele diferite, nu doar rețeaua finală. Ținând cont de timpul rămas până la finalul competiției, aș putea folosi predicții pentru 11 epoci-model - deoarece construirea predicțiilor folosind rețeaua necesită și mult. Toate aceste predicții au fost mediate conform următoarei scheme: mai întâi, folosind media aritmetică în cadrul grupelor de culturi, apoi folosind media geometrică cu ponderi selectate pe setul de validare. Aceste trei grupe se amestecă, apoi repetăm operația pentru toate epocile. La final, probabilitățile de clasă ale tuturor imaginilor unui anunț sunt mediate folosind media geometrică fără ponderi.

rezultate... La selectarea ponderilor în etapa de validare a fost utilizată metrica competiției, deoarece nu se corela prea mult cu acuratețea obișnuită. Predicția asupra diferitelor părți ale imaginilor oferă doar o mică parte din calitate în comparație cu o singură predicție, dar datorită acestei creșteri este posibil să se arate cel mai bun rezultat. La finalul competiției, s-a dovedit că primele trei locuri diferă în rezultate cu miimi. De exemplu, Zhenya Nizhibitsky avea singurul model, care era destul de inferior ansamblului meu de modele.

Învățarea de la zero vs. reglaj fin... După încheierea competiției, s-a dovedit că, în ciuda dimensiunii mari a eșantionului, a meritat să antrenați rețeaua nu de la zero, ci să folosiți o rețea pre-antrenată. Această abordare arată rezultate mai bune.

Problemă de învățare prin întărire

Black Box Challenge, despre care, nu a fost chiar ca un „Kagle” obișnuit. Ideea este că nu a fost suficient să se marcheze o probă „de test” pentru soluție. Era necesar să se programeze și să se încarce codul „agent” în sistem, care a fost plasat într-un mediu necunoscut pentru participant și a luat decizii în mod independent în acesta. Astfel de sarcini aparțin domeniului învățării prin întărire.

Mikhail Pavlov de la compania 5vision a vorbit despre abordările soluției. În competiție, a ocupat locul doi.

Formularea problemei... Pentru un mediu cu reguli necunoscute, a fost necesar să se scrie un „agent” care să interacționeze cu mediul specificat. Schematic, acesta este un fel de creier care primește informații despre o stare și o recompensă dintr-o cutie neagră, ia o decizie cu privire la o acțiune și apoi primește o nouă stare și o recompensă pentru acțiunea efectuată. Acțiunile se repetă una după alta în timpul jocului. Starea curentă este descrisă de un vector de 36 de numere. Un agent poate întreprinde patru acțiuni. Scopul este de a maximiza cantitatea de recompense pentru întregul joc.

Analiza mediului... Studiul distribuției variabilelor de stare a mediului a arătat că primele 35 de componente nu depind de acțiunea selectată și doar a 36-a componentă se modifică în funcție de aceasta. În același timp, diferite acțiuni au influențat în moduri diferite: unele au crescut sau au scăzut, altele nu s-au schimbat în niciun fel. Dar nu se poate spune că întregul mediu depinde de o componentă: pot exista unele variabile ascunse în el. În plus, experimentul a arătat că dacă efectuați mai mult de 100 de acțiuni identice la rând, atunci recompensa devine negativă. Așa că strategiile precum „efectuați o singură acțiune” au dispărut imediat. Unii dintre participanții la competiție au observat că recompensa este proporțională cu aceeași componentă a 36-a. La forum s-a sugerat că cutia neagră imită piața financiară, unde portofoliul este componenta a 36-a, iar acțiunile sunt cumpărarea, vânzarea și decizia de a nu face nimic. Aceste opțiuni s-au corelat cu modificările portofoliului, iar sensul unei acțiuni nu era clar.

Q-learning... În timpul participării, scopul principal a fost să încercăm diverse tehnici Consolidarea învățării. Una dintre cele mai simple și mai cunoscute metode este q-learning. Esența sa este în încercarea de a construi o funcție Q, care depinde de starea și de acțiunea selectată. Q evaluează cât de „bine” este să alegi o anumită acțiune într-o anumită stare. Bunul include recompensa pe care o vom primi nu numai acum, ci și în viitor. O astfel de funcție este antrenată iterativ. În timpul fiecărei iterații, încercăm să aducem funcția mai aproape de sine în următorul pas al jocului, ținând cont de recompensa pe care am primit-o acum. Puteți citi mai multe despre el. Utilizarea q-learning presupune lucrul cu procese Markov pe deplin observabile (cu alte cuvinte, starea curentă ar trebui să conțină toate informațiile din mediu). În ciuda faptului că mediul, conform organizatorilor, nu a îndeplinit această cerință, a fost posibil să se folosească q-learning cu destul de mult succes.

Adaptare la cutia neagră... S-a constatat experimental că învățarea q-n pași era cea mai potrivită pentru mediu, unde recompensa a fost folosită nu pentru o ultimă acțiune, ci pentru n pași înainte. Mediul ne-a permis să salvăm starea actuală și să revenim la ea, ceea ce a făcut mai ușoară colectarea probei - a fost posibil să încercăm să efectuăm fiecare acțiune dintr-o singură stare, și nu doar una. Chiar la începutul antrenamentului, când funcția q nu știa încă să evalueze acțiunile, s-a folosit strategia „a face acțiunea 3”. S-a presupus că nu a schimbat nimic și a fost posibil să începeți antrenamentul pe date fără zgomot.

Proces de invatare... Antrenamentul a decurs astfel: cu politica actuală (strategia agentului) redăm întregul episod, acumulând proba, apoi folosind proba obținută actualizăm funcția q și așa mai departe - secvența se repetă pentru un anumit număr de epoci . Rezultatele au fost mai bune decât actualizarea funcției q în timpul jocului. Alte metode sunt tehnica memoriei de reluare (cu bancă comună datele de antrenament, unde sunt înregistrate episoade noi ale jocului) și antrenamentul simultan al mai multor agenți care joacă asincron - de asemenea, s-au dovedit a fi mai puțin eficiente.

Modele... Soluția a folosit trei regresii (fiecare o dată pe acțiune) și două rețele neuronale. Au fost adăugate unele caracteristici și interacțiuni pătratice. Modelul rezultat este un amestec al tuturor celor cinci modele (cinci funcții Q) cu greutăți egale. În plus, s-a folosit instruire suplimentară online: în procesul de testare, ponderile vechilor regresii au fost amestecate cu noile ponderi obținute pe proba de testare. Acest lucru a fost făcut doar pentru regresii, deoarece soluțiile lor pot fi scrise analitic și recalculate destul de repede.

Mai multe idei... Desigur, nu toate ideile au îmbunătățit rezultatul final. De exemplu, reducerea recompensei (când nu maximizăm doar recompensa totală, ci considerăm fiecare mișcare următoare mai puțin utilă), rețelele profunde, arhitectura de duel (cu o evaluare a utilității statului și a fiecărei acțiuni separat) nu au dat naștere. la rezultate. Din cauza unor probleme tehnice, nu a fost posibilă utilizarea rețelelor recurente - deși într-un ansamblu cu alte modele, acestea ar putea oferi unele beneficii.

Rezultate... Echipa 5vision a ocupat locul doi, dar cu o marjă foarte mică față de câștigătorii de bronz.

Deci, de ce trebuie să concurați la concursuri de știință a datelor?

Premii. Performanța de succes în majoritatea competițiilor este răsplătită cu premii în bani sau alte cadouri valoroase. Peste șapte milioane de dolari au fost atrași de Kaggle în șapte ani.
Carieră. Uneori un loc premiat.
O experienta. Acesta este, desigur, cel mai important lucru. Puteți explora o zonă nouă și puteți începe să abordați provocări pe care nu le-ați mai întâlnit până acum.

Antrenamentul de învățare automată are loc acum sâmbăta, la două săptămâni. Locul de desfășurare este biroul Yandex din Moscova, numărul standard de oaspeți (oaspeți plus Yandex) este de 60-80 de persoane. Principala caracteristică a antrenamentului este relevanța sa: de fiecare dată competiția, care s-a încheiat cu una sau două săptămâni în urmă, este rezolvată. Acest lucru face dificilă planificarea exactă a tuturor lucrurilor, dar competiția este încă proaspătă în memorie și mulți oameni se adună în sală pentru a încerca mâna la asta. Emil Kayumov supraveghează antrenamentul, care, apropo, a ajutat la scrierea acestei postări.

În plus, există un alt format: permisele, în care specialiștii începători participă în comun la competițiile existente. Rezoluțiile se țin sâmbăta când nu există antrenament. Oricine poate participa la evenimente de ambele tipuri, anunturile sunt publicate in grupuri

Practic, data mining se referă la procesarea informațiilor și identificarea tiparelor și tendințelor în acestea care vă ajută să luați decizii. Principii analiza intelectuală datele sunt cunoscute de mulți ani, dar odată cu apariția Date mare au devenit și mai răspândite.

Big Data a condus la o creștere explozivă a popularității tehnicilor de extragere a datelor mai largi, în parte pentru că există mult mai multe informații și, prin însăși natura și conținutul lor, acestea devin din ce în ce mai diversificate și mai expansive. Când aveți de-a face cu seturi de date mari, statisticile relativ simple și directe nu mai sunt suficiente. Cu 30 sau 40 de milioane de înregistrări detaliate de achiziție, nu este suficient să știi că două milioane dintre ele sunt din aceeași locație. Pentru a satisface mai bine nevoile clienților, trebuie să înțelegeți dacă cei două milioane se află într-o anumită grupă de vârstă și să cunoașteți câștigurile lor medii.

Aceste cerințe de afaceri au trecut de la căutarea simplă și analiza statistică a datelor la extragerea datelor mai sofisticate. Pentru a rezolva problemele de afaceri, este necesară analiza datelor care vă permite să construiți un model de descriere a informațiilor și să conducă în cele din urmă la crearea unui raport rezultat. Acest proces este ilustrat.

Figura 1. Diagrama fluxului procesului

Procesul de analiză a datelor, căutare și construirea unui model este adesea iterativ, deoarece trebuie să urmăriți și să descoperiți diverse informații care pot fi extrase. De asemenea, trebuie să înțelegeți cum să le legați, să le transformați și să le combinați cu alte date pentru a obține un rezultat. Odată ce sunt descoperite noi elemente și aspecte ale datelor, abordarea identificării surselor și formatelor de date și apoi a comparării acestor informații cu un rezultat dat se poate schimba.

Instrumente de extragere a datelor

Miningul de date nu este doar instrumentele folosite sau software baze de date. Exploatarea datelor poate fi realizată cu sisteme de baze de date relativ modeste și instrumente simple, inclusiv crearea propriei dvs. sau folosind pachete software disponibile. Exploatarea sofisticată a datelor se bazează pe experiența trecută și pe algoritmi definiți folosind software-ul și pachetele existente, cu diferite instrumente specializate asociate cu diferite metode.

De exemplu, IBM SPSS®, care se bazează pe analize statistice și sondaje, vă permite să construiți modele predictive eficiente pe tendințele din trecut și să faceți predicții precise. IBM InfoSphere® Warehouse oferă descoperirea, preprocesarea și extragerea surselor de date într-un singur pachet, permițându-vă să extrageți informații din baza de date sursă direct în raportul final.

În ultimii ani, a devenit posibil să se lucreze cu seturi de date foarte mari și cu procesare de date cluster/la scară largă, ceea ce permite generalizări și mai complexe ale rezultatelor extragerii de date pe grupuri și comparații de date. O gamă cu totul nouă de instrumente și sisteme este disponibilă astăzi, inclusiv sisteme combinate de stocare și procesare a datelor.

O mare varietate de seturi de date pot fi analizate, inclusiv baze de date tradiționale SQL, date de text brut, seturi de chei/valori și baze de date de documente. Bazele de date grupate precum Hadoop, Cassandra, CouchDB și Couchbase Server stochează și accesează date în moduri care nu urmează o structură tabelară tradițională.

În special, un format mai flexibil pentru stocarea unei baze de documente conferă procesării informațiilor o nouă direcție și o complică. Bazele de date SQL sunt foarte structurate și aderă la schema, ceea ce face ușoară interogarea și analizarea datelor cu un format și o structură cunoscute.

Bazele de date documentare care urmează o structură standard precum JSON sau fișiere cu o structură care poate fi citită de mașină sunt, de asemenea, ușor de manevrat, deși acest lucru poate fi complicat de structura lor variată și fluidă. De exemplu, în Hadoop, care prelucrează date complet „brute”, poate fi dificil să identifici și să extragi informații înainte de a le procesa și corela.

Metode de bază

Mai multe metode de bază care sunt utilizate pentru data mining descriu tipul de analiză și operația de recuperare a datelor. Din păcate, companii și soluții diferite nu folosesc întotdeauna aceiași termeni, ceea ce poate spori confuzia și complexitatea percepută.

Să ne uităm la câteva dintre tehnicile cheie și exemplele de utilizare a anumitor instrumente de extragere a datelor.

Asociere

Asocierea (sau relația) este probabil cea mai cunoscută, familiară și simplă tehnică de extragere a datelor. Pentru identificarea tiparelor se face o comparație simplă între două sau mai multe elemente, adesea de același tip. De exemplu, urmărind obiceiurile de cumpărături, este posibil să observați că, de obicei, smântâna este cumpărată cu căpșuni.

Construirea de instrumente de data mining bazate pe asocieri sau relații nu este dificilă. De exemplu, InfoSphere Warehouse oferă un vrăjitor care vă ghidează prin configurațiile fluxului de informații pentru a crea asocieri prin examinarea sursei de intrare, a bazei de decizie și a informațiilor de ieșire. este oferit un exemplu pentru baza de date eșantion.

Figura 2. Fluxul de informații utilizat în abordarea de asociere

Clasificare

Clasificarea poate fi folosită pentru a vă face o idee despre tipul de client, produs sau obiect prin descrierea mai multor atribute pentru a identifica o anumită clasă. De exemplu, mașinile pot fi clasificate cu ușurință după tip (sedan, SUV, decapotabilă) prin definirea diferitelor atribute (număr de locuri, forma caroseriei, roți motrice). Studiu mașină nouă, îl puteți atribui unei anumite clase comparând atributele cu o definiție cunoscută. Aceleași principii pot fi aplicate și clienților, de exemplu, prin clasificarea lor în funcție de vârstă și grup social.

În plus, clasificarea poate fi utilizată ca intrare pentru alte metode. De exemplu, arborii de decizie pot fi utilizați pentru a defini o clasificare. Clustering vă permite să utilizați atributele comune ale diferitelor clasificări pentru a identifica clustere.

Examinând unul sau mai multe atribute sau clase, puteți grupa elemente individuale de date împreună pentru a obține o concluzie structurată. La un nivel simplu, gruparea folosește unul sau mai multe atribute ca bază pentru definirea unui grup de rezultate similare. Gruparea este utilă în identificarea diferitelor informații, deoarece se corelează cu alte exemple, astfel încât să puteți vedea unde sunt de acord asemănările și intervalele.

Metoda de grupare funcționează în ambele sensuri. Puteți presupune că există un cluster la un anumit punct și apoi utilizați criteriile de identificare pentru a verifica acest lucru. Graficul prezentat este un exemplu ilustrativ. Aici, vârsta cumpărătorului este comparată cu prețul de achiziție. Este rezonabil să ne așteptăm ca persoanele în vârstă de douăzeci și treizeci de ani (înainte de căsătorie și de a avea copii) și de 50 și 60 de ani (când copiii au plecat de acasă) să aibă un venit disponibil mai mare.

Figura 3. Clustering

În acest exemplu, sunt vizibile două clustere, unul în jur de 2000 USD / 20-30 de ani și celălalt în jur de 7000-8000 USD / 50-65 ani. În acest caz, am emis ipoteza și am testat-o pe un grafic simplu care poate fi reprezentat folosind orice software de graficare adecvat. Pentru combinații mai complexe, este necesar un pachet analitic complet, mai ales dacă doriți să vă bazați automat deciziile pe informații despre cel mai apropiat vecin.

Această grupare este un exemplu simplificat al așa-numitei imagini cel mai apropiat vecin... Cumpărătorii individuali se pot distinge prin apropierea lor literală unul de celălalt pe grafic. Este foarte probabil ca clienții din același cluster să aibă alte atribute comune, iar această ipoteză poate fi utilizată pentru a căuta, clasifica și alte analize ale membrilor setului de date.

Metoda grupării poate fi aplicată în reversul: Având în vedere anumite atribute de intrare, identificați diverse artefacte. De exemplu, un studiu recent al codurilor PIN din patru cifre a găsit grupuri de numere în intervalele 1-12 și 1-31 pentru prima și a doua pereche. Prin trasarea acestor perechi pe un grafic, puteți vedea grupuri asociate cu date (zi de naștere, aniversări).

Prognoza

Prognoza este un subiect larg care variază de la prezicerea defecțiunilor componentelor până la identificarea fraudei și chiar prezicerea profitului unei companii. Atunci când este combinată cu alte tehnici de extragere a datelor, prognoza implică analiza tendințelor, clasificarea, potrivirea modelelor și relații. Analizând evenimentele sau cazurile trecute, viitorul poate fi prezis.

De exemplu, folosind datele de autorizare a cardului de credit, puteți combina analiza arborelui de decizie a tranzacțiilor anterioare ale unei persoane cu clasificarea și compararea cu modele istorice pentru a identifica tranzacțiile frauduloase. Dacă achiziția de bilete de avion în Statele Unite coincide cu tranzacțiile din Statele Unite, atunci este probabil ca aceste tranzacții să fie autentice.

Modele secvențiale

Modelele secvenţiale, care sunt adesea folosite pentru analiza datelor pe termen lung, sunt o tehnică utilă pentru identificarea tendinţelor sau a recurenţelor regulate ale unor evenimente similare. De exemplu, analizând datele clienților, puteți determina că aceștia cumpără anumite seturi de produse în diferite perioade ale anului. Pe baza acestor informații, aplicația de predicție a coșului de cumpărături poate presupune automat că anumite produse vor fi adăugate în coșul de cumpărături în funcție de frecvența și istoricul cumpărăturilor.

Arbori de decizie

Un arbore de decizie asociat cu majoritatea celorlalte metode (în principal clasificarea și prognoza) poate fi utilizat fie în cadrul criteriilor de selecție, fie pentru a sprijini selecția de date specifice în cadrul structura de ansamblu... Arborele de decizie începe cu intrebare simpla care are două răspunsuri (uneori mai multe). Fiecare răspuns conduce la următoarea întrebare, ajutând la clasificarea și identificarea datelor sau la realizarea de predicții.

Figura 5. Pregătirea datelor

Sursa de date, locația și baza de date afectează modul în care informațiile sunt procesate și combinate.

Baza pe SQL

Cea mai simplă dintre toate abordările este adesea dependența de bazele de date SQL. SQL (și structura tabelului corespunzătoare) este bine înțeles, dar structura și formatul informațiilor nu pot fi ignorate complet. De exemplu, atunci când studiezi comportamentul utilizatorilor cu privire la datele de vânzări în modelul de date SQL (și data mining în general), există două formate principale pe care le poți folosi: tranzacțional și comportamental-demografic.

Cu InfoSphere Warehouse, construirea unui model de comportament demografic pentru a analiza datele clienților pentru a înțelege comportamentul clienților implică utilizarea datelor SQL brute bazate pe informații despre tranzacții și parametri cunoscuți ai clienților, organizarea acestor informații într-o structură tabelară predefinită. InfoSphere Warehouse poate folosi apoi aceste informații pentru a extrage datele folosind tehnici de grupare și clasificare pentru a obține rezultatul dorit. Datele demografice și tranzacționale ale clienților pot fi combinate și apoi convertite într-un format care permite analiza unor date specifice, așa cum se arată în.

Figura 6. Format personalizat de analiză a datelor

De exemplu, datele de vânzări pot fi folosite pentru a identifica tendințele de vânzări pentru anumite produse. Datele brute de vânzări pentru articole individuale pot fi convertite în informații despre tranzacție, care mapează ID-urile clienților cu datele tranzacției și codurile articolului. Folosind aceste informații, este ușor să identificați consistențele și relațiile pentru produse individuale și cumpărători individuali în timp. Acest lucru permite InfoSphere Warehouse să calculeze informații consistente, determinând, de exemplu, când este probabil ca un client să cumpere din nou același articol.

Din datele originale, puteți crea noi puncte de analiză a datelor. De exemplu, puteți extinde (sau rafina) informațiile despre produse prin potrivirea sau clasificarea produselor individuale în grupuri mai largi, apoi analizați datele pentru acele grupuri în loc de clienții individuali.

Figura 7. Structura MapReduce

În exemplul anterior, am procesat (în acest caz prin MapReduce) datele originale într-o bază de date de documente și le-am convertit într-un format tabel într-o bază de date SQL în scopul extragerii de date.

Lucrul cu aceste informații complexe și chiar nestructurate poate necesita mai multă pregătire și procesare. Există tipuri și structuri de date complexe care nu pot fi procesate și pregătite în forma dorită într-un singur pas. În acest caz, puteți direcționa ieșirea MapReduce către oricare consistent transformarea și obținerea structurii de date necesare, așa cum se arată în sau pentru individual realizarea mai multor tabele de ieşire.

Figura 8. Lanțul de ieșire consecutiv al rezultatelor procesării MapReduce

De exemplu, într-o singură trecere, puteți lua informații brute dintr-o bază de date documentară și puteți efectua o operațiune MapReduce pentru a obține o imagine de ansamblu a informațiilor respective în funcție de dată. Un exemplu bun procesul secvenţial este de a regenera informaţia şi de a combina rezultatele cu o matrice de decizie (creată în a doua etapă a procesării MapReduce) cu simplificarea ulterioară într-o structură secvenţială. În timpul fazei de procesare, MapReduce necesită acest lucru întregul set datele suportate pașii individuali de prelucrare a datelor.

Indiferent de datele sursă, multe instrumente pot folosi fișiere plate, CSV sau alte surse de date. De exemplu, InfoSphere Warehouse poate analiza fișiere plate în plus față de conectarea directă la depozitul de date DB2.

Concluzie

Exploatarea datelor nu se referă doar la efectuarea unor interogări complexe asupra datelor stocate în baza de date. Indiferent dacă utilizați SQL, baze de date bazate pe documente, cum ar fi Hadoop, sau simple fișiere plate, trebuie să lucrați cu, să formatați sau să restructurați datele. Doriți să definiți formatul informațiilor pe care se va baza metoda și analiza dvs. Apoi, când informațiile sunt în formatul potrivit, puteți aplica metode diferite(individual sau colectiv) independent de structura de date de bază sau de setul de date necesar.

În ciuda faptului că „procesul de analiză a informațiilor” este mai mult un termen tehnic, conținutul său este legat în proporție de 90% de activitățile umane.

Înțelegerea nevoilor din centrul oricărei sarcini de analiză a informațiilor este strâns legată de înțelegerea afacerii unei companii. Colectarea datelor din surse adecvate necesită experiență în colectarea acestora, indiferent de modul în care procesul final de colectare a datelor poate fi automatizat. Transformarea datelor colectate în perspective și aplicarea lor eficientă în practică necesită cunoaștere profundă a proceselor de afaceri și disponibilitatea abilităților de consultanță.

Procesul de analiză a informațiilor este un flux ciclic de evenimente care începe cu o analiză a nevoilor din zona în cauză. Urmează colectarea informațiilor din surse secundare și (sau) primare, analiza acesteia și pregătirea unui raport pentru factorii de decizie care le vor folosi, precum și oferirea de feedback și pregătirea propunerilor.

La nivel internațional, procesul de analiză a informațiilor se caracterizează astfel:

În primul rând, etapele de decizie sunt definite în procesele cheie de afaceri și comparate cu rezultatele finale standard ale analizei informațiilor.
Procesul de analiză a informațiilor începe cu o evaluare a nevoilor la nivel internațional, adică cu identificarea și verificarea nevoilor viitoare de luare a deciziilor.
Etapa de colectare a informațiilor este automatizată, ceea ce vă permite să alocați timp și resurse pentru analiza primară a informațiilor și, în consecință, să creșteți valoarea informațiilor secundare deja disponibile.
Se cheltuiesc mult timp și resurse analizând informațiile, tragând concluzii și interpretând.
Informațiile analitice rezultate sunt aduse în atenția fiecărui decident în mod individual, cu urmărirea procesului de utilizare ulterioară.
Membrii echipei de analiză a informațiilor au o mentalitate pentru îmbunătățirea continuă.

Introducere: ciclul analizei informaţiei

Termenul „proces de analiză a informațiilor” se referă la un proces ciclic, în curs de desfășurare, care începe cu identificarea nevoilor de informații ale factorilor de decizie și se termină cu furnizarea cantității de informații care satisface aceste nevoi. În acest sens, trebuie făcută imediat o distincție între volumul de informații și procesul de analiză a informațiilor. Determinarea cantității de informații are ca scop identificarea scopurilor și nevoilor de resurse informaționale pentru întregul program de analiză a informațiilor, în timp ce procesul de analiză a informațiilor începe cu determinarea nevoilor pentru unul, deși nesemnificativ, rezultat final al unei astfel de analize.

Procesul de analiză a informațiilor ar trebui să fie întotdeauna legat de procesele existente în companie, adică planificare strategica, vânzări, marketing sau management de produs în care vor fi utilizate aceste informații. În practică, utilizarea informațiilor obținute la ieșire ar trebui fie să fie direct legată de situațiile de luare a deciziilor, fie astfel de informații ar trebui să contribuie la creșterea nivelului de conștientizare a organizației în acele domenii. activitati de operare care sunt legate de diferite procese de afaceri.

În fig. 1 prezintă etapele procesului ciclic de analiză a informațiilor (pentru mai multe detalii, vezi mai jos). La rândul său, partea dreaptă a diagramei arată rezultatele specifice ale procesului de analiză a informațiilor, atunci când deciziile sunt luate pe baza cercetărilor generale de piață, precum și rezultatele procesului de analiză a informațiilor legate direct de diferite procese și proiecte de afaceri.

Click pe imagine pentru a o mari

Ciclul de analiză a informațiilor constă din șase etape. Descrierea lor detaliată este dată mai jos.

1. Analiza nevoilor

O evaluare amănunțită a nevoilor vă permite să determinați obiectivele și domeniul de aplicare al sarcinii de analiză a informațiilor. Chiar dacă cei care rezolvă o astfel de problemă vor colecta informații pentru uz propriu, este logic să identifice clar direcțiile cheie în rezolvarea acestei probleme pentru a concentra resursele în zonele cele mai adecvate. Cu toate acestea, în marea majoritate a cazurilor, cei care efectuează cercetarea nu sunt utilizatorii finali ai rezultatelor. Prin urmare, aceștia trebuie să înțeleagă complet pentru ce vor fi folosite rezultatele finale, pentru a evita colectarea și analizarea datelor care ar putea fi în cele din urmă irelevante pentru utilizatori. Pentru etapa de analiză a nevoilor au fost elaborate diverse șabloane și chestionare care stabilesc un standard ridicat de calitate la etapa inițială de rezolvare a problemei.

Totuși, cel mai important lucru este că nevoile organizației de analiză a informațiilor trebuie să fie pe deplin înțelese și transformate de la extern la intern pentru ca programul de analiză a informațiilor să aibă o valoare certă. Numai șabloanele și chestionarele nu pot atinge acest obiectiv. Ele pot fi, desigur, utile, dar au existat momente în care o analiză excelentă a nevoilor a fost realizată pur și simplu pe baza unei conversații informale cu liderii companiei. Acest lucru, la rândul său, necesită ca echipa de analiză a informațiilor să aibă o abordare de consultanță, sau cel puțin să fie capabilă să negocieze eficient cu cei responsabili de luarea deciziilor.

2. Acoperirea surselor secundare de informare

Ca parte a ciclului de analiză a informațiilor, evidențiem separat colectarea de informații din surse secundare și primare. Există o serie de motive pentru aceasta. În primul rând, colectarea informațiilor din surse disponibile public este mai puțin costisitoare decât a merge direct la sursele primare. În al doilea rând, este mai ușor, cu condiția, desigur, cu condiția ca persoanele care se confruntă cu o astfel de sarcină să aibă suficientă experiență în studierea surselor secundare disponibile. De fapt, managementul surselor de informații și optimizarea costurilor aferente este un domeniu separat de expertiză în sine. În al treilea rând, acoperirea surselor secundare de informații înainte de efectuarea cercetării sub formă de interviuri le va oferi celor care efectuează astfel de cercetări informații de fond valoroase de natură generală care pot fi verificate și utilizate ca răspuns la informațiile de la intervievați. În plus, dacă în timpul studierii surselor secundare este posibil să obțineți răspunsuri la unele întrebări, acest lucru va reduce costul etapei de cercetare a surselor primare și, uneori, chiar va elimina necesitatea acestora.

3. Cercetarea surselor primare

Indiferent cât de mare este cantitatea de informații disponibile public disponibil astăzi, nu toate informațiile pot fi accesate prin studiul surselor secundare. După explorarea surselor secundare, golurile de cercetare pot fi completate prin intervievarea experților familiarizați cu subiectul de cercetare. Această etapă poate fi relativ costisitoare în comparație cu studiul surselor secundare, care, desigur, depinde de amploarea sarcinii în cauză, precum și de ce resurse sunt implicate: adesea companiile implică interpreți terți în cercetarea primarului. surse.

4. Analiza

După colectarea informațiilor din diverse surse, este necesar să înțelegem exact ce este necesar pentru analiza inițială a nevoilor în conformitate cu sarcina în cauză. Din nou, în funcție de sfera sarcinii în cauză, această etapă de cercetare se poate dovedi a fi destul de costisitoare, deoarece include cel puțin timpul alocat resurselor interne și uneori externe și, eventual, o anumită verificare suplimentară a corectitudinii rezultatele analizei printr-un interviu suplimentar.

5. Oferirea de rezultate

Formatul de prezentare a rezultatelor după finalizarea sarcinii de analiză a informațiilor este de o importanță nu mică pentru utilizatorii finali. De obicei, factorii de decizie nu au timp să caute rezultate cheie ale analizei în cantitatea mare de date pe care le-au obținut. Conținutul principal trebuie tradus într-un format ușor de citit, ținând cont de cerințele acestora. În același timp, ar trebui să oferiți acces ușor la date de fundal suplimentare pentru cei care sunt interesați și doresc să „sapă mai adânc”. Aceste reguli de bază se aplică indiferent de formatul de prezentare a informațiilor, fie că este vorba de software de bază de date, buletin informativ, Prezentare PowerPoint, întâlnire personală sau seminar. În plus, există un alt motiv pentru care am separat etapa furnizării informațiilor de utilizarea finală, precum și primirea de feedback și sugestii pentru informațiile analitice furnizate. Uneori deciziile vor fi luate în aceeași succesiune în care vor fi furnizate informațiile analitice. Cu toate acestea, de cele mai multe ori, materiale de referință de bază vor fi furnizate înainte de apariția situației reale de luare a deciziilor, astfel încât formatul, canalul și modul de prezentare a informațiilor vor afecta modul în care acestea vor fi percepute.

6. Utilizarea și furnizarea de comentarii / observații

Faza de utilizare servește ca un fel de test de turnesol pentru evaluarea succesului sarcinii de analiză a informațiilor. Vă permite să înțelegeți dacă rezultatele obținute răspund nevoilor identificate chiar la începutul procesului de analiză a informațiilor. Indiferent dacă s-a răspuns sau nu la toate întrebările puse inițial, faza de utilizare tinde să ridice noi întrebări și necesitatea unei noi analize a nevoilor, mai ales dacă nevoia de analiză a informațiilor este continuă. În plus, ca urmare a eforturilor de colaborare de a crea conținut de către utilizatorii finali și analiștii de informații, în momentul în care acesta trece în faza de utilizare, este posibil ca utilizatorii finali ai informațiilor să fi contribuit deja la rezultatul final așteptat. Pe de altă parte, cei care au fost implicați în principal în analiză pot fi implicați activ în procesul de formare a concluziilor și de interpretare a rezultatelor, pe baza cărora vor fi luate deciziile finale. În mod ideal, comentariile și comentariile atente în timpul fazei de utilizare pot fi deja folosite ca bază pentru evaluarea nevoilor pentru următoarea sarcină de analiză a informațiilor. Astfel, ciclul procesului de analiză a informațiilor se încheie.

Noțiuni introductive: dezvoltarea unui proces de analiză a informațiilor

Determinarea etapelor de luare a deciziilor în procesele de afaceri care necesită cercetare analitică de piață

Termenul „analiza informațiilor pentru faza de luare a deciziilor” câștigă în popularitate, deoarece companiile care au deja programe de analiză a informațiilor în vigoare au început să ia în considerare diverse opțiuni pentru integrarea mai eficientă a acestor programe în procesele de luare a deciziilor. Cât de abstracte, sau viceversa, concrete, vor fi măsurile de „îmbunătățire a relației dintre rezultatele finale ale analizei informațiilor și procesele de afaceri”, va depinde în mare măsură dacă aceste procese de afaceri au fost definite formal, precum și dacă grupul a analiza informatiilor intelegand nevoile specifice de informatii asociate etapelor decizionale ale acestor procese.

După cum am menționat în Capitolul 1, metodele și tehnicile discutate în această carte sunt cele mai potrivite pentru companiile care au deja procese de afaceri structurate, cum ar fi dezvoltarea strategiei. Firmele care sunt mai puțin bine structurate pentru a gestiona ar putea avea nevoie de o oarecare creativitate în utilizarea abordărilor metodologiei internaționale de analiză a pieței bazate pe aranjamentele lor de guvernanță. Cu toate acestea, principiile de bază pe care le analizăm aici vor funcționa pentru orice companie.

Evaluarea nevoilor de analiză a informațiilor: de ce este atât de importantă?

Având în vedere că înțelegerea cerințelor de analiză a informațiilor cheie la începutul procesului are un impact mai mare asupra calității rezultatelor decât în orice etapă a procesului, este surprinzător faptul că faza de evaluare a nevoilor este adesea trecută cu vederea. În ciuda potențialelor constrângeri de resurse în alte etape ale procesului de analiză a informațiilor, o atenție deosebită acordată doar evaluării nevoilor ar crește în multe cazuri semnificativ valoarea și aplicabilitatea rezultatelor procesului, justificând astfel timpul și resursele cheltuite pentru sarcina de analiză a informațiilor. Mai jos ne uităm la modalități specifice de îmbunătățire a calității evaluării nevoilor.

De multe ori se presupune automat că managementul știe de ce informații are nevoie compania. Cu toate acestea, în realitate, conducerea de vârf tinde să fie conștientă doar de o fracțiune din nevoile de informații ale organizației lor și, chiar și așa, este posibil să nu fie în cea mai bună poziție pentru a determina exact ce informații sunt necesare, darămite unde se află. A fi găsit.

Ca urmare, situația se repetă în mod constant când nu există nici un concept clar formulat al problemei, nici contextul ei de afaceri pentru realizarea sarcinilor de analiză a informațiilor. Cei care sunt cel mai familiarizați cu sursele de informații și metodele de analiză pierd timpul cu ceea ce pare a fi o mizerie de prelucrare a datelor și nu văd imaginea de ansamblu, precum și acele abordări care sunt cele mai semnificative pentru companie. Nu este surprinzător, ca urmare, factorii de decizie primesc mult mai multe informații decât au nevoie, ceea ce este practic contraproductiv, deoarece în curând încep să ignore nu numai informații inutile, ci și importante. Nu au nevoie de mai multe informații, ci de informații mai bune și mai precise.

În același timp, factorii de decizie pot avea așteptări nerealiste cu privire la disponibilitatea și acuratețea informațiilor, deoarece nu s-au consultat cu experți în domeniul analizei informațiilor înainte de a stabili sarcina. Prin urmare, în mod ideal, analiștii de informații și factorii de decizie ar trebui să fie în contact constant unul cu celălalt și să lucreze împreună pentru a se asigura că ambele părți au aceeași înțelegere a nevoilor primare de informații. Capacitatea de a gestiona acest proces va necesita analiștilor care lucrează în această direcție, o serie de abilități:

Analistul trebuie să înțeleagă cum să identifice și să definească nevoile de informare ale factorilor de decizie.
Analistul ar trebui să dezvolte abilități de comunicare eficientă, interviuri și prezentări.
În mod ideal, analistul ar trebui să înțeleagă tipurile psihologice de personalitate pentru a ține cont de diferitele orientări ale persoanelor responsabile cu luarea deciziilor.
Analistul trebuie să cunoască structura organizațională, cultura și mediul, precum și persoanele cheie intervievate.
Analistul trebuie să păstreze obiectivitatea.

Lucrați în cadrul ciclului de analiză a informațiilor și eliminarea blocajelor din proces

În etapele inițiale de implementare a unui program de analiză a informațiilor, grupul țintă pentru desfășurarea activităților este de obicei limitat, la fel ca și rezultatele finale pe care le dă programul. În mod similar, la procesarea rezultatelor finale apar adesea diverse dificultăți (așa-numitele „gâte de sticlă”): chiar și o simplă colecție de date disparate din surse secundare și primare poate necesita cunoștințe și experiență pe care compania nu le are și după finalizare. de colectare a informațiilor este posibil ca timpul și resursele să fie insuficiente pentru a efectua o analiză detaliată a datelor colectate, cu atât mai puțin să pregătească prezentări informative și bine concepute pentru a fi utilizate de factorii de decizie. Mai mult, în fazele inițiale ale dezvoltării unui program de analiză a informațiilor, practic nicio companie nu dispune de instrumente speciale pentru stocarea și diseminarea rezultatelor unei astfel de analize. De obicei, rezultatele sunt furnizate în cele din urmă grupurilor țintă ca atașamente obișnuite de e-mail.

Complexitățile efectuării unei sarcini analitice în cadrul ciclului de analiză a informațiilor pot fi descrise folosind triunghiul standard de management al proiectului, adică este necesar să se finalizeze sarcina și să se furnizeze rezultatul sub trei constrângeri principale: buget, calendar și sfera de activitate. În multe cazuri, aceste trei constrângeri concurează între ele: într-o sarcină standard de analiză a informațiilor, creșterea volumului de muncă va necesita o creștere a timpului și a bugetului; un termen scurt este probabil să însemne o creștere a bugetului și o reducere simultană a volumului de muncă, iar un buget restrâns este probabil să însemne atât o limitare a volumului de muncă, cât și o reducere a intervalului de timp pentru proiect.

Apariția blocajelor în procesul de analiză a informațiilor conduce de obicei la frecări semnificative în executarea sarcinii de cercetare în cadrul ciclului de analiză a informațiilor în etapele inițiale ale dezvoltării programului de astfel de analiză. Deoarece resursele sunt limitate, cele mai critice blocaje ar trebui abordate mai întâi. Echipa de analiză a informațiilor are capacitatea suficientă pentru a o conduce? Ai nevoie de pregătire suplimentară? Sau este mai degrabă problema cu care analiștilor le lipsesc informațiile valoroase cu care să lucreze - cu alte cuvinte, cel mai critic blocaj este strângerea de informații? Sau poate că echipa de analiză a informațiilor pur și simplu nu are suficient timp, adică grupul nu este capabil să răspundă în timp util la solicitările urgente?

Există două moduri de a îmbunătăți eficiența sarcinii analitice în cadrul ciclului de analiză a informațiilor. „productivitatea” ciclului, adică minuțiozitatea cu care echipa de analiză a informațiilor poate gestiona sarcinile analitice în fiecare etapă și viteza cu care se răspunde la întrebare. În fig. 2 arată diferența dintre aceste abordări și, în general, diferența dintre sarcinile de analiză strategică și cererile de cercetare care necesită raspuns prompt.

Deși ambele abordări presupun parcurgerea sarcinii analitice prin toate etapele ciclului de analiză a informațiilor, grupul de analiză a informațiilor, care are sarcina de a efectua rapid cercetări, va lucra la studiul surselor secundare și primare în paralel (uneori un apel telefonic la un specialist poate oferi răspunsurile necesare la întrebările puse în cererea de cercetare). În plus, în multe cazuri, analiza și furnizarea de informații sunt combinate, de exemplu, în prezentare scurta, pe care analistul o transmite managerului care a solicitat aceste informatii.

Productivitatea ciclului de analiză a informațiilor poate fi îmbunătățită prin adăugarea fie de resurse interne (angajate) fie externe (achiziționate) acolo unde este necesar, rezultând rezultate mai bune și o capacitate crescută de a servi un număr tot mai mare de grupuri de utilizatori în cadrul unei organizații.

Același principiu se aplică și asigurării receptivității unei secvențe de operații, ceea ce înseamnă cât de repede trece o sarcină de cercetare urgentă prin diferitele etape ale ciclului. Conform tradiției stabilite, companiile se concentrează în principal pe asigurarea stabilității lățimea de bandă prin planificarea resurselor pe termen lung și prin scheme de formare a personalului. Cu toate acestea, odată cu dezvoltarea unui domeniu de specialitate precum analiza informațiilor și creșterea disponibilității resurselor profesionale globale, atrase din exterior, devin tot mai răspândite schemele temporare, implementate în fiecare caz concret și care oferă flexibilitatea necesară.

În fig. 3 prezintă două tipuri de rezultate ale ciclului de analiză a informațiilor, adică analiza strategică și cercetarea care necesită un răspuns rapid (a se vedea graficul rezultatelor analizei informațiilor). În ciuda faptului că sarcinile de realizare a cercetării care necesită răspuns prompt sunt de obicei asociate cu procesele de afaceri, nivelul analizei acestora nu este foarte ridicat din cauza lipsei banale de timp pentru o astfel de analiză. Pe de altă parte, sarcinile de analiză strategică sunt de obicei asociate cu un nivel ridicat de co-creare în etapa de analiză și furnizare a informațiilor, ceea ce le plasează practic în vârful triunghiului, unde interpretarea și aplicarea informațiilor obținute este executat.

Dezvoltare continuă: eforturi pentru un nivel internațional de analiză a informațiilor

Bunul mers al procesului de analiză a informațiilor poate fi reprezentat clar sub forma unui grafic ciclului de grosime uniformă (Fig. 2), în sensul că un proces matur de analiză a informațiilor nu are „legături slabe” sau „bloc-uri” semnificative în organizarea succesiunii operaţiilor. Această uniformitate necesită o programare adecvată a resurselor în fiecare etapă, care, la rândul său, se realizează prin iterarea ciclului, luând în considerare toate detaliile. De exemplu, evaluarea inițială a nevoilor poate fi îmbunătățită progresiv prin faptul că factorii de decizie și cei care beneficiază de muncă vor observa lacune și discrepanțe tipice. stadiul inițialîndeplinirea sarcinilor de cercetare analitică de piață. În mod similar, colaborarea dintre cercetători și analiști se poate dezvolta în timp (dacă cele două funcții sunt separate) prin trecerea peste probleme care au fost anterior neobservate și ridicate în timpul analizei către căutători pentru a colecta date suplimentare... Experiența va arăta în timp ce resurse sunt necesare pentru ca fiecare dintre acești pași să obțină rezultate optime.

Rezultatele care sunt în cele din urmă „optime” sunt determinate de cât de mult informațiile rezultate îndeplinesc nevoile factorilor de decizie în procesul de afaceri. Și acest lucru ne readuce din nou la grosimea uniformă a ciclului de analiză a informațiilor: procesul de analiză a informațiilor la nivel internațional nu începe cu o evaluare a nevoilor ca atare, ci cu o definire clară a unde și cum vor fi informațiile obținute. aplicat. De fapt, comunicarea între factorii de decizie și analiștii informaționali pe parcursul procesului analitic internațional ar trebui să fie constantă, informativă și bidirecțională.

O modalitate de a consolida legăturile dintre luarea deciziilor și cercetarea de piață este să încheiem acorduri de nivel de serviciu cu părțile interesate cheie care sunt deservite de programul de informații despre piață. Acordarea nivelului necesar de servicii de cercetare a pieței cu liderii seniori din planificarea strategică, vânzări, marketing și cercetare și dezvoltare va defini clar rezultatele finale ale unor astfel de studii și activități analitice pentru fiecare grup de părți interesate pentru următoarele 6-12 luni, inclusiv bugetul pentru piață. cercetare, oameni implicați, repere și interacțiuni de-a lungul procesului.

Acordurile de nivel de servicii au mai multe avantaje:

Este nevoie de timp pentru a discuta obiectivele cheie și etapele de decizie pentru cei responsabili pentru procesele cheie de afaceri = echipa de cercetare de piață obține o mai bună înțelegere a ceea ce este important pentru management, îmbunătățind în același timp relațiile personale.
Reduce riscul supraîncărcării neprevăzute pe proiecte speciale prin identificarea zonelor pentru revizuire regulată, analiza strategica informatii, etc.
Există timp pentru co-creare în procesul de analiză a informațiilor: adesea întâlnirile și seminariile privind cercetarea analitică a pieței cu participarea directorilor cu normă întreagă trebuie programate cu câteva luni înainte.
Prin stabilirea clară a obiectivelor și evaluarea rezultatelor, activitățile de cercetare de piață sunt eficientizate și nivelul de analiză este crescut.
În general, izolarea organizației și așa-numitul „gătit în suc propriu” scade, cooperarea dintre manageri și specialiști în cercetarea analitică a pieței devine mai fructuoasă.

Cele două exemple de la sfârșit ilustrează modul în care, printr-un proces simplificat de analiză a informațiilor, echipa analitică poate răspunde diferitelor cerințe ale unei sarcini de analiză a informațiilor, în funcție de regiunea geografică care este analizată pentru sarcină. În „Lumea occidentală” din surse secundare, puteți obține o cantitate mare de informații de încredere despre aproape orice subiect. Astfel, sarcina analiștilor informaționali se reduce la găsirea celor mai bune surse pentru colectarea rentabilă a informațiilor în scopul analizei și raportării ulterioare a acesteia.

Pe de altă parte, piețele emergente nu au adesea surse secundare de încredere sau le lipsesc datele necesare în limba engleză. În consecință, analiștii informaționali trebuie să apeleze rapid la sursele primare și să efectueze interviuri, de obicei în limba țării în cauză. În această situație, este important să ne bazăm pe un număr suficient de mare de surse pentru a evalua corectitudinea rezultatelor cercetării înainte de a trece la analiza acestora.

Exemplu. Studiu de ciclu economic pentru o întreprindere din industria chimică

O companie chimică avea nevoie de o mulțime de informații despre ciclurile economice preexistente, actuale și viitoare din mai multe linii de produse. industria chimica la magazin America de Nord... Aceste informații trebuiau utilizate pentru a evalua creșterea viitoare în anumite domenii ale producției chimice, precum și pentru a planifica dezvoltarea afacerii pe baza înțelegerii ciclurilor de afaceri din industrie.

Analiza a fost efectuată folosind metode statistice, inclusiv regresie și analiză vizuală. Analiza ciclului economic a fost efectuată atât cantitativ, cât și calitativ, ținând cont de opiniile experților din industrie cu privire la creșterea pe termen lung. La îndeplinirea sarcinii s-au folosit doar surse secundare de informații, iar pentru analiză - metode statistice, inclusiv regresie și analiză vizuală. Ca urmare, a fost prezentat un raport analitic detaliat care descrie durata și natura ciclurilor de afaceri, precum și o evaluare a perspectivelor viitoare pentru liniile cheie de produse ale companiei (etilenă, polietilenă, stiren, amoniac și cauciuc butilic).

Exemplu. Evaluarea pieței de bifluorură de amoniu și acid fluorhidric în Rusia și CSI

Unul dintre cele mai mari centre nucleare din lume a fost însărcinat să studieze piața acestor două produse secundare ale producției sale, și anume bifluorura de amoniu și acidul fluorhidric, în Rusia și CSI. Având în vedere capacitatea insuficientă a acestei piețe, aceștia ar trebui să investească în construcția de instalații pentru eliminarea acestor produse.

Studiile surselor secundare au fost efectuate atât la nivelul Rusiei și CSI, cât și la nivel global. Datorită naturii foarte specializate a pieței și a consumului intern ridicat de produse secundare, accentul s-a pus pe cercetarea surselor primare. În pregătirea analizei ulterioare, au fost realizate 50 de interviuri detaliate cu potențiali clienți, concurenți și experți din industrie.

Raportul final a prezentat o estimare a dimensiunii pieței excluzând consumul intern, o analiză a segmentelor, o analiză a importurilor, o analiză a lanțului valoric, o analiză a tehnologiilor și produselor de înlocuire pentru fiecare segment industrial, o prognoză a dezvoltării pieței, o analiza prețurilor și, în final, o evaluare a potențialelor oportunități de piață din Rusia și CSI.

Exemplu. Un proces eficient de analiză a informațiilor bazat pe o evaluare a tendințelor predominante pentru prezentarea managerilor sub formă de rapoarte

O companie lider în energie și petrochimie și-a îmbunătățit cu succes procesul de analiză a informațiilor, pe baza analizei de scenarii strategice pentru colectarea, analizarea și furnizarea de informații.

Prin integrarea activităților de analiză a informațiilor în procesele cheie ale afacerii în faza de planificare, a fost posibilă identificarea clară a adevăratelor nevoi strategice ale organizației și aducerea lor către echipa analitică, care, în consecință, a fost capabilă să organizeze procesul de analiză în așa fel. că accentul s-a pus pe strategie și acțiuni. Procesul de analiză a informațiilor într-o companie începe cu o examinare a tendințelor predominante și se termină cu exemple ilustrative despre cum să răspundem la riscuri cu recomandări pentru management.

Cheia pentru îmbunătățirea eficacității programului de analiză a informațiilor a fost o evaluare de succes a nevoilor în ceea ce privește obiectivele strategice ale companiei. În același timp, persoanele responsabile cu luarea deciziilor au participat la procesul de analiză a informațiilor deja în stadiu inițial (discuții, întâlniri, seminarii). Acest lucru a contribuit la stabilirea unui dialog bidirecțional și la o integrare mai completă a programului de analiză a informațiilor în alte zone ale companiei.

Exemplu. O companie globală de biotehnologie a dezvoltat un ciclu de analiză a informațiilor pentru a oferi informații în timp util și luarea deciziilor proactive.

Scopul programului de analiză a informațiilor a fost de a furniza informații de avertizare timpurie și de avertizare care să permită implementarea unor strategii acționabile și realizabile pe toate piețele în care operează compania. A fost pus în aplicare un ciclu de analiză a informațiilor, în care au fost implicate în mai multe etape persoanele interesate de analiza informațiilor (atât pentru intrarea, cât și pentru ieșirea informațiilor), precum și numeroase surse de informații.

Cei interesați de analiza informațiilor au reprezentat patru funcții cheieîn companie (grup de strategie, marketing și vânzări, finanțe, relații cu investitorii și directori). Cea mai activă activitate a fost desfășurată în fazele de planificare și implementare. Implementarea cu succes a unui ciclu de analiză a informațiilor care a reunit părțile interesate interne (pentru evaluările nevoilor) și surse multiple de informații într-un proces bine definit pentru furnizarea rezultatelor analizei a însemnat că programul analitic care a fost implementat a avut un anumit impact asupra dezvoltării strategiei și asupra deciziei proactive. realizarea.

Ar putea fi util să citiți: