Business Intelligence e Data Mining

Pubblicato da Davide, Aggiornato martedì 12 giugno 2007 6 Commenti »

Questo articolo e' stato scritto piu' di 6 mesi fa.. In teoria non cambia nulla, sed panta rei: se trovi link o informazioni datate segnalalo pure. :)

Ovvero come scoprire che chi compra i pannolini spesso acquista anche la birra.. e guadagnarci sopra.

business intelligence

Già, immaginate di essere nell’ufficio del dirigente di un centro vendita di una grande catena di distribuzione. Analizzando l’immensa mole di dati, dove sono registrati gli acquisti dei clienti, si viene a scoprire che con estrema frequenza chi acquista i pannolini poi compra pure la birra (tanto da pensare ad un comportamento di consumo correlato).

E’ stata una delle prime “rivelazioni” del data mining nel mondo anglosassone, ovvero dell’analisi intelligente dei dati contenuti in un grande database. Follia dei computer o segreto portato alla luce? Si fecero interviste ai clienti e si venne a scoprire che le coppie di giovani che prima erano abituati a recarsi al pub per una birra, quando nasceva il pargolo decidevano di consumarla in casa e la acquistavano al supermercato assieme ai pannolini. Chi l’avrebbe mai detto?

Ecco allora che si possono sfruttare queste abitudini di consumo andando a fare opportune offerte commerciali per incrementare i ricavi. Possiamo ad esempio mettere il 3×2 sulla birra e non sui pannolini, in quanto chi comprerà la birra con buona probabilità poi acquisterà i pannolini, sui quali c’è un rincaro notevole. In questo modo sfrutteremo a fini comerciali le abitudini dei consumatori.
Sono giochi che la grande distribuzione compie quotidianamente, che prevedono attente e complesse operazioni di elaborazione dei dati.

Fra le scienze gestionali quelle relative al data mining mi affascinano parecchio, scrivo queste righe dopo aver assistito a un seminario dal titolo “Scavare nei dati per predire e prevenire il futuro: storie di successo con WEKA, la suite Open Source per il Data Mining” tenutosi presso la facoltà di Ingegneria a Reggio Emilia. Aurelio Dalla Croce e Andrea Guidi di Software Product Italia hanno mostrato come il data mining si possa applicare in tanti campi, dall’astrofisica alla genetica.

Ma cosa sono Business Intelligence e Data Mining?

La Business Intelligence è una attività per estrapolare informazioni dai dati contenuti sui database aziendali. Parte da una reportistica di livello avanzato (intelligente, dinamica, guidata), ovvero dall’esportazione dei dati contenuti in un database su tabelle e grafici di facile consultazione, navigabili dinamicamente su video. Ma è solo il primo passo, la BI non è solo reporting. Con Business Intelligente si intendono (definizione Wikipedia):

  1. un insieme di processi aziendali per raccogliere ed analizzare informazioni strategiche.
  2. la tecnologia utilizzata per realizzare questi processi,
  3. le informazioni ottenute come risultato di questi processi.

Data Mining e Business Intelligence sono fratelli, il DM infatti si applica su moli di dati tali per cui nessun osservatore umano sarebbe in grado di interpretarli correttamente e con criterio. Ecco allora che grazie agli algoritmi si riescono a ricavare informazioni utili dai dati. Avendo a disposizione dei database significativi (con molti dati storici), si possono compiere diverse operazioni: rilevare legami tra i prodotti acquistati e scoprire collegamenti nascosti; sfruttare i legami individuati a fini promozionali e migliorare i risultati grazie alla conoscenza acquisita; anticipare i comportamenti di acquisto dei propri clienti per organizzare al meglio la propria struttura commerciale; predirre i risultati futuri (aumenti o cali delle vendite, percentuale di abbandoni e nuovi clienti).

In generale è possibile descrivere o predirre.
Descrivere:
-fare clustering: capire che tipo di acquirenti dovrò gestire e suddividerli in famiglie (clienti che comprano poco ma spendono tanto, clienti occasionali, clienti che fanno guadagnare poco)
-scoprire association rule (regole di associazioe tra prodotti: se compro il prodotto A, allora con una certa probabilità P comprerò anche il prodotto B)
-evidenziare sequential pattern (vedere che nel tempo ci sono acquisti in sequenza: ad esempio prima i pannolini piccoli, poi più grandi, poi i calconcini..)
Predirre:
-classificazione (capire quanto venederò il prossimo anno)
-deviation detection (accorgersi che qualcosa non funziona, che c’è un elemento strano di dati sul mio database. Questa tecnica viene molto usata dai gestori delle carte di credito. Se ci si accorge che un cliente “fa cose strane” viene sospesa la carta di credito: se ad esempio un titolare di carta di credito spende generalmente 50 euro a settimana e improvvisamente spende migliaia di euro significa che c’è qualcosa che non va, magari è in atto una frode. C’è da capire qual’è il livello di varianza ragionevole, ad esempio in alcune situazione l’1% è ragionevole, in altre potrebbe non esserlo più)

Tutto molto bello, ma i costi?

logo wekaAl giorno d’oggi esistono delle suite open-source per la BI e il DM. Una di queste è WEKA, un software in java sviluppato dall’Università di Waikato (Nuova Zelanda). Non ho ancora avuto modo di provarlo, ma mi è stato presentato come lo stato dell’arte per questo tipo di applicazioni. E’ possibile scaricarlo gratuitamente e magari in futuro vi aggiornerò su questo strumento.
Una delle cose che mi ha stupito in merito è stata la classificazione di alcuni fiori (operazione di clustering) eseguita con weka: a partire da un database si riescono a classificare le famiglie e le specie di questi fiori senza avare nessuna competenza di botanica (ma solo lavorando su dati informatici: come ad esempio la grandezza dei petali, ecc..); le famiglie create attraverso gli algoritmi sono le stesse che gli scienziati di botanica hanno individuato.

logo pentahoSe invece siamo interessati alle suite per la Business Intelligence ecco Pentaho, un software open source che al suo interno integra gli algoritmi di weka. Anche in questo caso, rimando al futuro le mie valutazioni, appena avrò modo di provarlo.

Appurato che gli strumenti software esistono, i costi maggiori sono quelli relativi alla “costruzione” e progettazione degli algoritmi di analisi. Nessun algoritmo generale è applicabile per qualsiasi problema, ma ogni caso specifico richiede attente valutazioni. Classificare gli utenti in base alla spesa non è come suddividere un insieme di piante in famiglie in base alla dimensione delle foglie, ma le prospettive per il futuro sono parecchie. Concludo riprendendo una slide del seminario a cui ho assistito, dove veniva citato Italo Calvino:

La seconda rivoluzione industriale non si presenta come la prima, con immagini schiaccianti quali presse di laminatoi o colate di acciaio, ma come i bits d’un flusso d’informazione che corre sui circuiti sotto forma d’impulsi elettronici. Le macchine di ferro ci sono sempre, ma obbediscono ai bit senza peso.

6 Commenti »

Puoi lasciare un tuo commento, oppure fare un trackback dal tuo sito.

Vuoi essere il primo a lasciare un commento per questo articolo? Utilizza il modulo sotto..

Lascia il tuo commento

 

http://livregratis.fr/ - http://club-ebook.fr/

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fonire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o clicchi su "Accetta" permetti al loro utilizzo.

Chiudi