Affrontiamo un progetto di Data Science e produciamo informazioni di valore, partendo da dati di varia natura che ci vengono messi a disposizione dai Clienti e che possono essere di tipo endogeno, esogeno, strutturati o no, ad alta o bassa intensità di informazione, di proprietà del cliente oppure di pubblico dominio.
La nostra metodologia è molto rigorosa, e prevede i seguenti step:
a) Assessment del patrimonio di dati accessibile e individuazione dell'informazione di valore da ricavare.
b) Creazione del team di lavoro, andando ad individuare le figure che svilupperanno il progetto:
- lo specialista di settore che conosce la problematica specifica e apporta l'esperienza necessaria a trattare correttamente le problematiche note, i metodi già utilizzati per attività simili, i limiti normativi.
- il data scientist: conosce le metodologie statistiche e di machine learning necessarie per estrarre l'informazione di valore, e sa come applicarle facendo uso dei migliori strumenti computazionali disponibili.
- il project manager: è l'elemento di collegamento fra le varie competenze che l'università di Pavia e RES possono offrire.
c) Fase di acquisizione del dato: se possibile si aggrega l'informazione sui server del RIDS. Se ci sono limitazioni normative o impedimenti strutturali si studiano modalità operative differenti.
d) Fase esplorativa per comprendere la struttura e le caratteristiche del dato. Per costruire una impalcatura metodologica bisogna comprendere le peculiarità del dato, fare delle ipotesi e verificarle. Se si capisce che il dato acquisito non è adeguato si procederà a una nuova acquisizione, aggiungendo fonti di dati o modificando la modalità di estrazione.
e) Fase prototipale per creazione di un prototipo software utilizzando un linguaggio di prototipazione (es. R per problemi di statistica, Python per problemi di machine-learning, Matlab/Octave per problemi di calcolo).
f) Reportistica: creazione della reportistica per condividere col cliente l'informazione ottenuta e valutarne il valore.
g) Realizzazione del software di produzione. Il RIDS facilita questa fase perché riduce i costi e gli inconvenienti del passaggio di informazioni fra il team che ha realizzato il prototipo e la software-house che realizza il prodotto finito, poichè le figure di data scientist e project manager faranno parte di entrambe le fasi e traghetteranno tutta la conoscenza necessaria nel nuovo team di sviluppo software che si verrà a creare.
Technology Transfer
I Data Scientist e Project Manager del RIDS non sono ricercatori puri, ma collaborano quotidianamente con ricercatori e professori, e si propongono come technology transferer. Lo scopo di questa figura è quello di condividere un linguaggio comune sia con il cliente aziendale, che con il ricercatore e il professore, facilitando lo scambio di informazioni. Si tratta di un ruolo delicato e importante per la buona riuscita del progetto, perché le motivazioni che muovono Università e Azienda sono molto diverse. Il technology transferer sa qual'é il ruolo di ciascuno e organizza il lavoro in modo che ognuno si debba preoccupare del proprio ambito.
La missione del technology transferer è quella di portare a buon uso aziendale i risultati delle ricerche universitarie (metodologie, algoritmi, modelli). Alcuni dei technology transferer del RIDS hanno collaborato a pubblicazioni scientifiche che mostrano i vantaggi di usare modelli avanzati in specifici ambiti verticali.