In una breve serie di articoli/post (il primo qui), ho descritto una situazione in cui l’accesso alle informazioni analitiche era più lento di quanto richiesto dai decisori aziendali. Nel secondo articolo, ho suggerito che una rapida preferenza per il cloud quando le soluzioni basate sui locali sembravano fornire tempi più rapidi per l’analisi era parte del problema. Per questo terzo e ultimo post su questo problema, ho promesso una soluzione completa.
La soluzione che sto difendendo mi ricorda il mio programma Tesi di dottorato (pubblicato più di un decennio dopo essere stato scritto e ancora disponibile per la vendita, sebbene non sia un bestseller) sulla sociologia delle persone non religiose in America. (la soluzione tecnologica, non la mia opinione) combina la “neutralità della piattaforma” con un approccio alla trama dei dati e la virtualizzazione dei dati o le pipeline di dati per accelerare le cose.
Nella religione, agnosticismo significa incertezza sull’esistenza di un essere superiore. In IT, lo definirei come accettare l’esistenza continua di più tipi di piattaforme nelle organizzazioni e riconoscere che nessuna singola piattaforma sarà la migliore per tutti gli scopi. Credo che continueranno ad essere necessari sistemi cloud basati su locali, sia privati che pubblici, e diversi tipi di archiviazione, elaborazione e dati misti. L’approccio migliore quando si sviluppa una nuova applicazione è considerare le varie caratteristiche della soluzione e scegliere una piattaforma in base alle sue prestazioni su tali attributi.
Questo è esattamente ciò che la maggior parte degli intervistati ha affermato di fare nel sondaggio globale sponsorizzato da IBM di cui ho riferito negli ultimi due post. Il 95% degli intervistati ai responsabili IT ha affermato di aver accettato di scegliere una piattaforma di elaborazione dati per analisi e intelligenza artificiale basata sulle migliori caratteristiche della piattaforma, tra cui latenza, sicurezza, flessibilità e prestazioni/costo. Tutto è molto ragionevole e apparentemente neutrale rispetto alla piattaforma. Tuttavia, altrove nel sondaggio, hanno spesso rivelato una preferenza per il cloud in generale, la convinzione che i dati transazionali meritassero uno stato protetto e la ferma convinzione che l’analisi dal cloud fosse relativamente lenta ma comunque desiderabile. In altre parole, dopotutto non è molto neutrale.
trama per i dati
La seconda parte della soluzione consiste nell’adottare un approccio di “texture di dati”. Ora ci sono molte definizioni di texture di dati rilasciate da fornitori e analisti e la maggior parte le trovo confuse. Ma ecco un approccio in tre fasi che ne coglie l’essenza:
1. Quando possibile, lasciare le applicazioni ei dati dove attualmente risiedono (senza “caricare e trasferire”);
2. Creare alcune metriche automatizzate (nei file di registro, ecc.) per l’utilizzo dei dati, ad esempio orari di partenza e di arrivo nelle applicazioni chiave, per evidenziare i tempi di risposta;
3. Infine, sposta i dati (o, meglio ancora, l’app sui dati) in modo da non doverti muovere tanto, è più sicuro, ecc.
In pratica, questo di solito significa conservare i dati sulla o vicino alla piattaforma o alle piattaforme in cui è più probabile che vengano elaborati. Se la tua azienda, ad esempio, raccoglie ed elabora i dati delle transazioni su un computer centrale, potresti voler archiviare i dati delle transazioni lì e persino eseguire analisi su di essi anche lì. E se i dati che stai utilizzando sono già nel cloud, non archiviarne una copia sotto la scrivania su un server con sede centrale. Il concetto di texture dei dati di solito include anche un livello virtuale, in modo che quando i programmi hanno bisogno di dati non hanno bisogno di sapere dove si trovano. Spesso include anche un approccio alle applicazioni basato su container, in modo che possano essere eseguite su più piattaforme.
Dati del tubo, ma il meno possibile
Se l’organizzazione finisce per dover trasferire i dati – e dovrebbe farlo il meno possibile – il trasferimento dovrebbe essere effettuato utilizzando una pipeline automatizzata. Una pipeline è una serie di framework predefiniti e strumenti di automazione che forniscono dati automaticamente quando necessario. I dati transazionali vengono spesso gestiti tramite pipeline aggregate, mentre l’analisi e altri dati critici in termini di tempo includono sempre più pipeline di streaming.
In genere, pipeline e virtualizzazione significano entrambi che la maggior parte dei dati deve essere archiviata in un repository centrale: un magazzino, un lago, un lago o qualunque cosa tu chiami un grande datastore che suona il clacson. La virtualizzazione e pipeline ben definite possono aiutare a risolvere il problema che inizialmente mi ha motivato a scrivere queste parti: i dati per l’analisi e gli approfondimenti richiedono molto tempo per essere forniti, in particolare durante i periodi di crisi aziendale come le pandemie. L’uso di uno di questi metodi ha il potenziale per accelerare notevolmente il processo.
Illustrazione in Sogei
Sogei, la società italiana che gestisce le tecnologie dell’informazione e dei dati per il governo italiano, fornisce una buona illustrazione di questo insieme di metodi. Ho parlato con Chiara Baldan, che è una data engineer che lavora nel data center cloud dell’azienda e conosce tutte le sue piattaforme. Ha affermato che l’azienda è intrinsecamente indipendente dalla piattaforma, in quanto fornisce elaborazione e gestione dei dati per il governo e deve gestire le applicazioni che sono state sviluppate e utilizzate nel corso di diversi decenni. Oltre al cloud privato, contiene un mainframe locale e altri server all’interno dell’azienda e utilizza anche il cloud pubblico. Ha iniziato a sperimentare i servizi cloud oltre un decennio fa e sta anche perseguendo altre tecnologie avanzate come AI e Data as a Service. “Le app nascono su piattaforme diverse e lì crescono” e cerca di lasciarle al loro posto quando possibile, ha detto Baldan.
Baldan ritiene inoltre che l’obiettivo principale dell’azienda sia la portabilità delle applicazioni; Per questo vengono utilizzati contenitori e altri strumenti. Ha affermato che se un’applicazione viene eseguita in un container, ma è nel cloud e c’è una breve scadenza per trasmettere i dati ai cittadini, Sogei vorrebbe essere in grado di trasferirli su un mainframe con breve preavviso per un’elaborazione rapida. Gli ingegneri tecnologici dell’azienda, incluso Baldan, si sforzano di evitare di bloccare i fornitori e la piattaforma per le loro app.
Baldan, che si è formato su un computer mainframe, ritiene che possa essere utile non solo per i sistemi di transazione, ma anche per l’analisi e l’intelligenza artificiale. Sogei sta sperimentando container, elaborazione Linux, analisi e acceleratori di intelligenza artificiale sul suo computer principale.
Uno degli aspetti più interessanti del pensiero di Sogei è guardare a un sistema di intelligenza artificiale per consigliare la piattaforma architetturale ottimale. Al momento c’è un team di professionisti che studia le strutture e le piattaforme della tecnologia. Tuttavia, in futuro, l’algoritmo potrebbe tenere conto di vari requisiti normativi, di privacy, sicurezza, prestazioni tecniche e stakeholder per un’applicazione e consigliare una piattaforma ideale. È una decisione complessa con molte variabili, che probabilmente trarrà vantaggio da una qualche forma di intelligenza artificiale. Baldan a questo punto era però opportunamente neutrale riguardo alla piattaforma su cui sarebbe stata eseguita l’applicazione AI.
Ovviamente, è probabile che in futuro ci siano molti più dati che circolano su diversi sistemi e archivi nelle organizzazioni. Ci sarà anche un maggiore appetito per la tempestività degli approfondimenti analitici, in particolare durante le crisi aziendali ma anche durante i periodi normali. La modernizzazione degli approcci del cloud ibrido e dell’architettura dei dati può offrire eccezionali opportunità per diventare più dipendenti dalle idee, costruire relazioni più solide con i clienti e ottenere una differenziazione competitiva. Ma un movimento eccessivo di dati può ostacolare l’utilizzo dei dati e il tempo di perspicacia e può minare parte del valore potenziale di alcuni sforzi di modernizzazione.
“Sottilmente affascinante social mediaholic. Pioniere della musica. Amante di Twitter. Ninja zombie. Nerd del caffè.”