Need To Solve Big Data Problems? Use Data Jujitsu
Just to share an excellent article I've read this morning while commuting. It's about problem solving and "divide et impera" methodologies. The article focuses on a specific class of problems (data problems ... Which are problems indeed given the rate at which information is produced and stored nowadays!) but some considerations are generally valid in an IT context. Do you agree with the contents?
Come funziona Google?
Vi sarete chiesti come fa Google ad essere così veloce ed efficiente nelle ricerche sul web: stiamo parlando di milioni di richieste concorrenti che interessano terabyte su terabyte di dati. In questo articolo vengono spiegate molte delle soluzioni tecnologiche adottate da Google per garantire l'efficienza e l'affidabilità del proprio sistema: l'hardware è rappresentato da una rete di calcolatori "a basso costo" facilmente rimpiazzabili. I dati vengono divisi in "shards" replicati nel sistema, facendo anche in modo che ci siano sempre un numero minimo di copie fisicamente separate per garantirne la persistenza. Il sistema operativo utilizzato è una versione pesantemente modificata di Red Hat. Google inoltre ha specificatamente implementato tre sottosistemi chiave ottimizzati per la ricerca: Google File System (un file system specificatamente orientato alla distribuzione e alla persistenza dei dati),il Map/Reduce framework (le API utilizzate dai programmatori per implementare i servizi) e la Global Work Queue (un'algoritmo di scheduling dei job da effettuare nel sistema). Inoltre sono utilizzate tecniche di Machine Learning per migliorare i risultati della ricerca e permettere l'implementazione di funzioni come i suggerimenti automatici sulle query. Leggetevi l'articolo per tutti i dettagli! (read more | digg story)
