Το τεράστιο μέγεθος των σημερινών συνόλων δεδομένων και οι ειδικές απαιτήσεις των σύγχρονων εφαρμογών, επέβαλαν την ανάπτυξη μιας νέας γενιάς συστημάτων διαχείρισης δεδομένων, όπου η έμφαση δίνεται στην κατανεμημένη και ανεκτική σε σφάλματα επεξεργασία. Εξελίχθηκαν νέα παραδείγματα προγραμματισμού, αναπτύχθηκαν νέα συστήματα και εργαλεία και εμφανίστηκε πληθώρα νεοσύστατων επιχειρήσεων που προσφέρουν λύσεις διαχείρισης και ανάλυσης δεδομένων. 

Μέρος αυτού του μαθήματος θα καλύψει τα συστήματα MapReduce και NoSQL. Τα θέματα περιλαμβάνουν: MapReduce, Hadoop, Pig και Hive, ανάπτυξη εφαρμογών στο περιβάλλον EC2 της Amazon, αποθήκες κλειδιών-τιμών όπως Memcached και Redis, αποθήκες εγγράφων όπως MongoDB και βάσεις δεδομένων γράφων όπως Neo4j. 

Επιπλέον, η ανάπτυξη λογισμικού που μπορεί να χειριστεί αποτελεσματικά μεγάλα σύνολα δεδομένων απαιτεί εξειδικευμένες δεξιότητες και εξοικείωση με εξελιγμένα εργαλεία. Μέρος του μαθήματος θα καλύψει την επισκόπηση των εργαλείων γενικού σκοπού και θα περιγράψει τον τρόπο με τον οποίο μπορούν να διαμορφωθούν οι υποδομές νέφους και να χρησιμοποιηθούν για την επεξεργασία μεγάλων δεδομένων. Στη συνέχεια θα παρουσιαστεί μια συστηματική μέθοδος για τον εντοπισμό και την αντιμετώπιση. θα παρουσιαστούν θέματα επιδόσεων. Για τις περιπτώσεις όπου η εξειδικευμένη επεξεργασία είναι απαιτείται, το μάθημα θα εξετάσει τεχνικές low level, όπως η χαρτογράφηση μνήμης και το copy-onwrite.