Τα “big data” δεν είναι (πιο σωστά: δεν επιτρέπεται να είναι) απλά τεράστιοι σωροί δεδομένων, τους οποίους οι πανέξυπνες μηχανές θα σκάβουν κάθε φορά, on demand, ανασύροντας πότε το ένα και πότε το άλλο στατιστικό συμπέρασμα. Σύμφωνα με ορισμένους φιλόδοξους τεχνικούς, αυτοί οι “σωροί” κρύβουν και το υλικό των προβλέψεων… Ποιές συσχετίσεις δεδομένων, όμως, μπορούν να “γεννήσουν” ακριβείς προβλέψεις; Πως μπορεί να αξιοποιείται το ψηφιακά αποθηκευμένο παρελθόν για να αναπαρίσταται αξιόπιστα το μέλλον;
Στο αμερικανικό ΜΙΤ φαίνεται ότι τους απασχολεί (και) αυτό το θέμα. Την περασμένη χρονιά κατασκεύασαν μερικούς αλγόριθμους, τους πέρασαν στην Data Science Machine, και την έβαλαν να διαγωνιστεί με 906 ανθρώπινες ομάδες, σε τρεις χωριστούς διαγωνισμούς, “πρόβλεψης” ή “διαίσθησης”. Δεδομένου ότι δεν υπήρχε από πριν όριο χρόνου για την εξαγωγή της τελικής “πρόβλεψης”, η D.S.M. κατέληξε σε πόρισμα πριν τους ανθρώπινους ανταγωνιστές της στις 615 απ’ τις 906 περιπτώσεις. Στους δυο απ’ τους τρεις διαγωνισμούς η σύγκριση έδειξε ότι οι προβλέψεις της μηχανής ήταν ακριβείς (σε σχέση με τις ανθρώπινες) κατά 94% έως 96%. Στον τρίτο διαγωνισμό η επίδοσή της έπεσε στο 87%.
Καθόλου άσχημα. “Πολύ καλά” μάλιστα αν συνυπολογιστεί ότι η μηχανή χρειαζόταν από 2 έως 12 ώρες για να καταλήξει, ενώ οι ανθρώπινες ομάδες χρειάστηκαν σε μερικές περιπτώσεις ακόμα και μήνες. Ο Kalyan Veeramachaneni, ερευνητής του εργαστηρίου επιστημών υπολογιστή και τεχνητής νοημοσύνης του MIT, δήλωσε ευτυχής: “εκείνο που έχουμε δει απ’ την εμπειρία μας στην επίλυση διάφορων προβλημάτων σχετικών με τα επιστημονικά δεδομένα είναι πως ένα απ’ τα κρίσιμα βήματα είναι αυτό που ονομάζαμε feature engineering”…
Feature engineering; Why not?