στα εργοστάσια της τεχνητής νοημοσύνης

Έχουμε κάθε δικαίωμα να κοιμόμαστε
ή μήπως όχι;
για σκέψου να ανήκε στο κράτος
ο ύπνος
τα πράγματα θα ‘τανε δύσκολα
θ’ αγοράζαμε ύπνο με δελτίο; ή ελεύθερα; και πόσο;
κι αν είχε παραχωρηθεί στην ιδιωτική πρωτοβουλία; ποια
η τιμή του σήμερα;
θα πεθαίναμε από εγρήγορση χωρίς χρήματα;
οι πάσχοντες από αϋπνίες τυχερότεροι λιγάκι
– δεν είναι έτσι;
Για σκέψου να μη μας άνηκε ο ύπνος.
Ν. Καρούζος

Αποφασίζεις ότι ήρθε επιτέλους η ώρα να πάρεις μια γεύση από πρώτο χέρι για τις «εντυπωσιακές» δυνατότητες της τεχνητής νοημοσύνης και των λεγόμενων μεγάλων γλωσσικών μοντέλων. Κάθεσαι, λοιπόν, στον υπολογιστή σου, πηγαίνεις στη σελίδα του ChatGPT¹, φτιάχνεις έναν λογαριασμό και μέσα σε πέντε μόλις λεπτά βρίσκεσαι μπροστά από την «ομιλούσα» μηχανή. Ξεπερνάς την αρχική σου αμηχανία και μπαίνεις στη συζήτηση. Ξεκινάς με μερικές απλές ερωτήσεις («Πώς σε λένε; Τι ακριβώς είσαι; Πόσα ξαδέρφια έχεις;») και σταδιακά προχωράς σε πιο περίπλοκη και δύσβατη θεματολογία («Ήταν ο Σελίν φασίστας; Παράγουν αξία οι μηχανές; Είναι ο λογοτεχνικός νεοφορμαλισμός αντιδραστικό ρεύμα;»). Σε κανένα σημείο δεν σου δίνει η μηχανή την εντύπωση κάποιας δυστοκίας στην έκφραση. Μπορεί οι απαντήσεις της να μοιάζουν πολύ στρογγυλεμένες και «δασκαλεμένες», αλλά ταυτόχρονα μοιάζουν υπερβολικά πολύ με κομμάτι μιας κανονικής συζήτησης.

Πριν πατήσεις το Χ για να κλείσεις τον browser και να μπορείς να πας ήσυχος για ύπνο έχοντας ένα καινούριο θέμα συζήτησης με τους συναδέλφους στη δουλειά το πρωί, σου περνάει από το μυαλό η ιδέα να τεστάρεις τη μηχανή πάνω σε θέματα της δουλειάς σου. «Ποια είναι η ετυμολογία της λέξης χάδι;»², «Πώς μπορώ να σχεδιάσω έναν ανορθωτή από εναλλασσόμενο σε συνεχές ρεύμα;», «Γράψε μου ένα σενάριο με αδιέξοδους έρωτες, καταχρήσεις ουσιών και καταραμένους ποιητές που έχουν αποστηθίσει τον Ρεμπώ.», «Φτιάξε μου ένα πρόγραμμα σε γλώσσα Python που να υπολογίζει τις ρίζες ενός πολυωνύμου δευτέρου βαθμού.». Μέγα λάθος. Οι απαντήσεις της μηχανής φαίνονται να είναι όχι μόνο σωστές, αλλά επιπλέον αναλυτικές και διεξοδικές. Ο ύπνος σου τελικά δεν θα είναι και τόσο ήσυχος και η αυριανή συζήτηση με τους συναδέλφους θα περιστρέφεται γύρω από εκτιμήσεις για το πότε θα χάσετε τη δουλειά σας για να αντικατασταθείτε από ομιλούσες μηχανές.

Τις ίδιες πάνω – κάτω ανησυχίες περί υπερ-ευφυών μηχανών που θα εξαφανίσουν τη μία μορφή εργασίας μετά την άλλη θα διαβάσεις και στην αγαπημένη σου εφημερίδα (προς θεού, μην τυχόν και ανοίξεις κάποιο βιβλίο), θα τις δεις να ανακυκλώνονται σε κοινωνικά δίκτυα, θα τις ακούσεις να επαναλαμβάνονται σε ραδιόφωνα, τηλεοράσεις και podcast. Μετά την εποχή του «άυλου» καπιταλισμού φαίνεται πως ήρθε και η εποχή του απολύτως αυτοματοποιημένου καπιταλισμού. Οι βασικές κοινωνικές και παραγωγικές λειτουργίες θα περάσουν στα χέρια των μηχανών οι οποίες θα λειτουργούν με ελάχιστη επιτήρηση, αρκεί μόνο να ταΐζονται σαν υπάκουα κατοικίδια με αρκετή ηλεκτρική ενέργεια. Όπως και οι ρητορείες περί «αύλου» καπιταλισμού πριν μερικά χρόνια, ωστόσο, έτσι και αυτές περί «αυτοματοποιημένου» καπιταλισμού περιέχουν πολλές και βαριές δόσεις ιδεολογίας. Πίσω από την κουρτίνα του μάγου που εμφανίζει από τον αέρα ευφυείς απαντήσεις στην οθόνη σου κρύβεται πολλή ύλη, πολλή ενέργεια και πολλή εργασία. Βρώμικη ύλη, αντι-οικολογική ενέργεια και κακοπληρωμένη, ανθρώπινη εργασία σε κάθε στάδιο της «παραγωγής» μιας ευφυούς απάντησης από μία ομιλούσα μηχανή. Το γεγονός ότι όλη αυτή η ύλη, η ενέργεια και η εργασία δεν διατάσσονται σε ένα συγκεκριμένο χωροχρονικό σημείο υπό τη μορφή μίας γραμμής παραγωγής με την συνήθη σημασία του όρου δεν σημαίνει ότι εξαϋλώθηκαν. Απλούστατα μετατέθηκαν (σκόπιμα) εκτός της συνήθους εμβέλειας του βλέμματός σου.

Μαζί με την τεχνητή νοημοσύνη, ένας άλλος όρος που έχει γίνει δημοφιλής τα τελευταία χρόνια είναι αυτός του cloud computing (ή ακόμα και του fog computing) με τον οποίο εννοείται η δυνατότητα να εκτελούνται πολλές απαιτητικές υπολογιστικές εργασίες όχι στον επιτραπέζιο υπολογιστή που διαθέτει ο καθένας, αλλά κάπου «εκεί έξω», σε απομακρυσμένους server. Με αυτόν τον τρόπο η ψευδαίσθηση γίνεται πλήρης. Η αναρπαγή της τεχνητής νοημοσύνης στους ουρανούς και στις υπολογιστικές νεφέλες έρχεται να κουμπώσει πάνω στην ρητορική της πλήρους αυτοματοποίησης για να κατασκευάσει τον μύθο του ανάλαφρου, ανάερου και εμπνευσμένου Υπολογιστικού Πνεύματος. Όμως κάθε φορά που πατάς ένα enter για να στείλεις την ερώτησή σου προς μια ομιλούσα μηχανή, αυτή δεν πηγαίνει σε κανένα σύννεφο. Αντιθέτως, πρέπει να ταξιδέψει μέσα από χιλιόμετρα καλωδίων και οπτικών ινών, να περάσει από εκατοντάδες διακοπτάκια, διαμορφωτές / αποδιαμορφωτές σήματος και αποκωδικοποιητές πριν καταλήξει τελικά σε τερατώδη data center (στα οποία, πριν μπεις, ενδέχεται να χρειάζεσαι ακόμα και προστατευτικά στα αυτιά σου για να αποφύγεις τραυματισμούς λόγω του θορύβου που παράγουν σε συνεχή βάση) και σε κάποιους από τους επεξεργαστές του οι οποίοι θα υπολογίσουν την απάντηση. Για να λειτουργήσουν αυτά τα data center χρειάζονται με τη σειρά τους τεράστια φράγματα, πολλές ανεμογεννήτριες και ολόκληρα γκαζάδικα πλοία για να παράγουν τα απαιτούμενα ποσά ηλεκτρικής ενέργειας. Παρεμπιπτόντως, δεν είναι άσχημη ιδέα να υπάρχουν κοντά και κάνα – δυό ποτάμια για να ψύχουν τις μικρομηχανές των επεξεργαστών, των καρτών γραφικών και των σκληρών δίσκων. Φυσικά, το λογισμικό που τρέχει σε αυτές τις μηχανές δεν φυτρώνει αυθόρμητα μέσα τους. Απαιτούνται εκατοντάδες μηχανικοί για να το γράφουν και να το συντηρούν. Και χιλιάδες μικρο-συμβασιούχοι σε κάποια χώρα της Αφρικής που περνάνε ατελείωτες ώρες μπροστά από μία οθόνη να καθαρίζουν και να κατηγοριοποιούν τα δεδομένα με τα οποία οι αλγόριθμοι μηχανικής μάθησης πρέπει να εκπαιδευτούν. Πρόκειται για μία διαδικασία που δεν λαμβάνει χώρα άπαξ, αλλά που πρέπει να επαναλαμβάνεται ανά διαστήματα ώστε ο αλγόριθμος να διατηρείται σε αξιοπρεπή επίπεδα.

Η ιστορία έχει τον τρόπο της να ειρωνεύεται τους ανθρώπους. Κάποτε, στα τέλη του 19ου, ο μηχανικός Τούρκος (που τόσο είχε εντυπωσιάσει τον Μπένγιαμιν) του Wolfgang von Kempelen περιόδευε στην Ευρώπη κατατροπώνοντας ακόμα και φτασμένους σκακιστές. Επρόκειτο για ένα μηχανικό αυτόματο, με τη μορφή ενός Τούρκου, για το οποίο ο εφευρέτης του ισχυριζόταν ότι είχε την ικανότητα να παίζει σκάκι αυτόνομα. Αρκετοί ήταν αυτοί που δοκίμασαν να αναμετρηθούν μαζί και με πίκρα επιβεβαίωσαν τις υψηλές ικανότητες του, αποχωρώντας ηττημένοι. Μέχρι που τελικά αποκαλύφθηκε ότι ο Τούρκος ήταν κατασκευασμένος με τέτοιον τρόπο ώστε στο εσωτερικό του να χωράει ένας μικρόσωμος (αλλά ευφυής) άνθρωπος ο οποίος μπορούσε να κινεί τα χέρια του και τα πιόνια της σκακιέρας. Η τεχνητή νοημοσύνη σήμερα φαίνεται να αδιαφορεί για το σκάκι (το οποίο έχει καταφέρει, παρ’ όλα αυτά, να αυτοματοποιήσει). Ωστόσο, αυτό δεν την κάνει να μοιάζει λιγότερο με τον μηχανικό Τούρκο. Οι φιλοδοξίες της παραμένουν ίδιες με αυτές κάποιων εκ των μηχανικών αυτομάτων του 19ου και του 18ου αιώνα: η μηχανοποίηση της ανθρώπινης σκέψης. Και αν αυτό δεν είναι (άμεσα) εφικτό, δεν διστάζει να στήνει ηλεκτρονικούς Τούρκους πίσω από τους οποίους κρύβονται ολόκληρες στρατιές εργατών.

Το πιο υλικό κομμάτι του ηλεκτρονικού Τούρκου αποτελείται φυσικά από… ηλεκτρονικά στοιχεία: τα λεγόμενα VLSI (very large scale integration) κυκλώματα που έχουν ονομαστεί έτσι ακριβώς από το γεγονός ότι μέσα σε μερικά τετραγωνικά χιλιοστά πυριτίου μπορούν να χωρέσουν δισεκατομμύρια μικροσκοπικά διακοπτάκια – τρανζίστορ. Οι επεξεργαστές, οι κάρτες δικτύου, οι κάρτες γραφικών (οι οποίες πλέον χρησιμοποιούνται κατά κόρον από εφαρμογές τεχνητής νοημοσύνης), όλα αυτά τα στοιχεία αποτελούν τέτοια ηλεκτρονικά κυκλώματα. Ένας μόνο επεξεργαστής, μαζί με κάρτες δικτύου – γραφικών και έναν σκληρό δίσκο είναι υπερεπαρκής για να καλύψει τις ανάγκες ενός οικιακού χρήστη, ενδεχομένως με την εξαίρεση κάποιων ιδιαίτερων περιπτώσεων με ειδικές απαιτήσεις (π.χ., χρήστες που χρειάζονται να κάνουν συστηματική επεξεργασία βίντεο). Πολλά από τα μοντέλα τεχνητής νοημοσύνης προηγούμενης γενιάς είχαν επίσης τη δυνατότητα να τρέξουν σε τέτοιους ταπεινούς υπολογιστές. Τα μοντέλα τελευταίας γενιάς, ωστόσο, όπως το περίφημο ChatGPT, απαιτούν ολόκληρες «φάρμες» επεξεργαστών (μαζί με τις περιφερειακές τους μνήμες) για να μπορέσουν να αφομοιώσουν και να επεξεργαστούν τεράστιους όγκους δεδομένων³. Χωρίς αυτή τη μαζικότητα των δεδομένων, οι επιδόσεις τους είναι πολύ λιγότερο εντυπωσιακές. Πέρα από τα δεδομένα, ακόμα και τα μοντέλα αυτά καθεαυτά αποτελούνται από δισεκατομμύρια παραμέτρους, κάτι που αποτρέπει την όποια «οικιακή» τους χρήση (αν και σε ορισμένες περιπτώσεις παρέχονται συμπιεσμένες εκδόσεις τους με λιγότερες παραμέτρους). Η μόνη περίπτωση για να λειτουργήσουν αυτά τα μοντέλα είναι να κατανεμηθούν σε πολλαπλούς επεξεργαστές ώστε πολλά επιμέρους κομμάτια τους να τρέχουν παράλληλα. Τα data center είναι οι υποδομές εκείνες που στεγάζουν πολλαπλούς επεξεργαστές ώστε να μπορούνε να εργάζονται πάνω σε μεγάλης κλίμακας προβλήματα.

Τέτοια data center δεν είναι καθόλου μικρά και ανάλαφρα. Ορισμένα εξ αυτών ενδέχεται να φιλοξενούν εκατομμύρια επεξεργαστές και να καταλαμβάνουν εκτάσεις χιλιάδων τετραγωνικών μέτρων. Με άλλα λόγια, αποτελούν μια μορφή… εργοστασίου. Υπολογίζεται ότι περίπου το 80% των εξόδων των εταιρειών τεχνητής νοημοσύνης κατευθύνεται προς την κατασκευή και συντήρηση (ή ενοικίαση) των απαραίτητων υπολογιστικών υποδομών για την εκπαίδευση και λειτουργία των μοντέλων τους. Είναι προφανές ότι πολύ λίγες είναι οι εταιρείες που διαθέτουν τα κεφάλαια για να κατασκευάσουν ή να αγοράσουν ιδιόκτητα data center. Για τις περισσότερες, η λύση είναι η ενοικίαση συγκεκριμένων υπολογιστικών πόρων με συγκεκριμένες προδιαγραφές και για συγκεκριμένα διαστήματα. Οι μεγάλοι παίκτες στον τομέα της τεχνητής νοημοσύνης είναι αυτοί που έχουν όχι μόνο τα πιο προηγμένα μοντέλα και τα πιο πλούσια δεδομένα αλλά και τις γιγάντιες υποδομές για να σηκώσουν αυτά τα μοντέλα και τα δεδομένα.

Δεν είναι, βέβαια, μόνο ο όγκος αυτών των υποδομών που τα καθιστά εργοστάσια. Οι απαιτήσεις τους σε ενέργεια είναι και αυτές βιομηχανικής κλίμακας. Με βάση υπολογισμούς της διεθνούς επιτροπής ενέργειας (International Energy Agency), εκτιμάται ότι τα data center το 2022 κατανάλωσαν το 2-3 τοις εκατό της συνολικά παραγόμενης ενέργειας σε παγκόσμιο επίπεδο. Μια χώρα σαν την Ιρλανδία, στην οποία διατηρούν παραρτήματα πολλές αμερικανικές εταιρείες της Silicon Valley, θα χρειάζεται να διοχετεύει το 27% της ηλεκτροπαραγωγής της προς τα εργοστάσια της τεχνητής νοημοσύνης το 2028, αν συνεχιστεί η παρούσα τάση αύξησης και μεγέθυνσης των data center. Αν μία εταιρεία αποφάσιζε να κατασκευάσει ένα google της τεχνητής νοημοσύνης όπου οι χρήστες θα θέτουν τα ερωτήματά τους σε ένα γλωσσικό μοντέλο με τον ίδιο τρόπο και την ίδια συχνότητα που το κάνουν τώρα σε μια συμβατική μηχανή αναζήτησης, τότε η συνολική ηλεκτροπαραγωγή της Ιρλανδίας μόλις που θα έφτανε για να τροφοδοτεί μία τέτοια μηχανή επόμενης γενιάς. Ένα μεγάλο ποσοστό (γύρω στο 40%) της καταναλισκόμενης από τα data center ενέργειας δεν κατευθύνεται σε αυτή καθεαυτή την λειτουργία των επεξεργαστών του, αλλά στην ψύξη τους με χρήση κλιματιστικών και νερού. Ένα ευμέγεθες data center μπορεί να χρειάζεται πάνω από 10 εκατομμύρια λίτρα νερού ημερησίως, σχεδόν όσο και μία (αμερικανική) πόλη των 50.000 κατοίκων.

Τα παραπάνω νούμερα αφορούν μόνο στη λειτουργία των data center, χωρίς να υπολογίζουν καθόλου τις απαιτήσεις της κατασκευής τους, από την εξόρυξη των απαραίτητων σπάνιων γαιών μέχρι τη δουλειά των εργατών επισήμανσης (annotator) των δεδομένων εκπαίδευσης με τα οποία τροφοδοτούνται τα μοντέλα τεχνητής νοημοσύνης. Ακόμα κι έτσι όμως, υποδεικνύουν αυτό που η μυθολογία γύρω από την τεχνητή νοημοσύνη τείνει να αποσιωπά. Το γεγονός ότι τα data center δεν έχουν φουγάρα (και οι annotator δεν κυκλοφορούν με τη μουτζούρα στο πρόσωπο και το γράσο στα νύχια) δεν τα εξαϋλώνει και δεν τα απαλλάσσει από το εργοστασιακό τους βάρος. Κάθε φορά που πατάς ένα enter για να στείλεις ένα ερώτημα στο ChatGPT θέτεις σε κίνηση μια ολόκληρη just in time αλυσίδα συναρμολόγησης απαντήσεων, ακόμα κι αν δεν είναι ορατή σε εσένα.

Μία αντίληψη που κυκλοφορεί ευρέως στους κύκλους της τεχνητής νοημοσύνης προβλέπει ότι η πρόοδος των σχετικών τεχνολογιών θα συνεπιφέρει αναγκαστικά και μία πτώση στο ενεργειακό κόστος των μεγάλων (γλωσσικών ή άλλων) μοντέλων⁴, περίπου όπως οι επεξεργαστές γίνανε σταδιακά πιο αποδοτικοί. Το γεγονός, βέβαια, ότι οι σύγχρονοι επεξεργαστές καταναλώνουν λιγότερη ενέργεια ανά τρανζίστορ δεν σημαίνει ότι καταναλώνουν γενικά λιγότερη ενέργεια. Ένας επεξεργαστής Intel Core i7 του 2008 καταναλώνει γύρω στα 80 Watt και περιέχει περίπου 731,000,000 τρανζίστορ, δηλαδή χρειάζεται περίπου 70 nanoWatt ανά τρανζίστορ. Ο Intel 4004 του 1971 περιείχε μόλις 2,250 τρανζίστορ και κατανάλωνε μισό Watt, δηλαδή 200 μWatt ή 200,000 nanoWatt ανά τρανζίστορ. Ένας σύγχρονος επεξεργαστής μπορεί όντως να είναι σχεδόν 3,000 φορές πιο αποδοτικός (ανά τρανζίστορ) σε σχέση με έναν πρόγονό του της δεκαετίας του 70, όμως συνολικά μπορεί να καταναλώνει 200 φορές περισσότερη ενέργεια. Η αύξηση της απόδοσης ενός συστήματος δεν συνεπάγεται, επομένως, μία γενικότερη μείωση των απαιτήσεών του. Όσο η ζήτηση για τις υπηρεσίες που παρέχει αυξάνεται, αναλόγως θα αυξάνονται και οι ενεργειακές του απαιτήσεις. Με τον ίδιο τρόπο που το να φτιάχνεις καινούριους δρόμους και περισσότερες λωρίδες στους υπάρχοντες απλά θα ρίχνει περισσότερα αυτοκίνητα στην κυκλοφορία όσο δεν προωθείται ουσιαστικά η εναλλακτική των υπολοίπων μέσων, έτσι και η αύξηση της απόδοσης των data center απλά θα αποτελεί κίνητρο για την κατασκευή όλο και περισσότερων. Σε κάθε περίπτωση, δεν φαίνεται να υπάρχει κάποια ρεαλιστική προοπτική για ένα μέλλον όπου τα μοντέλα τεχνητής νοημοσύνης δεν θα κατοικούν πλέον σε θορυβώδη εργοστάσια αλλά στα σύννεφα ως αιθέριες μελωδίες.

Το άλλο συστατικό που χρειάζονται τα εργοστάσια της τεχνητής νοημοσύνης για να δουλέψουν, πέρα από ύλη και ενέργεια, είναι φυσικά η ανθρώπινη εργασία. Υπάρχει βέβαια η εργασία που διοχετεύεται στην κατασκευή και συντήρηση των data center, όμως αυτή αποτελεί μόνο ένα μικρό ποσοστό της συνολικά απαιτούμενης εργασίας. Σε αντίθεση με τις ανακοινώσεις της κάθε τυχάρπαστης πολιτικής βιτρίνας όταν μια εταιρεία αποφασίζει να ανοίξει κάποιο data center στο προτεκτοράτο που αυτή διοικεί, καμμία πλημμυρίδα νέων δουλειών δεν δημιουργείται. Άπαξ και κατασκευαστούν, τα data center χρειάζονται μία συντήρηση (ή κατά καιρούς αναβάθμιση), την οποία όμως μπορεί να αναλάβει μια ολιγομελής ομάδα τεχνικών και μηχανικών.

Σαφώς πιο προβεβλημένες και «δαφνοστεφανωμένες» είναι οι ομάδες των μηχανικών και προγραμματιστών που αναπτύσσουν τα μοντέλα τεχνητής νοημοσύνης σε επίπεδο λογισμικού. Όπως αναφέραμε ήδη, πρόκειται κατά κύριο λόγο για μοντέλα που βασίζονται σε νευρωνικά δίκτυα. Παρότι η βασική λειτουργία των νευρωνικών δικτύων είναι καλά μελετημένη και υπάρχουν αρκετές έτοιμες «βιβλιοθήκες» που αναλαμβάνουν την υλοποίησή τους, η ακριβής αρχιτεκτονική ενός τέτοιου δικτύου για έναν συγκεκριμένο σκοπό αποτελεί (ακόμα) βασικό κομμάτι της «δημιουργικής» δουλειάς» ενός μηχανικού. Μεταξύ άλλων, η αρχιτεκτονική ενός νευρωνικού δικτύου καθορίζει και τον όγκο των δεδομένων που αυτό μπορεί να δεχτεί κατά την εκπαίδευση του, στοιχείο το οποίο είναι απολύτως κρίσιμο για την απόδοσή του. Η άνοδος της τεχνητής νοημοσύνης τα τελευταία χρόνια δεν οφείλεται, λοιπόν, τόσο σε κάποια πραγματικά πρωτοποριακή ιδέα (τα νευρωνικά δίκτυα είναι γνωστά εδώ και δεκαετίες, ήδη από το 1950), όσο στην «μπετατζίδικη» δουλειά των μηχανικών που έχουν ανακαλύψει τρόπους να δομούν ογκώδη νευρωνικά δίκτυα χωρίς αυτά να καταρρέουν. Οι συγκεκριμένοι μηχανικοί αποτελούν κάτι σαν μια κάστα βραχμάνων στους κύκλους της τεχνητής νοημοσύνης: περιβάλλονται με αίγλη, προβάλλονται στα μέσα, αμείβονται αδρά και τα χέρια τους μένουν πάντα καθαρά.

Παρά την αναγνώριση που απολαμβάνει η εργασία των μηχανικών, το αντικείμενό της (η ανάπτυξη και διαχείριση μοντέλων) δεν είναι σε καμμία περίπτωση το πιο απαιτητικό από την άποψη της απαιτούμενης εργασίας μέσα στον κύκλο της κατασκευής ενός συστήματος τεχνητής νοημοσύνης. Πέρα από τη διαχείριση των μοντέλων, η άλλη εξίσου (αν όχι περισσότερο) σημαντική πλευρά ενός μοντέλου τεχνητής νοημοσύνης αφορά στα δεδομένα με τα οποία αυτό μπορεί και πρέπει να εκπαιδευτεί. Οι διαφημίσεις των Big Tech μπορεί να παρουσιάζουν τους ηλεκτρονικούς τους Τούρκους ως ικανούς να χειριστούν σχεδόν ο,τιδήποτε τύχει να δουν στην είσοδό τους. Στην πραγματικότητα, τα δεδομένα αποδεικνύονται αρκετά πιο δύστροπα στην πράξη και χρειάζονται πολλαπλά στάδια επεξεργασίας πριν επιτραπεί στον Τούρκο να τα αγγίξει. Υπολογίζεται, μάλιστα, ότι από τον συνολικό χρόνο εκπαίδευσης ενός μοντέλου, το 80% αφορά σε αυτή την «προ-επεξεργασία» των δεδομένων. Ακόμα και η συλλογή των δεδομένων πολλές φορές δεν είναι καθόλου απλή υπόθεση. Χρειάζεται πολλή (ανθρωπινότατη) εργασία για να σχεδιαστούν και να τοποθετηθούν οι αισθητήρες συλλογής δεδομένων, για να αποφασιστεί η μορφή που θα έχουν και η συχνότητα της δειγματοληψίας και για να σχεδιαστεί η βάση δεδομένων που θα τα φιλοξενήσει. Εναλλακτικά, υπάρχει και η λύση της παραγωγής συνθετικών δεδομένων. Σε αυτήν την περίπτωση, πρέπει να μεσολαβήσει (άρα να σχεδιαστεί και να υλοποιηθεί) ένα επιπλέον στρώμα κώδικα που θα παράγει τα δεδομένα. Τα πραγματικά, «ωμά» δεδομένα, όπως αυτά συλλέγονται από τους αισθητήρες ή όποια άλλη πηγή (π.χ., το ίδιο το διαδίκτυο), σχεδόν σπάνια χρησιμοποιούνται ως έχουν για την εκπαίδευση ενός μοντέλου. Πρώτα πρέπει να καθαριστούν από τυχόν «βρωμιές» και θόρυβο και να έρθουν σε μορφή κατάλληλη για ένα μοντέλο. Ενδεχομένως να πρέπει να εμπλουτιστούν με επιπλέον πληροφορίες ή να συνδυαστούν με δεδομένα από άλλες πηγές (π.χ. δεδομένα από RADAR με δεδομένα από δορυφορικές εικόνες) για να μπορέσει το μοντέλο να πιάσει αξιοπρεπείς επιδόσεις. Ένα από τα πιο βασικά στάδια, ωστόσο, αφορά στην λεγόμενη «επισήμανση» (data annotation/labeling) των δεδομένων την οποία αναλαμβάνουν κατά κύριο λόγο άνθρωποι σε μέρη πολύ μακρινά από εκεί που αναπτύσσονται καταρχάς αυτά τα αδηφάγα μοντέλα. Με τον όρο επισήμανση εννοείται επί της ουσίας η κατηγοριοποίηση των δεδομένων με βάση κάποια κριτήρια αποδοτικότητας της μηχανής. Αν, π.χ., ο σκοπός της είναι η αυτόνομη οδήγηση, τότε οι εικόνες από τις κάμερες του οχήματος θα πρέπει να επισημανθούν ανάλογα με το αν περιέχουν σήμα STOP, αν περιέχουν γραμμές διάβασης πεζών κ.ο.κ. Με αυτόν τον τρόπο, ένα μοντέλο καθοδηγείται κατά την εκπαίδευσή του προς τον επιθυμητό στόχο.

Ένα μικρό πρόβλημα που ανακύπτει σε όλη αυτή τη διαδικασία βρίσκεται στο ότι ο όγκος των επισημασμένων δεδομένων που απαιτείται για την επαρκή εκπαίδευση ενός νευρωνικού δικτύου δεν είναι καθόλου μικρός. Οι απαιτήσεις των νευρωνικών δικτύων σε δεδομένα δεν ήταν κάτι άγνωστο. Μόνο σταδιακά όμως έγινε κατανοητή η κλίμακα αυτών των απαιτήσεων. Περίφημη είναι η ιστορία του ImageNet, ενός συνόλου δεδομένων από εικόνες που τυγχάνει ευρείας χρήσης μεταξύ των ερευνητών υπολογιστικής όρασης. Μητέρα του ImageNet θεωρείται η Fei Fei Li, ερευνήτρια στο αμερικάνικο πανεπιστήμιο του Princeton. Η «ιδιοφυής» ιδέα που είχε δεν αφορούσε σε κάποιον αλγόριθμο ή κάποια νέα αρχιτεκτονική, αλλά στην υποψία που φύτρωσε μέσα της ότι τα νευρωνικά δίκτυα αναγνώρισης εικόνων θα μπορούσαν να βελτιωθούν θεαματικά αν απλώς τροφοδοτούνταν με περισσότερα (επισημασμένα) δεδομένα. Για την κλίμακα που είχε κατά νου η Fei Fei Li, ωστόσο, το κόστος της επισήμανσης θα ήταν απαγορευτικό αν ακολουθούσε την πεπατημένη. Αντ’ αυτού, στράφηκε προς το Mechanical Turk (ειρωνεία;) της Amazon, μία (φτηνή για τους εργοδότες) πλατφόρμα διαχείρισης και κατανομής μικρο-εργασιών τέτοιου είδους που μπορούν να γίνουν εξ αποστάσεως. Το ImageNet πλέον θεωρείται κάτι σαν σημείο αναφοράς στον χώρο της υπολογιστικής όρασης. Παρόμοιες περιπέτειες είχε και η OpenAI με το δικό της περίφημο ChatGPT. Θεωρητικά, συστήματα σαν το ChatGPT δεν απαιτούν απαραιτήτως ανθρώπινη επισήμανση καθώς εκπαιδεύονται «απλώς» να προβλέπουν τη συνέχεια ενός κειμένου. Και κείμενα υπάρχουν άφθονα στο διαδίκτυο. Στην πράξη όμως, αποδείχτηκε ότι ακόμα κι εκεί η επισήμανση κρίθηκε απαραίτητη. Χωρίς αυτή, το ChatGPT ελευθέρας βοσκής είχε την τάση να αναπαράγει ό,τι είχε «καταναλώσει» από τις βόλτες του στο διαδίκτυο. Μεταξύ άλλων, ακόμα και σεξιστικά ή φασιστικά στερεότυπα. Ή απλώς απόψεις και αντιλήψεις αρκετά εκτός των mainstream. Η λύση ήταν και πάλι η ανθρώπινη παρέμβαση – επισήμανση ώστε να κατηγοριοποιούνται κατάλληλα τα κείμενα με «ακραίο» περιεχόμενο και να «ποινικοποιούνται» κατά την εκπαίδευση του συστήματος. Η OpenAI δεν επιστράτευσε την Amazon αυτή τη φορά. Προσέλαβε σχετικές εταιρείες με βάση την Κένυα της Αφρικής στις οποίες έστειλε τα δεδομένα εκπαίδευσης του ChatGPT και ζήτησε να της επιστραφούν με την κατάλληλη επισήμανση. Το ωρομίσθιο των αφρικανών εργαζομένων που δούλεψαν για να προστατεύσουν τα μάτια μας από «ακραίες» και «απρεπείς» απαντήσεις ήταν κάτω από τα 2 δολάρια την ώρα.

Δύσκολα θα βρει κανείς επίσημα στοιχεία για το πλήθος των «εργατών επισήμανσης» ανά τον κόσμο. Κάποιες ανεπίσημες εκτιμήσεις κάνουν λόγο για εκατομμύρια. Για το ίδιο το είδος της εργασίας, βέβαια, δεν χρειάζονται επίσημες εκτιμήσεις ή κάποια ιδιαίτερη φαντασία για να κατανοήσει κανείς πόσο επαναληπτικά βαρετές μπορεί να είναι, ιδιαίτερα αν λάβει κανείς υπόψη του ότι στους εργάτες επισήμανσης απλώς δίνονται κάποια δεδομένα και μερικές οδηγίες χωρίς να τους επεξηγείται ποιος είναι ο τελικός σκοπός. Οι εργάτες στις αυτοκινητοβιομηχανίες του Φορντ πριν έναν αιώνα τουλάχιστον γνώριζαν ότι το τελικό αποτέλεσμα της εργασίας τους θα ήταν ένα αυτοκίνητο. Για τους εργάτες επισήμανσης, ακόμα και αυτό αποτελεί πολυτέλεια. Αυτό που ίσως δεν είναι άμεσα προφανές είναι ότι οι συγκεκριμένοι εργάτες συχνά καλούνται να έρθουν αντιμέτωποι με κείμενα ή σκηνές πραγματικά ακραίου περιεχομένου (π.χ., δολοφονίες ή βιασμούς), με ό,τι συνέπειες αυτό μπορεί να έχει στην ψυχική τους ισορροπία. Ακόμα και στο κανονικό περιεχόμενο όμως, η προσοχή πρέπει να είναι τεταμένη. Ο εργάτης επισήμανσης οφείλει να «σκέφτεται» όπως η μηχανή ώστε στο τέλος αυτή να δίνει την εντύπωση ότι «σκέφτεται» όπως ο άνθρωπος. Αν μία εικόνα περιέχει ένα σήμα STOP, αλλά αυτή είναι μία ζωγραφιά που έχει φτιάξει ένα παιδάκι, πώς πρέπει να κατηγοριοποιηθεί; Θα πρέπει να μπει στα «αρνητικά παραδείγματα», καθώς η μηχανή δεν διαθέτει εγγενώς κάποια δυνατότητα να κατανοήσει ότι ένα τέτοιο STOP εκτός δρόμου δεν σημαίνει κάτι από την άποψη της ορθής οδηγικής συμπεριφοράς. Κι αν η εικόνα περιέχει κάποιο STOP αλλά αυτό φαίνεται ως είδωλο μέσα σε κάποιον καθρέφτη; Κι αν το STOP φαίνεται σε μία διχάλα, αλλά αφορά τον παράλληλο δρόμο; Για τη μηχανή, όλα αυτά είναι παραδείγματα τα οποία δεν μπορεί να διακρίνει αν βασιστεί απλώς και μόνο στη οπτική αναγνώριση του STOP. Η νοηματοδοτική εργασία πρέπει να γίνει από ανθρώπινα χέρια και μάτια που πληρώνονται μερικά ψίχουλα και των οποίων η εργασία παρακολουθείται λεπτομερώς από συστήματα επιτήρησης. Όπως και στην περίπτωση των ενεργειακών αναγκών των μοντέλων τεχνητής νοημοσύνης, όπου οι ειδικοί «προβλέπουν» ότι αυτές θα μειωθούν εντυπωσιακά τα επόμενα χρόνια, έτσι και στην περίπτωση της εργασίας πίσω από τέτοια μοντέλα, κάποιοι άλλοι ειδικοί «προβλέπουν» πάλι ότι και η ανάγκη για ανθρώπινη επισήμανση των δεδομένων σταδιακά θα εκλείψει. Τα μοντέλα θα είναι σε θέση να παράγουν από μόνα τους δεδομένα με τα οποία θα εκπαιδεύουν τον εαυτό τους ή άλλα μοντέλα. Προβλέψεις σαν αυτές μοιάζουν περισσότερο με ευχολόγια. Τα νευρωνικά δίκτυα είναι διαβόητα για το πόσο «εύθραυστα» είναι, παράγοντας ενίοτε απαντήσεις εντελώς ασυνάρτητες όταν στην είσοδό τους βρεθούν δεδομένα αρκετά εκτός του εύρους των δεδομένων που είδαν κατά την εκπαίδευσή τους. Επιπλέον, έχουν γίνει όντως προσπάθειες να εκπαιδευτούν μοντέλα τεχνητής νοημοσύνης με δεδομένα που έχουν παραχθεί από άλλα μοντέλα. Τα αποτελέσματα ήταν απογοητευτικά. Τα μοντέλα που είχαν εκπαιδευτεί με αυτόν τον τρόπο είχαν εντονότερη τάση να παράγουν απαντήσεις με μεγαλύτερο βαθμό επαναληπτικότητας. Με άλλο λόγια, είχαν ακόμα μικρότερες δυνατότητες να «καινοτομήσουν» και απλώς επαναλάμβαναν τα ίδια και τα ίδια.

Μήπως όλα τα παραπάνω σημαίνουν ότι οι τελευταίες τεχνολογίες τεχνητής νοημοσύνης αποτελούν κάτι σαν μία σύγχρονη εκδοχή του νερού του Καματερού; Όχι ακριβώς. Καταρρίπτουν, ωστόσο, μερικούς μύθους που δείχνουν ιδιαίτερη επιμονή. Η τάση αυτοματοποίησης είναι μεν υπαρκτή· κάτι που, ωστόσο, δεν σημαίνει ότι θα εξαφανίσει κάθε μορφή εργασίας. Σε κάθε στάδιο της κατασκευής, εκπαίδευσης και (ξανά και ξανά) επανεκπαίδευσης ενός μοντέλου τεχνητής νοημοσύνης βρίσκεται ένα ανθρώπινο χέρι. Για την ακρίβεια, πολλά χεριά. Χιλιάδες χέρια και μάτια. Αυτή η ανάγκη για ανθρώπινη εργασία δεν προβλέπεται να εξαφανιστεί σύντομα.

Ποιες είναι οι αλλαγές που όντως μπορεί να επιφέρει μία νέα γενιά τεχνητής νοημοσύνης η οποία θα βρει τελικά ευρεία εφαρμογή και θα υπερβεί το στάδιο του πειραματισμού⁵; Οφθαλμοφανής είναι η τάση συγκεντροποίησης των υποδομών πάνω στις οποίες τρέχουν τα συστήματα τεχνητής νοημοσύνης. Το φράγμα εισόδου προς τα εσώτερα της τεχνητής νοημοσύνης ανεβαίνει επικίνδυνα για όλους εκτός των μεγάλων παικτών – εταιρειών⁶. Αν οι σημερινές τάσεις συνεχιστούν, τότε δεν αποκλείεται η τεχνητή νοημοσύνη, σε αυτή της την εκδοχή, να μετατραπεί σε κάτι σαν υπηρεσία την οποία ποτέ δεν μπορείς να κατέχεις παρά μόνο να νοικιάζεις έναντι αντιτίμου⁷.

Όσον αφορά στην εργασία τώρα, αυτή μπορεί να μην εξαφανιστεί, όπως «απειλούν» οι ειδικοί. Αυτό δεν σημαίνει ότι δεν θα μετασχηματιστεί. Ίσως μία χρήσιμη αναλογία θα ήταν με την εποχή της μετάβασης προς τον ταιηλορισμό στο πεδίο της χειρωνακτικής εργασίας. Δεν είναι λίγες οι «πνευματικές» δουλειές γραφείου που ήδη περιλαμβάνουν επαναληπτικά κομμάτια. Αν κριθεί ότι αυτά τα κομμάτια μπορούν να εκτελεστούν με μικρότερο κόστος από μία «έξυπνη» μηχανή, τότε είναι πολύ πιθανό να ανατεθούν σε αυτή. Ο εργάτης γραφείου (που κάποτε ενδέχεται να είχε και μεγάλη ιδέα για τον εαυτό του) δεν αποκλείεται να μετατραπεί σε έναν «πνευματικό» εργάτη – μάζα, να τρέχει να προλάβει την επόμενη εικόνα με κάποιο STOP μέσα της. Και όταν μιλάμε για «εργάτες γραφείου», δεν εννοούμε μόνο γραμματείς και ταμίες, αλλά ακόμα και θέσεις «υψηλότερης εξειδίκευσης». Για παράδειγμα, οι προγραμματιστές βρίσκονται στην πρώτη γραμμή αυτής της μάχης χαρακωμάτων, δεδομένου του γεγονότος ότι οι γλώσσες προγραμματισμού έχουν αυστηρό συντακτικό (κάτι που βοηθάει τα μοντέλα τεχνητής νοημοσύνης, λόγω της επαναληπτικότητας) και υπάρχουν άφθονα διαθέσιμα και ανοικτά δεδομένα ώστε τα μοντέλα να εκπαιδευτούν για να παράγουν κώδικα⁸.

Από αυτή την άποψη, λοιπόν, η τελευταία γενιά των μοντέλων τεχνητής νοημοσύνης μοιάζει να έχει περισσότερο ως σκοπό της την υφαρπαγή των περιεχομένων των διανοητικών εργασιών μέσω της ταιηλοροποίησής τους. Το ζητούμενο, επομένως, δεν είναι η απόλυτη αυτοματοποίηση, κάτι που μάλλον θα παραμείνει όνειρο μακρινό. Αλλού βρίσκεται η στόχευση: στην αναδιάρθρωση των διανοητικών εργασιών (εκεί που οι δυτικοί ίσως πιστεύουν ότι ακόμα έχουν ένα πλεονέκτημα) ώστε να ταιριάξουν με την γενικότερη κοινωνικο-οικονομική αναδιάρθρωση στα πρότυπα του βιο-πληροφορικού υποδείγματος. Πόσο άστοχο θα ήταν άραγε να μιλήσει κανείς για ένα εν εξελίξει κύμα διανοητικών περιφράξεων⁹;

Separatrix

Ή ίσως καλύτερα του κινέζικου και πιο αποδοτικού Deepseek. ↩︎
Εκ του µεσαιωνικού «ηχάδιο», ήτοι ο µικρός ήχος – νανούρισµα που έκαναν οι µητέρες για να αποκοιµίσουν τα παιδιά τους. ↩︎
Έχουµε κάνει µια πιο αναλυτική περιγραφή των µεγάλων γλωσσικών µοντέλων σε προηγούµενο άρθρο. Βλ. “τεχνητή νοηµοσύνη”: µεγάλα γλωσσικά µοντέλα στην εποχή των «πνευµατικών» περιφράξεων, Cyborg, τ. 26. ↩︎
Στην ορολογία της τεχνητής νοημοσύνης, αυτή η κατηγορία μοντέλων που βασίζονται σε γιγάντια νευρωνικά δίκτυα (από transformer) ονομάζονται εν γένει θεμελιώδη μοντέλα («foundation models»). Τα πρώτα, όπως το ChatGPT, ήταν γλωσσικά καθώς επικεντρώνονταν στην επεξεργασία και παραγωγή (γραπτής) γλώσσας. Πλέον υπάρχουν παραλλαγές τους που χειρίζονται και άλλους είδους δεδομένα. ↩︎
Μιλάμε πάντα για το είδος αυτών των μοντέλων τεχνητής νοημοσύνης. Υπάρχουν και άλλοι, λιγότερο εντυπωσιακοί αλγόριθμοι μηχανικής μάθησης και τεχνητής νοημοσύνης που εφαρμόζονται σε πιο ταπεινές εργασίες, π.χ., στον σχεδιασμό κινήσεων των ρομπότ σε ένα εργοστάσιο. Κανένας μάνατζερ δεν θα εμπιστευόταν προς το παρόν αυτή τη δουλειά σε ένα θεμελιώδες μοντέλο, εκτός κι αν ήθελε να παίξει ρωσική ρουλέτα, περιμένοντας πότε θα διαλυθεί η αλυσίδα παραγωγής. ↩︎
Εδώ το κινέζικο Deepseek δημιούργησε ένα ρήγμα, καθώς παρέχεται υπό τη μορφή ανοιχτού κώδικα και δεν χρειάζεται μισό βουνό λιγνίτη για να τρέξει. ↩︎
Μπορεί να φανταστεί κανείς τι θα σημαίνει αυτό σε χώρες σαν την ελλάδα, όπου βέβαια ποτέ μα ποτέ δεν δημιουργούνται καρτέλ σε τομείς με ισχυρές τάσεις συγκεντροποίησης. ↩︎
Άλλη μία ειρωνεία της ιστορίας. Το λογισμικό ανοιχτού κώδικα υποτίθεται ότι είχε ως σκοπό τον εκδημοκρατισμό της δουλειάς του προγραμματιστή. Τώρα μπορεί να χρησιμοποιείται για να εκπαιδεύσει μοντέλα που θα τον υποκαταστήσουν. ↩︎
Αντιστάσεις σίγουρα θα υπάρξουν σε νέες μορφές. Ένας Κενυάτης εργάτης επισήμανσης έχασε την πρόσβαση στον λογαριασμό του σε μια σχετική πλατφόρμα για άγνωστους σε αυτόν λόγους. Δεν το έβαλε κάτω, όμως. Έφτιαξε πολλαπλούς λογαριασμούς με ψευδώνυμα και χρησιμοποιεί το ChatGPT για να διεκπεραιώνει τις εργασίες που του ανατίθενται πιο γρήγορα. Αντί να ταλαιπωρείται ο ίδιος πάνω από εικόνες και κείμενα, έχει βάλει το ένα σύστημα τεχνητής νοημοσύνης να «εκπαιδεύει» τα άλλα. Τα σέβη μας! ↩︎

[ δεδομένα / πληροφορίες | κεφάλαιο / εργασία / αναδιάρθρωση | τεχνητή νοημοσύνη ]