973
Ελλείψει πολύ συγκεκριμένων οδηγιών, τα εργαλεία ΤΝ παράγουν συμβατικά (και Δυτικού τύπου) πρότυπα ομορφιάς | Shutterstock/ARVD73

Προκατειλημμένη η ΤΝ στα πρότυπα γυναικείας ομορφιάς

Protagon Team Protagon Team 8 Ιουνίου 2024, 19:24
Ελλείψει πολύ συγκεκριμένων οδηγιών, τα εργαλεία ΤΝ παράγουν συμβατικά (και Δυτικού τύπου) πρότυπα ομορφιάς
|Shutterstock/ARVD73

Προκατειλημμένη η ΤΝ στα πρότυπα γυναικείας ομορφιάς

Protagon Team Protagon Team 8 Ιουνίου 2024, 19:24

Καθώς οι εικόνες που δημιουργούνται από την Τεχνητή Νοημοσύνη εξαπλώνονται στην ψυχαγωγία, στο μάρκετινγκ, στα μέσα κοινωνικής δικτύωσης και σε άλλες βιομηχανίες που διαμορφώνουν πολιτιστικούς κανόνες και επιβάλλουν νόρμες, το ερώτημα που προκύπτει είναι πώς η νέα τεχνολογία ορίζει τα πρότυπα της γυναικείας ομορφιάς.

Χρησιμοποιώντας δεκάδες επιλογές σε τρία από τα κορυφαία εργαλεία εικόνας –το MidJourney, το DALL-E και το Stable Diffusion– μια ομάδα ερευνητών της εφημερίδας Washington Post διαπίστωσε ότι τα προγράμματα κατευθύνουν τους χρήστες προς ένα εντυπωσιακά φτωχό φάσμα ελκυστικότητας.

Ζητώντας από τα τρία εργαλεία να πλάσουν ψηφιακά μια «όμορφη γυναίκα», όλα τους δημιούργησαν, σχεδόν χωρίς εξαίρεση, αδύνατες γυναίκες. Παράλληλα, μόλις το 2% των κατασκευασμένων γυναικείων προφίλ έδειχναν ορατά σημάδια γήρανσης. Πάνω από το ένα τρίτο των εικόνων είχαν μεσαίους τόνους δέρματος και μόνο το 9% ήταν σκούρας απόχρωσης.

Στο αίτημα των ερευνητών να τους παρουσιάσουν «φυσιολογικές γυναίκες», τα εργαλεία παρήγαγαν εικόνες γυναικών που παρέμεναν εξαιρετικά λεπτές. Η απεικόνιση της γυναικείας «κανονικότητας» του προγράμματος Midjourney ήταν, δυστυχώς, η πιο ομοιογενής – όλες οι εικόνες ήταν αδύνατων γυναικών και κατά 98% είχαν ανοιχτόχρωμο δέρμα.

Ωστόσο, οι «φυσιολογικές» γυναίκες έδειχναν τουλάχιστον κάποια σημάδια γήρανσης – σχεδόν το 40% είχαν ρυτίδες ή γκρίζα μαλλιά. Καλλιτέχνες που χειρίζονται προγράμματα ΤΝ ισχυρίζονται ότι ενώ η εξέλιξη της τεχνολογίας διευκολύνει τη δημιουργία διαφορετικών δερματικών τόνων, τα περισσότερα εργαλεία εξακολουθούν να απεικονίζουν πλειοψηφικά άτομα με αγγλικές μύτες και ευρωπαϊκούς σωματότυπους.

Οι εταιρείες αναγνωρίζουν αυτά τα στερεότυπα στα προγράμματά τους. Η OpenAI, κατασκευάστρια του DALL-E, έγραψε τον περασμένο Οκτώβριο ότι η ενσωματωμένη προκατάληψη του εργαλείου της προς τα «στερεότυπα και συμβατικά ιδανικά ομορφιάς» θα μπορούσε να οδηγήσει το DALL-E και τους ανταγωνιστές του στην «ενίσχυση των επιβλαβών απόψεων για την εικόνα του σώματος».

Η επέλαση της γενετικής Τεχνητής Νοημοσύνης θα μπορούσε να ομαλοποιήσει όλα αυτά τα στενά πρότυπα ομορφιάς όσον αφορά στα σωματικά μεγέθη, αναφέρουν οι προγραμματιστές – αλλά η σωματική φιγούρα δεν είναι η μόνη περιοχή στην οποία οι σαφείς οδηγίες προς τα εργαλεία παρήγαγαν περίεργα αποτελέσματα.

Οταν τους ζητήθηκε να δείξουν γυναίκες με φαρδιές μύτες –ένα χαρακτηριστικό που λείπει σχεδόν εξ ολοκλήρου από τις «όμορφες» γυναίκες που παράγει η Τεχνητή Νοημοσύνη– λιγότερο από το ένα τέταρτο των εικόνων που δημιουργήθηκαν από τα τρία εργαλεία έδειξαν ρεαλιστικά αποτελέσματα. Σχεδόν οι μισές γυναίκες που παρήγαγε το DALL-E είχαν μύτες που έδειχναν καρτουνίστικες ή αφύσικες – με άστοχες σκιάσεις και ρουθούνια σε περίεργη γωνία.

Οσο πιο έξω από την περιορισμένη οπτική τους για την ομορφιά ωθούνται, τόσο πιο εξωπραγματικές επιλογές κάνουν τα προγράμματα. Στο αίτημα για την απεικόνιση μιας «άσχημης γυναίκας», και τα τρία μοντέλα ανταποκρίθηκαν με εικόνες πολύ διαφορετικές σε επίπεδα ηλικίας και λεπτότητας – αλλά παράλληλα απέκλιναν περισσότερο από τα ρεαλιστικά αποτελέσματα, παρουσιάζοντας γυναίκες με εμφανώς αφύσικα χαρακτηριστικά προσώπου.

Εν τω μεταξύ, αυτά τα προϊόντα χρησιμοποιούνται όλο και πιο μαζικά στις βιομηχανίες που απευθύνονται σε τεράστιο κοινό.  Η OpenAI προωθεί στο Χόλιγουντ το επερχόμενο εργαλείο μετατροπής κειμένου σε βίντεο, Sora. Τόσο η Google όσο και η Meta προσφέρουν πλέον στους διαφημιστές τη χρήση εργαλείων δημιουργίας ΤΝ. Η πρώτη, σε συνεργασία με την Nvidia και το πρακτορείο Getty Images, αναπτύσσει το δικό της μοντέλο μετατροπής κειμένου σε βίντεο, RunwayML.

Τα πρότυπα γυναικείας ομορφιάς που «διδάσκονται» τα προγράμματα γενετικής ΤΝ είναι πλειοψηφικά λευκά και λεπτά (Midjourney)

«Πώς φτάσαμε ως εδώ;» αναρωτιέται η Washington Post. Ενώ τα γλωσσικά μοντέλα, όπως το ChatGPT, εκπαιδεύονται από τεράστιες ποσότητες κειμένου, οι γεννήτριες εικόνων τροφοδοτούνται με εκατομμύρια ή δισεκατομμύρια εικόνες και λεζάντες, ώστε να ταιριάζουν λέξεις με εικόνες. Για να συγκεντρωθούν γρήγορα και φθηνά αυτά τα δεδομένα, οι προγραμματιστές «ξεσκονίζουν» το διαδίκτυο, το οποίο είναι γεμάτο από πορνογραφικές και προσβλητικές φωτογραφίες.

Το δημοφιλές πρόγραμμα συλλογής εικόνων του διαδικτύου LAION-5B, που χρησιμοποιήθηκε για την «εκπαίδευση» του Stable Diffusion, του παρείχε μη συναινετική πορνογραφία, όσο και υλικό που απεικονίζει σεξουαλική κακοποίηση παιδιών, σύμφωνα με διάφορες έρευνες που μελέτησε η Washington Post.

Παράλληλα, αυτά τα εργαλεία συγκέντρωσης δεδομένων δεν περιλαμβάνουν υλικό από την Κίνα ή την Ινδία –τις πολυπληθέστερες δημογραφικά χώρες που χρησιμοποιούν το Διαδίκτυο–, γεγονός που τα καθιστά σε μεγάλο βαθμό σταθμισμένα στην οπτική γωνία των χρηστών από τις ΗΠΑ και την Ευρώπη, σύμφωνα με περυσινό ρεπορτάζ της Post.

Ωστόσο, η προκατάληψη μπορεί να εισχωρήσει σε κάθε στάδιο – από τους προγραμματιστές ΤΝ που σχεδιάζουν φίλτρα εικόνας τα οποία δεν είναι ασφαλή για εργασία, μέχρι στελέχη των μεγάλων εταιρειών τεχνολογίας που υπαγορεύουν ποιος τύπος διάκρισης είναι αποδεκτός πριν από την κυκλοφορία ενός προϊόντος.

Από όπου κι αν προέρχεται η προκατάληψη, τα δημοφιλή εργαλεία γέννησης εικόνων έχουν προβλήματα στην απεικόνιση ρεαλιστικών φωτογραφιών γυναικών εκτός των Δυτικών προτύπων. Οι δυσκολίες αυτές των προγραμμάτων μπορούν να ξεπεραστούν, αλλά χρειάζεται χρόνος και ευρεία, συστηματική «εκπαίδευση» – διαδικασία επίπονη, αλλά κυρίως δαπανηρή.

Μέχρι τότε, για την αντιμετώπιση των προκαταλήψεων οι προγραμματιστές ΤΝ επικεντρώνονται σε αυθαίρετες, επιπρόσθετες διευκρινιστικές εντολές, συμπληρωματικές των εντολών του χρήστη – γεγονός που συχνά επιτείνει το πρόβλημα. Χαρακτηριστικό είναι το παράδειγμα του chatbot της Google, Gemini, που προκάλεσε αντιδράσεις τη φετινή άνοιξη, όταν σε αίτημα απεικόνισης ενός «γερμανού στρατιώτη του 1943» παρουσίασε έναν μαύρο άνδρα και και μια γυναίκα από την Ασία!

Επίσης, στην ανταπόκριση ενός αιτήματος για απεικόνιση ενός «αποικιοκράτη Αμερικανού», το Gemini έδειξε τέσσερα άτομα με πιο σκουρόχρωμο δέρμα, που φαινόταν να είναι μαύροι ή ιθαγενείς Αμερικανοί, ντυμένοι με τα ρούχα των ιδρυτών του αμερικανικού έθνους. Η συγγνώμη της Google περιείχε ελάχιστες λεπτομέρειες σχετικά με το τι οδήγησε σε αυτές τις γκάφες.

Απόπειρες διαφοροποίησης των φυλετικών παραμέτρων παρουσιάζουν τεράστιες τεχνολογικές προκλήσεις. Για παράδειγμα, όταν το OpenAI προσπάθησε να αφαιρέσει βίαιες και σεξουαλικές εικόνες από τα δεδομένα εκπαίδευσης του DALL-E 2, η εταιρεία διαπίστωσε ότι το εργαλείο παρήγαγε λιγότερες εικόνες γυναικών, καθώς μεγάλο τμήμα του συνόλου δεδομένων του προέρχονταν από εικόνες πορνογραφικού περιεχομένου και σκληρής βίας.

Οσο πιο προσεκτικά βλέπει κανείς πώς αναπτύσσονται οι γεννήτριες εικόνας ΤΝ, τόσο πιο αυθαίρετες και αδιαφανείς φαίνονται, συμπεραίνουν οι συντάκτες της Washington Post. Οι χρήστες νομίζουν ότι αυτές οι επιλογές βασίζονται σε τεράστιους όγκους δεδομένων, ενώ στην πραγματικότητα ελάχιστοι προγραμματιστές παίρνουν πολύ υποκειμενικές αποφάσεις, επισημαίνουν οι συντάκτες της εφημερίδας.

Ακολουθήστε το Protagon στο Google News

Διαβάστε ακόμη...

Διαβάστε ακόμη...