1526
| CreativeProtagon

Η δυσκολία να είσαι εύστοχος δημοσκόπος το 2024

Πέτρος Αλληλόμης Πέτρος Αλληλόμης 9 Δεκεμβρίου 2024, 19:49
|CreativeProtagon

Η δυσκολία να είσαι εύστοχος δημοσκόπος το 2024

Πέτρος Αλληλόμης Πέτρος Αλληλόμης 9 Δεκεμβρίου 2024, 19:49

Η εταιρεία Gallup polls του Τζορτζ Γκάλοπ (George Gallup), πατέρα του κλάδου των δημοσκοπήσεων, κατάφερνε από το 1936 μέχρι το 2008 να προβλέπει τους νικητές των αμερικανικών εκλογών, έχοντας μόνο δύο αστοχίες, το 1948 και το 1976. Τι άλλαξε όμως στα μέσα της δεκαετίας του 2000 και οι δημοσκοπήσεις σε όλον τον κόσμο δυσκολεύονται να προβλέψουν εκλογικά αποτελέσματα; Συγκεκριμένα, από το 2008 και μετά τα πράγματα άρχισαν να γίνονται πολύπλοκα και δύσκολα για τους δημοσκόπους.

Το 2006 το Facebook κάνει δεκτούς χρήστες εκτός των αμερικάνικων πανεπιστημίων, ενώ το Twitter κάνει την εμφάνισή του. Εναν χρόνο αργότερα, το 2007, η εταιρεία Apple παρουσιάζει το πρώτο iPhone, ενώ το 2008 το Facebook ξεπερνά τους 145 εκατομμύρια χρήστες.

Θα περίμενε λοιπόν κανείς ότι το 1936 θα ήταν πολύ πιο δύσκολο για τον Τζορτζ Γκάλοπ να κάνει προβλέψεις από ό,τι το 2008, αφού τα μόνα μέσα επικοινωνίας με τους συμμετέχοντες σε μια δημοσκόπηση ήταν, εκτός από τη ζωντανή συνέντευξη, το ταχυδρομείο και το σταθερό τηλέφωνο.

Στα μέσα, λοιπόν, του 2000 όλος ο πλανήτης είναι δικτυωμένος και επικοινωνεί, με ελάχιστο έως καθόλου κόστος, μέσω κινητών τηλεφώνων, έξυπνων κινητών τηλεφώνων (smartphones) και κοινωνικών  δικτύων. Αυτό καθιστά τη διάδοση της πληροφορίας ταχύτερη και επομένως την κοινωνία και το εκλογικό σώμα πολύ πιο ευμετάβλητο και ευάλωτο στον όγκο της πληροφορίας της οποίας γίνεται συνεχώς αποδέκτης. Η όποια μέτρηση κοινής γνώμης πρέπει να φτάσει στα ίδια επίπεδα ταχύτητας αποτύπωσης, αλλά και να εφεύρει τρόπους ώστε να ξεχωρίζει την πληροφορία από τον θόρυβο.

Η «τεχνολογία» των δημοσκοπήσεων βασίζεται στον διάσημο ελβετό μαθηματικό Γιακόμπ Μπερνούλι (Jakob Bernoulli), ο οποίος το 1713 αποδεικνύει τον νόμο των μεγάλων αριθμών (J. Bernoulli 1713), που λέει το εξής: όσο μεγαλύτερο τυχαίο δείγμα από έναν πληθυσμό έχουμε, τόσο πιο κοντά ο μέσος όρος του δείγματος είναι στον πραγματικό μέσο όρο. Με άλλα λόγια, όσο μεγαλύτερος είναι ο αριθμός των συμμετεχόντων σε μια δημοσκόπηση, τόσο μικρότερο πρέπει να είναι το σφάλμα της.

Η μετεξέλιξη του νόμου των μεγάλων αριθμών στο διάσημο «κεντρικό οριακό θεώρημα» δίνει τη δυνατότητα να υπολογίζουμε το περίφημο σφάλμα ±3% για διάστημα εμπιστοσύνης 95% σε τυχαίο δείγμα 1.000 ατόμων αντιπροσωπευτικού του πληθυσμού, που θα βρείτε στην ταυτότητα του μεγαλύτερου ποσοστού των δημοσκοπήσεων που δημοσιεύονται.

Αν ζούσαν ο Μπερνούλι και ο Γκάλοπ στα μέσα της δεκαετίας του 2000, θα ήταν για αυτούς, αναμφίβολα, ένας στατιστικός παράδεισος όσον αφορά την ευκολία συλλογής δεδομένων. Ωστόσο η εμπειρία των δημοσκόπων φαίνεται να είναι μάλλον πιο κοντά στην κόλαση. Ο διάβολος όμως κρύβεται στις λεπτομέρειες. Και η λεπτομέρεια εδώ είναι ότι για να γίνει ένας διασυνδεδεμένος κόσμος δημοσκοπικός-στατιστικός παράδεισος, πρέπει το δείγμα που συλλέγεται να είναι τυχαίο και ταυτόχρονα αντιπροσωπευτικό του πληθυσμού.

Πολλοί από εμάς μπορεί κάποια στιγμή να έχουμε συμμετάσχει σε απλοϊκά ερωτηματολόγια που αναρτώνται από χρήστες του Facebook ή του X (Twitter), όπου ανάλογα με ποιον πολιτικό ή κόμμα υποστηρίζει ο χρήστης της ανάρτησης, βγαίνει και το ανάλογο (ή αντίστοιχο) αποτέλεσμα, ακόμα και όταν η συμμετοχή είναι πολύ μεγάλη (της τάξης των δεκάδων χιλιάδων ατόμων). Αυτό οφείλεται στο ότι το δείγμα αυτό δεν είναι τυχαίο ούτε αντιπροσωπευτικό της κοινωνίας, αλλά μάλλον αντιπροσωπευτικό των διαδικτυακών φίλων του κάθε χρήστη.

Τυχαία και αντιπροσωπευτική δειγματοληψία στην πράξη σημαίνει ότι θα επικοινωνήσω με πολίτες, διαλέγοντας, για παράδειγμα, με κλήρωση 100 τηλεφωνικούς αριθμούς από τον τηλεφωνικό κατάλογο, και από αυτούς θα ανταποκριθούν, αν όχι όλοι, σε ένα αρκετά μεγάλο ποσοστό, και τα δημογραφικά χαρακτηριστικά του δείγματος θα είναι αντιπροσωπευτικά του πληθυσμού. Παραδείγματος χάριν, 49 άνδρες, 51 γυναίκες και τα αντίστοιχα χαρακτηριστικά για την ηλικία, την περιφέρεια και ούτω καθεξής.

Η απόλυτη τυχαιότητα και η αντιπροσωπευτικότητα είναι κατά κάποιον τρόπο αντικρουόμενοι στόχοι και είναι αδύνατο να επιτευχθούν ταυτόχρονα. Ακόμα και αν μας απαντήσουν και οι 100 που επιλέξαμε τυχαία, αποκλείεται να είναι 49 άνδρες και 51 γυναίκες. Παρ’ όλα αυτά, αν κρατήσουμε μόνο την τυχαιότητα, η αντιπροσωπευτικότητα μπορεί να διορθωθεί με μαθηματικά εργαλεία, όπως είναι η στάθμιση που ακούμε συχνά κατά την παρουσίαση δημοσκοπήσεων. Η στάθμιση, βέβαια, έχει ως αποτέλεσμα τη μείωση της ακρίβειας της όποιας μέτρησης. Παραδείγματος χάριν, τα 1.000 ερωτηματολόγια, όταν σταθμιστούν στην πράξη, μπορεί να αντιστοιχούν σε ό,τι αφορά την ακρίβεια της μέτρησης σε 800 ή και σε λιγότερα, ανάλογα με το πόσο μη αντιπροσωπευτικό στα δημογραφικά του στοιχεία είναι το τυχαίο δείγμα.

Αν, για παράδειγμα, καταφέρναμε να βρούμε 30 αντί για 51 γυναίκες στο τυχαίο δείγμα μας, η διόρθωση της αντιπροσωπευτικότητας μέσω στάθμισης μπορεί να γίνει με την προϋπόθεση ότι οι 30 έχουν περίπου το ίδιο μείγμα προτιμήσεων με τις 21 που μας λείπουν. Αν, όμως, οι 21 γυναίκες που λείπουν από το δείγμα μας ψηφίζουν Τραμπ κατά 90% και δεν συμμετέχουν στις έρευνες (κλείνουν το τηλέφωνο) γιατί φοβούνται να αποκαλύψουν της προτιμήσεις τους, τότε είναι πολύ πιθανό το σφάλμα να μη διορθώνεται με απλή στάθμιση και να χρειάζονται πιο σύνθετες τεχνικές ή και άλλου είδους τεχνικές δειγματοληψίας.

Το παραπάνω φαινόμενο ονομάζεται «μη αγνοήσιμη μη απόκριση» (non ignorable non response). Επηρεάζει σε μεγάλο βαθμό το κατά πόσο η πρόβλεψη είναι κοντά στο τελικό αποτέλεσμα, ειδικά στην περίπτωση που η μη συμμετοχή σε μια έρευνα συσχετίζεται με το μέγεθος που ερευνάται. Δηλαδή αν η απόφαση κάποιου να μη συμμετέχει σε μια έρευνα συσχετίζεται με την επιλογή του να ψηφίσει Τραμπ, τότε ο Τραμπ υποεκτιμάται και, το σημαντικότερο, η υποεκτίμηση αυτή εξαρτάται από το μέγεθος του πληθυσμού και όχι από το μέγεθος του δείγματος, ένα φαινόμενο πολύ καινούργιο στη θεωρία της δειγματοληψίας (η μαθηματική απόδειξη για τους ενδιαφερόμενους: Merg, X.L 2018).

Το φαινόμενο αυτό έχει κάνει την ερευνητική κοινότητα να κινητοποιηθεί με παραγωγή πλήθους δημοσιεύσεων και προτεινόμενων τεχνικών. Οι τεχνικές που προτείνονται, σταδιακά, έχουν κατέβει και στο πεδίο της εφαρμογής από τις δημοκοπικές εταιρείες παγκοσμίως, όμως η εκτέλεσή τους παραμένει δύσκολη, διότι η εφαρμογή τους και η προσπάθεια εξαγωγής συμπερασμάτων γίνεται σε καθεστώς έλλειψης δεδομένων και άρνησης συμμετοχής στις έρευνες.

Τα συμπεράσματα που έχουν εξαχθεί από την όλη αυτή προσπάθεια, χωρίς ακόμα να έχει βρεθεί η τέλεια λύση, μπορούν να συνοψισθούν στα παρακάτω σημεία:

  1. Η εθελοντική δειγματοληψία μέσα από τα κοινωνικά δίκτυα (river side sampling) έχει μεγάλες πιθανότητες να δώσει λάθος αποτελέσματα και χρειάζεται μεγάλη προσοχή. Οι αλγόριθμοι διανομής περιεχομένου των κοινωνικών δικτύων δίνουν δείγματα με κατανομές που αντικατοπτρίζουν τη μεγιστοποίηση του διαφημιστικού τους κέρδους και δεν εγγυώνται τυχαία δειγματοληψία αντιπροσωπευτική του πληθυσμού. Γεγονός που μπορεί οδηγήσει σε στρεβλά, με μεγάλη μεροληψία δείγματα.
  2. Η μικρή συμμετοχή στις έρευνες κάνει ακόμα και τις κλασικές τηλεφωνικές έρευνες επιρρεπείς σε σφάλματα «μη αγνοήσιμης μη απόκρισης» (non ignorable non response), ειδικά όταν αυτός που συμμετέχει δεν αισθάνεται ιδιωτικότητα, λόγω της ίδιας της διαδικασίας της συνέντευξης. Το φαινόμενο αυτό είναι ιδιαίτερα εμφανές σε πολιτικούς χώρους με ακραία ιδεολογία, με αποτέλεσμα  αυτοί να υποεκτιμούνται συστηματικά.
  3. Τεχνικές δειγματοληψίας που εξασφαλίζουν τυχαία επικοινωνία (random contact) με μεγάλο εύρος, ιδιωτικότητα και αποκλεισμό πολλαπλών συμμετοχών, παρέχουν μεγαλύτερη ακρίβεια. Παραδείγματα τέτοιου τύπου τεχνικών είναι: τυχαία τηλεφωνήματα σε μεγάλο αριθμό κινητών και σταθερών τηλεφώνων με καλά εκπαιδευμένους ερευνητές, μεγάλα διαδικτυακά πάνελ που εξασφαλίζουν τυχαιότητα και αποκλεισμό πολλαπλών συμμετοχών, αποστολή μεγάλου αριθμού μηνυμάτων σε κινητά τηλέφωνα με τρόπο ώστε να εξασφαλίζεται η τυχαιότητα και η μη πολλαπλή συμμετοχή. Οταν οι τεχνικές αυτές  συνδυάζονται με στατιστικές μεθόδους ικανές να αντιμετωπίσουν σε έναν βαθμό το φαινόμενο της «μη αγνοήσιμης μη απόκρισης», η ακρίβεια μπορεί να βελτιωθεί περαιτέρω.
  4. Τεχνικές που αυξάνουν τη συμμετοχή σε έρευνες τυχαίας επικοινωνίας βελτιώνουν την ποιότητα της έρευνας. Παράδειγμα τέτοιον τεχνικών είναι η κλήρωση δώρων (gamification) και η μεγάλη επιμονή των ερευνητών, ώστε να λάβουν απαντήσεις από ανθρώπους που αρχικά είναι απρόθυμοι.
  5. Η ταχύτητα δειγματοληψίας χωρίς εκπτώσεις στην τυχαιότητα του δείγματος, ειδικά κατά την προεκλογική περίοδο, είναι πλέον απαραίτητη για να αντιμετωπιστεί το γρήγορα μεταβαλλόμενο πολιτικό περιβάλλον στην εποχή των μέσων κοινωνικής δικτύωσης και της ταχύτατης διάδοσης των γεγονότων.
  6. Η χρήση μοντέλων μηχανικής μάθησης για την κατανομή των αναποφάσιστων, η αυτόματη επεξεργασία ελεύθερου κειμένου από ανοιχτές ερωτήσεις με τη χρήση γλωσσικών μοντέλων Τεχνητής Νοημοσύνης, τύπου ChatGPT, μπορεί να βελτιώσει την ικανότητα πρόβλεψης, αλλά και την πληροφορία που αντλείται από μια έρευνα.

Δεν πρέπει να ξεχνάμε ότι η στατιστική έχει «σφάλματα» και διαστήματα εμπιστοσύνης, τα οποία όμως υπολογίζει, δημοσιοποιεί και δεν τα κρύβει. Το κλειδί για να δουλέψει καλύτερα το εκπληκτικό εργαλείο των δημοσκοπήσεων είναι η συμμετοχή των πολιτών σε αυτές. Οταν αυτή η συμμετοχή αποδοκιμάζεται από πολιτικούς χώρους, το μόνο που επιτυγχάνεται είναι η υποεκτίμηση των πολιτικών αυτών χώρων. Περιορίζεται, έτσι, η πληροφορία που μπορούν να δώσουν οι πολίτες μέσα από τα δημοσκοπικά ευρήματα στον πολιτικό κόσμο, ώστε αυτός να βελτιώσει τις πολιτικές του και τον τρόπο που απευθύνεται στους πολίτες.

Αν ήταν πραγματικό το αφήγημα ότι οι δημοσκοπήσεις έχουν τόσο μεγάλη ικανότητα επηρεασμού της κοινής γνώμης, ώστε τελικά να τη διαμορφώνουν παρά να τη μετράνε, τότε πρόεδρος στις ΗΠΑ θα ήταν η Κάμαλα Χάρις και όχι ο Ντόναλντ Τραμπ. Οι πολιτικοί πρέπει πρώτα να δουν τα μηνύματα, τις δράσεις τους και τις πολιτικές τους και έπειτα  την τελική καταγραφή «της επίδοσής» τους στις έρευνες κοινής γνώμης.

¹Meng, X.L., 2018. Statistical paradises and paradoxes in big data (i) law of large populations, big data paradox, and the 2016 us presidential election. The Annals of Applied Statistics12(2), pp.685-726.

* O Πέτρος Αλληλόμης είναι ηλεκτρολόγος μηχανικός και μηχανικός υπολογιστών, Ph.d, διευθύνων σύμβουλος της Co.Sc. AE (τεχνολογικού πάροχου της εταιρείας ερευνών RealPolls).

Ακολουθήστε το Protagon στο Google News

Διαβάστε ακόμη...

Διαβάστε ακόμη...