Cambridge Analytica propaganda zamknięta w liczbach 23.03 2


Obserwując doniesienia medialne dotyczące wykorzystania danych pobranych z Facebooka do manipulowania wynikami wyborów w USA czy referendum w sprawie Brexitu ciężko jest zrozumieć mechanizmy i przełożyć to na narzędzia których używamy codziennie. Postanowiliśmy spróbować nieco wyjaśnić tę tematykę. Sprawa związana jest z firmą Cambridge Analytica.

Facebook jest ogromną kopalnią informacji o ludziach. Posiada dużą bazę danych informacji o zachowaniach i przyzwyczajeniach swoich użytkowników. Zakładając konto na Facebooku widzimy informację o tym, że logowanie zawsze będzie „darmowe” – dane które firma pozyskuje są stanowią dla niej ogromną wartość  i stąd ta deklaracja.

Zostawiasz cyfrowe ślady

Logując się na Facebooku wykonujemy  różne czynności, takie jak lajkowanie, szerowanie, zapisywanie się na wydarzenia, ale też zwykłe kliknięcia, przewijanie strony – pozwalają one na stworzenie naszego profilu. Na tej podstawie Facebook dobiera reklamy, które są na wyświetlane. Ściślej, reklamodawcy otrzymują informację o tym co lubimy i mogą kierować na tej podstawie kampanię. Te dane są o wiele dokładniejsze niż wypełniane samodzielnie w ankiecie.

Komputer potrafi bardzo dokładnie analizować dane. Przeglądając nasze lajki, szery i treść wpisów na facebooku sztuczna sieć nieuronowa potrafi potrafi przewidzieć nasze preferencje wyborcze, cechy osobowości, wiek, płeć itd. Warunkiem jest jednak wytrenowanie sieci na odpowiednio dużej bazie danych użytkowników, gdzie dane są znane, np. wypełniamy ankietę oraz skopiowane są wszysktie nasze lajki, szery i treść wpisów w Internecie które stworzyliśmy lub które polubiliśmy.

Najlepsza platforma reklamowa – Facebook

Duży nacisk ze strony inwestorów jest wywierany na wyniki finansowe Facebooka i dlatego firma stara się zrobić najlepszą platformę reklamową na świecie. W dużej mierze do się udaje. Tworząc kampanię na Facebooku możemy wybrać podzbiór grup ludzi którzy polubili wybrane strony. Przykładowo jeśli chcemy skierować kampanię do ludzi zainteresowanych tanim przelotem to wybierzemy wszystkich, którzy polubili tanie linie lotnicze, polubili egzotyczne miejsca, ale nie lubią na Facebooku linii tradycyjnych – takich jak LOT czy Lufthansa. Dużym problemem jest ustalenie co lubią a czego nie nasi klienci. W praktyce właśnie najtrudniej jest określić jakie cechy ma pożądana grupa docelowa.

Jeżeli posiadamy już bazę osób, do których reklama została skierowana i wywołała efekt, Facebook oferuje wysyłanie reklam do „grupy podobnych odbiorców”. Na podstawie analizy statystycznej Facebook dobiera do reklamy ludzi lubiących podobne strony i zachowujących się podobnie do pierwotnej grupy.

Cambridge Anlitica zrobiła to co Facebook, ale bez zgody

Taką właśnie operację, w istocie podobną do działania Facebooka przeprowadziła firma Cambridge Analytica, ale według własnych zasad, z pominięciem mechanizmów wewnętrznych. Najpierw zbierano dane o użytkownikach. Zrobiono to przy pomocy aplikacji thisisyourdigitallife, która miała służyć badaniom psychologicznym. Aplikację tę zainstalowało na swoim koncie 270 tysięcy ludzi. Osoby te udostępniły informacje o sobie i o swoich znajomych. Wszystkich znajomych osób, które udostępniły dane było 50 milionów – wystarczająco dużo, aby stworzyć podstawowy profil wyborcy USA – kraju o populacji 325 milionów ludzi.

Jak sprawdzić swoje aplikacje na Facebooku?

Jeżeli chcesz sprawdzić, jakie aplikacje na Facebooku mają dostęp do twoich danych, to można to zrobić klikając na Facebooku Ustawienia/Aplikacje. Za każdym razem, gdy wyrażasz zgodę na używanie jakiejś aplikacji, trafia ona na widoczną tam listę. Aplikacje można stamtąd usunąć przez kliknięcie na „krzyżyk”. Każda aplikacja która jest widoczna na tej liście ma dostęp do danych, które jej udostępnimy. Podobnie było z aplikacją wykorzystaną przez Cambrdige Analitica. Nie sądzimy, że użytkownicy ustawiali coś ręcznie.

Sposób tworzenia profilu przez Cambridge Analytica

Aplikacja na Fecebooku yourdigitallife płaciła Internautom kilka dolarów za wypełnienie ankiety. Pozyskiwała w ten sposób profil danej osoby zgodny z modelem OCEAN(pięć głównych cech osobowości). Nie jest podane czy aplikacja pytała też o prefenecje wyborcze. Wraz z profilem psychologicznym aplikacja pobierała wszystkie treści polubione przez daną osobę na Facebooku. Konstrukcja api Facebooka zakładała wtedy otwarty dostęp do informacji. Aplikacja yourdigitallife zapisywała id wszystkich osób, którym ankietowana osoba dawała lajki. Mając id użytkownika Facebook pozwalał pobrać komplet informacji o danej osobie (chyba że zablokowała dostęp do profilu dla aplikacji). Stąd podawana w mediach liczba 50 milionów użytkowników – pobierane były jednak profile, a nie było ankiety wypełnionej przez użytkowników. Samych ankiet wypełniono ponad 270 tysięcy jak powiedział Chis Wylie.

Znając profil użytkownika z ankiety analizowano komputerowo treści, które dana osoba polubiła. Nie chodziło o lajki na poszczególne fanpage czy posty, a o treść polubionych stron. Po skończeniu obliczeń wytrenowana sieć neuronowa wiedziała jakie słowa zwierały treści lajkowane przez osoby neurotyczne a jakie jakie przez osoby stabilne emocjonalnie (a także pozostałe z pięciu cech OCEAN). Dodatkowo badano szereg cech takich jak religia, zainteresowania, rodzaj wykształcenia i inne. Lista cech znajduje się w emailu wysłanym przez Aleksandra Kogana z firmy Cambridge Analytica do Chrisa Wylie i upublicznionym. Nie jest wiadomo, czy preferencje polityczne były były podawane prze użytkowników aplikacji yourdigitallife, czy też poznawano je na podstawie lubianych treści (co nie jest zadaniem trudnym algorytmicznie). Projekt uczenia systemu (trenowanie sieci neuronowej) kosztował pond milion dolarów.

Weryfikacja działania

Podłączając profil nowej osoby do systemu i uruchamiają sieć neuronową w trybie predykcji, można było obliczyć jakie cechy ma dana osoba i określić statystycznie jej poglądy polityczne:czy jest konserwatywna, lewicowa (czyli po amerykańsku: liberalna), wolnościowa (czyli po polsku liberalna) lub też niezaangażowana politycznie. A także ustalić profil osobowości – pięć głównych cech OCEAN. Można to było zrobić wyłącznie na podstawie danych udostępnianych na Facebooku dla jakiejkolwiek aplikacji. Nowe osoby nie musiały instalować ani wiedzieć o aplikacji Yourdigitallife, wystarczyło że wyraziły zgodę na dostęp do jakiejkolwiek aplikacji udostępniającej dane. Można było zatem wytypować osoby żywiołowo reagujące i popierające jednego z kandydatów.

To co określi gotowy system tego typu o nas możemy sprawdzić w Internecie pod adresem https://applymagicsauce.com/ – domena należy do Michała Kosińskiego, Polaka pracującego na Uniwersytecie Stanforda, naukowca który „stwierdził istnienie bomby” na początku całej afery. Tego systemu nie można łączyć z firmą Cambridge Analytica. Aby sprawdzanie danych było wiarygodne trzeba być Amerykaninem – dla Polaka wychodzą bezsensowne wyniki, system źle rozpoznaje nawet płeć.

Uderzenie – wysyłanie reklam na podatny grunt

Pierwsza grupa osób była zatem pewnie bezpośrednio ankietowana w aplikacji yourdigitallife. Po uzyskaniu wytrenowanej sieci neuronowej, można było przewidzieć cechy osobowości i prefencje polityczne użytkowników Facebooka, używających jakiejkolwiek aplikacji.

Przed wyborami w Ameryce Cambridge Analytica posiadała przetworzone dane dla 230 milionów Amerykanów, które pozyskała z różnych źródeł.

Grupę docelową dla przekazów tworzono za pomocą systemu i wytypowanym osobom przez Facebooka wysyłano różne treści. Testowano jak zareagują różne typy osobowości na różne komunikaty. Jakie reklamy wysyłano? Pobudzano lęki i wysyłano zdeklarowanym zwolennikom jednego z kandydatów materiały deprecjonujące drugiego. Chris Wylie twierdzi, że testowano różne ekstremalne kombinacje, wysyłając komunikaty mające wywołać furię i zagrożenie u osób podatnych na dane treści – neurotycznych i postępujących emocjonalne. Przy odpowiednim doborze cech kandydatów lajkowali oni podsyłane informacje jak automaty, co zwiększało zasięgi kampanii (informacje docierały do wszystkich znajomych ofiary). W tej sytuacji algorymy wyszukujące i kategoryzujące informacje traktowały fałszywe informacje jako prawdziwe, ponieważ były one lajkowanie wielokrotnie i przez zupełnie różnych ludzi nie związanych ze sobą.

Wszystkie powyższe założenia oparte są na domysłach i własnych próbach po lekturze ogólnodostępnej amerykańskiej prasy i po obejrzeniu wywiadu z Chrisem Wylie wyemitowanego przez Channel 4.

Jeśli popełniłem gdzieś błąd, proszę o wskazanie go w komentarzach.


Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

2 komentarzy do “Cambridge Analytica propaganda zamknięta w liczbach 23.03