תעשיית הפייק ניוז: האם תצליחו לזהות את הסיפור האמיתי?

עידן הפוסט-אמת נראה מפחיד מתמיד: תוכנה חדשה של יצרנית הפוטושופ מאפשרת לזייף תמונות וסרטונים ■ בחנו את עצמכם: האם תצליחו להבדיל בין אמת לשקר?

איילת שקד / צילום: איל יצהר
איילת שקד / צילום: איל יצהר

ב-8 אוקטובר 2016, חודש בלבד לפני יום הבחירות לנשיאות ארצות-הברית, נאלץ דונלד טראמפ לעשות משהו שהוא ממש לא אוהב לעשות: להתנצל. לא הייתה לו ברירה. יום קודם לכן שחרר הוושינגטון פוסט הקלטה, שהתוכן השערורייתי שבה איים לחסל את הקמפיין הנשיאותי של המועמד השנוי במחלוקת. בהקלטה, שתיעדה שיחה אגבית שניהל ב-2005 עם מנחה הטלוויזיה בילי בוש, השתמש טראמפ בשפת ביבים והתרברב בכך שהוא מטריד מיני חסר מעצורים: "כשאתה כוכב, הן נותנות לך לעשות את זה. אתה יכול לעשות כל דבר". כשהוא פוגש נשים יפות, המשיך התפאר טראמפ, הוא יכול פשוט "לתפוס אותן בפוסי".

כפי שלמדנו מאז בחירתו של טראמפ, לנשיא ארצות-הברית אין הרבה בעיות להכחיש את המציאות או לכופף אותה כרצונו, אבל באותו רגע זו לא הייתה אופציה. הוא לא יכול היה להאשים עיתונאים בכך שהם הוציאו דברים מהקשרם כיוון שהעדויות נגדו היו חד משמעיות מדי. הוא נשמע אומר בקולו, בסגנונו ובתחבירו הבלתי אפשרי את המילים שסיבכו אותו.

אולם אם הקלטת הייתה מודלפת כיום, טראמפ יכול היה להתנהל אחרת לגמרי לגביה. אם היה טוען שתוכנת מחשב זדונית שמה בפיו מילים שהוא מעולם לא העלה על דל שפתיו, ייתכן שרבים לא היו מאמינים לו, אבל יש להניח שרבים מאוד דווקא היו קונים את התירוץ. בעוד שבאוקטובר 2016 טיעון שכזה עדיין נחשב למדע בדיוני, פחות מחודש לאחר מכן, ביום תצוגות שערכה חברת אדובי (כן, זו שמייצרת את תוכנת עריכת התמונות פוטושופ), התברר שתוכנה כזו בדיוק נמצאת בשלבי פיתוח מתקדמים ושיש לה כבר שם - VoCo.

כבר עתה ברור שהשילוב של VoCo עם תוכנות אחרות שנמצאות בשלבים שונים של פיתוח, ושמטפלות בקול ובתמונות, עשוי להעניק משמעות עמוקה בהרבה למושג פייק ניוז. המצאות טכנולוגיות שנועדו לצרכים שיפורטו בהמשך, ישמשו בעתיד הקרוב מאוד ככלי מרכזי בקמפיינים של הפצת מידע שקרי, יקדמו את עידן ה"פוסט אמת" לשפל חדש ויערערו עוד יותר את אמון הציבור בכמעט כל דבר - תהליך שנמצא בשנים האחרונות בעלייה בלאו הכי ושכבר עתה מערער את יסודות הדמוקרטיה במקומות רבים בעולם.

נשמע דרמטי? בהחלט, אולם בחינת תוצרי עבודתם של חוקרים מראה שמציאות שבה האזרח הפשוט יתקשה להאמין לכל דבר שהוא שומע או רואה ומתייחס בצורה קונספירטיבית לכל שביב מידע שהוא נחשף אליו, קרובה מאי פעם.

על רצפת חדר העריכה

נתחיל ב-VoCo. אדובי מגדירה את האבטיפוס, שעדיין נמצא בפיתוח, כ"פוטושופ לקולות", ובהדגמת התוכנה בפני עובדיה היא גרמה גם לגיקים השרופים ביותר להתנשף בתדהמה ובהתפעלות נוכח יכולותיה. אחד המהנדסים שפיתחו את התוכנה, זהיו ג'ין, עלה לבמה והראה כיצד ניתן להשתמש בדגימת קולו של אדם על-מנת ליצור באמצעותה תוכן חדש לחלוטין.

הוא הדגים כיצד ניתן לשחק בכמה אופנים במשפט מתוך בדיחה שהשחקן מייקל קיטון סיפר - "נישקתי את הכלבים שלי ואת אשתי". קודם כול, הוא הראה שלאחר שהקלטה של המשפט מועלית ל-VoCo, המילים שנאמרו בהקלטה מזוהות ומופיעות כהרף עין בתיבת טקסט. את סדר המילים, הוא הראה לאחר מכן, ניתן לשנות בקלילות, באמצעות הקלדה או גזירה והדבקה ולא באמצעות חיתוך קובץ הקול עצמו. כך, למשל, הוא מייצר תוך שבריר שנייה את המשפט "נישקתי את אשתי ואת הכלבים שלי". זה כמובן חמוד ומשעשע, אבל כל עורך קול מיומן יוכל לייצר את התוצאה הזו, אם כי לא באותה מהירות.

עם זאת, מה שקרה לאחר מכן גורם לקהל לשמוט את לסתו באמת: זהיו מחק את המילה "אשתי" והקליד במקומה את המילה "ג'ורדן" (שמו של אחד ממנחי האירוע, במאי הקולנוע ג'ורדן פיל, יוצר הסרט "תברח", שנמצא לצדו על הבמה). הוא לחץ על מקש העיבוד ורגע לאחר מכן נשמע קיטון אומר ברצף ובקולו את המשפט "נישקתי את ג'ורדן ואת הכלבים שלי".

לאחר מכן, ולקול תשואותיהם של הגיקים, שמבינים היטב את עוצמת האלכימיה החישובית הנדרשת כדי לייצר תוצאות שכאלה, מוסיף זהיו לקוקטייל עוד שתי מילים, והתוכנה גורמת לקיטון לומר את המשפט "נישקתי את ג'ורדן ואת הכלבים שלי שלוש פעמים". הדבר המדהים הוא שהמילים "ג'ורדן", "שלוש" ו"פעמים" כלל לא נאמרו בהקלטה המקורית; VoCo יצרה אותן, והן נשמעות אותנטיות לחלוטין.

מי שמקשיב למשפטים המהונדסים, כלל לא יזהה שהם נבראו יש מאין, אבל "יש מאין" אולי אינו הביטוי המדויק ביותר. כדי ליצור את הקסם האפל שלה, VoCo בהחלט צריכה חומר גלם. החומר הזה הוא לפחות 20 דקות מוקלטות של דיבור טבעי של "המטרה". בכיר באדובי מסביר שהתוכנה מנתחת את דפוסי הדיבור של האובייקט ועוקבת אחרי הפונטיקה והצלילים השונים שהוא מפיק, גורסת אותם לרכיבים הבסיסיים והקטנים ביותר שלהם ואז - כשהמשתמש מדפיס לתוכה מילים, היא מחברת את כל שביבי הצלילים הללו לכדי מילים שנאמרות בדיוק בקול הנכון ובטון הנכון. גם אם הצליל שאותו תרצה ליצור כלל לא נאמר, יש להניח שבמהלך 40 הדקות שבהן האובייקט יוקלט (פרק הזמן האידיאלי להבטחת תוצאות מושלמות, לטענת אדובי) הוא כנראה ישמיע כל צליל אפשרי בשפה האנגלית.

אם אתם קוראים את התיאור הזה, מנידים את ראשכם בסקפטיות וסבורים שהצלילים שהתוכנה תפלוט יישמעו קטועים ומכאניים, אתם טועים. על אף שהרעיון שתוכנת מחשב תצליח לייצר משפטים שלא נאמרו שנשמעים אמיתיים לחלוטין נשמע לא סביר, כל זה כבר קורה, ונשמע בדיוק כמו הדבר האמיתי.

מדוע שאדובי תשקיע משאבים כה רבים בפיתוח "פוטושופ לקולות"? ובכן, כל מי שאי פעם היה מעורב בעסקי ההפקה יודע שפעמים רבות נאלצים הבמאים והעורכים לשלוח את השחקנים שכבר צולמו להקליט שוב משפטים שבמקור הוקלטו בצורה משובשת, או להקליט בפעם הראשונה משפטים שאנשי התוכן החליטו בדיעבד לשתול בסרט או בסדרה בשלב הפוסט-הפקה. כלי כמו VoCo יאפשר לבתי הפקה לבצע את התהליך הזה בשבריר מהעלות ומהטרחה שבו התהליך הזה נעשה כיום. איש לא יצטרך לתאם ימי עבודה יקרים עם הטאלנטים, הם לא יצטרכו לחזור עשרות פעמים על השורות שלהם והתהליך כולו יוכל להיעשות בזמן אמיתי, ומספר רב של פעמים, בהתאם להתפתחות ההפקה. כל מה שיהיה צריך זה 40 דקות מוקלטות של האובייקט.

במקום דיבוב סרטים

לפני שנכנסים לדיון התיאורטי על מה עשוי לקרות אם האינטרנט יתמלא ב"הקלטות" של טראמפ, פוטין, נתניהו או כל אחד אחר שאומר דברים שמעולם לא נאמרו, כדאי לבחון מה קורה גם בתחום הווידיאו ולחשוב מה חיבור בין קול לתמונה יאפשר לעשות בעתיד הקרוב.

כל מי שראה סרטוני מייקינג-אוף שמתארים כיצד האולפנים הגדולים בהוליווד גורמים ליצורים דיגיטליים להניע את שפתותיהם, להרים גבות וליצור העוויות שונות ומשונות, חושב כרגע על שחקנים בשר ודם שאל פרצופם מחוברות אלקטרודות רבות. השחקן מתבקש לשחק את התפקיד כאילו הוא על בימת תיאטרון והמידע שמתקבל מהאלקטרודות המוצמדות לפניו, מועבר למודל תלת ממדי שיצרו אמני אנימציה. חודשים לאחר מכן, כשהתהליך מסתיים, הדרקון, השדון או החייזר מניעים את פרצופיהם כבני אנוש. הקהל בקולנוע נאנח בעונג ואנשי המייקינג אוף מסמנים לעצמם V גדול. הם הראו לצופים איך עושים קסמים.

אבל החוקרת ד"ר עירא קמלמכר-שליזרמן, חוקרת בוגרת מכון ויצמן שעובדת במקביל באוניברסיטת וושינגטון שבסיאטל ובפייסבוק (לאחר שהיא מכרה לרשת החברתית חברה שהקימה), פיתחה שיטה שונה. היא והחוקרים שעובדים עמה מצלמים את פרצופיהם של אנשים שונים ואז מאמנים את המחשבים שלהם לפרק את הפרצופים לסדרה ארוכה של נקודות, כ-62 אלף נקודות לפרצוף. "לאחר שאנחנו עושים את זה, אנחנו יכולים לעקוב אחר הנקודות הללו, ואז אני יכולה להלביש את הנקודות של פרצוף אחד על מודל של פרצוף של מישהו אחר", מסבירה קמלמכר-שליזרמן. במילים אחרות: החוקרים מאפשרים לכל מי שמעוניין בכך להיות מפעיל בובות ולהניע כרצונו את פרצופו של כל אדם אחר.

בדמו של תוכנה בשם Face2Face, שפועלת על-פי עיקרון דומה, מראים החוקרים כיצד הם מצלמים אדם אחד שמשנה את פרצופו באמצעות מצלמת רשת ביתית רגילה, ואז גורמים לווידיאו אחר שבו מצולם פרצופו של נשיא ארה"ב לשעבר ג'ורג' בוש לנוע בסינכרוניזציה מושלמת עם פרצופו של האדם שמול המצלמה. הצורה שבה הוא מניע את שפתיו כדי לבטא מילים, או מרים או מוריד את גבותיו כדי להביע פליאה או רוגז, גורמת לבוש להתפרצף בדיוק באותו אופן. זה נראה אמיתי לגמרי, ויש לזכור שהטכנולוגיה נמצאת בחיתוליה ועדיין אינה מסחרית.

קמלמכר-שליזרמן ושותפיה אומרים שהם מתייחסים לטכנולוגיה שלהם כאל חלק מיכולת לגרום לאנשים שמתו מזמן "לחזור לחיים", אבל הם חושבים גם על שימושים מסחריים שיכולים להכניס סכומי כסף אדירים. אחת הדוגמאות שהם נתנו עוסקת בשחקנית ג'ניפר אניסטון שזוכה לפופולריות גדולה בסין. אם מפרסם סיני גדול רוצה לשכור את שירותיה של אניסטון, הוא נתקל בבעיה: אניסטון אינה דוברת סינית. האפשרויות שעמדו בפניו עד כה היו רחוקות מלהיות מושלמות: הוא יכול היה, למשל, לשכור קריינית דוברת מנדירינית שתאמר את מה שאניסטון אמורה לומר ואז להלביש את האודיו על פניה של אניסטון ברמת הצלחה שהישראלים מכירים היטב מסרטוני הפרסומת של לואקר. בעתיד הקרוב, לעומת זאת, הוא יוכל להקליט ולצלם קריינית דוברת מנדרינית ולהלביש את תנועות השפתיים שלה על פרצופה של אניסטון כך שייראה כאילו אניסטון אומרת את המילים.

קמלמכר-שליזרמן אומרת שכל טכנולוגיה יכולה להיות מנוצלת לרעה, ושהיא והחוקרים שעובדים עמה מודעים לכך שטכנולוגיית מיפוי הפנים שלהם עשויה לשמש ליצירת סרטוני וידיאו מזויפים. "אולי כל וידיאו צריך לכלול קוד שיאמר שהוא אותנטי", מהרהרת קמלמכר-שליזרמן בקול רם. "אבל אני חושבת שאם אנשים יידעו שהטכנולוגיה הזאת קיימת, הם יהיו סקפטיים ביותר לגבי מה שהם רואים".

דיקן בית הספר לתקשורת במסלול האקדמי במכללה למינהל, ד"ר יובל דרור, מתאר את הופעתן של תוכנות כמו VoCo ו-Face2Face כקו פרשת המים בכל הקשור להשפעת הטכנולוגיה על חיינו: "אנחנו יוצאים מנקודת הנחה שיש דברים שהם נכונים במאה אחוז, שהם לא נתונים למשא ומתן. למשל, שהשמש זורחת במזרח או שתיקח שני אטומים של מימן ותוסיף להם חמצן ויהיה לך מים. בעידן הדיגיטלי אנחנו מקבלים את המידע כשהוא מתווך - כלומר יש מישהו באמצע ביני לבין המציאות שבעצם מתווך את המידע. לכאורה, זה היה נכון בטלוויזיה ובעיתון, אבל בעידן הדיגיטלי, הרבה יותר קל לעשות מניפולציה על המידע משום שהוא בנוי מייצוגים דיגיטליים. זה לא הצבע האדום שאתה רואה אלא קוד שיוצר צבע אדום. תשנה בו שתי ספרות וייצא לך כחול.

"הציבור יודע שכשהוא מסתכל על מגזין ורואה בו דוגמנית, התמונה אינה של אישה אמיתית שמסתובבת בינינו ברחוב. עם הזמן למדנו שאפשר בקלות לזייף מסמכים ולמדנו שקל מאוד לעשות מניפולציות על תמונות, ועכשיו מגיעים שני הפיתוחים הללו - אחד לווידיאו והשני לסאונד. ההשלכות הן שלא נוכל לסמוך על שום דבר שמגיע אלינו. על טקסט אני לא אוכל לסמוך, על תמונה אני לא אוכל לסמוך, על אודיו אני לא אוכל לסמוך וגם על וידיאו אני לא אוכל לסמוך. התוצאה היא בעצם שנסתובב בעולם הזה שמגיע אלינו באמצעות תקשורת דיגיטלית כשאנחנו מגששים באפלה. אדם לא יוכל לסמוך במאה אחוז על החושים שלו ואנחנו מתקרבים במהירות למצב הזה".

- ומה זה אומר בעצם?

"ההשלכות של מצב כזה על הדמוקרטיה הן עצומות", אומר דרור. "אם במהלך קמפיין בחירות אראה או אשמע מועמד מסוים אומר משהו, ואז אותו מועמד יאמר 'זה לא אני אמרתי'. איך תדע אם המועמד אומר את האמת או לא? מהרגע שיש את האפשרות הטכנולוגית הזו, אתה מתקרב לרגע שבו אתה אומר שאתה לא יכול לסמוך על כלום וזה מסוכן מאוד מבחינת הלכידות החברתית ומבחינת השיח הציבורי. איך אפשר לנהל שיח ציבורי כאשר על הדברים הבסיסיים ביותר אין הסכמה? לא ניתן אפילו להסכים על אם מישהו אמר משהו או לא. העובדות פתאום נכנסות לתוך מירכאות. אני חושב שבמובן מסוים, אנחנו רואים את ההתחלה של זה כבר עכשיו בארצות-הברית - קיטוב, הקצנה ופילוג שנובעים מכך שאנשים לא מסכימים על העובדות הבסיסיות. לא על הפרשנות, על העובדות. זה הולך להיות מעניין".

הבלשים הדיגיטליים

מערכת הבחירות האחרונה בארצות-הברית, שהביאה לעולם את המונח פייק ניוז, הראתה שלא תמיד ניתן לסמוך על שיקול דעתם של בני אדם. אחרי הכול, אדגר מדיסון וולש מצפון קרוליינה הגיע בדצמבר האחרון לפיצרייה בשם קומט פינג פונג בוושינגטון די-סי, ופתח באש מרובה הסער מכיוון שהוא קרא דיווח שעל-פיו מועמדת המפלגה הדמוקרטית לנשיאות, הילארי קלינטון, ניהלה מהפיצרייה רשת פדופיליה ענפה. בשילוב עם התוכנה של אדובי, יש להניח שאפילו טיפוסים פחות מטורללים מוולש היו עשויים ליפול בפח. אם אנשים לא מתוחכמים או קיצוניים בלאו הכי היו רואים את הילארי קלינטון מתארת בקולה שלה את הפעילות האפלה שלה בפיצרייה, או להבדיל, ממש רואים ושומעים את טראמפ מפציר בהם לעשות מעשה אלים כזה או אחר סביב סוגיה מסוימת, יש להניח שרבים מהם היו נענים לקריאה.

מדעני מחשב כמו האני פריד מאוניברסיטת דארטמות' בארצות-הברית נקראים מדי פעם אל הדגל למשימות מיוחדות. הם יודעים, למשל, לנתח תמונות או סרטונים שמשחררות זרועות התעמולה של מדינות כמו צפון קוריאה ואיראן, ולקבוע אם התוכן אותנטי או שעבר מניפולציה דיגיטלית. הם לא רק מסתכלים בזכוכית מגדלת על שובלי העשן שמשאירים מאחוריהם טילים וקובעים כך שלתמונה מסוימת הוספו טילים ששוכפלו (דוגמה אמיתית מלפני כמה שנים), אלא בוחנים את הקוד של המדיה עצמה.

בפודקאסט המצליח radiolab אמר פריד שבפעם הראשונה שהוא צפה בסרטונים שהופקו באמצעות התוכנה של Face2Face, המחשבה הראשונה שלו הייתה שהוא היה רוצה לדעת אם ניתן יהיה לזהות את הזיוף, ואיך. כשהוא נשאל אם לדעתו הוא יוכל לזהות זיופים ברמה כזו, הוא אומר שיש להניח שבסופו של דבר - לאחר עבודה מאומצת של בחינת פריימים בודדים שוב ושוב - הוא יצליח לזהות רק 75% מהזיופים. "העולם צריך להיות מוטרד מאוד ממה שהטכנולוגיות הללו יעשו. הן יביאו את הפייק ניוז לרמה חדשה לגמרי. אנשים צריכים להבין שתמיד יהיה קל יותר ליצור את התוכן המזויף מאשר לזהות את הזיופים".