כך רימיתי את הבנק שלי באמצעות בינה מלאכותית

כותבת טור הטכנולוגיה של ה"וול סטריט ג'ורנל" החליפה את עצמה בקול ודמות מבוססי בינה מלאכותית על מנת לבדוק עד כמה הטכנולוגיה יכולה להידמות לאנושית • התוצאות היו מפחידות

כך הצליחה כפילת הבינה המלאכותית שלי לשטות בבנק ובבני משפחתי / צילום: מתוך יוטיוב
כך הצליחה כפילת הבינה המלאכותית שלי לשטות בבנק ובבני משפחתי / צילום: מתוך יוטיוב

אמ;לק

מגוון כלים מבוססי בינה מלאכותית מציעים היום את האפשרות ליצור בקלות סרטונים והקלטות סינתטיים. כתבת הטכנולוגיה של הוול סטריט ג'ורנל יצאה לנסות ולבדוק מה יקרה אם תחליף עצמה בכפילות דיגיטליות. העבודה שמדובר בבוטים בולטת למדי, אך המערכות רק ילכו ושיתפרו, ובכל זאת היא נבהלה לגלות את מי הן הצליחו להטעות.  

החדשות הטובות על ג'ואנה AI: היא לעולם לא נעשית צרודה, יש לה יציבה נהדרת ואפילו נסיעה במכונית עם גג נפתח ב־200 קמ"ש דרך סופת טורנדו לא תצליח להרוס לה תסרוקת. החדשות הרעות: היא יכולה לשטות בבני המשפחה שלי ולרמות גם את הבנק שלי.

המועדון שלא ידעתם שאתם רוצים להתקבל אליו | ראיון
כך הפכה ויקיפדיה לזירה סוערת במאבק על הרפורמה המשפטית 
ישראל עולה על נתיב מהיר לאובדן לגיטימיות | פרשנות

אולי יצא לכם לשחק עם צא'טבוטים כמו צ'אט GPT של OpenAI או Bard של גוגל, או עם מחוללי תמונות כמו Dall-E. אם חשבתם שהם מטשטשים את הקו בין בינה מלאכותית (AI) ואינטליגנציה אנושית, עוד לא ראיתם - או לא שמעתם - כלום.

בחודשים האחרונים, בדקתי את סינתזיה (Synthesia), כלי שיוצר דמויות וירטואליות (אווטארים) מבוססות בינה מלאכותית מסרטוני וידאו והקלטות קול (מה שידוע גם כ"דיפ פייק"). מה שלא תקלידו, אווטאר הווידאו יחזור עליו כמו תוכי.

מכיוון שהרבה מעבודתי היא עבודת קול ווידאו, חשבתי שאהפוך לפרודוקטיבית יותר ואשתחרר מחלק מהמונוטוניות. בסופו של דבר, זו ההבטחה של בינה מלאכותית. אז הלכתי לאולפן והקלטתי כ־30 דקות של וידאו וכמעט שעתיים של אודיו שסינתזיה השתמשה בהם כדי לאמן את הכפילה שלי. כמה שבועות אחר כך, ג'ואנה AI הייתה מוכנה.

בינה מלאכותית גם בטקסטים / צילום: Shutterstock
 בינה מלאכותית גם בטקסטים / צילום: Shutterstock

ואז ניסיתי לקחת את יום החופש האולטימטיבי, בסגנון פריס ביולר בסרט "שמתי ברז למורה". האם אני בגרסת AI - בשילוב טקסט שמופק על ידי צ'אט GPT - יכולה להחליף את עצמי הממשית בסרטונים, בפגישות ובשיחות טלפון? זה היה ניסוי מעורר מחשבה, או אולי מחשבה מלאכותית (אולי פשוט אאשים את ג'ואנה AI בבדיחות הכי גרועות שלי).

בסופו של דבר ייתכן שג'ואנה AI תכתוב טורים ותגיש את הסרטונים שלי. לעת עתה, היא במיטבה כהדגמה לכך שכלי וידאו וקול מבוססי בינה מלאכותית יוצרת (Generative AI) עלולים להיות חרב פיפיות.

אווטאר שנראה כמו אווטאר

צילום סרטונים מצריך הרבה עבודה. שיער, איפור, תלבושות, מצלמות, תאורה, מיקרופונים. סינתזיה מבטיחה להיפטר מכל זה, וזו הסיבה שתאגידים כבר משתמשים בה. מכירים את סרטוני ההכשרה המשעממים על ציות לרגולציה? למה לשלם לשחקנים אם בינה מלאכותית מסוגלת לעשות הכל? סינתזיה גובה 1,000 דולר בשנה ליצירת ושמירת אווטאר מותאם אישית, נוסף לדמי מנוי חודשיים. החברה מציעה אווטארים מוכנים מהמלאי במחיר חודשי מוזל.

ביקשתי מצ'אט GPT לייצר תסריט טיקטוק לטיפ לשימוש ב־iOS, שנכתב בקולה של ג'ואנה סטרן. הדבקתי אותו בסינתזיה, לחצתי על הכפתור ופתאום "אני" דיברתי. זה היה כמו להביט בהשתקפות שלי במראה, אבל אחת שנפטרת ממחוות היד ומהבעות הפנים. במשפטים מהירים, האווטאר יכול להיות משכנע למדי. ככל שהטקסט ארוך יותר, האופי הרובוטי יותר בולט.

בטיקטוק, שם יש לאנשים טווח קשב של דג זהב, המאפיינים דמויי־המחשב הללו פחות בולטים. בכל זאת, היו מי שקלטו מהר מאד. שיהיה ברור, אני הייתי מעדיפה לאכול צלופחים חיים מאשר לומר את הביטוי "משפחת הטיקטוק שלי", אבל לגרסת הבינה המלאכותית שלי הוא לא הפריע.

הבוטיות הפכה לבולטת מאוד בשיחות וידאו בעבודה. הורדתי סרטונים של הדמות אומרת משפטים אופייניים לפגישה ("היי כולם!" "סליחה, הייתי על מיוט") ואז השתמשתי בתוכנה כדי להזין אותם ל־Google Meet. מסתבר שהיציבה המושלמת של ג'ואנה AI והיעדר השנינות שלה הסגירו אותה במהירות.

קול ה-AI מאוד דומה לי

כשהדג של אחותי מת, האם הייתי יכולה להתקשר לנחם אותה? כן. בריאיון טלפוני עם מנכ"ל סנאפ אוון שפיגל, האם הייתי יכולה לשאול את כל השאלות בעצמי? בטח. אבל בשני המקרים, קול ה־AI שלי היה תחליף משכנע, בהתחלה.

לא השתמשתי בשיבוט הקול של סינתזיה לשיחות האלה. במקום זה, השתמשתי בקול שיוצר על ידי ElevenLabs, חברה לפיתוח תוכנות AI קוליות. המפיק שלי קני ווסוס אסף כ־90 דקות מהקול שלי מסרטונים קודמים והעלינו את הקבצים לכלי הממוחשב - לא היה צריך אפילו לבקר באולפן הקלטות. תוך פחות משתי דקות, הכלי שכפל את הקול שלי. בכלי האינטרנטי של ElevenLabs, אפשר להקליד כל טקסט ותוך שניות הקול "שלי" אומר אותו בקול. המחיר ליצירת שיבוט קולי עם הכלים של ElevenLabs מתחיל מ־5 דולר בחודש. בהשוואה לג'ואנה של סינתזיה, הקול שלי מ־ElevenLabs נשמע יותר אנושי, עם אינטונציה וזרימה טובות יותר.

אחותי, אליה אני מתקשרת כמה פעמים בשבוע, אמרה שהבוטית נשמעה בדיוק כמוני, אבל שמה לב שהבוטית לא עצרה לנשום. כשהתקשרתי לאבא שלי וביקשתי ממנו את מספר הביטוח הלאומי שלו, הוא ידע שמשהו לא כשורה רק בגלל שזה נשמע לו כמו הקלטה שלי.

פוטנציאל לניצול לרעה

הקול של ElevenLabs היה עד כדי כך מוצלח שהוא הצליח לשטות במערכת הזיהוי הקולי של חברת האשראי שלי. הזנתי לג'ואנה AI כמה דברים שידעתי שישאלו שם, ואז התקשרתי לשירות לקוחות. בשלב הביומטרי, כשהמערכת האוטומטית ביקשה את שמי והכתובת שלי, ג'ואנה AI ענתה. למשמע קול הבוטית שלי, המערכת זיהתה אותה בתור עצמי ומיד חיברה אותי לנציג אנושי. כשהמתמחה שלנו במשרד התקשר ועשה את החיקוי הטוב ביותר שלי שהיה מסוגל, המערכת האוטומטית בכל זאת ביקשה אימות נוסף.

דוברת של חברת האשראי אמרה שהבנק משתמש בביומטריה קולית, לצד כלים אחרים, כדי לזהות שאנשים שמתקשרים הם באמת מי שהם טוענים. היא הוסיפה שהמאפיין הזה נועד לאפשר ללקוחות להזדהות באופן בטוח ומהיר, אבל כדי להשלים עסקאות ובקשות פיננסיות אחרות, הם יתבקשו לספק פרטים נוספים.

הדבר המטריד ביותר: ElevenLabs עשתה שכפול מוצלח מאוד בלי הרבה מאמץ. כל מה שהייתי צריכה לעשות זה ללחוץ על כפתור שבו התחייבתי ש"יש לי הזכויות וההסכמה הנחוצים" כדי להעלות קבצים קוליים ולייצר את השיבוט, ושאין לי כוונה לעשות בו שימוש למטרות הונאה.

המשמעות היא שכל אחד באינטרנט יכול לקחת שעות שלמות של הקלטות קוליות שלי - או שלכם, או של ג'ו ביידן או של טום בריידי - לשמור אותן כקבצים ולעשות בהן שימוש. נציבות הסחר הפדרלית כבר מזהירה מתרמיות שנעזרות בקול המיוצר על ידי בינה מלאכותית.

סינתזיה דורשת שהקול והווידאו יכללו הסכמה מילולית, אותה נתתי בזמן שצילמתי והקלטתי עבור החברה.

ב־ElevenLabs מאפשרת שיבוט רק בחשבונות בתשלום, כך שניתן לעקוב אחרי שימוש בקול משובט שמפר את מדיניות החברה כדי לאתר את בעלי החשבון, כך אמר לי אחד המייסדים, מטי סטניסבסקי. החברה עובדת על כלי אימות כדי שאנשים יוכלו להעלות הקלטה קולית ולבדוק האם היא נעשתה בעזרת טכנולוגיה של ElevenLabs.

שתי המערכות איפשרו לי לייצר דברים איומים בקולי, כולל איומים ברצח.

דובר של סינתזיה אמר שהחשבון שלי נועד לשימוש על ידי ארגון חדשותי, ולכן מותר לו לומר מילים ומשפטים שבמצבים אחרים היו נופלים בשלב הסינון. החברה אמרה שמאוחר יותר, בודקי התוכן שלה מחקו משפטים בעיתיים שאמרתי. כשהורדתי את המנוי שלי לרמה הסטנדרטית, כבר לא הייתה לי אפשרות אפילו להזין משפטים כאלה.

סטניסבסקי אמר ש־ElevenLabs יכולה לזהות את כל התוכן שנוצר בעזרת התוכנה שלה. אם התוכן מפר את תנאי השירות של החברה, הוסיף, ElevenLabs יכולה לחסום את החשבון שייצר אותו ובמקרים של עבירה על החוק, לסייע לרשויות.

קשה לזהות את הדברים האלה

כששאלתי את האני פריד, מומחה לפורנזיקה דיגיטלית מאוניברסיטת קליפורניה, ברקלי, איך ניתן לזהות הקלטות קוליות וסרטונים סינתטיים, הייתה לו מילה אחת לומר לי: בהצלחה. "לא רק שאני יכול לייצר את הדברים האלה, אני יכול לעשות הפצצות שטיח לאינטרנט עם זה", אמר, והוסיף שבלתי אפשרי להפוך את כולם לבלשי AI.

כמובן, ברור שהכפילה שלי בווידאו היא לא אני, אבל היא רק תשתפר. ואם ההורים שלי ואחותי לא באמת מצליחים לזהות את ההבדל בקול שלי, האם אני יכולה לצפות שאחרים יצליחו?

קיבלתי שביב של תקווה כששמעתי על היוזמה לווידוא מקוריות של תוכן של חברת אדובי. יותר מ־1,000 חברות תקשורת וטכנולוגיה, אקדמאים ואחרים רוצים ליצור מעין "תווית סימון תזונתי" מוטמעת למדיה. יום אחד יכול להיות שצילומים, סרטונים והקלטות קול באינטרנט יגיעו עם מידע שניתן לאמת. סינתזיה היא אחת החברות שהצטרפו ליוזמה של אדובי.

טוב לי עם האנושיות שלי

שלא כמו ג'ואנה AI שלעולם לא מחייכת, לג'ואנה האמיתית יש סיבות לחייך אחרי כל זה. מהטקסט שמיוצר על ידי צ'אט GPT נעדרו המומחיות והאישיות שלי. לשיבוט הווידאו חסרו הדברים שהופכים אותי לעצמי. ולמרות שמפיק הווידאו שלי אוהב להשתמש בקול AI שלי בעריכות ראשוניות כדי לכוונן את התזמון, לקול האמיתי שלי יש יותר אנרגיה, רגש וחיתוך דיבור טבעי.

האם בינה מלאכותית תשתפר בכל אלה? חד משמעית. אבל אני גם מתכננת להיעזר בכלים האלה כדי לאפשר לי יותר זמן להיות בן אדם אמיתי. בינתיים, לפחות אני יושבת הרבה יותר זקופה בפגישות.