"ברכות לאל קאעידה": בעיית התרגום המוזרה של גוגל

מדוע גוגל טרנסלייט הפך טקסט בערבית, הקורא לנשים להצטרף לפלטפורמת קידום עסקי, לטקסט שחוגג 14 שנים להקמת ארגון הטרור בישראל? • הכירו את התקלה התמוהה של שירות התרגום הפופולרי בעולם

גוגל טרנסלייט \ צילום: שאטרסטוק
גוגל טרנסלייט \ צילום: שאטרסטוק

קרן גרינבלט, מנכ"לית קואליציית "שותפות" לקידום שיוויון כלכלי לנשים, שקדה בימים האחרונים על קמפיין דיגיטלי חדש. הקמפיין מקדם אתר לעידוד עסקים שהקימו נשים, וגרינבלט ביקשה לפנות לכלל האוכלוסיה - כך שהוא כולל טקסטים בעברית ובערבית.

לצורך בניית הקמפיין, מספרת גרינבלט ל"גלובס", היא נעזרה בשירותי התרגום של גוגל: "הערבית שלי לא נהדרת במיוחד, לכן שמתי את אחד מהטקסטים הקשורים לקמפיין בגוגל טרנסלייט, כדי שאדע להתאים אותו לטקסט המקביל בעברית. גוגל טרנסלייט זיהה את הטקסט כפסקה בפרסית ולא בערבית, והטקסט המתורגם שקיבלתי כלל כל מיני מילים שקשורות לישראל ולאל קאעידה. אלה דברים שאין בטקסט המקורי בערבית ולא היו מופיעים בו אילו היה נכתב בפרסית".

הטקסט המתורגם הוא רצף משפטים שבמבט ראשון נדמים הגיוניים: הם נכונים תחבירית ומהווים המשך ישיר זה של זה מבחינה תוכנית. עם זאת בין הפסקאות מתקיימות קפיצות בלתי ניתנות לגישור, וקיים פער גדול בין הנושאים שבהם עוסק כביכול הטקסט. התוצאה אמנם מבלבלת, אך נראית במבט ראשון כמו תרגום בינוני נורמטיבי שהוצא מהקשרו. רבים מהטקסטים העוברים בגוגל טרנסלייט נראים כך, אך כיצד הגיעו לשם מילים וביטויים שאינם מופיעים בטקסט המקורי?

הפסקה נפתחת בהכרזה סתומה על זכותו של אדם למגורים פרטיים בארצו, ובהמשך הדברים מתדרדרים: "לפני שאדון בשותפויותיי [...], אני אקבל בברכה את יום השנה ה-14 לייסודו של אל קאעידה בישראל. כדי להשיג את מטרות שיתוף-הפעולה בתחום השלום והביטחון, אנחנו מחויבים לקידום והרחבה של יחסינו עם ישראל". לאחר ההכרזה המשונה הזאת, הטקסט עובר לדבר על כינון רשתות אינטרנט וטלקומוניקציה בינלאומיות. לבסוף, הפסקה מסתיימת בקישור לאתר הפרויקט, בצירוף הבטחה לקורא: "תוכל למצוא את המוצרים המתאימים ביותר לביתך. להורדה חינם בחינם! רק חמש דקות. תודה שביקרתם".

מניצחון בני סכנין למלחמה בכופרים

לא הסתפקנו בטקסט של גרינבלט ובדקנו דוגמאות נוספות. בחרנו כמה טקסטים בערבית, הגדרנו את שפת המקור כפרסית וניסינו לתרגם אותם - הפעם לאנגלית. התוצאות היו דומות: במקום לקבל הודעת שגיאה על טקסט שבפרסית הוא חסר פשר, גוגל טרנסלייט הציע תרגומים דמיוניים לחלוטין. קטע שכתב חבר הכנסת איימן עודה ועסק בניצחון קבוצת הכדורגל בני סכנין, לדוגמה, תורגם למניפסט עילג המבקר את נפילת האיסלם ואת הזנחת הקוראן, ויוצא נגד הכופרים הלא-מאמינים. המשותף לכל התרגומים היה שימוש במילים מעולם המושגים הפוליטי והדתי: אירגונים איסלאמיים, משרד הביטחון האמריקאי, משרד החוץ, הרפובליקה האיסלאמית של איראן, איחוד הנסיכויות הערביות והקוראן הם ביטויים שחזרו שוב ושוב.

ד"ר תמר עילם גינדין, מומחית לאיראן מהמרכז האקדמי שלם וממרכז עזרי, מאשרת שאין קשר בין אף אחד מהטקסטים המקוריים לתרגום שהתקבל, גם אם ייקרא בפרסית. לדבריה, ייתכן שאוצר המילים הדומה בערבית ובפרסית הוא שהכשיל את גוגל טרנסלייט, אך מדובר בשתי שפות שונות לחלוטין: "השפה הפרסית היא הודו-אירופית, מאותה משפחה של האנגלית, הצרפתית והרוסית. מצד שני, איראן קיבלה על עצמה את האיסלאם לפני יותר מ-1,300 שנים, ויחד איתו את הקוראן ואת השפה הערבית. כך שהפרסית ספגה וממשיכה לספוג המון השפעות ערביות, בעיקר בשאילת מילים - האיראנים מבטאים אותן באופן שונה לגמרי ולעתים המשמעות השתנתה עם הזמן, אבל מבחינת כתב אלה אותן מילים. גם הערבית שאלה מילים מפרסית, אך השפות נשארות נבדלות בתחביר ובמורפולוגיה, כלומר באופן בניית המילים והמשפטים".

מדוע טקסט חסר משמעות בפרסית הופך בתרגום גוגל לטקסט שנראה כאילו הוא מתייחס ישירות למשברים הפוליטיים מול איראן? רמז לכך ניתן למצוא בתקופה שבה גוגל הוסיפה את השפה הפרסית לשירותי התרגום. "גוגל לא באמת מספרים מה הם עושים מאחורי מנועי התרגום שלהם, אבל באופן כללי אנחנו יודעים שהם פעלו בעבר לפי הגישה הסטטיסטית", אומר ד"ר עמרי אבנד, חוקר עיבוד שפה טבעית באוניברסיטה העברית, "לפי הגישה הזאת בונים את מערכת התרגום לא באמצעות הזנת חוקים, אלא על בסיס למידה מדוגמאות. המקור העיקרי שעליו בדרך כלל מאמנים את מערכות התרגום מכונה 'קורפוס מקבילי'. מספקים למערכת תרגומים קיימים, במקרה שלנו טקסטים בפרסית ובאנגלית, ומהם המערכת מסיקה על הכלל". לדברי אבנד, אם אימנו את המערכת בעזרת טקסטים מסוג מסוים, הדבר עשוי להשפיע על התרגום.

הוספת השפה הפרסית לגוגל טרנסלייט התרחשה על רקע המשבר באיראן ב-2009. זו הייתה שנת בחירות ברפובליקה האיסלאמית, והפגנות רבות התקיימו בכל המדינה ועוררו עניין רב במערב. בנוסף, החשש מכך שאיראן תצליח לפתח נשק גרעיני הגיע לשיא. גוגל הוסיפה את אפשרות התרגום בין אנגלית ופרסית לפני המועד שבו תכננה לעשות זאת, לאור המצב הפוליטי הסוער דאז. כוונותיה היו טובות: לאפשר תרגום מהיר בין השפות בתקופה שבה הוא נחוץ ביותר. ניתן לשער כי גם לאחר מכן, רבים מדוברי האנגלית בעולם נטו לתרגם טקסטים מפרסית לאנגלית בעיקר בעתות משברים פוליטיים. תרגומים אלה מהווים כנראה את עיקר הקורפוס שעליו התרגום מתבסס, וכך גם טקסט חסר משמעות לחלוטין הופך למאיים. 

זה מה שקורה
 זה מה שקורה

המערכת חוזרת למה שהיא מכירה

אלא שקורפוס מוטה הוא רק חלק מההסבר האפשרי. גורם נוסף הוא טכנולוגיות התרגום שגוגל עושה בהן שימוש, והאופן שבו השתנו לאורך השנים. "עד לפני שנים בודדות, מערכות התרגום התבססו על ניסיון למצוא רצפי מילים בשפה אחת, ולהתאימם למילים ורצפי מילים בשפה אחרת. כאשר המערכת נתקלה במילה שהיא לא זיהתה היא לא סיפקה תרגום, כיוון שהמילה לא נמצאה במילון", אומר אבנד. "היום מערכות התרגום מבוססות על גישה אחרת, בשם Neural Machine Translation - תרגום מכונה נוירוני".

מנגנון התרגום הזה, שאליו עברה גוגל בספטמבר, מסוגל לתרגם מילים שאינו מכיר באמצעות תבניות מבוססות אותיות, וניחושים מושכלים לפי קונטקסט. "בין היתר המנגנון הזה נסמך גם על רצפי אותיות, ולא רק על מילים ומשפטים. כך המערכת יכולה למצוא תבניות גם מתחת לרמת המילה השלמה, למשל בהתבסס על דמיון בין מילים. במקום פשוט לא לתרגם מילה שאינה מוכרת, מערכות כאלה יכולות להוביל לתוצאות לא צפויות".

כאשר המערכת תיתקל בטקסט רגיל בפרסית, למשל, היא תדע לזהות את ההקשר הרחב והסגנון של הטקסט. על בסיס זה, היא תשייך את הטקסט לעולם מושגים מסוים, וממנו תשאב את התרגום הסביר ביותר למילים שאינה מזהה. אבל מה קורה כאשר אף מילה אינה מזוהה? "אם הכנסת לא טקסט לא ברור בעליל, והמערכת לא יכולה לזהות את המאפיינים שלו, כמו במקרה הזה, המערכת 'תיפול' חזרה לדפוסים הנפוצים בדאטה שהזינו לה", אומר אבנד. כלומר, המערכת תחזור למה שהיא מכירה הכי טוב. במקרה הזה, דוגמאות לתרגומים מפרסית לאנגלית הקשורות במשברים פוליטיים.

הטעויות בערבית/פרסית הן כמובן לא הפעם הראשונה שגוגל טועה בתרגום. למעשה, חיפוש בסיסי יוביל לאינספור מאמרים (רובם באנגלית) שכותרותיהם הן "אבוד בתרגום", או "15 פעמים שגוגל טרנסלייט הביך אותנו". הדוגמאות הרבות מנציחות מקרים בהם גוגל תרגמה מילה במשמעות אחת, למשמעות אחרת שנכתבת באופן דומה. בעברית, למשל, גוגל תרגמה את המילה "כיבוש" ל"כבשה". לצד טעויות תמימות, גוגל טרנסלייט הייתה פלטפורמה להטרלות שונות לאורך השנים, בין השאר משום שהיא מתבססת על הצעות לשיפור מהקהל. כך לדוגמה, לאורך חודש מאי, מי שניסה לתרגם את המשפט "I am a flat earther" (בתרגום חופשי: אני מאמין שכדור הארץ שטוח) מאנגלית לצרפתית, זכה לתרגום "Je suis un fou" (בצרפתית: אני משוגע). גם בינג, שירות התרגום המתחרה של מיקרוסופט, לא חף מטעויות: כשבנימין נתניהו בירך את נטע ברזילי לרגל זכייתה באירוויזיון, וכתב "נטע, כפרה עלייך", השורה תורגמה כ"Neta, you're a real cow".

קרן גרינבלט / צילום אהרון מנור
 קרן גרינבלט / צילום אהרון מנור

לגוון עם שירה וספרי מתכונים

גוגל בחרה שלא להגיב למקרה שלפנינו, והגיבה באופן דומה לכל טעויות התרגום שלה עד כה: "גוגל תרגום עובד על ידי לימוד של דפוסים ממיליונים רבים של דוגמאות לתרגומים מרחבי הרשת. לרוע המזל, חלק מהדפוסים הללו יכולים להוביל לתרגומים שגויים. הטעות דווחה ואנו עובדים על תיקון". אלא שבמקרה שלפנינו לא מדובר על טעות נקודתית, אלא על בעיה בסיסית יותר בדרך שבה השפה הפרסית נתפסת במנגנוני התרגום. 

שירותים מבוססי בינה מלאכותית ולמידת מכונה כבר זוהו כשהם נוהגים באופן מוטה כלפי קבוצות מסוימות. ב-2015 שירות זיהוי הפנים של גוגל עלה לכותרות כאשר זיהה גברים שחורים כגורילות. בשנה האחרונה חשפה קבוצת חוקרים באוניברסיטת MIT שאלגוריתמים לזיהוי פנים מדייקים בזיהוי של גברים לבנים ב-99%, אך מספקים תוצאות מדויקות פחות ופחות כאשר מדובר באדם כהה עור, או בנשים. שיעור הזיהוי של נשים שחורות עמד על 35% דיוק בלבד.

כמו במקרה של גוגל טרנסלייט, הסיבה לחוסר הדיוק נמצאה במאגרי המידע שעליהם מתבססת הטכנולוגיה: מאגר מידע אחד, למשל, כלל יותר מ-75% גברים, ויותר מ-80% אנשים לבנים - רובם מתכנתים, חבריהם וקרובי משפחתם. מסקנת המחקר הייתה כי הדרך היחידה להימנע משחזור דפוסים גזעניים אנושיים בטכנולוגיות כגון אלה, היא לדאוג לגיוון במודלים שמשמשים לתרגול האלגוריתמים, וכן בקהילת המתכנתים עצמה. באופן דומה, הדרך להימנע מטקסטים לוחמניים היא להזין לקורפוס של גוגל בפרסית דוגמאות נוספות, הקשורות אולי בספרות יפה, שירה או מתכונים איראניים מסורתיים. ואז, כמובן, צריך לוודא שהמערכת מבדילה בין פרסית לערבית.

רוצה להשאר מעודכן/ת בנושא גלובס טק?
✓ הרישום בוצע בהצלחה!
צרו איתנו קשר *5988