גלובס - עיתון העסקים של ישראלאתר נגיש

"ברכות לאל קאעידה": בעיית התרגום המוזרה של גוגל

מדוע גוגל טרנסלייט הפך טקסט בערבית, הקורא לנשים להצטרף לפלטפורמת קידום עסקי, לטקסט שחוגג 14 שנים להקמת ארגון הטרור בישראל? ● הכירו את התקלה התמוהה של שירות התרגום הפופולרי בעולם

גוגל טרנסלייט \ צילום: שאטרסטוק
גוגל טרנסלייט \ צילום: שאטרסטוק

קרן גרינבלט, מנכ"לית קואליציית "שותפות" לקידום שיוויון כלכלי לנשים, שקדה בימים האחרונים על קמפיין דיגיטלי חדש. הקמפיין מקדם אתר לעידוד עסקים שהקימו נשים, וגרינבלט ביקשה לפנות לכלל האוכלוסיה - כך שהוא כולל טקסטים בעברית ובערבית.

לצורך בניית הקמפיין, מספרת גרינבלט ל"גלובס", היא נעזרה בשירותי התרגום של גוגל: "הערבית שלי לא נהדרת במיוחד, לכן שמתי את אחד מהטקסטים הקשורים לקמפיין בגוגל טרנסלייט, כדי שאדע להתאים אותו לטקסט המקביל בעברית. גוגל טרנסלייט זיהה את הטקסט כפסקה בפרסית ולא בערבית, והטקסט המתורגם שקיבלתי כלל כל מיני מילים שקשורות לישראל ולאל קאעידה. אלה דברים שאין בטקסט המקורי בערבית ולא היו מופיעים בו אילו היה נכתב בפרסית".

הטקסט המתורגם הוא רצף משפטים שבמבט ראשון נדמים הגיוניים: הם נכונים תחבירית ומהווים המשך ישיר זה של זה מבחינה תוכנית. עם זאת בין הפסקאות מתקיימות קפיצות בלתי ניתנות לגישור, וקיים פער גדול בין הנושאים שבהם עוסק כביכול הטקסט. התוצאה אמנם מבלבלת, אך נראית במבט ראשון כמו תרגום בינוני נורמטיבי שהוצא מהקשרו. רבים מהטקסטים העוברים בגוגל טרנסלייט נראים כך, אך כיצד הגיעו לשם מילים וביטויים שאינם מופיעים בטקסט המקורי?

הפסקה נפתחת בהכרזה סתומה על זכותו של אדם למגורים פרטיים בארצו, ובהמשך הדברים מתדרדרים: "לפני שאדון בשותפויותיי [...], אני אקבל בברכה את יום השנה ה-14 לייסודו של אל קאעידה בישראל. כדי להשיג את מטרות שיתוף-הפעולה בתחום השלום והביטחון, אנחנו מחויבים לקידום והרחבה של יחסינו עם ישראל". לאחר ההכרזה המשונה הזאת, הטקסט עובר לדבר על כינון רשתות אינטרנט וטלקומוניקציה בינלאומיות. לבסוף, הפסקה מסתיימת בקישור לאתר הפרויקט, בצירוף הבטחה לקורא: "תוכל למצוא את המוצרים המתאימים ביותר לביתך. להורדה חינם בחינם! רק חמש דקות. תודה שביקרתם".

מניצחון בני סכנין למלחמה בכופרים

לא הסתפקנו בטקסט של גרינבלט ובדקנו דוגמאות נוספות. בחרנו כמה טקסטים בערבית, הגדרנו את שפת המקור כפרסית וניסינו לתרגם אותם - הפעם לאנגלית. התוצאות היו דומות: במקום לקבל הודעת שגיאה על טקסט שבפרסית הוא חסר פשר, גוגל טרנסלייט הציע תרגומים דמיוניים לחלוטין. קטע שכתב חבר הכנסת איימן עודה ועסק בניצחון קבוצת הכדורגל בני סכנין, לדוגמה, תורגם למניפסט עילג המבקר את נפילת האיסלם ואת הזנחת הקוראן, ויוצא נגד הכופרים הלא-מאמינים. המשותף לכל התרגומים היה שימוש במילים מעולם המושגים הפוליטי והדתי: אירגונים איסלאמיים, משרד הביטחון האמריקאי, משרד החוץ, הרפובליקה האיסלאמית של איראן, איחוד הנסיכויות הערביות והקוראן הם ביטויים שחזרו שוב ושוב.

ד"ר תמר עילם גינדין, מומחית לאיראן מהמרכז האקדמי שלם וממרכז עזרי, מאשרת שאין קשר בין אף אחד מהטקסטים המקוריים לתרגום שהתקבל, גם אם ייקרא בפרסית. לדבריה, ייתכן שאוצר המילים הדומה בערבית ובפרסית הוא שהכשיל את גוגל טרנסלייט, אך מדובר בשתי שפות שונות לחלוטין: "השפה הפרסית היא הודו-אירופית, מאותה משפחה של האנגלית, הצרפתית והרוסית. מצד שני, איראן קיבלה על עצמה את האיסלאם לפני יותר מ-1,300 שנים, ויחד איתו את הקוראן ואת השפה הערבית. כך שהפרסית ספגה וממשיכה לספוג המון השפעות ערביות, בעיקר בשאילת מילים - האיראנים מבטאים אותן באופן שונה לגמרי ולעתים המשמעות השתנתה עם הזמן, אבל מבחינת כתב אלה אותן מילים. גם הערבית שאלה מילים מפרסית, אך השפות נשארות נבדלות בתחביר ובמורפולוגיה, כלומר באופן בניית המילים והמשפטים".

מדוע טקסט חסר משמעות בפרסית הופך בתרגום גוגל לטקסט שנראה כאילו הוא מתייחס ישירות למשברים הפוליטיים מול איראן? רמז לכך ניתן למצוא בתקופה שבה גוגל הוסיפה את השפה הפרסית לשירותי התרגום. "גוגל לא באמת מספרים מה הם עושים מאחורי מנועי התרגום שלהם, אבל באופן כללי אנחנו יודעים שהם פעלו בעבר לפי הגישה הסטטיסטית", אומר ד"ר עמרי אבנד, חוקר עיבוד שפה טבעית באוניברסיטה העברית, "לפי הגישה הזאת בונים את מערכת התרגום לא באמצעות הזנת חוקים, אלא על בסיס למידה מדוגמאות. המקור העיקרי שעליו בדרך כלל מאמנים את מערכות התרגום מכונה 'קורפוס מקבילי'. מספקים למערכת תרגומים קיימים, במקרה שלנו טקסטים בפרסית ובאנגלית, ומהם המערכת מסיקה על הכלל". לדברי אבנד, אם אימנו את המערכת בעזרת טקסטים מסוג מסוים, הדבר עשוי להשפיע על התרגום.

הוספת השפה הפרסית לגוגל טרנסלייט התרחשה על רקע המשבר באיראן ב-2009. זו הייתה שנת בחירות ברפובליקה האיסלאמית, והפגנות רבות התקיימו בכל המדינה ועוררו עניין רב במערב. בנוסף, החשש מכך שאיראן תצליח לפתח נשק גרעיני הגיע לשיא. גוגל הוסיפה את אפשרות התרגום בין אנגלית ופרסית לפני המועד שבו תכננה לעשות זאת, לאור המצב הפוליטי הסוער דאז. כוונותיה היו טובות: לאפשר תרגום מהיר בין השפות בתקופה שבה הוא נחוץ ביותר. ניתן לשער כי גם לאחר מכן, רבים מדוברי האנגלית בעולם נטו לתרגם טקסטים מפרסית לאנגלית בעיקר בעתות משברים פוליטיים. תרגומים אלה מהווים כנראה את עיקר הקורפוס שעליו התרגום מתבסס, וכך גם טקסט חסר משמעות לחלוטין הופך למאיים. 

זה מה שקורה

המערכת חוזרת למה שהיא מכירה

אלא שקורפוס מוטה הוא רק חלק מההסבר האפשרי. גורם נוסף הוא טכנולוגיות התרגום שגוגל עושה בהן שימוש, והאופן שבו השתנו לאורך השנים. "עד לפני שנים בודדות, מערכות התרגום התבססו על ניסיון למצוא רצפי מילים בשפה אחת, ולהתאימם למילים ורצפי מילים בשפה אחרת. כאשר המערכת נתקלה במילה שהיא לא זיהתה היא לא סיפקה תרגום, כיוון שהמילה לא נמצאה במילון", אומר אבנד. "היום מערכות התרגום מבוססות על גישה אחרת, בשם Neural Machine Translation - תרגום מכונה נוירוני".

מנגנון התרגום הזה, שאליו עברה גוגל בספטמבר, מסוגל לתרגם מילים שאינו מכיר באמצעות תבניות מבוססות אותיות, וניחושים מושכלים לפי קונטקסט. "בין היתר המנגנון הזה נסמך גם על רצפי אותיות, ולא רק על מילים ומשפטים. כך המערכת יכולה למצוא תבניות גם מתחת לרמת המילה השלמה, למשל בהתבסס על דמיון בין מילים. במקום פשוט לא לתרגם מילה שאינה מוכרת, מערכות כאלה יכולות להוביל לתוצאות לא צפויות".

כאשר המערכת תיתקל בטקסט רגיל בפרסית, למשל, היא תדע לזהות את ההקשר הרחב והסגנון של הטקסט. על בסיס זה, היא תשייך את הטקסט לעולם מושגים מסוים, וממנו תשאב את התרגום הסביר ביותר למילים שאינה מזהה. אבל מה קורה כאשר אף מילה אינה מזוהה? "אם הכנסת לא טקסט לא ברור בעליל, והמערכת לא יכולה לזהות את המאפיינים שלו, כמו במקרה הזה, המערכת 'תיפול' חזרה לדפוסים הנפוצים בדאטה שהזינו לה", אומר אבנד. כלומר, המערכת תחזור למה שהיא מכירה הכי טוב. במקרה הזה, דוגמאות לתרגומים מפרסית לאנגלית הקשורות במשברים פוליטיים.

הטעויות בערבית/פרסית הן כמובן לא הפעם הראשונה שגוגל טועה בתרגום. למעשה, חיפוש בסיסי יוביל לאינספור מאמרים (רובם באנגלית) שכותרותיהם הן "אבוד בתרגום", או "15 פעמים שגוגל טרנסלייט הביך אותנו". הדוגמאות הרבות מנציחות מקרים בהם גוגל תרגמה מילה במשמעות אחת, למשמעות אחרת שנכתבת באופן דומה. בעברית, למשל, גוגל תרגמה את המילה "כיבוש" ל"כבשה". לצד טעויות תמימות, גוגל טרנסלייט הייתה פלטפורמה להטרלות שונות לאורך השנים, בין השאר משום שהיא מתבססת על הצעות לשיפור מהקהל. כך לדוגמה, לאורך חודש מאי, מי שניסה לתרגם את המשפט "I am a flat earther" (בתרגום חופשי: אני מאמין שכדור הארץ שטוח) מאנגלית לצרפתית, זכה לתרגום "Je suis un fou" (בצרפתית: אני משוגע). גם בינג, שירות התרגום המתחרה של מיקרוסופט, לא חף מטעויות: כשבנימין נתניהו בירך את נטע ברזילי לרגל זכייתה באירוויזיון, וכתב "נטע, כפרה עלייך", השורה תורגמה כ"Neta, you're a real cow".

קרן גרינבלט / צילום אהרון מנור

לגוון עם שירה וספרי מתכונים

גוגל בחרה שלא להגיב למקרה שלפנינו, והגיבה באופן דומה לכל טעויות התרגום שלה עד כה: "גוגל תרגום עובד על ידי לימוד של דפוסים ממיליונים רבים של דוגמאות לתרגומים מרחבי הרשת. לרוע המזל, חלק מהדפוסים הללו יכולים להוביל לתרגומים שגויים. הטעות דווחה ואנו עובדים על תיקון". אלא שבמקרה שלפנינו לא מדובר על טעות נקודתית, אלא על בעיה בסיסית יותר בדרך שבה השפה הפרסית נתפסת במנגנוני התרגום. 

שירותים מבוססי בינה מלאכותית ולמידת מכונה כבר זוהו כשהם נוהגים באופן מוטה כלפי קבוצות מסוימות. ב-2015 שירות זיהוי הפנים של גוגל עלה לכותרות כאשר זיהה גברים שחורים כגורילות. בשנה האחרונה חשפה קבוצת חוקרים באוניברסיטת MIT שאלגוריתמים לזיהוי פנים מדייקים בזיהוי של גברים לבנים ב-99%, אך מספקים תוצאות מדויקות פחות ופחות כאשר מדובר באדם כהה עור, או בנשים. שיעור הזיהוי של נשים שחורות עמד על 35% דיוק בלבד.

כמו במקרה של גוגל טרנסלייט, הסיבה לחוסר הדיוק נמצאה במאגרי המידע שעליהם מתבססת הטכנולוגיה: מאגר מידע אחד, למשל, כלל יותר מ-75% גברים, ויותר מ-80% אנשים לבנים - רובם מתכנתים, חבריהם וקרובי משפחתם. מסקנת המחקר הייתה כי הדרך היחידה להימנע משחזור דפוסים גזעניים אנושיים בטכנולוגיות כגון אלה, היא לדאוג לגיוון במודלים שמשמשים לתרגול האלגוריתמים, וכן בקהילת המתכנתים עצמה. באופן דומה, הדרך להימנע מטקסטים לוחמניים היא להזין לקורפוס של גוגל בפרסית דוגמאות נוספות, הקשורות אולי בספרות יפה, שירה או מתכונים איראניים מסורתיים. ואז, כמובן, צריך לוודא שהמערכת מבדילה בין פרסית לערבית.

עוד כתבות

בית משפט השלום - חיפה / צילום: פאול אורלייב

מתכונת חירום בבתי המשפט: יקיימו מחר דיונים דחופים בלבד

החל ממחר יפעלו בתי המשפט במתכונת מצומצמת ויתקיימו בהם הליכים דחופים בלבד ● בעליון יתקיימו רק מספר דיונים מול שופט יחיד, ובשאר הארץ יתקיימו הליכים בבתי משפט הכלולים ברשימה שעליה הודיעה הרשות השופטת

משמרות המהפכה באיראן / צילום: ap, Vahid Salemi

בני סבטי: "האיראנים הרבה יותר חצופים, נועזים ומאיימים ביחס לשנה שעברה"

הטרמינולוגה האיראנית כנגד ארה"ב החריפה בשבועות האחרונים, וזאת למרות מלחמת 12 הימים בה הופצצו ונפגעו אתרים אסטרטגיים ברחבי המדינה ע"י ממשל טראמפ וישראל ● "ההבדל הגדול בין מבצע עם כלביא לימים אלו, הם הפגנות ההמונים כנגד המשטר בה נטבחו עשרות אלפי מפגינים", מציין בני סבטי, מומחה לענייני איראן

קרן שחר / צילום: רונן אקרמן

קרן שחר מכרה השבוע סדרה לאפל: "היו רגעים שחשבתי שזה לא יקרה"

היא חולשת על זרוע קשת אינטרנשיונל, חתומה על עסקאות גדולות מול ענקיות המדיה הגלובליות ונבחרה לאחת הנשים המשפיעות בתעשיית הטלוויזיה העולמית ● בראיון ראשון בתפקיד מספרת קרן שחר על מכירת הסדרה "הבת" לאפל שנסגרה השבוע, על הקשיים כחברה ישראלית בזמן המלחמה, ועל התחרות הגדולה בזמן שהתעשייה העולמית בתקופת קיצוצים

תחנת הכוח ''אורות רבין'' שבחדרה / צילום: Shutterstock

חלק ממאגרי הגז ומתקנים בבזן הושבתו, תחנות הכוח עוברות לדלק חירום

בהנחיית שר האנרגיה הופסקה זמנית הפקת גז מחלק מהמאגרים, ומשק החשמל נשען כעת על דלקי חירום ופחם ● בבזן צופים עלייה בפליטות בעקבות הדממת מתקנים ● היחידות הפחמיות בחדרה עשויות לפעול ללא מגבלת שעות במצב חירום

עלי חמינאי / צילום: ap, Office of the Iranian Supreme Leader

בישראל גוברת ההערכה שחמינאי חוסל. איך ייבחר המחליף?

בישראל מעריכים שהמנהיג העליון של איראן חוסל • מה קורה כשצריך למנות לו מחליף, ואיך זה ישפיע על המבנה המסועף של משטר האייתוללות? • המשרוקית מסבירה

וורן באפט / צילום: ap, Nati Harnik

אכזבה ברבעון האחרון של באפט: הרווח התפעולי של ברקשייר נחתך בכ-30%

הרווח התפעולי של ברקשייר האת'ווי צנח בכמעט 30% ברבעון האחרון של באפט ● קופת המזומנים הדשנה של החברה הצטמצמה מעט ל-373 מיליארד דולר ברבעון האחרון

וול סטריט, ניו יורק / צילום: Shutterstock

נעילה אדומה בוול סטריט; נטפליקס ופרמאונט זינקו

מדד נאסד"ק רשם את הביצועים החודשיים הגרועים ביותר שלו מאז מרץ 2025 ● נטפליקס קפצה לאחר שענקית הסטרימינג סירבה להעלות את הצעתה על וורנר ● OpenAI משלימה סבב גיוס של 110 מיליארד דולר עם גיבוי של אמזון, אנבידיה וסופטבנק ● נעילה מעורבת בבורסות אירופה ● דל טכנולוג'יס זינקה לאחר דוחות טובים

אנשים במקלט בשל מתקפת טילים מאיראן / צילום: ap, Ohad Zwigenberg

מצב חירום במשק: מי רשאי להיעדר מהעבודה והאם מקבלים שכר

בעקבות המתקפה באיראן הוכרז מצב מיוחד בעורף. באילו נסיבות מותר להישאר בבית, האם המעסיק רשאי לפטר עובד שלא הגיע, והאם ממשיכים לקבל שכר – כולל במפעלים המוגדרים "חיוניים"? ● גלובס עושה סדר

נתב''ג / צילום: Shutterstock

המרחב האווירי נסגר: מה לעשות אם יש לכם טיסה בקרוב?

בעקבות מתקפת המנע באיראן המרחב האווירי של ישראל נסגר ל-48 שעות ● נעצרו המראות ונחיתות ● נוסעים ישראלים שנתקעו בחו"ל מתבקשים ליצור קשר עם חברות התעופה שלהם

הר תנופה. יש גם סחלבים / צילום: יובל אינהורן

כלניות בשלושה צבעים וסחלב במופע נדיר: מסלולי הפריחה שלא הכרתם

בימים שבהם נדמה שעל כל כלנית צצים עשרה מדריכים שיסבירו לכם איך להגיע אליה באפס מאמץ, הכנו לכם שלוש המלצות לטיולי פריחה דווקא למיטיבי הלכת

ממ''ד / צילום: דוברות משרד הביטחון

מצב חירום עד יום שני: ההנחיות החדשות של פיקוד העורף

הוכרז מצב חירום מיוחד בעורף, והשמים נסגרו לטיסות אזרחיות ● הוטלו מגבלות נרחבות על פעילות המשק, החינוך וההתכנסויות ברחבי הארץ ● מתי אפשר לצאת מהמרחב המוגן ואיך נערכים באתרי הבנייה?

דירה להשכרה / צילום: איל יצהר

קפיצה של 40%: למה יותר מ-1,500 משקיעים קנו דירה בדצמבר?

מחירי הדירות תקועים, ושוק השכירות רותח ומזניק את האינפלציה - כמו שקרה גם בעשור שהחל ב-1998 ● אבל בזמן שהשוכרים יושבים על הגדר וסופגים עליות במחירי החוזים, המשקיעים שמזהים את הפרצה וחוזרים לשוק עם מבצעי מימון אגרסיביים וקוצרים תשואות גבוהות יותר

עיבוד: טלי בוגדנובסקי, צילומים: AP,shutterstock

כמה זמן לוקח לכטב"מים להגיע מאיראן לישראל וכמה לטיל בליסטי?

איראן הודיעה כי גל של עשרות כטב״מים נמצא בדרכו לישראל ● כמה זמן ייקח להם להגיע, מה ההבדל בין סוגי הטילים השונים ומה כולל מערך ההגנה האווירית של ישראל? ● גלובס עושה סדר

יהלי רוטנברג, החשב הכללי באוצר / צילום: יוסי זמיר

הבכיר לשעבר שבטוח: "אנחנו הכי קרובים להשבתת פעילות הממשלה מאי פעם"

כחשב הכללי באוצר יהלי רוטנברג גייס חוב חסר תקדים, התמודד עם הורדת הדירוג הראשונה של ישראל ונדרש לצנן את הוצאות הביטחון: "אמרתי - אל תאלצו אותי לבחור בין צה"ל לעמידה בתקציב" ● עכשיו הוא חושף את הפינות האפלות שדורשות פיקוח - ומתכנן את הטרק בנפאל

תור לקוםות בסניף של טיב טעם, הבוקר / צילום: באדיבות עובדי טיב טעם

הבהלה לנייר טואלט: התנפלות על רשתות השיווק. אלה המוצרים המבוקשים

בעקבות התקיפה באיראן והאזעקות הבוקר, נרשמה עלייה של מאות אחוזים בתנועת הלקוחות ברשתות הפתוחות בשבת עם זינוק בביקושים למים, שימורים ונייר טואלט ● ברשתות מדגישים כי אין מחסור וכי המלאים מלאים, בעוד שירותי המשלוחים המהירים הושבתו בהתאם להנחיות פיקוד העורף

פעילות מערכות ההגנה האווירית במהלך מבצע עם כלביא / צילום: משרד הביטחון

הטילים האיראניים שמאיימים על ישראל, ומערכות ההגנה נגדם

איראן מאיימת בתגובה חריפה אחרי התקיפות הישראליות והאמריקאיות ● מהן מערכות ההגנה האווירית הישראליות, אילו טילים נמצאים בארסנל האיראני, ומה קורה אם האיומים מגיעים מכיוון הים? ● גלובס עושה סדר

נתב''ג / אילוסטרציה: עידו וכטל, ארקיע

נתקעתם בחו"ל? מתי ואיך תוכלו לחזור לישראל

המרחב האווירי סגור ונתב״ג מושבת לפחות עד יום שני, ובינתיים כ־150 אלף ישראלים שוהים בחו"ל ואינם יכולים לשוב ארצה ● במשרד התחבורה נערכים למבצע דרך האבים מרכזיים באירופה, ארה״ב ואסיה, ובמקביל נשקלת האפשרות לצו חירום שיצמצם זמנית את חובות חברות התעופה כלפי הנוסעים ● איך יראה מבצע החילוץ ומתי יתאפשר לטוס חזרה לישראל? ● גלובס עושה סדר

איזו בשורה יקבלו בקרוב 700 אלף עובדי המגזר הציבורי?

מה הם היעדים המבוקשים לרילוקיישן מצד ישראלים עשירים, ומדוע הנגיד הותיר את הריבית על כנה? ● חושבים שאתם בקיאים בכל מה שקרה השבוע בכלכלה בארץ ובעולם? בואו לבחון את הידע שלכם ● החידון הכלכלי של גלובס

ג'ק דורסי, מייסד טוויטר וסקוור / צילום: Shutterstock, Frederic Legrand - COMEO

היזם שמפטר 4,000 עובדים ביום אחד. מה הוא יודע שאנחנו לא

גל פיטורים נוסף; ג'ק דורסי, ממייסדי טוויטר ומנכ"ל חברת התשלומים האמריקאית בלוק, הודיע בדואר אלקטרוני לבעלי המניות שלו כי החברה תקצץ קרוב למחצית מעובדיה ● בלוק, שנסחרת בבורסת ניו יורק לפי שווי שוק של 33 מיליארד דולר, ייצרה רווח נקי של כחצי מיליארד דולר ברבעון השלישי של השנה שעברה ● המנייה זינקה במסחר המאוחר בכ- 24%

בית החולים סורוקה / צילום: Shutterstock

בתי החולים עוברים למרחבים המוגנים; הפעילות הלא דחופה נעצרה

לאחר שבועות של היערכות, אגירת ציוד רפואי ותרגיל גדול עם צה"ל, מערכת הבריאות העלתה כוננות לרמה הגבוהה ביותר ● בתי החולים ימשיכו לתת מענה למקרים דחופים, חלק מהטיפולים יבוטלו ● משרד הבריאות מסר כי בנק הדם במוכנות גבוהה, וצוותים תוגברו בדרום ● נכון לעכשיו טיפות החלב נותרות בשלב זה פתוחות