גלובס - עיתון העסקים של ישראלאתר נגיש

מה אתם תורמים לאנושות בכל הקלדת קאפצ'ה? ראיון עם ממציא השיטה

זה לא רק מציק: בכל הקלדה של אותיות מעוותות (קאפצ'ה) בכניסה לאתרי אינטרנט, תרמתם מילה לידע האנושי; כך נסרקו לארכיונים דיגיטליים מיליוני ספרים ותעודות היסטוריות רגע לפני שאבדו לנצח ■ בראיון ל-G מספר ממציא השיטה, לואיס ואן אהן, על המשימה הבאה שלכם - לתרגם את תוכן הרשת לכמה שפות

לפני כ-25 שנים, כשלואיס ואן אהן היה בן שבע, הוא ובני כיתתו בבית-הספר האמריקאי בגוואטמלה סיטי קיבלו שיעורי בית: כדי לשכלל את כישוריהם בכתיבה תמה, הם נדרשו לצייר מאות רבות של עיגולים קטנים ומושלמים על דפי נייר לבנים. לואיס (במלרע), שלהוריו היה מפעל סוכריות, ושתמיד הוקסם מיכולתן של המכונות ליצור ביעילות אלפי רפליקות של אותו מוצר, החליט לתחמן. הוא הצמיד זה לזה חמישה טושים שחורים בשורה, כרך סביבם נייר דבק והחל לצייר עיגולים. במקום שכל תנועה מעגלית של ידו תצייר עיגול אחד, היא ייצרה כעת כמה וכמה עיגולים. במקום לבזבז שעה וחצי על שיעורי הבית, הוא סיים את המשימה בעשרים דקות.

ואן אהן הצעיר, כיום מרצה וחוקר באוניברסיטת קרנגי מלון בפיטסבורג, לא היה יכול לדעת אז שקו ישר ורציף החל להימתח בין כושר ההמצאה שהפגין לתחום ההתמחות שלו בעשור האחרון, שמייצב אותו כאחד ממדעני המחשב המבריקים ביותר בעולם. עד כמה מבריק? מספיק לומר שבזכות ההמצאה שלו אתם מקבלים הרבה פחות דואר זבל למייל שלכם, מאפשרים לאתרי אינטרנט לתת בכם אמון, תורמים במו ידיכם לכך שספרים שאוטוטו יעלמו מן העולם יזכו לחיי נצח במהדורה דיגיטלית - והכול בפעולה פשוטה אחת, כמעט יומיומית, שבכלל לא ידעתם עד כמה היא חשובה. עכשיו ואן אהן הולך עם הרעיון שלו עוד שני צעדים קדימה, ובונה בית ספר אינטרנטי לשפות, שהוא גם מפעל תרגום ענק, ושבזכותו לא רק תלמדו ספרדית או גרמנית, אלא גם תאפשרו למיליוני גולשים לקרוא מאמרים, ספרים וכתבות בשפת המקור שלהם. כך הוא עשה את זה.

נוגדי הספאמרים

התופעה שהזניקה לשמיים את הקריירה של ואן אהן, ושכיום עשויה להיראות למשתמשי אינטרנט צעירים כמו אגדה מוזרה, היא דואר הזבל. לקראת סוף האלף הקודם, כשהאינטרנט נסק במהירות, הספאמרים עבדו קשה וחזק. תוכנות אוטומטיות, שנכתבו עבור חברות שרצו לשלוח דואר פרסומי למיליוני משתמשים, היו פותחות בכוחות עצמן חשבונות דואר. לאחר שאותם חשבונות נפתחו, תוכנות ייעודיות אחרות שלחו מתוכן הודעות לרשימות תפוצה שרק הלכו וגדלו.

החברות הגדולות שהפעילו את שירותי הדואר האלקטרוני - יאהו, מיקרוסופט ואחרות - ניסו לטפל בבעיה והשיתו על החשבונות כל מיני הגבלות שנועדו לצמצם את התופעה. כך, למשל, לא ניתן היה לשלוח הודעה עם שורת נושא זהה ליותר מכמה עשרות משתמשים, או להוציא כמויות גדולות במיוחד של הודעות בפרק זמן מוגדר. אבל הפתרונות הללו לא התקרבו לשורש הבעיה: אם חשבון דואר אלקטרוני נחסם בשל שימוש לרעה, יכלו התוכנות האוטומטיות של הספאמרים לפתוח מיליוני חשבונות דואר חדשים במהירות. יאהו, שהפעילה בשנת 2000 את אחד משירותי הדואר האלקטרוני הפופולריים ביותר, הבינה שהיא זקוקה לעזרה חיצונית. אחד המקומות הראשונים שאליהם הגיעו בכירי החברה היה מחלקת מדעי המחשב באוניברסיטת קרנגי מלון.

ואן אהן, כיום בן 32, החל באותה תקופה את לימודי הדוקטורט שלו ונחשב כבר אז לעילוי עם עתיד ורוד במיוחד. הסטודנט הצעיר מגווטמלה - בייבי פייס, ממושקף, בעל טעם שמרני בחולצות, אבל עם זיק שובב בעיניו - הגיע לפיטסבורג האפרורית והקרה לאחר שהצטיין בלימודי התואר הראשון שלו במתמטיקה ובמדעי המחשב באוניברסיטת דיוק שבצפון קרוליינה. הוא החל לעבוד עם פרופ' מנואל בלום, שנחשב לאחד המנטורים המובילים בארצות הברית לאקדמאים מבריקים. את עתידו הוא ראה בתחום ההצפנה. אולם האתגר שהציבו אנשי יאהו בפני בלום ותלמידיו היה מעניין במיוחד והתמצה לשאלה אחת ויחידה: כיצד יוכל מחשב לדעת שהמשתמש בצדו השני של המודם הוא אדם או מחשב אחר?

השאלה הזו, חשוב להבין, היא לב-לבה של מדע האינטליגנציה המלאכותית. חלוץ התחום, אלן טיורינג (שידוע כאחד ממפצחי שיטת ההצפנה של מכונת ה"אניגמה" הגרמנית - פעולה שנחשבת לאחת הסיבות להכרעתה של גרמניה הנאצית במלחמת העולם השנייה), פיתח החל מ-1949 רעיון מהפכני כדי להשיב על השאלה הזו. "מבחן טיורינג" מציב משתמש אנושי מול "יריב" בלתי נראה, שאיתו הוא צריך לנהל שיחה. אם המשתמש האנושי לא יצליח להכריע אם הוא משוחח עם אדם או עם מחשב משמעות הדבר היא שהמחשב עבר את מבחן טיורינג לאינטליגנציה מלאכותית (דוגמה יפה אפשר למצוא בסרט "בלייד ראנר", שבו נעשה שימוש במבחן טיורינג על מנת לאתר רובוטים שהתחזו לבני אדם אמיתיים). כידוע, גם כעת, ב-2012, אנחנו עדיין לא שם.

המחקר של טיורינג (שהתאבד ב-1954 לאחר שעבר סירוס כימי בשל היותו הומוסקסואל) היה מקור ההשראה העיקרי של בלום ושל ואן אהן. חמישה עשורים לאחר שהמדען הבריטי האומלל שיגר לעולם את רעיונותיו המבריקים, הציעו הפרופסור ובן חסותו שיטה מבריקה לא פחות כדי לסייע ליאהו: במקום שאדם ייאלץ להכריע אם הוא משוחח עם אדם אחר או עם מחשב, יש להפוך את התהליך: המחשב ייאלץ להחליט אם המשתמש שעמו הוא "משוחח" הוא אדם או מחשב. נשמע פרדוקסלי? בהחלט. בלתי אפשרי? מתברר שלא.

השיטה שבה הפעילו בלום ו-ואן אהן את "מבחן טיורינג ההפוך" במחשבים של יאהו התבססה על יכולת אנושית ייחודית שמחשבים עדיין לא הצליחו לפצח - ראייה מופשטת. בסיומה של כל פתיחת חשבון דוא"ל, הוצבה כעת תמונה עם רצף רנדומלי של אותיות שעוותו בכוונה; כדי להתחיל להשתמש בחשבון נדרש המשתמש להקליד את אותן אותיות לתוך תיבת שיח. בני אדם צריכים להתאמץ מעט (10 שניות בממוצע) כדי לפענח את התמונה שהם רואים ולהקליד את האותיות המעוותות. מחשבים פשוט לא מצליחים לעשות את זה.

מתחיל להישמע מוכר? לא במקרה. מהר מאוד לאחר שפותחה הטכנולוגיה, שכונתה CAPTCHA (Completely Automated Public Test to tell Computers and Humans Apart), היא שולבה במספר עצום של אתרי אינטרנט שמטפלים בכמעט כל היבט של חיי היומיום המקוונים שלנו. אתרי מכירת כרטיסים נזקקו לה כדי למנוע מספסרים להשתמש בתוכנות שירכשו תוך שניות את כל הכרטיסים להופעה הלוהטת ביותר בעיר; בנקים אימצו אותה כדי למנוע מתוכנות של עברייני סייבר לבצע בצורה אוטומטית פעולות פיננסיות. וזה עבד נהדר.

ספרים רבותיי, ספרים

אפשר להניח שכמעט כל מי שקורא את הכתבה הזו השתמש לא מעט פעמים בשיטה שפיתחו בלום ו-ואן אהן. ככל ש-CAPTCHA שולבה ביותר ויותר אתרי אינטרנט, גדל מספר המשתמשים בה לממדים עצומים. כמה עצומים? בסביבות 2003, כש-ואן אהן הסתכל על הנתונים, הוא גילה שברחבי העולם מוקלדות בסביבות 200 מיליון "קאפצ'ות" ביום.

"כשגיליתי את זה בהתחלה, הייתי די גאה בעצמי", הוא אמר השבוע בראיון ל-G. "המחקר שלי הצליח להשאיר חותם בעולם. אבל קצת יותר מאוחר התחלתי להרגיש רע כי הבנתי שהמין האנושי מבזבז בכל יום משהו כמו 500 אלף שעות על הקלדה של האותיות המעוותות והמעצבנות הללו".

להיפטר מאותן "אותיות מעוותות ומעצבנות" היה כמובן בלתי אפשרי, אבל ואן אהן ניסה לחשוב על דרך שבה יתועל המאמץ האנושי הזה לאפיק חיובי. אם תרצו, למעין תיקון עולם קטן. כדרכו, הוא התהלך שוב ושוב ושוב במעלה ובמורד המסדרון הארוך שבפקולטה למדעי המחשב בקרנגי מלון וניסה לחשוב על פתרון. והוא המשיך להתהלך במורד המסדרון עד שהנורה הבלתי נראית שמעל ראשו נדלקה.

כיוון החשיבה של ואן אהן היה להשתמש בשניות הספורות שבהן מיקדו בני אדם את תשומת לבם אל המסך וניסו לפענח את האותיות על מנת לעשות משהו שמחשבים עדיין מתקשים לעשות. ומה בדיוק מחשבים מתקשים לעשות? ניחשתם נכון: להמיר טקסט מודפס לטקסט דיגיטלי.

כדי להמיר עמוד ספר לפורמט דיגיטלי יש לסרוק אותו לתמונה ואז לתת למחשב לפענח את הטקסט הסרוק. כשמדובר בספר חדש, זו לא בעיה גדולה מדי. עם זאת, כשמדובר בספר ישן, שדפיו הצהיבו או שסימני הדיו שבו דהו או נמרחו במשך השנים, תוכנות ההמרה (OCR - Optical Character recognition) פשוט לא מצליחות לפענח את האותיות. עד 40% מהמילים בכל ספר שהודפס לפני 50 שנים ומעלה נשארות לא מזוהות, וכידוע, מספרם של ספרים כאלו, בעלי ערך היסטורי אדיר, הוא עצום.

הרעיון של ואן אהן היה גאוני בפשטותו: במקום לתת למשתמשי האינטרנט לפענח מילה אחת, הוא נתן להם לפענח שתי מילים. אחת מהן היא מילה שהמחשב ידע מהי, בדיוק כמו בפרויקט CAPTCHA המקורי, אבל השנייה היא מילה לא מזוהה מתוך ספר שמחשבי אחד הפרויקטים להמרה דיגיטלית לא הצליחו לפענח.

"אם המשתמש מקליד בצורה נכונה את המילה שהמחשב יודע שהוא אמור להקליד, המערכת מניחה שאתה אנושי והיא מקבלת ביטחון מסוים בכך שאתה מקליד גם את המילה השנייה בצורה נכונה", הוא מסביר את הרציונל. "אנחנו כמובן לא אומרים למשתמשים איזו מילה מגיעה מספרים ואיזו לא. אם אנחנו חוזרים על התהליך הזה אצל עשרה אנשים שונים וכולם מקלידים בצורה נכונה את המילה שמתוך הספר - אנחנו יודעים שזו המילה הנכונה ומשבצים אותה במקום הנכון".

השילוב של המילים הרנדומליות זו לצד זו גם יצר תופעה אינטרנטית משעשעת: כשאנשים נתקלו בשתי מילים שיחד יצרו משפט משעשע הם איירו אותן והעלו את האיור ואת שתי המלים לרשת. כך, reCAPTCHA הפכה גם לתופעה אינטרנטית תרבותית.

במשך הזמן לפחות 350 אלף אתרי אינטרנט, ביניהם גם פייסבוק וטוויטר, אימצו את השיטה, ועזרו - ללא כל תמורה - לנצל את כוח ההמונים על מנת להמיר לפורמט דיגיטלי את הידע האנושי המודפס. ואן אהן, שהפך את הדוקטורט שלו לחברת סטארט אפ, קרא לה reCAPTCHA. ב-2004 הוא מכר אותה לגוגל (שמפעילה את פרויקט גוגל בוקס, העוסק בהמרה של ספרים לפורמט דיגיטלי) תמורת סכום שמעולם לא פורסם. מה שידוע הוא שלאחר המכירה ואן אהן קנה לעצמו פורשה 911 חדשה. לדבריו, "אני כבר לא נוהג עליה מהר כל-כך כי הצלחתי במשך הזמן לצבור לחובתי לא מעט דו"חות מהירות. זה מיתן אותי".

יותר מ-750 מיליון משתמשים ייחודיים (כ-10% מאוכלוסיית כדור הארץ) סייעו עד כה לפרויקט בעודם מקלידים מילים מעוותות. לפחות 100 מיליון מילים מפוענחות באמצעות reCAPTCHA מדי יום, מספר ששווה ערך לכ-2.5 מיליון ספרים בשנה. וזה עובד נהדר.

מגדל בבל

לואיס ואן אהן נולד בגווטמלה ב-1979. "הייתה לי ילדות רגילה לגמרי והדבר הטוב ביותר שאני זוכר הוא שאמי קנתה לי מחשב קומודור 64 בגיל 8 במקום לקנות לי קונסולת נינטנדו", הוא מספר בטון משועשע. "זה היה מה שהעלה אותי על הנתיב, שבסופו של דבר הפף לעיסוק שלי במדעי המחשב".

אבל אתה רצית נינטנדו.

"ברור. בהתחלה הייתי ממש מבואס. אני זוכר שניסיתי להבין איך אפשר לשחק עם המחשב, אבל הבעיה הייתה שאז היה קשה מאוד לשחק משחקים על מחשב. היית צריך ממש לדעת איך בכלל מריצים את המשחק. זה לא כמו היום. הייתי צריך לפענח את הדרך שבה כל הסיפור הזה עובד, ואז התחלתי לשחק משחקים. לאחר מכן הייתי צריך להבין איך להעתיק משחקים בצורה פיראטית מאנשים אחרים, כי אימא שלי סירבה לקנות לי משחקים חדשים. אז כשגיליתי איך עושים את זה, אני יכול כבר לומר שהבנתי לא רע איך כל הסיפור הזה עובד".

וזו הייתה בעצם הכניסה שלך לתחום.

"כן. אני חושב שבסביבות גיל 11 או 12 כבר היה לי די ברור מה אני הולך לעשות בחיים. תן לי להזכיר לך שבאותה תקופה רוב האנשים - אפילו מבוגרים - פשוט לא ידעו מה עושים עם מחשבים. אני חושב שהייתי די ייחודי פשוט כי לא הייתי מוקף בילדים אחרים שחלקו איתי את תחום העניין הזה".

ואן אהן הוא טיפוס נוח מזג, והוא גם דברן לא קטן, אולם הידיעה הברורה שלו מה יהיה תחום עיסוקו כמבוגר העמידה אותו בבעיה כשסיים את לימודי התיכון. "רציתי ללמוד מדעי המחשב ומתמטיקה ובגווטמלה פשוט לא היו אפשרויות טובות מספיק ללמוד את התחום הזה כמו שצריך. הרבה אנשים הציעו לי שאנסה להתקבל לאוניברסיטה אמריקאית, וזה מה שעשיתי, על מלגה מלאה מאוניברסיטת דיוק".

לקראת סוף התואר הראשון החל ואן אהן לפנות למוסדות אקדמאים אחרים בארצות הברית על מנת להתקבל ללימודי דוקטורט. "באותו שלב רציתי ללמוד הצפנה - תחום אחר לגמרי מזה שבו אני עוסק כעת - וקיבלו אותי על בסיס הרצון הזה, אבל חצי שנה לתוך לימודי הדוקטורט עבדתי על פרויקט CAPTCHA המקורי וזה כבר שינה את הפוקוס של הקריירה שלי. לא היה אז פייסבוק, וגוגל רק התחילה, ואני חשבתי בזמנו שהרבה יותר קל להיות חדשני בתחום שבו בחרתי לעסוק מאשר בתחום ההצפנה שאנשים התעסקו בו בצורה ממוחשבת כבר לפחות 50 שנים".

את אותו תחום, שואן אהן נחשב לחלוץ העולמי שלו, הוא מכנה מחשוב אנושי: "אם לתמצת את הרעיון, אנחנו מדברים על משימות שמחשבים עדיין לא מסוגלים לבצע בצורה יעילה, ושניתן לפתור אותן באמצעות שילוב של בני אדם ושל מחשבים במקום לנסות לפתור אותן רק באמצעות מחשבים. שימושים אחרים שהתעסקנו איתם הם תיוג של תמונות ברשת על-ידי בני אדם - לדוגמה, מחשבים מתקשים להחליט אם בתמונה מסוימת מופיע חתול או לא. כמובן אפשר להרחיב את זה הלאה ולגרום לאנשים להחליט אם תמונות מסוימות הן פורנוגרפיות או לא - עוד משימה שמחשבים לא מצליחים לעמוד בה בהצלחה רבה במיוחד".

מיד לאחר שסיים את לימודי הדוקטורט שלו (עד אז הוא כבר היה חתום על CAPTCHA ו-reCAPTCHA), הופצץ ואן אהן בהצעות עבודה מפתות במיוחד. מטעם מיקרוסופט, למשל, הוא קיבל את הצעת העבודה שלו היישר מביל גייטס עצמו. אבל הדוקטור הצעיר בחר להישאר באקדמיה: "תראה, הסיבה המרכזית לכך שבחרתי להישאר באקדמיה היא שאני ממש לא אוהב שיש לי בוס. בעולם האקדמי מניחים לך לנפשך. מעבר לזה, למרות הכסף הגדול שהציעו לי, התברר שכאיש אקדמיה אני יכול במקביל לפתוח חברות סטרט-אפ, הסתדרתי לא רע".

חמוש בידע שצבר, בביטחון עצמי לא מבוטל ובחוש אמיתי לצדק חברתי, עובד ואן אהן בשנתיים האחרונות על הפרויקט הנוכחי שלו, "דואלינגו" שמו.

כמצופה מטיפוס כמוהו, הרעיון שבבסיס הפרויקט שאפתני בצורה יוצאת דופן: "התחלנו עם הבעיה - איך מתרגמים את כל הרשת? אתה יודע, לפעמים אתה מתחיל עם הפתרון, אבל במקרה הזה התחלנו עם הבעיה עצמה. שאלנו את עצמנו כיצד אפשר לתרגם את הרשת כולה לכל השפות. בשלב די מוקדם הבנו שלא נוכל להשתמש במחשבים כדי לתרגם את הרשת משום שמחשבים עדיין לא יודעים לתרגם טוב מספיק. אם אתה באמת רוצה לתרגם את הרשת לכל שפה גדולה, מחשבים לא יעזרו לך. כך הבנו שאנו צריכים אנשים כדי לתרגם את כל הרשת. ואם אנחנו רוצים לעשות את זה, מטבע הדברים נזדקק להרבה מאוד אנשים".

העסקת מתרגמים אנושיים שיבצעו את העבודה תמורת שכר לא הייתה אופציה. "גם אם ניקח את האנשים המנוצלים ביותר במדינות המנוצלות ביותר בעולם, אנחנו מדברים על סכומים עצומים. לדוגמה, אם אנחנו רוצים לתרגם את כל הערכים של ויקיפדיה באנגלית לספרדית (ויקיפדיה הספרדית מהווה רק כ-20% מנפח האתר באנגלית), הגענו למסקנה שזה יעלה לנו משהו כמו 50 מיליון דולרים. מעבר לזה, אנחנו בכלל לא בטוחים שיש מספיק אנשים שירצו לעשות את העבודה הזו. כתוצאה מההבנה הזו עלתה מיד השאלה איך ניצור אצל אנשים את המוטיבציה לתרגם את הרשת. עשינו בדיקות וגילינו שיש כיום בעולם 1.2 מיליארד בני אדם שמעוניינים ללמוד שפה זרה. ואז עלה הרעיון שנוכל ללמד אותם שפה, ובו בזמן הם יעזרו לנו לתרגם את הרשת. הנתון הזה מספק לנו פוטנציאל של מספר עצום של אנשים שילמדו שפה זרה ויעזרו לנו במשימה שלנו".

הרעיון שבבסיס דואלינגו יפהפה: משתמשים מכל העולם נכנסים לאתר ולומדים בהדרגה שפה חדשה (נכון לעכשיו צרפתית, גרמנית או ספרדית). בהתחלה הם לומדים ונדרשים לתרגם מילים בסיסיות; לאחר מכן משפטים בסיסיים. בהמשך הם מתקדמים למשפטים קצרים ומשתמשים מתקדמים באמת כבר עובדים על פסקאות מורכבות. המערכת מעודדת או מתקנת את המשתמש וכל החוויה ידידותית בצורה נפלאה ומשלבת תמונות וקולות כדי לשפר את ההגייה. אבל הסוד שמאחורי המערכת הוא שבעת שכל מילה, משפט או פסקה שהמשתמשים לומדים ומתרגמים כאילו לתועלתם האישית, הם למעשה מתרגמים קטעים אמיתיים מהרשת.

כמו בפרויקטים הקודמים של ואן אהן, גם פה מדובר במאמץ משולב. את איכותה של פסקה מסוימת שתורגמה מאנגלית לספרדית על-ידי משתמש אחד קשה למערכת לאמוד. עם זאת, אם משתמשים רבים של דואלינגו תרגמו בצורה דומה להפליא את אותה פסקה, המערכת מעריכה שהם עשו עבודה טובה ורואה בה תרגום נאמן למקור.

בניסויים שעשו ואן אהן ותלמידיו במערכת, התברר שאיכות התרגום של משתמשי דואלינגו מגרמנית לאנגלית לא נפלה במאום מאיכות התרגום של מתרגם מקצועי. בהשוואה לאיכות התרגום שמספקים כיום שירותים אוטומטיים דוגמת Google Translate מדובר במהפכה. ובדואלינגו, יש לזכור, מדובר במשתמשים שלא ידעו מילה אחת בגרמנית לפני שהתחברו למערכת.

"לקח לנו זמן להגיע לרעיון הזה, ואני אפילו לא יודע להסביר לך בדיוק איך זה קרה", אומר ואן אהן ביותר משמץ של גאווה. "בהתחלה חשבנו שניצור איזשהו משחק כייפי שיגרום לאנשים לעשות את זה, אבל בשום שלב לא הצלחנו ליצור משחק שהיה מהנה מספיק בשביל לגרום לאנשים להשקיע בו מספיק זמן. בשלב הזה הבנו שצריך גישה אחרת והגענו למסקנה שאם נצליח לפתח כלי שילמד אנשים שפות אחרות, זה ייצור אצלם מוטיבציה עצומה. בסופו של דבר, זה רעיון ממש מושלם. אתה יוצר בו יחסי חליפין נכונים: מצד אחד אתה לומד בחינם ומצד שני אתה מתרגם את הרשת".

לתרגם את כל הרשת

אף שדואלינגו עדיין לא פתוח לקהל הרחב, ואן אהן מדווח שכ-400 אלף איש כבר נרשמו בו וממתינים לרגע שבו הוא ייפתח. "בינתיים הכנסנו אליו בסביבות 50 אלף איש", הוא מדווח. "אני חושב שאם נכניס את כל האנשים שנמצאים כעת ברשימת ההמתנה, נצליח ליצור מאסה קריטית יפה מאוד. זה אולי לא יאפשר לנו לתרגם את כל הרשת עדיין, אבל זה יאפשר לנו לתרגם הרבה מאוד. אם, למשל, יהיו לנו מאה אלף משתמשים, נוכל לתרגם את ויקיפדיה האנגלית לספרדית בחמישה שבועות. אם יהיו לנו מיליון משתמשים נוכל לבצע את המשימה ב-80 שעות. על מנת לתרגם את הרשת כולה, אני חושב שנזדקק לבין 5 ל-10 מיליון משתמשים פעילים. גם כמות כזו של אנשים אולי לא תספיק לנו כדי לתרגם את כל הרשת, אבל אני סבור שזה יאפשר לנו לתרגם את כל מה שלאנשים באמת אכפת ממנו ברשת".

ואן אהן מדגיש שבניגוד לתוכנות לימוד השפה המובילות בשוק, בדואלינגו המשתמשים מתרגמים תוכן אמיתי ומשום כך (בדרך כלל) מעניין. "בשלב הנוכחי, התוכן שאנשים מתרגמים הוא תוכן ללא זכויות יוצרים, שמורכב ברובו מעמודי ויקיפדיה ומבלוגים ללא זכויות יוצרים", הוא אומר ומוסיף כי המשתמשים עדיין לא התחילו לתרגם את הארכיון העצום של ה"ניו יורק טיימס", אבל התוכנית השאפתנית בהחלט נמצאת בשלב גבוה בסולם העדיפויות של הפרויקט. "ולא רק את הארכיון של הטיימס, אלא גם הרבה דברים אחרים. בסופו של דבר, אנחנו באמת רוצים לתרגם את הכול. ואם לא בזמן אמיתי ממש, אז בהחלט מאוד-מאוד מהר לאחר שהתכנים החדשים מתפרסמים".

והמודל העסקי מבוסס על כך שספק התוכן ישלם לדואלינגו עבור התרגום שיבצעו המשתמשים?

"בדיוק. אנחנו עדיין לא יודעים בדיוק כיצד נעשה את זה ויש לנו שני רעיונות. הראשון הוא שאם אתה מעלה משהו לרשת והוא אינו מוגן בזכויות יוצרים - אנחנו נתרגם אותו בחינם. עם זאת, אם התוכן מוגן בזכויות יוצרים, אנחנו נגבה ממך כסף. הרעיון השני שאנחנו משחקים איתו הוא שכל מלאכת התרגום תיעשה בחינם, אבל אם תרצה לתת עדיפות לתוכן שלך כדי שהוא יתורגם במהירות - אתה תשלם. כך או כך, אני מניח שעד סוף השנה זה יקרה ושנתחיל לגבות כסף עבור השירות".

והכוונה היא למכור את דואלינגו אחרי שהפרויקט יעלה לאוויר ויוכיח את עצמו?

"לא. הכוונה הפעם היא ליצור שינוי מהותי ברשת. כבר מכרנו את reCAPTCHA. הפעם אנחנו רוצים לעשות משהו לטווח ארוך. כיום אני משקיע 100% מהזמן שלי בדואלינגו. הדבר היחידי שאני עושה כיום מעבר ללימוד הקורסים שלי זה לעבוד על דואלינגו. כולנו בצוות - 12 איש - ממש אובססיביים לגבי הרעיון הזה".

ואתה ממשיך לראות את העתיד שלך באקדמיה?

"אני ממש לא יודע מה התשובה לשאלה הזו. אני כן יודע לומר לך שאני אוהב לעשות פרויקטים גדולים כמו דואלינגו ומה שטוב יותר לפרויקטים מהסוג הזה, זה כנראה מה שאעשה בעתיד".

ומה שאותם פרויקטים לא יהיו, ניתן להניח שגם הם יעבדו נהדר.

עוד כתבות

אילוסטרציה: טלי בוגדנובסקי / חומרים: אתרי החברות, Shutterstock

תוספים וטריקים: כך קונים ברשת חכם ובזול

היקף הרכישות של ישראלים באונליין נמצא בעלייה מתמדת, אבל רבים לא מכירים את הכלים שמאפשרים לחסוך בתשלום ● מתוספים שמשתלם להתקין בדפדפן ועד שיחה עם צ'אטבוט

שלומי ויוסי אמיר / צילום: יח''צ, עיבוד: טלי בוגדנובסקי

כאב הראש החדש של האחים אמיר בשופרסל

‎בבקשה לתובענה ייצוגית, נטען כי האחים אמיר ביקשו לרכוש את השליטה בשופרסל באופן שיפטור אותם מלשלם לציבור את מלא פרמיית השליטה, כדי לא להיקלע לתחרות על השליטה בחברה ● התובעים מעריכים את הנזק בסכום הנע בין 232-146 מיליון שקלים

עלי חמינאי נפגש עם משפחות הבכירים שחוסלו בסוריה, אפריל 2024 / צילום: ap, Office of the Iranian Supreme Leader

החישוב הגרעיני של איראן נעשה כעת מסוכן יותר

המנהיג העליון חמינאי בוודאי תוהה אם מצבה של הרפובליקה האסלאמית היה טוב יותר לו כבר היה ברשותה נשק גרעיני ● המערב אינו צריך להמעיט בצורך של חמינאי להשאיר מורשת מפוארת

סקטור השבבים יורד / צילום: Shutterstock

אנבידיה יורדת למקום החמישי בשווי שוק: מה עובר על הסקטור הלוהט בוול סטריט?

ביום אחד איבדה החברה הלוהטת של וול סטריט 10% מערכה, והיא רק דוגמה לסגמנט השלילי שאפיין את שוק השבבים כולו ● אנליסטים מנתחים את הסיבות: מנתוני מאקרו בעייתיים שמכבידים על השוק כולו ועד ל"תיקון" בתחום, שנהנה מפריחה משמעותית בשנה האחרונה

קשת שביט, חוקרת בפרויקט Candle של נאס''א / צילום: שמוליק עלמני

"ניצלתי בנס": הצעירה שהגיעה עד לפרויקט השאפתני של נאס"א

בגילה הצעיר במיוחד קשת שביט הספיקה להיות חתומה על מאמר פורץ דרך בשער מגזין Science היוקרתי, ועובדת בפרויקט של נאס"א על מחקר שעתיד לדייק את המידע שיש לנו על כוכבים ● ב-7 באוקטובר היא הייתה בביתה בקיבוץ בארי, כשמחבלים ניסו לחדור אליו: "הוא ספג הרבה כדורים, ניצלתי בנס" ● 40 עד 40: נבחרת המנהיגות הצעירה של גלובס 

במשרד המשפטים סבורים כי התיקון יעודד הגשה של תובענות ייצוגיות ראויות / אילוסטרציה: Shutterstock, Morakot Kawinchan

הסוף למסחרה? משרד המשפטים מקדם חוק שמבקש לטלטל את מוסד התובענות הייצוגיות

ברקע הסערה הציבורית בנוגע לתובענות ייצוגיות, משרד המשפטים הפיץ תזכיר חוק בנושא ● בתזכיר מוצע להגביל את מספר התובענות הייצוגיות שיכול אדם להגיש בשנה, לקבוע תקרות ברורות לגמול ושכר הטרחה, וגם לאפשר לשופטים לפסוק הוצאות משפט אישיות לחובתם של עורכי הדין במקרים של תביעות סרק

איילת שקד / צילום: שלומי יוסף

מיליון וחצי שקל על משרה חלקית: איילת שקד מציגה - כך מכינים נקניקיות גם בעסקי הנדל"ן

איילת שקד השוותה בין מינוי בכירים במערכת המשפט להכנת נקניקיות ("מי שלא עומד בחום, שלא ייכנס למטבח") ● מעניין מה הייתה אומרת על מינוי פוליטיקאית לתפקיד בכיר במגזר העסקי

בית קיץ בשבדיה. המחיר הממוצע במדינה עומד על 840 אלף שקל / צילום: Shutterstock

המטבע התרסק ומחירי הדיור ירדו: בגרמניה מעודדים לקנות בתי קיץ בשבדיה

חופשה בבית נופש נפוצה בצפון אירופה ● תמורת בקתה ללא חימום ומים זורמים, ליד אגם בצפון שבדיה, תשלמו רק 195 אלף קרונות שבדיות, כלומר כ־62 אלף שקל ● הבעלות פתוחה בפני זרים, ולא רק לתושבי האיחוד האירופי

חופית באטה, חוקרת בינה מלאכותית ב-AI21 / צילום: יונתן בלום

היא התגייסה ליחידת מודיעין, צוללת עם כרישים ועובדת בתחום הכי חם בעולם

היא שובצה במודיעין אך התעקשה להתגייס לקרבי, שימשה אלגוריתמאית במובילאיי ויש לה תואר במתמטיקה ● כיום חופית באטה היא חוקרת ב-AI21 Labs, שנתמכת בידי ענקיות הטכנולוגיה ● 40 עד 40: נבחרת המנהיגות הצעירה של גלובס

לוטרה. דגי בריכות הנוי חוסלו כמעט לחלוטין / צילום: Shutterstock

קרבות על טריטוריה, פלישות וחיסולים: משפחות הפשע של סינגפור הן בכלל לוטרות

הסגרים שהונהגו בקורונה נתנו לבעלי חיים רבים הזדמנות להשתלט על שטחים אורבניים ● בתום המגפה הם נדחקו בחזרה לשיפולי הערים, אבל לא הלוטרות בסינגפור: אלה עושות שם שמות אפילו על חשבון קרוקודילים

צילומים: יריב כ''ץ (ידיעות אחרונות), יח''צ, shutterstock, עיבוד: טלי בוגדנובסקי

המילון העכשווי של ענף השיווק, הפרסום והמדיה

גלובס מציג את המושגים, האנשים, הרשתות והחברות שמסעירים בעת הנוכחית את אנשי השיווק, הפרסום והמדיה ● מהאחים אמיר והשרים ניר ברקת ושלמה קרעי, דרך האיום הסיני משיין, ועד רשתות המזון שעשו עלייה והבינה המלאכותית שכולם מתאמצים לייצר איתה מציאות חדשה

ראש אמ''ן אהרון חליווה

מבריק ויהיר, כריזמטי ונהנתן: הכירו את אהרון חליוה, האלוף השנוי במחלוקת שפרש היום

מבריק, כריזמטי, האיש הכי מקושר במטכ"ל, רוקסטאר, ומנגד נהנתן, יהיר ויש שיאמרו בוטה • ראש אמ"ן, שהודיע היום על פרישה מצה"ל, מיהר לקחת אחריות על הכישלון, אבל מאז, עלו עוד ועוד סימני שאלה סביב התנהלותו ● נראה שגם הוא - שיודע להתנהל מול התקשורת "אפילו יותר מדובר צה"ל" - לא צפה את עוצמות המתקפה ולא מפסיק למשוך אליו אש

הבורסה בתל אביב / צילום: Shutterstock

נעילה ירוקה בתל אביב: מדד ת"א בנקים 5 זינק בכ-4%

מדד ת"א 35 קפץ ב-1.1% ות"א 90 הוסיף לערכו כ-1.4% ● הדולר חצה רף של 3.8 שקלים ונחלש חזרה בסוף השבוע ● S&P הודיעו על הורדת הדירוג של ישראל מרמה של AA- ל-A+ ● הסיכויים להפחתת ריבית בישראל וארה"ב הולכים ומתרחקים ● בעוד שבישראל יתקיים שבוע מסחר מקוצר לרגל החג, בוול סטריט יפרסמו דוחות כמה מענקיות הטכנולוגיה המשתייכות לשבע המופלאות

נשיא ארה''ב, ג'ו ביידן / צילום: ap, Mark Schiefelbein

איזה נשק ישראל תקנה בתקציב של 14 מיליארד דולר?

הסיוע האמריקאי לישראל שאושר בבית הנבחרים עומד על כ-26 מיליארד דולר, מתוכו 14 מיליארד דולר לרכש ביטחוני ● מה יהיה ניתן לרכוש איתו, מה האינטרס האמריקאי הרחב, ועד כמה תהנה ממנו התעשייה הישראלית? ● גלובס עושה סדר

גילון בק, ריצ'רד פרנסיס, אייל פסו / צילום: תמר מצפי, אלעד מלכה, Gauzy

בדרך לנאסד"ק: הישראלית שמאמינה שהשוק הזה יגיע ל-124 מיליארד דולר ב-2028

במדור השבועי של גלובס בדקנו מה קרה למניות הישראליות הבולטות בוול סטריט במהלך הסופ"ש ● גאוזי, יצרנית הזכוכית החכמה מתל אביב בדרך לנאסד"ק ● טבע משנה את אופן דיווח התוצאות שלה על בסיס גיאוגרפי ● וסנסטאר, חברת הפורטפוליו של קרן פימי הציגה תוצאות חלשות לרבעון

המספרים מאחורי האופציות לעובדים בחברות ההייטק הישראליות נחשפים / צילום: Shutterstock, Lucky-photographer

נעילה חיובית בוול סטריט; טסלה איבדה כ-3%, אנבידיה עלתה בכ-4.3%

בורסות ארה"ב נצבעו ירוק ● מדד ההנג סנג זינק בכ-1.7% ● טסלה ירדה לאחר שפורסם כי הורידה את מחירי הרכבים החשמליים שלה ברחבי העולם; המניה ירדה מתחילת השנה בכ-40% ● ירידות במחירי הנפט והזהב ● האג"ח הממשלתיות בארה"ב נסחרו בעליות

אפל. החברה המבטיחה של 2024? / צילום: Shutterstock

"תהיה הפתעת השנה": זו המניה המומלצת ביותר של בנק אוף אמריקה

המכירות נופלות, היא לא נמצאת בשוק הבינה המלאכותית ומתחילת השנה איבדה מניית אפל 10.7% ● למרות הכל, בבנק אוף אמריקה מאמינים שענקית הטכנולוגיה צפויה להתאושש בחצי השני של השנה

קרית שמונה / צילום: אייל מרגולין

בערב החג: רצף אזעקות בגליל העליון והמערבי

מוקדם יותר: מטרה אווירית יורטה באזור קריית שמונה ● יותר מחצי שנה אחרי 7 באוקטובר - ראש אמ"ן חליוה פורש מצה"ל • "לעד אשא איתי את הכאב האיום של המלחמה", כתב לרמטכ"ל • אלוף פיקוד מרכז יסיים את תפקידו בקיץ ● צה"ל פתח במבצע סיכול במסדרון החיץ ברצועה: מחבלים חוסלו, תשתיות טרור אותרו והושמדו • דיווח בניו יורק טיימס: ישראל תכננה מתקפה גדולה יותר נגד איראן, גם בטהראן - אך היא נבלמה ברגע האחרון ● כל העדכונים

ג'רמי סוארד (משמאל) ועידו גונן, מייסדים משותפים Exodigo / צילום: Exodigo

עשרות יוצאי מודיעין ויחידות הנדסה התקבצו לסטארט-אפ אחד, כדי לפצח את הסוד

שירות מיפוי תת הקרקע של הסטארט-אפ הישראלי יכול לעלות מאות אלפי דולרים, אך הלקוחות מפחדים יותר מהלא נודע: "תמיד יש הפתעות באדמה" • אחרי שגלגלה מיליוני דולרים מהרנטגן התת קרקעי, אקסודיגו חולמת גם על התרחבות למיפוי אסטרואידים וירחים • וגם: איך מתפקדים כש-75% מעובדי החברה מגויסים למילואים, ולמה מדובר בעצם בשוק בלתי מוגבל? ● הסטארט-אפים המבטיחים

טסלה 3 / צילום: יח''צ

טסלה מורידה את מחירי הדגמים בישראל. כמה הם יעלו?

כחלק ממהלך גלובלי של החברה, שהחל בסוף השבוע בארצות הברית, טסלה מוזילה את המחירים של דגמי טסלה 3 וטסלה S ● במקביל, סימנים ראשונים לכך שהקיצוץ הגלובלי בכוח האדם עליו הכריזה טסלה החודש, מגיע גם לישראל