אם ה-AI כל כך חכמה, למה היא לא מבינה עברית

מהפכת הבינה המלאכותית

הבינה המלאכותית היוצרת (Generative AI) מסתמנת כמהפכה הטכנולוגית החשובה ביותר של השנים האחרונות, כשהיא עשויה לשנות מהיסוד את הדרך שבה אנחנו עובדים, לומדים, יוצרים וצורכים תוכן. גלובס צולל לענף הבינה המלאכותית בסדרת כתבות על הטכנולוגיה שעד לא מזמן נשמעה עתידנית: היכן יוכלו האלגוריתמים ובני האדם לשתף פעולה, מה תהיה ההשפעה של ה-AI על הכלכלה וחיי היומיום ומהן הסכנות שכדאי להתגונן מפניהן

האפשרויות הגלומות בכלי הבינה המלאכותית נראות גדולות עד כדי כך שבעתיד הם יוכלו להחליף עובדים בתחומים רבים. עם זאת, הכלים שמצליחים לספק תוצר טוב שחוסך זמן ומשפר את הפרודוקטיביות, עובדים ברובם באנגלית או סינית, ולא בעברית. אפילו חברות ישראליות שמפתחות כלים כאלו מכוונות לשוק העולמי ומפתחות כלים בשפה אחרת. למה הבינה המלאכותית לא מבינה עברית מספיק טוב ומה צריך לקרות כדי שהטכנולוגיה שמשנה את העולם תעשה עלייה?

עוד בסדרהלכל הכתבות

הצג עוד

הבעיות: מעט מידע, מעט תמריצים

פרופ' אביב גאון, מבית ספר הארי רדזינר למשפטים באוניברסיטת רייכמן, אומר בשיחה עם גלובס: "למה בינה מלאכותית אינה פועלת בעברית? זו נקודה כואבת. הרי איך מערכות בינה מלאכותית עובדות? באמצעות מסדי נתונים שהמערכת מאומנת עליהם. היא מאומנת על מערכי מידע שכוללים גם עברית, ולכן ישנם כלים עם יכולות בעברית. הבעיה היא שהמערכות הללו לומדות על בסיס מידע קיים או על בסיס אינטראקציות ומעורבות. משמע, שפות עם מעט דוברים, כמה מיליונים בודדים, יהיו חלשות יותר משפות כמו אנגלית או סינית".

אז איך המודל אמור להשתפר? "ככל שיהיו יותר ויותר שאילתות, המודלים ילכו ויתקדמו. נכון לעכשיו יש פחות מערכי מידע בעברית ולכן איכות הדאטה נמוכה", מסביר פרופ' גאון.

מחלקת ייעוץ וחקיקה (אזרחי) במשרד המשפטים בראשות עו"ד כרמית יוליס פרסמה לאחרונה חוות דעת לגבי היקף הזכויות של מיזמי למידת מכונה לשימוש בתכנים מוגנים בזכויות יוצרים. חוות הדעת נכתבה על ידי עו"ד ד"ר ליטל הלמן, בליווי עו"ד הווארד פולינר, ראש אשכול קניין רוחני. למעשה, בעבודת המחקר שלהם התייחסו גם לחסמים שיש במדינת ישראל, מה שיכול להצביע על המצב הקיים.

ד"ר הלמן מפרטת בשיחה עם גלובס את החסמים שהם זיהו: "ראשית, קיים חסם מידע. דוברי השפה מעטים, ואין מספיק מידע כדי להתבסס עליו. שנית, יש חסם משפטי. להבדיל מאנגלית, שבה יש המון מידע שאפשר להתבסס עליו שאינו מוגן בזכויות יוצרים, בעברית אין לנו את האפשרות הזו. בעניין זה, חוות הדעת שלנו קובעת שמותר להשתמש במידע שמוגן בזכויות יוצרים למעט מצבים מיוחדים - כמו ניסיון חיקוי לסופר או למספק שירות".

החסם השלישי והאחרון הוא חסם התמריצים: "חברות ישראליות רוצות לעשות אקזיט או לגייס כסף, ולכן אין סיבה שהן יעבדו על מודלי שפה בעברית, אלא יעדיפו ללכת לאנגלית או לסינית".

הנה דוגמה מהשטח. לחברת AI21 Labs הישראלית יש שני מוצרים, אחד לכתיבה (שמציע פיצ'רים כמו שכתוב הטקסט והצעת חלופות), ואחד לקריאה (שמסכם טקסט ארוך לקטעים קצרים). אורי גושן, מנכ"ל משותף בחברה, מודה שגם במוצרים שלהם יש בעיה בשפה העברית. "מדובר בתכונה אינהרנטית של מודלי שפה ובדרך בה מאמנים אותם", הוא מסביר. "לוקחים את כל הקורפוס האינטרנטי (מאגר טקסטים המשמש לניתוחים ומחקר, נ"ט) ונותנים למערכת לחזות את המילה או רצף המילים הבאות. אנחנו חברה מסחרית, כך שרוב השוק בשפות אחרות ובלבד בשפה האנגלית".

תפקיד הממשלה: מי יביא את המהפכה לישראל

אם המגזר העסקי לא יביא את הבינה המלאכותית לדבר עברית, איך המהפכה הטכנולוגית תגיע לישראל במלואה? פרופ' גאון טוען שהממשלה חייבת להידרש לבעיה: "יש כאן כשל שוק. משרדי הממשלה נדרשים להשקיע כאן בצורה שתפצה על המוטיבציה החסרה של החברות, כדי שיהיה אפשר להנגיש את המוצרים לשוק הישראלי. למדינה צריך להיות אינטרס לסייע כאן בין אם בתקצוב, בתמריצים או בהשמשת מידע".

הפתרונות: המדינה לצד ענקיות הטק

עד היום, רוב פתרונות הבינה המלאכותית בעברית הגיעו מהשוק הפרטי, וליתר דיוק מענקיות הטק. אורי אליאבייב, יועץ בתחום ה־AI ומייסד קהילת MDLI, מבהיר כי חזון הבינה המלאכותית בעברית רחוק מלהתממש בקרוב. עם זאת, "אנחנו רואים בשנים האחרונות פיתוחים נוספים שכן כוללים עברית. החל ממודלי תרגום גדולים שתומכים ב־200 שפות ועברית היא אחת מהן, ועד ליכולות תמלול טקסט שהציגו ענקיות הטכנולוגיה. חברות אלה, באמצעות המשאבים הגדולים שלהן, מכניסות תמיכה בעברית 'על הדרך', בזכות כוח החישוב העצום שיש להן והדאטה שנגיש להן".

בתקופה האחרונה החלה גם המדינה לקדם מהלכים. בתוכנית הלאומית לבינה מלאכותית יש פרק משמעותי שעוסק בנושאי עיבוד שפה טבעית בעברית וערבית. התוכנית פועלת במסגרת פורום תל"מ (הפורום לתשתיות לאומיות למחקר ולפיתוח) המשלב את רשות החדשנות, מפא"ת במשרד הביטחון, אגף התקציבים במשרד האוצר וגופים נוספים.

זיו קציר, מנהל תוכנית הבינה המלאכותית הלאומית, מתאר כי "בתוכנית יש פרק שלם שעוסק ב־NLP (עיבוד שפה טבעית), שאוסף דאטה ומאמן את המודלים בכל אחת משתי השפות. הקו המנחה הוא שהממשלה תייצר תשתיות, את מודל השפה שכולל תמצות, הקשר, סנטימנט ועוד, ואז חברות מסחריות יוכלו להשתמש בו".

למעשה, התוכנית בונה כיום את המודל הסטטיסטי הראשוני לשפות העברית והערבית, ממנו יוכלו חברות לייצר תוכניות הקראה, ניווט, שירות לקוחות או כתיבת עבודות אקדמיות. קציר מוסיף: "אנחנו עושים משהו שהוא קרוב לקוד פתוח, יהיה זמין לכל מי שרוצה לבוא ולפתח".

ההשקעה במיזם עומדת על 180 מיליון שקלים, ולדברי קציר, "אנחנו מאמינים שנראה תוצרים בערך בתוך שנה. לצד המטרה לתמרץ את התעשייה, אנחנו רוצים להנגיש מאגרי מידע ייחודיים שיש בישראל, למשל בתחום הרפואה, שכיום אי אפשר להשתמש בהם כי הם בעברית".

מיזם נוסף מקדם מערך הדיגיטל הלאומי, שמנסה לסייע לחברות שרוצות מידע שאפשר להשתמש בו כדי לאמן את המודלים. החודש פרסם מערך הדיגיטל כי בשילוב האקדמיה ללשון העברית, הם משחררים קורפוס מתויג של עברית בת־זמננו בקוד פתוח ונגיש לתעשייה ולמחקר. גם כאן, המטרה היא לייצר תשתית לצורך אימון מודלים בעברית.

לתשומת לבכם: מערכת גלובס חותרת לשיח מגוון, ענייני ומכבד בהתאם ל קוד האתי המופיע בדו"ח האמון לפיו אנו פועלים. ביטויי אלימות, גזענות, הסתה או כל שיח בלתי הולם אחר מסוננים בצורה אוטומטית ולא יפורסמו באתר.

כלי חדש לניהול זמן:

מה שמעניין אותך. מתי שמענייין אותך

אודות גלובס

פרוייקטים ושיתופי פעולה