גלובס - עיתון העסקים של ישראלאתר נגיש

אם ה-AI כל כך חכמה, למה היא לא מבינה עברית

הכלים החדשים כבר יכולים לעשות כמעט הכול - משליחת מייל, דרך כתיבה של קורות חיים ועד דוקטורט ● אז למה כל כך קשה לעברת אותם? ● מהפכת הבינה המלאכותית

מתי הבינה המלאכותית תלמד עברית? / עיצוב: טלי בוגדנובסקי
מתי הבינה המלאכותית תלמד עברית? / עיצוב: טלי בוגדנובסקי

 

האפשרויות הגלומות בכלי הבינה המלאכותית נראות גדולות עד כדי כך שבעתיד הם יוכלו להחליף עובדים בתחומים רבים. עם זאת, הכלים שמצליחים לספק תוצר טוב שחוסך זמן ומשפר את הפרודוקטיביות, עובדים ברובם באנגלית או סינית, ולא בעברית. אפילו חברות ישראליות שמפתחות כלים כאלו מכוונות לשוק העולמי ומפתחות כלים בשפה אחרת. למה הבינה המלאכותית לא מבינה עברית מספיק טוב ומה צריך לקרות כדי שהטכנולוגיה שמשנה את העולם תעשה עלייה?

 

הבעיות: מעט מידע, מעט תמריצים

פרופ' אביב גאון, מבית ספר הארי רדזינר למשפטים באוניברסיטת רייכמן, אומר בשיחה עם גלובס: "למה בינה מלאכותית אינה פועלת בעברית? זו נקודה כואבת. הרי איך מערכות בינה מלאכותית עובדות? באמצעות מסדי נתונים שהמערכת מאומנת עליהם. היא מאומנת על מערכי מידע שכוללים גם עברית, ולכן ישנם כלים עם יכולות בעברית. הבעיה היא שהמערכות הללו לומדות על בסיס מידע קיים או על בסיס אינטראקציות ומעורבות. משמע, שפות עם מעט דוברים, כמה מיליונים בודדים, יהיו חלשות יותר משפות כמו אנגלית או סינית".

אז איך המודל אמור להשתפר? "ככל שיהיו יותר ויותר שאילתות, המודלים ילכו ויתקדמו. נכון לעכשיו יש פחות מערכי מידע בעברית ולכן איכות הדאטה נמוכה", מסביר פרופ' גאון.

 

מחלקת ייעוץ וחקיקה (אזרחי) במשרד המשפטים בראשות עו"ד כרמית יוליס פרסמה לאחרונה חוות דעת לגבי היקף הזכויות של מיזמי למידת מכונה לשימוש בתכנים מוגנים בזכויות יוצרים. חוות הדעת נכתבה על ידי עו"ד ד"ר ליטל הלמן, בליווי עו"ד הווארד פולינר, ראש אשכול קניין רוחני. למעשה, בעבודת המחקר שלהם התייחסו גם לחסמים שיש במדינת ישראל, מה שיכול להצביע על המצב הקיים.

ד"ר הלמן מפרטת בשיחה עם גלובס את החסמים שהם זיהו: "ראשית, קיים חסם מידע. דוברי השפה מעטים, ואין מספיק מידע כדי להתבסס עליו. שנית, יש חסם משפטי. להבדיל מאנגלית, שבה יש המון מידע שאפשר להתבסס עליו שאינו מוגן בזכויות יוצרים, בעברית אין לנו את האפשרות הזו. בעניין זה, חוות הדעת שלנו קובעת שמותר להשתמש במידע שמוגן בזכויות יוצרים למעט מצבים מיוחדים - כמו ניסיון חיקוי לסופר או למספק שירות".

החסם השלישי והאחרון הוא חסם התמריצים: "חברות ישראליות רוצות לעשות אקזיט או לגייס כסף, ולכן אין סיבה שהן יעבדו על מודלי שפה בעברית, אלא יעדיפו ללכת לאנגלית או לסינית".

הנה דוגמה מהשטח. לחברת AI21 Labs הישראלית יש שני מוצרים, אחד לכתיבה (שמציע פיצ'רים כמו שכתוב הטקסט והצעת חלופות), ואחד לקריאה (שמסכם טקסט ארוך לקטעים קצרים). אורי גושן, מנכ"ל משותף בחברה, מודה שגם במוצרים שלהם יש בעיה בשפה העברית. "מדובר בתכונה אינהרנטית של מודלי שפה ובדרך בה מאמנים אותם", הוא מסביר. "לוקחים את כל הקורפוס האינטרנטי (מאגר טקסטים המשמש לניתוחים ומחקר, נ"ט) ונותנים למערכת לחזות את המילה או רצף המילים הבאות. אנחנו חברה מסחרית, כך שרוב השוק בשפות אחרות ובלבד בשפה האנגלית".

תפקיד הממשלה: מי יביא את המהפכה לישראל

אם המגזר העסקי לא יביא את הבינה המלאכותית לדבר עברית, איך המהפכה הטכנולוגית תגיע לישראל במלואה? פרופ' גאון טוען שהממשלה חייבת להידרש לבעיה: "יש כאן כשל שוק. משרדי הממשלה נדרשים להשקיע כאן בצורה שתפצה על המוטיבציה החסרה של החברות, כדי שיהיה אפשר להנגיש את המוצרים לשוק הישראלי. למדינה צריך להיות אינטרס לסייע כאן בין אם בתקצוב, בתמריצים או בהשמשת מידע".

הפתרונות: המדינה לצד ענקיות הטק

עד היום, רוב פתרונות הבינה המלאכותית בעברית הגיעו מהשוק הפרטי, וליתר דיוק מענקיות הטק. אורי אליאבייב, יועץ בתחום ה־AI ומייסד קהילת MDLI, מבהיר כי חזון הבינה המלאכותית בעברית רחוק מלהתממש בקרוב. עם זאת, "אנחנו רואים בשנים האחרונות פיתוחים נוספים שכן כוללים עברית. החל ממודלי תרגום גדולים שתומכים ב־200 שפות ועברית היא אחת מהן, ועד ליכולות תמלול טקסט שהציגו ענקיות הטכנולוגיה. חברות אלה, באמצעות המשאבים הגדולים שלהן, מכניסות תמיכה בעברית 'על הדרך', בזכות כוח החישוב העצום שיש להן והדאטה שנגיש להן".

בתקופה האחרונה החלה גם המדינה לקדם מהלכים. בתוכנית הלאומית לבינה מלאכותית יש פרק משמעותי שעוסק בנושאי עיבוד שפה טבעית בעברית וערבית. התוכנית פועלת במסגרת פורום תל"מ (הפורום לתשתיות לאומיות למחקר ולפיתוח) המשלב את רשות החדשנות, מפא"ת במשרד הביטחון, אגף התקציבים במשרד האוצר וגופים נוספים.

זיו קציר, מנהל תוכנית הבינה המלאכותית הלאומית, מתאר כי "בתוכנית יש פרק שלם שעוסק ב־NLP (עיבוד שפה טבעית), שאוסף דאטה ומאמן את המודלים בכל אחת משתי השפות. הקו המנחה הוא שהממשלה תייצר תשתיות, את מודל השפה שכולל תמצות, הקשר, סנטימנט ועוד, ואז חברות מסחריות יוכלו להשתמש בו".

למעשה, התוכנית בונה כיום את המודל הסטטיסטי הראשוני לשפות העברית והערבית, ממנו יוכלו חברות לייצר תוכניות הקראה, ניווט, שירות לקוחות או כתיבת עבודות אקדמיות. קציר מוסיף: "אנחנו עושים משהו שהוא קרוב לקוד פתוח, יהיה זמין לכל מי שרוצה לבוא ולפתח".

ההשקעה במיזם עומדת על 180 מיליון שקלים, ולדברי קציר, "אנחנו מאמינים שנראה תוצרים בערך בתוך שנה. לצד המטרה לתמרץ את התעשייה, אנחנו רוצים להנגיש מאגרי מידע ייחודיים שיש בישראל, למשל בתחום הרפואה, שכיום אי אפשר להשתמש בהם כי הם בעברית".

מיזם נוסף מקדם מערך הדיגיטל הלאומי, שמנסה לסייע לחברות שרוצות מידע שאפשר להשתמש בו כדי לאמן את המודלים. החודש פרסם מערך הדיגיטל כי בשילוב האקדמיה ללשון העברית, הם משחררים קורפוס מתויג של עברית בת־זמננו בקוד פתוח ונגיש לתעשייה ולמחקר. גם כאן, המטרה היא לייצר תשתית לצורך אימון מודלים בעברית.

עוד כתבות

אילוסטרציה: Shutterstock

גבולות אחריות המתווך לספק מידע ללקוחו

האם מתווך יכול להסתפק בנתונים שנמסרו לו על ידי המוכרים, או שעליו לקיים בדיקות עצמאיות לגבי מצב הנכס?

ישראל לשם וקרן כהן חזון / צילום: רמי זרנגר

"לידה אני תלמיד בכיתה א": עורך הדין הבכיר והיזמת המצליחה חושפים את השותפות

20 שנה שישראל (רלי) לשם וקרן כהן חזון הולכים יחד, וחברת תורפז תעשיות שהקימו, שמפתחת ומייצרת תמציות טעם וריח, כבר שווה 1.7 מיליארד שקל וחולשת על 17 חברות ● הוא בעל אחד ממשרדי עורכי הדין הגדולים בארץ אבל מרגיש לידה "כמו בכיתה א'" ● היא תעשיינית בנשמה אבל זוקפת לו הרבה מההצלחה ● זה ראיון זוגי ראשון

הבורסה בטוקיו, יפן / צילום: Shutterstock, Ned Snowman

עליות באסיה; הין ירד לשפל חדש

הניקיי עולה ב-0.9% ● הין בשפל של 34 שנים, חצה את רף ה-160 ין לדולר ● אילון מאסק בסין וטסלה קיבלה שם בשורות טובות ● שטף הדוחות בוול סטריט ימשך גם השבוע, אמזוןן תדווח בשלישי, אפל בחמישי ● לפי הוול סטריט ג'ורנל, יועצי דונלד טראמפ מנסחים הצעות חוק להגבלת עצמאות הבנק המרכזי ● ברביעי החלטת הריבית של הפדרל ריזרב, בשישי דוח התעסוקה החודשי

אברהם אסף / צילום: תמר מצפי

אברהם אסף, מייסד ובעל השליטה בקבוצת אמנת, נפטר בגיל 83

אסף הפך לבעל השליטה באמנת לאחר שרק לפני ארבעה ימים רכש את ההחזקות של שותפו לייסוד החברה, שמואל בר אור, (22.17%) תמורת כ-21.7 מיליון שקל ● מי שצפוי להמשיך אותו הוא בנו, סגן יו"ר החברה, ערן אסף

ארנונה / צילום: Shutterstock, Andrey_Popov

המועצה השתחררה מהסכמה על הנחה בארנונה על אף שהנסיבות לא השתנו

העליון קבע כי המועצה האזורית עמק הירדן תוכל להשתחרר מהסכם על חיוב ארנונה מופחת, על אף שלא השתנו הנסיבות ● האם יש בכך לכדי שינוי עמדת העליון בנושא?

ג'נסן הואנג, מנכ''ל אנבידיה / צילום: Shutterstock

החברה הלוהטת בעולם יצאה למסע רכישות בישראל. ויש גם חדשות רעות

ענקית השבבים אנבידיה משלימה בימים אלה רכישה של שתיים מהחברות המובילות בפיתוח מוצרי בינה מלאכותית בישראל ● בה בעת, מחקר חדש של סטנדפורד מסמן מגמה מדאיגה: קצב ההגירה השלילית של מוחות בתחום ה־AI מישראל שני רק להודו ● אז למה המומחים אופטימיים?

הטריוויה השבועית / צילום: Shutterstock

עושים סדר לפסח? כך תדעו מה צריך לשמור ומה לזרוק, לפי תורתה של מארי קונדו

מה משמעות המילה פרעה ומהן "ערי מסכנות" המוזכרות בהגדה, אילו מדינות יזכו לחבילות סיוע נוסף לישראל ובאילו דגלים מופיע סמל היין־יאנג? ● הטריוויה השבועית

חזירי בר בחיפה / צילום: Ronen Zvulun

כך מתכנן ראש העיר להתמודד עם התופעה שהכי מטרידה את החיפאים

סוגיית החזירים מעסיקה את תושבי העיר מזה יותר מעשור, ובעוד שראש העיר החדש־ישן אמר שיטפל בה ביד נחושה, דרכי ההתמודדות המתגבשים לא עבדו בעבר ● פרופ' אורי שייניס, מומחה לחקר מינים פולשים, מסביר: "לנסות להתמודד עם החזירים ללא מחקר, זה כמו לנסות להתמודד עם הקורונה ללא מחקר"

נועם זילברשטיין, מנכ''ל HP Indigo / צילום: רמי זרנגר

מהמפעל של טנק מרכבה לניהול אלפי עובדים ברחבי העולם

כשהציעו לנועם זילברשטיין להצטרף לחברת הדפוס הדיגיטלי HP אינדיגו הוא לא ממש התלהב ● אך ביקור אחד במפעלי החברה שינה את הכל: "ידעתי שיש פה הזדמנות אדירה למהפכה שעוד לא קרתה"

אילוסטרציה: טלי בוגדנובסקי (נוצר בעזרת adobe FireFly)

מחקרים מגלים: המאבק בדמנציה מתחיל בשנות ה-40 שלכם

נקיטת פעולה לשיפור בריאות המוח בשלב מוקדם עשויה לעזור לכם להישאר חדים עם תהליך ההזדקנות ● "המאמצים להתמקד בדמנציה בקרב אנשים מבוגרים כשלו במידה רבה", אומר פרופסור לפסיכולוגיה ומדעי המוח מאוניברסיטת דיוק, ומוסיף כי בשל כך המדענים מחפשים רמזים במוח בשלבי חיים מוקדמים יותר

אילוסטרציה: טלי בוגדנובסקי, צילומים: AP (Daniel Cole, Toby Melville)

״הטיסות יוצאות״, מכריז סונאק, ומוכן לגרש את המהגרים

מנהיג השמאל הקיצוני בצרפת "יודע את ההבדל בין יהודי לבין צלף של צה"ל" ● טראמפ מרשה לקונגרס לסייע לאוקראינה ● "הטיסות יוצאות", מכריז ראש ממשלת בריטניה, ומוכן לגרש מהגרים ● טסלה מאבדת את הדמוקרטים ● חמישה אירועים מהשבוע שהיה בעולם

השר לביטחון לאומי, איתמר בן גביר / צילום: מארק ישראל סלם - הג'רוזלם פוסט

השר בן גביר נפגע בתאונת דרכים: מצבו קל-בינוני

בן גביר הגיע לזירת הפיגוע ברמלה, התראיין וכשעזב את המקום - היה מעורב בתאונת דרכים • רכבו של השר התהפך והוא פונה לטיפול רפואי • לפי עד ראייה: רכב השר חצה באור אדום • ארבעה בני אדם נוספים נפצעו בתאונה, מצבם קל-בינוני

החלפת בתים. ''להיכנס לחופשה שונה מאורח החיים שלך'' / צילום: Shutterstock

לישון במיטה של מישהו אחר: איך אפשר לצאת לחופשה בחינם

בעלי נכסים ואפילו שוכרים מחליפים דירות ומוצאים את עצמם בחופשה חלומית בבית של מישהו אחר ● מה היתרונות ומה הסכנות, ולמה צריך לשים לב

הדולר מתחזק בחדות מול השקל

הדולר בשיא של חמישה חודשים אל מול השקל. מהן הסיבות?

השקל נחלש בחדות הן מול הדולר והן מול האירו ● הכלכלנים הבכירים מסבירים כי מעבר למתיחות הגיאופוליטית מול איראן ולצד ההסלמה בצפון, גם גורמים בינלאומיים תורמים להיחלשות המטבע המקומי

צילומים: שלומי יוסף, עמית שאבי (ידיעות אחרונות), עיבוד: גלובס

2,800 שקל לשעה, תיקים מתוקשרים ותיבת פנדורה: החיים החדשים של השופט שבמחלוקת

הדיל שהוביל למינויו לנשיא בית המשפט המחוזי בתל אביב שב לאחרונה לרדוף את השופט בדימוס איתן אורנשטיין ● גלובס צולל לנבכי הקריירה החדשה שאימץ לעצמו כבורר–על, לחמ"ל שהקים כדי להתמודד עם ההקלטות המביכות ולשאלה המרחפת מעל לכל - איך תשפיע הפרשה על עתידו המקצועי?

ג'ו ביידן ובנימין נתניהו / צילום: צילומים: AP, עיבוד: טלי בוגדנובסקי

הבית הלבן: ביידן חזר על עמדתו הברורה בנוגע לרפיח

חייל צה"ל נפצע קל מירי שני טילי נ"ט אמש למנרה • תיעוד מתקיפות צה"ל ברצועת עזה ביממה האחרונה: מחבלים חמושים חוסלו, אתרי שיגור הושמדו • היערכות בישראל להוצאת צווי מעצר בין-לאומיים כבר השבוע נגד נתניהו, גלנט והלוי • עשרות מפגינים, בהם קרובי חטופים, חסמו אמש את איילון צפון והדליקו כתובת אש עם הכיתוב "חלאס" ● עדכונים בולטים 

חניה על מדרכה. נושא שנוי במחלוקת / צילום: הלית ינאי

מה הוביל לקפיצה במספרי תו החניה לנכים?

מאז שרוככו התנאים לקבלת תו נכה, נרשמה עלייה של 55% במספר התווים שהונפקו ● השינוי בחוק שאפשר לנכים לקבל חניה צמודה לבית הקפיץ גם את מספר החניות, ובתל אביב הוא הוכפל ● יו"ר עמותת נגישות ישראל, יובל וגנר: "התכלית של מתן תווי נכה פשוט לא מקוימת"

עמית גריידי, הממונה על חוק המכר במשרד השיכון / צילום: משרד הבינוי והשיכון

קניתם דירה מיזם ומכרתם לפני האכלוס? אולי תהיו אחראיים לאיחורים במסירה

נייר עמדה שפרסם הממונה על חוק המכר מחריף את התנאים עבור מי שרוכשים דירה מקבלן ומעוניינים למכור לפני האכלוס

פעילות יחידת מגלן במערב חאן יונס / צילום: דובר צה''ל

בכיר בחמאס ל-AFP: אין בעיות מהותיות עם ההצעה לעסקה שהוצגה לנו


דיווח: מצרים הזמינה בכירים ישראלים לקהיר, במקביל להגעת משלחת חמאס • הבית הלבן: הנשיא ביידן שוחח עם ראש הממשלה נתניהו • היערכות בישראל להוצאת צווי מעצר בין-לאומיים כבר השבוע נגד נתניהו, גלנט והלוי, שר החוץ הורה להיערך ל"גל אנטישמי" • שרים איימו בהפלת הממשלה, גורם מדיני: עסקה לא תפגע במטרות המלחמה • עדכונים בולטים

וול סטריט / צילום: Shutterstock

שבוע המסחר הטוב מנובמבר: נאסד"ק קפץ ב-2%

מניית גוגל זינקה בכ-10%● אינטל איבדה כ-9% ● מדד ניקיי הוסיף 0.8%, מדד שנחאי התחזק ב-1.2%, מדד שנזן עלה ב-2.2% וקוספי הוסיף 1% ● נעילות ירוקות גם בבורסות אירופה ● ה-PCE - מדד האינפלציה המרכזי של הפד - עלה ב-2.8% בחודש מרץ, גבוה מהצפוי