האלגוריתמים כובשים את מדעי הרוח

איך מנתחים אוסף של מאות אלפי גלויות של ארץ ישראל מהמאה ה-19, כמה אנשים ידעו קרוא וכתוב בתקופות עתיקות והאם משפט אייכמן היה אירוע ראווה או אירוע משפטי? • אלו כמה מהשאלות שחוקרים בתחומי מדעי הרוח בישראל מתמודדים איתן בעזרת כלים של בינה מלאכותית 

 

האלגוריתמים כובשים את מדעי הרוח / אילוסטרציה: Shutterstock
האלגוריתמים כובשים את מדעי הרוח / אילוסטרציה: Shutterstock

בקרוב, לא תצטרכו לדאוג שהילד שהוקסם מהיסטוריה או מפילוסופיה יישאר "בלי מקצוע". גם אנשי הפקולטה למדעי הרוח, מסטודנטים ועד חוקרים, יוכלו להכריז על עצמם כעל "אנשי הייטק" ולהעניק לעצמם תארים סקסיים כמו "מומחי ניתוח תוכן". כן, גם מדעי הרוח הופכים לדיגיטליים.

כבר ב-2010 פורסם מאמר בכתב העת Science, המתאר ניתוח סמנטי של 4% מספרות העולם שהייתה אז במאגר Google Books. המחקר הוצג כמפגן של יכולות ופוטנציאל לניתוח ספרות דיגיטלי, וחלק ממסקנותיו הוצגו גם בכתבה שפורסמה ב"ניו יורק טיימס" באותה תקופה. בין הממצאים, לדוגמה, הספרות מזכירה הרבה יותר פעמים את ג'ימי קרטר, נשיא ארה"ב לשעבר, מאשר את מרלין מונרו ומיקי מאוס, לכאורה דמויות הרבה יותר מפורסמות בעולם, ובאנגלית מוזכרת כיכר טיאננמן לעתים קרובות הרבה יותר מאשר בסינית. החוקרים גם הבחינו שהמילה Grilling החליפה מסוף שנות ה-90 בהדרגה את המילה Roasting.

"אנחנו רוצים לתת לכל בן 8 כלי לחקור את התרבות האנושית", התגאה אז אחד ממפתחי הכלי הזה, פרופ' ארז ליברמן איידן, היום חוקר גנטיקה באופן ממוחשב בבית הספר לרפואה של אוניברסיטת ביילור.

אלא שהמחקר הזה בוצע על ידי אנשי מחשבים, וגם אם המסקנות שלהם היו נכונות, לא היה להן הקשר, אומרת ד"ר רננה קידר, שיזמה לאחרונה את הקמתו של המרכז למדעי רוח דיגיטליים באוניברסיטה העברית. "לא היה שם חוקר מתחום מדעי הרוח ששאל שאלה מדעית מעניינת, ולא היה חוקר שיפענח את התשובה".

איך נראה מחקר שיש לו הקשר? "אם, לדוגמה, אנחנו רוצים לדעת אם ספרים נכתבו על ידי נשים בשמות בדויים של גברים", אומרת קידר, "אנחנו יכולים להזין את המערכת בספרים שכתבו גברים ובספרים שאנחנו כבר יודעים שכתבו נשים, והמערכת תסרוק את כל שאר הספרים שיש לנו במאגר מתקופה מסוימת, והיא תגיד לי 'אני חושבת שאת ספר מס' 501 כתבה אישה'". אבל אחרי שהמערכת הצביעה על הספר ה"חשוד", קידר עדיין תרצה לגייס פילולוג שיחקור אותו באמצעים הקלאסיים של התחום.

"לכן אנחנו לא מדברים על מערכות שיחליפו חוקרים במדעי הרוח. מערכות לא יודעות כלום אם לא מסבירים להן מה לחפש, ואת המסקנות שלהן מישהו צריך לפענח ולתקף".

ד''ר רננה קידר / צילום: ברונו שרביט, באדיבות האוניברסיטה העברית
 ד''ר רננה קידר / צילום: ברונו שרביט, באדיבות האוניברסיטה העברית

"אנשי מדעי הרוח הם הכי מבריקים באוניברסיטה"

קידר, שעסקה בתחום מדעי הרוח הדיגיטליים במסגרת הדוקטורט שלה באוניברסיטת סטנפורד, גייסה לצורך הקמת מרכז רב-תחומי ללימוד הכלים האלה 3 מיליון שקל מהות"ת ו-1 מיליון שקל מהאוניברסיטה לתקופה של חמש שנים, בתקווה שבהמשך הוא יוכל להחזיק את עצמו מהמענקים. 

"זיהינו באוניברסיטה 30 חוקרים במדעי הרוח שעוסקים בפרויקטים שיש להם היבט דיגיטלי", היא מספרת. "הם כרגע ממציאים כל אחד את הגלגל, ורצינו לאפשר להם ללמוד זה מזה ולהשתמש כל אחד בכלים שפותחו עבור מחקרו של האחר".

המרכז פונה גם לסטודנטים. זה כמה שנים מוצעים לתלמידי התואר הראשון במדעי הרוח קורסי תכנות הרלוונטיים למחקר, אבל בקרוב תחל באוניברסיטה תוכנית חדשה, לסטודנטים לתארים שני ושלישי, שבה יוכלו החוקרים להתמקצע בכלים של מדעי הרוח הדיגיטליים.

"המוטיבציה", אומרת קידר, "היא קודם כול להכשיר חוקרים ולצייד אותם בכלים לביצוע מחקרים חדשניים בתחום מדעי הרוח. כדי להיות חוקר ביקורתי בעולם שלנו, חייבים להכיר את הכלים האלה, כי כך יבוצעו לפחות חלק מהמחקרים בעתיד. אני חייבת להכשיר חוקרים שלא ייבהלו מגרפים, מפונקציות. לכן הם לומדים קורס תכנות ומעבדת תכנות למדעי הרוח, ושיטות מחקר חישוביות וקורס מתמטיקה, שאנחנו לא קוראים לו כך, כדי לא להבריח אותם. רק כך הם יוכלו לשמור את האצבע על הדופק של התחום, גם אם לא ירצו לעסוק בסופו של דבר במחקר דיגיטלי בעצמם".

כך תוכלו למשוך תלמידים מבריקים שאולי חוששים היום להשקיע בתואר מתקדם אבל להישאר בסוף בלי מקצוע מכניס אם לא תימצא להם משרת חוקר בכיר באקדמיה?
"אנחנו לא מכון להכשרת מנתחי מידע לתעשיית ההייטק, אם זו השאלה. אבל אם כך יותר קל למשוך אותם לתחום, אז הרווחנו כולנו".

מי שעושים את המעבר הזה בהצלחה כבר שנים הם הבלשנים. אחוזים לא זניחים מהם, בעיקר אלה ששילבו מלכתחילה את התארים בבלשנות עם תארים בתכנות, מצאו בסופו של דבר עבודה בחברות הייטק שמנסות ללמד מחשבים לקרוא ולהתבטא בשפה של בני אדם.

אני מדמיינת עכשיו דוקטורנט בהיסטוריה ופילוסופיה אומר לעצמו, "אלוהים, המתמטיקה רדפה אותי עד כאן". האם אין כבר בכל העולם תחום שבו ניתן להבריק בלי הכישורים האלה?
"אנשי מדעי הרוח הם הכי מבריקים באוניברסיטה. חוקר שלמד גרמנית או יוונית עתיקה יודע ללמוד שפות, ותכנות או מתמטיקה כשמלמדים אותם היטב הם פשוט עוד שפה. הם לא צריכים להפוך לאלגוריתמיקאים, אבל בהחלט יכולים ללמוד להשתמש בכלים האלה. היסטוריונים בעבר נלחצו ממעבד תמלילים או מצגת ממוחשבת. הם התגברו. בכל מקרה, מדובר כרגע בתוכנית שפתוחה לשמונה סטודנטים עם מלגות, כך ששום דבר הוא לא חובה".

לזהות את כתב היד על הלוח

בינתיים, אומרת קידר, ההיענות מגיעה דווקא מהחוקרים המבוגרים בפקולטה. "הם מאוד נלהבים לעשות משהו חדש, אחרי שנים שהם חוקרים באותו אופן. זה מרענן מבחינתם, והרעיונות שלהם נהדרים. בנוסף, הם יודעים שאם הם לא יעבירו את הארכיונים שלהם למאגרים דיגיטליים, יכול להיות שאף אחד לא יתחזק אותם כשהם יפרשו. כדי להצדיק את ההשקעה בדיגיטציה של הארכיון, צריך להציג סיבה מחקרית".

כרגע המחקרים משלבים בדרך כלל חוקרים מתחומי המתמטיקה, המחשבים וההנדסה לצד החוקרים מתחומי מדעי הרוח. בעתיד, מקווה קידר, חוקרי מדעי הרוח יוכלו להוביל ולשלוט במחקרים מסוג זה בעצמם, אבל לא על חשבון העבודה הבין-תחומית אלא בנוסף לה.

קידר עצמה השתמשה בכלי בינה מלאכותית במחקר שלה על משפט אייכמן (ראו הרחבה במסגרת). לצדו, גויסו למרכז החדש שני פרויקטים נוספים. "פרופ' דני שרירא קיבל תרומה של מאות אלפי, אולי כמה מיליוני גלויות של ארץ ישראל מסוף המאה ה-19 ותחילת המאה ה-20", מספרת קידר, "והשאלה היא מה עושים עם אוסף גלויות כזה. הטקסט חשוב, גם התמונה חשובה. הצמדנו לו עוזר מחקר חישובי ומלווה מחקר מהמכון, שהחלו לבנות מאגר של הגלויות ולחשוב איך לנתח אותן. האם באמצעות מערכת עיבוד ראייה שתזהה מקומות או אלמנטים בתמונה (לדוגמה, חמור, איכר, מפעל)?".

הפרויקט השני הוא של פרופ' מיכל מרמורשטיין, שראיינו בעבר על המחקר שלה שבו ניתחה 170 אלף הודעות וואטסאפ. במחקר חדש, היא מעוניינת לנתח שיחות טלפון. וזה כבר עולם אחר מבחינת השקעת הזמן. אם ניתן להשתמש במערכת ממוחשבת שתעזור לה להצביע על אלמנטים מעניינים במיוחד להקשבה, הזמן יכול להתקצר משמעותית.

דוגמה נוספת למחקר היסטוריה דיגיטלי הוא זה שערך המתמטיקאי ד"ר ברק סובר. הוא חוקר את רמת האוריינות בתקופת המקרא. איך זה מסתדר? סובר השתמש בכלים דיגיטליים כדי לשפר את היכולת לקרוא לוחות עתיקים, ואחר כך פיתח אלגוריתם שמנתח את תמונת כתב היד, כדי לזהות אם שני לוחות נכתבו על ידי אותו כותב או על ידי כותבים שונים. ככל שמזהים יותר כותבים, המסקנה היא שהכתיבה והקריאה היו נפוצות יותר. ממצאי המחקר אכן מעידים שידיעת קרוא וכתוב הייתה נפוצה בתקופה המקרא יותר מכפי שנהוג לחשוב, לפחות בשדרת האדמיניסטרציה הצבאית ובקרב הקצונה הזוטרה בממלכת יהודה. בימים אלה הוא עוסק במיפוי ההתפתחות של האוריינות בימי בית ראשון ושני.

קידר מספרת על מחקר נוסף שהיא עורכת ובו היא מבקשת ממערכת ממוחשבת לנתח עדויות של ניצולי שואה, כדי לגלות עדויות שנראה שיש בהן השמטות, כלומר, תקופות מסוימות או היבטים מסוימים שהעדים נמנעים מלדבר עליהם. "ברגע שאדע איך נראית עדות שואה, אוכל לזהות את העדויות שחורגות מהנרטיב, וזה מעניין. אולי נגלה, למשל, שמסתתרת שם תקיפה מינית. כמעט אין עדויות על תקיפות מיניות בשואה, ואנחנו מניחים שהיו כאלה, כי באירועי זוועה המונית כמעט תמיד יש, ואולי כך נבין היכן זה מסתתר".

קידר מפליגה על כנפי הדמיון כשהיא מדברת על האפשרויות המחקריות בעתיד. "אנחנו יכולים להריץ במכונה את כל הספרות העברית, ולראות מה הנושאים שעולים לדיון בזמנים שונים, או על ידי סופרים מסוגים שונים, או איך נבנות בדרך כלל עלילות בתקופה מסוימת. מחקר כזה יכול לכלול גם ספרים שהם לא קאנון ואולי לא רבים קראו. נוכל גם לראות מה באמת כתוב בספרים מהעבר לעומת מה שנדמה לנו שאנחנו זוכרים מהם. במקרה כזה, דווקא לא אבקש מהאלגוריתם לתת משקל רב יותר לספרים ה'חשובים', כי אותם חקרנו ממילא בכלים הקלאסיים של הספרות".

שאלות של תקציב ואתיקה

עם התפתחות התחום עלו וצפו גם שאלות אתיות וסביבתיות. אחת מהן היא השאלה אם ריחוק של החוקר מהטקסטים עלול לגרום לו לפספס הטיות שהאלגוריתם הממוחשב הכניס לניתוח. הרי בני אדם הם אלה שבונים את האלגוריתם, והוא לומד כיצד לנתח את התוכן החדש על פי ניתוח התוכן הישן, הספוג גם הוא בהטיות.

"מה שאני אוהבת במערכת הממוחשבת היא שלפעמים היא משהה את ההטיות שלנו כבני אדם, ומפתיעה אותנו בהארה של פינות מידע שאנחנו רגילים להזניח", אומרת קידר, אבל, היא אומרת, כדי לוודא שהמערכת נשארת בקשר עם המציאות, דרוש הממשק בין החוקר לבין המכונה.

סוגיה נוספת נוגעת לתחזוק של מאגרי המידע. הדבר דורש תקציב רב, וקיים חשש שזה ירחיב את הפערים בין חוקרים בעולם, באופן שיעמיק גם את האי-שוויון בין הקולות המיוצגים באקדמיה. האם היא שוב תייצג אותם קולות שכבר נשמעים זה שנים? כמובן, הטיה וחלוקה לא שוויונית של המשאבים קיימות גם במדעי הרוח הקלאסיים. ספריות, תקציבי מסע, משרות במוסדות הנחשבים - כל אלה אינם מחולקים באופן שווה. אך החשש הוא שתקציבי הענק הדרושים למחשוב מאגרי מידע עלולים להעמיק את הבעיה.

שאלת הקיימות נוגעת לבעיה נוספת - מי יתחזק את מאגר המידע הענק אחרי שהתקציב למחקר ספציפי נגמר? השאלה הזאת רלוונטית גם לארכיונים פיזיים, אולם התקווה היא שהארכיון הדיגיטלי יוכל לקבל כל העת ובקלות תוספת של חומרים, עדכונים של החומרים הקיימים ושאילתות מחוקרים נוספים, ומישהו צריך לממן זאת. פתרונות אפשריים, מעבר למימון המחקר המוכר באמצעות מענקים ותרומות, הם מימון של המדינה לארכיונים המשמעותיים בעיניה, תמיכה של חברות עם שירותי מחשוב, או תחזוקה של ארכיון על ידי הקהילה שהמידע הרלוונטי בארכיון משמעותי לה. לכל אחת מהאפשרויות הללו יש השלכות אתיות שיצטרכו להתמודד איתן.

המחקר שמגלה איך עושים צדק אחרי מעשי זוועות

המחקר של ד"ר רננה קידר עוסק באופן שבו נעשה צדק אחרי מעשים נפשעים רחבי היקף (Mass atrocity). לדוגמה, משפטי נירנברג, ועדות האמת והפיוס בדרום אפריקה ולהבדיל - משפט אייכמן. קידר בוחנת לא רק את האירוע המשפטי אלא מגוון מסמכים היסטוריים החושפים את האופן שבו האנושות חשבה על צדק במקרים כאלה, למשל יצירות בדיוניות כמו הסרט "ממזרים חסרי כבוד" של קוונטין טרנטינו, שבו מוצגת נקמה פיקטיבית בנאצים. "כך אנחנו יודעים איזה צדק העולם רוצה, אפילו אם הוא לא משיג אותו", היא אומרת.

"כשהתחלתי את המחקר, היו מוסכמים על חוקרי התחום שני דברים: האחד, שמשפט אייכמן שינה את האופן שבו חושבים על השואה בישראל. לפני כן ניצולים לא דיברו על מה שעברו ואפילו התביישו. למשפט היה תפקיד משמעותי בהבניית זיכרון השואה כמו שאנחנו מכירים אותו היום, על כל מה שנובע מכך, פוליטית וחברתית - הסיפור הציוני של משואה לגבורה, שמגיע לנו להיות פה, שארץ ישראל היא הנקמה שלנו.

"אבל היה גם ידוע שמבחינה משפטית אייכמן לא היה תקדים לפסיקות אחרות. אם מסתכלים על פסיקות מנירנברג, מבית המשפט הבינלאומי בהאג, משפט אייכמן שימש שם כתקדים רק לעתים נדירות".

"נעשה צדק עם משפט אייכמן"

קידר שאלה אם גם השופטים עצמם התייחסו למשפט בעיקר כאל אירוע ראווה או שמבחינתם הם ניהלו משפט. "ברור לי שמנקודת המבט של מדינת ישראל, המשפט הזה היה אירוע דידקטי שבו שמענו לראשונה מגוף ראשון בקולם של הניצולים, מה זו בכלל שואה. אבל האם אפשר גם לעשות לו ריקליימינג כאירוע משפטי?".

לשם כך השתמשה קידר בכלים הדיגיטליים. "השתמשתי בכלי שנקרא מידול נושאים, שאומר לי מהם הנושאים העיקריים שעולים בכל עדות, ומה הנושאים העיקריים שעולם במשפט כולו", אומרת קידר. 

היא גילתה שבעוד שניצולי השואה דיברו על ההשמדה ועל האנשים שאיבדו, בפסק הדין אין לכך אזכור. "היו שם שני ענני נושאים שלאחד אפשר לקרוא 'השמדה', עם מילים כמו גז, אושוויץ, צריף. זו הייתה השפה שבה השתמשו הניצולים בעדויותיהם. הנושא השני היה קבלת ההחלטות של אייכמן, עם אזכורים רבים לחברים אחרים בהנהגה הנאצית, ושימוש בשפה בירוקרטית. אייכמן עצמו השתמש בשפה הזו. ומה בפסק הדין?".

המחשב הראה שהשופטים השתמשו בשפה הבירוקרטית. "השופטים כן פועלים להראות אשמה. הם כן ביקשו משפט צדק, ולא משפט ראווה. בעיניי, בעקבות המחקר שלנו, נעשה צדק עם משפט אייכמן. השופטים כן עשו שם את עבודתם נאמנה".

מה מספר יותר טוב את הסיפור של משפט אייכמן? ענן מילים ורשת מילים, או העדות האחת של ק.צטניק שנשארה בזיכרון? גם וגם כמובן, אומרת קידר. "אי אפשר לצלול לתוך מחקר כזה, בלי להבין מה אני רואה. זה התפקיד שלי לפרש את זה. אבל האלגוריתמים מאפשרים לי גם לעבד כמות גדולה של מידע, וגם להשהות את הדעות הקדומות שיש לי. עכשיו המחשב אומר לי - תסתכלי על זה מכיוון אחר. סטטיסטית, דווקא העדויות 78 ו-315 הן הכי מייצגות. וזה מידע שאפשר לקבל תוך כמה דקות".

"במלחמת אוקראינה יש המון דאטה"

קידר יוצאת מהמקרה הפרטי של משפט אייכמן לרעיון הכללי שלפיו עדויות במשפטים אחרי אירועי זוועה בסדר גודל נרחב משמשות לכמה מטרות במקביל: משפטיות, היסטוריות ופסיכולוגיות.

משפט אייכמן / צילום: מילי ג'ון- לע''מ
 משפט אייכמן / צילום: מילי ג'ון- לע''מ

"לא רחוק היום שבו נראה משפטים דומים באוקראינה, ואני שואלת את עצמי, מה קורה לשופטים אחרי שהם שומעים כל כך הרבה עדויות. האם הם נשחקים, מתכהים, מתעייפים? וזו שאלה שלא רלוונטית רק לשופטים, אלא גם לנו כחברה שמחויבת לזיכרון - איך אנחנו יכולים לתת משמעות ומשקל לכל עדות. ואם לא נשמע אותן בתוך המשפט, כי הן לא נחוצות כדי להוכיח אשמה, אז היכן העולם ישמע אותן? בעתיד, כשכבר לא נוכל לשמוע עדויות בגוף ראשון, מה נאמר לילדים שלנו - תחפשו בגוגל 'עדות'? באילו כלים ננגיש אותן?

"ודווקא משפט אייכמן יכול להיזכר כתקדים בהקשר הזה, כמשפט שמאפשר לעדים להישמע גם לצורך תחושת הצדק האישית שלהם, אבל בלי שהעדויות מונעות דיון משפטי מהותי בפסק הדין".

במלחמת רוסיה באוקראינה, היא אומרת, כבר היום מוקדשת מחשבה לעדויות. "זו מלחמה עם המון דאטה. בטוויטר, בפייסבוק, אנשים מספרים את הסיפור שלהם. נפתחה גם תיבת מייל לאיסוף עדויות. כמובן אין לזה ערך ראייתי. אבל ברמת הביג דאטה יש ערך לדפוסים שמתגלים".

ד"ר רננה קידר
אישי: בת 44, אמא לשלושה, בעלת תואר ראשון במשפטים ומדעי המדינה מאוניברסיטת תל אביב ודוקטורט בספרות השוואתית מאוניברסיטת סטנפורד

מקצועי: אחרי התואר במשפטים עבדה כפרקליטה כמה שנים במחלקת הבג"צים בפרקליטות המדינה, טרם התקבלה לדוקטורט. היום משמשת ראש המרכז למדעי הרוח הדיגיטליים בפקולטה למדעי הרוח באוניברסיטה העברית, כמינוי משותף של הפקולטות למשפטים ומדעי הרוח