הנקראות ביותר

הארכיון של האינטרנט: מי מתעד את כל המידע שנמצא ברשת?

העידן הדיגיטלי ומהפכת המידע הפכו את תיעוד ההיסטוריה לכמעט בלתי אפשרי ● Wayback Machine, גוף ללא מטרות רווח, הרים את הכפפה ומתעד את מה שקורה ברשת ● המנהל מארק גראהם: "תיעוד הדברים מאפשר לבחון אותם בתוך הקשר רחב ולעשות השוואה וחקירה של המידע ששונה"

מארק גרהם / צילום: חנן כהן הספריה הלאומית
מארק גרהם / צילום: חנן כהן הספריה הלאומית

כשאנחנו חושבים על המושגים "ספריה" או "ארכיון", לרוב יעלו בראשנו תמונות של מדפים צפופים שמכילים ספרים המסודרים בקפידה לפי סדר אלפביתי. מעט מוזר לחשוב על ארכיון שמתעד דפי אינטרנט דווקא, אבל ככל שהעולם ומשאבי המידע הופכים דיגיטליים יותר, שימור התרבות וההיסטוריה מצריך היערכות שונה, ופחות מסורתית. "בעשורים האחרונים אנחנו מבטאים יותר ויותר סיפורים אינדיבידואליים וקולקטיביים בפורמט דיגיטלי. תיעוד הסיפורים האלה, שמתבטאים בצורות של חדשות, עבודות אקדמיות, אומנותיות וספרותיות הוא חשוב כדי שנזכור את העבר שלנו ונלמד ממנו", כך מסביר מארק גראהם את החשיבות בארכוב האינטרנט.

גראהם הוא מנהל ה-Wayback Machine, ארכיון דיגיטלי עצום שמחזיק בתיעוד של 327 מיליארד דפי אינטרנט. "בניגוד למה שחושבים, הרשת היא פלטפורמה לא יציבה", מוסיף גראהם, "ואתרים נמצאים בסכנה להיעלם. יש מחקרים לפיהם תוחלת החיים הממוצעת של עמוד ברשת היא 90 יום".

גראהם הגיע לראשונה לישראל בשבוע שעבר, במסגרת הכנס "שימור תרבות דיגיטלית במציאות משתנה", הכנס הראשון בארץ שעסק בנושא ארכוב האינטרנט. הכנס, שנערך בספריה הלאומית בירושלים, הוא תוצר של שיתוף פעולה בין הספריה, שעוסקת בשימור וארכוב האינטרנט הישראלי, למעבדה הפתוחה למדיה ומידע באוניברסיטה הפתוחה.

"סגירה של עמוד אינטרנט יכולה לקרות ממגוון סיבות. חברה שנסגרת, בעיה טכנית או מתקפה זדונית. משאבים דיגיטליים הם מאוד שבריריים כי הם לרוב נמצאים רק בשרת אחד, לעומת ספרים שיוצרו בהרבה עותקים שפוזרו. אני כל הזמן מקבל אימיילים מאנשים שאיבדו את הבלוג שלהם, כי החברה שאירחה אותו נסגרה. לאחרונה עיתון ה-gothamist נסגר, ועיתונאים שכתבו בו ואפילו לא שמרו גיבוי של הסיפורים שלהם כתבו לנו" אומר גראהם.

ה-Wayback Machine הוא חלק מארכיון האינטרנט (archive.org), גוף ללא מטרות רווח מסן פרנסיסקו שהוקם לפני 21 שנים, כשהאינטרנט היה בחיתוליו. מדובר בספריה דיגיטלית שמציעה גישה חינמית למגוון משאבים במטרה לאפשר גישה אוניברסלית לכלל הידע האנושי. מלבד דפי האינטרנט, יש בארכיון 11 מיליון ספרים וטקסטים, 4 מיליון הקלטות אודיו (מתוכם 160,000 מהופעות חיות) לצד תכניות טלוויזיה, תוכנות ועוד. "יש אצלנו, בין היתר, משחקים ישנים כמו הנסיך הפרסי שאנחנו מאפשרים להריץ על דפדפן עדכני", מספר גראהם.

כך נראו האתרים הישראלים בעבר: אתר חבר'ה הוקם ב-2001, שלוש שנים לפני פייסבוק, כרשת חברתית ליצירת קשר עם חברים מהעבר

שמונה פטה בייט של חומר כל שנה

את ארכיון האינטרנט הקים ברוסטר קייל. החברה יושבת היום במבנה שהיה פעם כנסייה. הסיפור מאחורי הסידור המוזר הזה מגיע מיום אחד בו קייל נסע והבחין במבנה הספריה שעומד למכירה. מראה המבנה, עתיק עם עמודים בסגנון יווני, תאם כמעט במדויק ללוגו החברה, שעוצב כעשור לפני אותה הנסיעה, "הוא הבין שזה חייב להיות הבית שלנו" סיפר גראהם.

ואם נחזור רגע לסיפורים שהוזכרו קודם על בלוגרים שבורי לב שהבלוג הלא מגובה שלהם נעלם, בארכיון האינטרנט דואגים שלהם זה לא יקרה. "אנחנו מוסיפים כשמונה פטה בייט של חומר לאתר כל שנה, ארבעה מתוכם אתרי אינטרנט, ואנחנו פרנואידים" אומר גראהם, "אז יש לנו כוננים קשיחים עם אותה אינפורמציה לפחות בשני בניינים פיזיים שונים כך שאם משהו קורה לאחד, עדיין יהיה תיעוד זמין בבניין אחר".

משהו כזה קרה לכם פעם?

"לא, אבל רוב הספריות שאנשים הקימו נהרסו. אם היו בונים ספריה נוספת במקום אחר כגיבוי לספריה באלכסנדריה אולי עד היום היו בידינו כתבים נוספים של אריסטו".

בתפקידו הקודם גראהם היה סגן נשיא בחטיבת הדיגיטל של NBC ולפני כן עבד ביוזמות אינטרנט חברתיות רבות. למרות ניסיונו העשיר, לגראהם אין תואר רשמי במדעי המחשב. הוא מגדיר עצמו כאוטודידקט, ששירת ארבע שנים בחיל האוויר האמריקאי מיד כשסיים את לימודיו בתיכון, שם עבד עם מחשבים ולמד את התחום במסגרת השירות. הוא אמנם למד מדעי המחשב בקולג' קהילתי אבל לא סיים את אחד הקורסים שנדרשו כדי לקבל את התואר. כשחזר כדי לסיים אותו כעבור עשר שנים, כבר לא היה רשאי לקבל תואר במדעי המחשב, ולכן קיבל תואר בלימודים כלליים.

גראהם מסביר כי תיעוד ושימור דפי אינטרנט חשוב גם בשל היכולת "למחוק דברים מההיסטוריה או להעלות מידע שקרי, למשל במהלך מתקפת סייבר. רק אם יש תיעוד של הדברים אפשר לבחון אותם בתוך הקשר רחב, ולעשות השוואות וחקירה של המידע ששונה". הוא מספק מספר דוגמאות למקרים כאלה שסוקרו בהרחבה, ביניהם כשיוטיוב שהסירה סרטונים שמקורם בצפון קוריאה, וממשלת צפון קוריאה עצמה שהסירה כתבות על דודו של קים ג'ונג און שלכאורה הוצא להורג.

הצלחתם לשמדר דברים שנמחקו אחר-כך?

"יש הרבה מקרים בהם מידע היה זמין, ולמחרת כבר לא, אבל עדיין זמין דרך ווייבאק מאשין. בארה"ב אחרי הבחירות האחרונות שונתה אינפורמציה בנוגע למשבר האקלים באתרים ממשלתיים. החומר הזה בהרבה מקרים עדיין זמין בווייבאק מאשין".

תוחלת החיים הקצרה של דפי אינטרנט מביאה לכך שלינקים רבים שבעבר הובילו לתוכן, היום הם לינקים "שבורים" שהעמוד לא נמצא ברשת כשמנסים לגשת אליהם. במסגרת שיתוף פעולה עם קרן ויקימדיה, וויבאק מאשין עברה על אתרי ויקיפדיה ב-14 שפות. "מצאנו שיותר מארבעה מיליון לינקים להפניות חיצוניות היו שבורים. כתבנו תוכנה שערכה את הלינקים השבורים שהיה לנו תיעוד של התוכן שלהם, כך שיצביעו לתיעוד בוויבאק מאשין במקום. לרוב העבודה שלנו בתחום נעשית בויקיפדיה כי זו פלטפורמה שאנחנו יכולים לערוך".

כך נראו האתרים הישראלים בעבר: אתר "גלובס" - השנים עשו לנו טוב. אתר גלובס הוקם ב-1995

בעידן הרשתות החברתיות זה הופך להיות קשה

יש עכשיו שיטפון של מידע. איך מחליטים מה חשוב לתעד?

"אנחנו מנסים לא לעשות את זה. אנחנו ארכיונאים, ואנחנו לא יכולים להיות מומחים בכל תחום כדי להחליט מה חשוב. אז אנחנו מנסים לשמר כמה שאפשר ולהניח הנחות כלליות לגבי הדרך בה עושים את זה. באופן כללי אנחנו שמים דגש על חדשות, ממשלות, ארגונים, בלוגים אישיים. אנחנו מנסים לתעד כמה שאפשר, וברור שבעידן הרשתות החברתיות זה הופך להיות קשה כי נפח התוכן שנוצר בהן עולה על היכולות שלנו לכסות אותו בתור ארגון קטן יחסית ללא מטרות רווח".

אתם עובדים גם עם רשתות חברתיות?

"כמובן. אתגר נוסף, מעבר לכמות המידע, הוא שמה שאני רואה בעמוד הפייסבוק שלי שונה ממה שאת רואה. ומה שאני רואה עכשיו שונה ממה שאראה בעוד שעה. זה מוגדר לפי אלגוריתמים שאין לנו מודעות או שליטה עליהם. אז אנחנו מנסים לזהות חשבונות שזמינים ציבורית, ויחסית חשובים ולהתמקד בהם".

איך פועל תהליך הארכוב?

"יש בוט שעושה את זה. הוא נקרא web crawler או ספיידר. הוא מתחיל מרשימת אתרים שנקראת רשימת סיד שמכסה את האתרים הפופולריים בתחום מסוים. הקרולר מארכב אותם ותוך כדי מוסיף את כל הלינקים שיש בעמודים האלה לרשימה. לאחר מכן הוא עושה את אותו תהליך עם הלינקים החדשים שהוסיף. בתיאוריה אפשר להמשיך ככה לנצח, ולפעמים זה באמת ממשיך מספר חודשים. יש אתרים שמשתנים כל הזמן, כמו cnn.com, ואז נארכב אותם כל פעם מחדש".

כך נראו האתרים הישראלים בעבר: אתר הכנסת - קיים מם1996, בין היתר היה בו ניסיון שכשל לשתף את הציבור בהצעות חקיקה ודיונים

בכמה שפות אתם מארכבים?

"רובן, אם לא כולן. יש לנו שותפים בכל העולם כדי להבטיח שאנחנו עושים עבודה טובה בשימור מידע לא רק באנגלית. כרגע אני מתעניין גם בזיהוי מידע שנמצא בסכנת מחיקה, וקשה לצפות את זה מראש. אחרי ניסיון ההפיכה שנכשל בטורקיה, יותר ממאה ארגוני תקשורת נסגרו, ובמקרים רבים הארכיונים שלהם כבר לא זמינים. אם יכולתי לחזור בזמן אולי הייתי עושה עבודה טובה יותר בלדאוג לרישום המידע הזה".

איך העובדה שרוב המידע הפך לדיגיטלי תשפיע על היסטוריונים בעתיד?

"כל פעם שיש התקדמות טכנולוגית, זה אתגר. יהיה קשה בעתיד למומחים להבחין בין האמת והשקר. אנחנו רואים את זה כבר היום בתופעת הפייק ניוז. הדרך להתמודד עם זה היא מצד אחד לצלול לנושא מסוים ולהבין אותו בשלמותו, כמו במיקרוסקופ, ומצד שני לצאת החוצה למאקרו ולראות אותו כחלק מסיפור גדול יותר. לצורך זה חייבת להיות גישה למשאבים ולכן אנחנו מביאים את המשאבים".

ייתכן שגם חלק מהדברים שאתם מארכבים הם פייק ניוז. אתם מנסים לאמת מידע?

"לא. אנחנו מנסים לספק הקשר כדי שאנשים יידעו מאיפה כל דבר הגיע ויוכלו לבדוק את המקורות בעצמם".

היו המון שינויים ואתרים מלפני עשור נראים היום עתיקים ממש. אתה חושש שזה עשוי לגרום לאנשים לאבד בהם עניין?

"אולי, אבל זה בסדר. אנחנו לא מנסים להפוך את ההיסטוריה לפופולרית. אם לא משמרים משהו, אין את המותרות לעשות בחירה אם רוצים לחזור ולהסתכל עליו. ואנחנו לא הגוף היחיד שעושה את זה. להיות בכנס כזה ולתקשר עם ארכיונאים של הרשת מפורטוגל, צרפת, הולנד ומקומות אחרים, וכמובן מישראל, זה מעודד".

ת"ז - מארק גראהם

■ גיל: 58
■ תפקיד: מנהל Wayback Machine בארגון ארכיון האינטרנט
■ סטטוס משפחתי: נשוי
■ תפקידים קודמים: סגן נשיא בחטיבת הדיגיטל של NBC , ממייסדי שירות הנטוורקינג לאקטיביסטים Peace.net, מנהל טכנולוגיה ופיתוח עסקי ב- The Well
■ עוד משהו: מגדל חתולה שחורה בשם לונה

רוצה להשאר מעודכן/ת בנושא גלובס טק?
אני מאשר/ת קבלת תוכן פירסומי מגלובס
נושאים נוספים בהם תוכל/י להתעדכן
נדל"ן
נתוני מסחר
שוק ההון
נתח שוק
דין וחשבון
הסיפורים הגדולים של השבוע
מטבעות דיגיטליים
✓ הרישום בוצע בהצלחה!
עקבו אחרינו ברשתות