הנקראות ביותר

טובעים במספרים: הפנים האנושיות מאחורי המידע העצום ברשת

"משחר האנושות ועד שנת 2003 ייצר המין האנושי חמישה אקסה-בייט של מידע, כעת אותה כמות של מידע נוצרת כל יומיים", כך פתח מנכ"ל גוגל את דבריו בוועידת טכונומי 2010 ■ עכשיו מתברר שהוא היה שמרני

דיויד מנינגר EMC / צילום: יחצ
דיויד מנינגר EMC / צילום: יחצ

בהערכות זהירות, בשנת 2011 ייצרנו את אותה כמות נתונים ביום אחד וב-2012 עברנו את הרף עוד לפני שהקיץ התחיל.

את מספר האפסים העומדים מאחורי ה-1, במספר הבלתי-נתפס אקסה-בייט נאלצתי לבדוק בויקיפדיה, מורה נבוכים לדור הדיגיטלי. מתברר שמדובר בלא פחות מ-18 אפסים, כלומר מיליון-מיליוני-מגהבייט! או מיליארד גיגה-בייט! כך זה נראה: 1,000,000,000,000,000,000. רק בין הפוליטיקאים אפשר לספור יותר אפסים.

אך אפילו לאחר שראיתי את שרשרת האפסים הזאת רשומה במלואה, עדיין היה לי קשה לדמיין באמת את המימדים המציאותיים של המספר הזה. ננסה שוב: הנתון הזה שקול לכתיבת ביוגרפיה אישית של כל אדם בעולם, מתינוק במדבר קלהרי עד פנסיונר קשיש בפלורידה, בהיקף של 500 עמודי A4 ליום! ערימת הספרים הזאת מתרוממת במהירות של 6,000 קמ"ש וראשה מגיע לירח תוך 3 ימים, ולמאדים תוך 13 חודש (אם כיוונו את הזמן כך שכוכב האדום קרוב ביותר לכדור הארץ). אלה בערך הזמנים הדרושים לטיסת חללית מפה לשם!

ואם אתם כבר לא צרכנים של ביוגרפיות, תחשבו על סרטים תיעודיים. לגרסה הבסיסית ביותר של מדיית DVD נפח אחסון של 4.7 ג'יגה בייט (שקול לסרט באורך שעתיים ורבע). דמיינו לעצמכם שכל שבוע בשנה שעברה ייצרנו כמות מידע השווה לתכולת תקליטור DVD לכול אדם על הכדור הכחול שלנו. הערמה הזאת מתרוממת במהירות של 50 קמ"ש בלבד, יותר מכפליים מהשיא בריצת מרתון! הרבה. נורא הרבה.

פנינים באפר וקווארקים במאיץ

תגידו, רוב המידע הזה הוא זבל דיגיטלי, מידע שאין סיבה לשמר אותו ובוודאי שלא לנהוג בו בכבוד הראוי למשאב נדיר. אבל זו גישה קצת מתנשאת ולגמרי לא מדוייקת. תמהיל המידע מורכב מאינספור קטגוריות, חלקן מוכרות לכולנו כגון מדיה (תמונות, מוזיקה ווידאו), טקטס (ספרות, תוכן ברשת) או פירוט השיחות שערכנו במכשיר הסלולר.

חשוב? תלוי למי ומה הסיבה להתעניינות. בדרך כלל יתברר לכם שבתוך הזבל אפשר למצוא לא מעט פנינים והרבה תובנות על טבע האדם ומה מניע אותו לאינטראקציה עם אחרים. וחלקן אזוטריות למדי, עם קבוצת משתמשים שאי אפשר להאשים אותם בשחיה ב-Mainstream, כגון יומני תנועת הרשת בשרתי פייסבוק או זרם הנתונים הפיזיקליים שנוצרים מ-600 מיליון התנגשויות של פרוטונים בשנייה במאיץ החלקיקים הגדול ב-CERN.

אך על אף השוני המהותי בין סוגי המידע השונים, ישנם מספר מכנים משותפים לשימוש שנעשה במידע. הוא "נכתב" או "נרשם", נאגר בזמן אמת ומאורכב לזמן ארוך, מאונדקס לצורך גישה מהירה, מוצג באמצעים חזותיים שונים ולרוב משמש להפקת תובנות רבות ערך, קבלת החלטות או התראות בזמן אמת.

הטכנולוגיה הדיגיטלית עצמה היא המכנה המשותף הגדול ביותר. בזכותה אין תלות בין טכנולוגיית השימור למשמעות התוכן. תמונה של תינוקת בפייסבוק עשויה מאותם ביטים ובייטים ששומרים על הדיסק את הטקסט של ספר פילוסופי, שירטוטי ההרכבה של מטוס קרב או צלילי מופע מוזיקלי בפארק. כשמדברים על Big Data מתיחסים לכל הביטים והבייטים, בהנחה ששום מידע שמישהו טרח לשמר אינו חסר משמעות לחלוטין. כי אותו גוש פחמן שנראה לאחד כדלק בלתי מתאים להסקת כירת הבישול, לאחרים הוא היהלום שבכתר.

ביג מה?

בטרם נמשיך, הנה עוד מספר גדול מאוד בשבילכם: זטה-בייט, יורשו המיידי של האקסה בייט בסולם המכפלות. זטה-בייט אחד הוא שווה ערך לאלף אקסה-בייט של מידע, דהיינו, אחד ועוד 21 אפסים אחריו. התחזיות הן שבשנת 2020 נייצר כ-90 זטה-בייט, שהם כמעט 250 אקסה-בייט ליום. כך נוכל להגיע אל מחוץ לגלקסיה גם אם נשב על ערמת שבבי זיכרון Flash. מותר לפקפק האם לכל מי שימשיך לנשום בעוד 7 שנים קצרות יהיה תוכן משמעותי למלא בשלושת הגיגה-בייט שהוא אמור לייצר מדי יום.

אבל אפילו מי שחושב, שגם לא צריך להתרגש מכמויות הזבל הדיגיטלי שאנו מיצרים היום חייב להודות, שאי-אפשר לעמוד מנגד לא לנצל את המשאב המדהים הזה. הדיסציפלינה שקיבלה את השם "מדע המידע", Information Science, עוסקת בהמצאת שימושים למה שמסתמן כמשאב היחיד שאינו קטן כאשר הוא נצרך, אלא ההיפך. ככל שאנו משתמשים יותר בנתונים כך אנו מגדילים את כמותם ומאיצים את קצב גידולה.

אין בכוונתי לדרוך על בהונות בקהילת הבלשנות העברית אך היות ואין מילה עברית מקובלת למושג הלועזי Big Data, עבדכם הנאמן מציע את המילה "מידעצום" - מילה כימרית שנוצרה מזיווג מפוקפק של 'מידע' ו'עצום' - לשיקולכם (אני מודה, זה לא מתוחכם במיוחד, אבל פחות מחניק מכמה צפרדעים שהאכילו אותנו הלשונאים בעבר).

סינדרום המלכה האדומה

מהגדרה, "מידעצום" הוא השם שניתן לכמויות מידע כל כך גדולות שכל פעולות השימוש בהן, אפילו חיפוש פשוט, הופכות לאתגר. כך לדוגמא, אם חיפוש פריט או קבוצת פריטים בתוך מאגר המידע מחייב שימוש באלגוריתמיקה מיוחדת - שאם לא כן תהליך החיפוש יארוך חודשים או אפילו שנים - היו סמוכים ובטוחים שהצל של מידעצום מעיב על סיכויי הצלחתכם. או אם הצגת המידע מחייבת שימוש במודלים ויזואלים מיוחדים ואחסון הנתונים מתבצע על גבי תשתיות חומרה ותוכנה מורכבות ומתקדמות, אתם מגששים דרככם בלב המידעצום.

סדר הגודל המספרי של כמויות מידע הנחשבות כמידעצום הינו מטרה נעה בציר הזמן, שאפילו המומחים מתקשים להסכים על מיקומה. המידעצום של 2022 לא יהיה המידעצום של 2012. כפי שהסבירה המלכה האדומה לאליס (בתרגום מסורבל לטקסט האגדי של לואיס קרול) "אצלנו צריך לרוץ בכול הכוח רק כדי להישאר במקום". אי לכך, המונח מידעצום ישמשנו לתיאור כמות מידע אשר הטיפול והשימוש בה נמצא בשלב הנוכחי בקצה גבול היכולת הטכנולוגית שלנו.

לא רק הגודל קובע

על אף האמור לעיל, גודל המידע אינו האתגר היחידי המאפיין מערכות מידעצום. הגיוון בסוגים ובפורמטים, לדוגמא ההתמודדות עם המקורות השונים וסוגי המידע המגוונים המוזנים למערכות Sigint (ניטור אמצעי תקשורת, Signals intelligence) מהווה אתגר מרכזי במערכות מודיעין.

במרחב האזרחי ההתמודדות עם מידעצום עדיין מתרחשת בשולי התעשייה, בשירותים חדשניים שעדיין לא הפכו ל-Mainstream. לדוגמא, מערכות ניווט כמו "Waze" לא תהיינה יעילות במיוחד אם פרק הזמן מכניסת הקלט אל המערכת, עיבודו והפקת התובנה - כי איילון פקוק ומומלץ לנסוע בדרכים עוקפות - ימשך שבוע. רוחב הפס באיסוף המידע ומעקב אנליטי אחר קצב השינויים, דהיינו ביצועי כניסת קלט גולמי למערכת והוצאת הפלט מעובד, מהווה במקרים אלה אתגר מרכזי בבניית מערכת המידעצום.

מורכבות אתגרים אלו ועוד רבים אחרים גרמו לפרגמנטציה של השוק. בדומה למחשבים הראשונים שניבנו בשנות הארבעים גם מערכות המידעצום הראשונות נוצרו ללא סטנדרטים ואפילו ללא הסכמה על מינוח אחיד. הן שונות אחת מן השנייה לא בעקרון הפעולה כי אם במימושו משום שהן "נתפרו לפי מידה" לשימוש מאוד מסויים. אך בשונה ממהפכת המחשבים, תהליך הסטנדרטיזציה והפיכת מערכות אלו ל"מוצרי מדף" מתרחש הרבה יותר מהר ממה שציפינו וכתוצאה, כבר היום מערכות אלו זמינות גם לגופים עסקיים שאינם תאגידי ענק או ממשלות.

המיזם של ריק סמולן ו-EMC

ריק סמולן, צלם ועיתונאי, עבד בשביל הירחונים טיים, לייף ונשיונל גיאוגרפיק. הוא התפרסם כיוצר סדרת יומני הצילום המוצלחת "יום בחיים" ומנכ"ל חברת ההפקות "כנגד כל הסיכויים", שדורגה ע"י מגזין Fortune כאחת מ-25 החברות "המגניבות" ביותר באמריקה. יחד עם תאגיד EMC, קונגלומרט טכנולוגי בינלאומי, הוא הגה מיזם מקורי שמטרתו הגדלת המודעות בקרב הציבור הרחב לנושא המידעצום.

במיזם זה, "הפנים האנושיות של המידעצום", ביקש ריק סמולן לחקור את ההשפעת מידעצום על מימוש חזונו משכבר - יצירת תמונת מצב דיגיטלית של המין האנושי שמתעדכנת מרגע לרגע - מעין מערכת עצבים עולמית, המוזנת ברציפות על ידי חיישנים אנושיים ואמורה לייצר "תודעה גלובלית". מערכת המידעצום שלו נבנתה במימונה של EMC על גבי חומרה ותוכנה מחטיבת Greenplum שלה.

תוצרי המיזם מרוכזים סביב מספר ערכות נושא: בריאות ורווחה; ביטחון אישי, פשע וחיים אורבניים; איכות הסביבה; חיי חברה ותרבות; מסחר ועסקים - ולבסוף גם קורט פוליטיקה למי שלא היה מספיק ברדיו, בטלוויזיה בעיתונים ובאינטרנט. שיאו של המיזם היה סדרת אירועים, בשם Mission Control, שהתקיימו בכמה מוקדים בעולם במקביל. לארועים אלו הוזמנו כתבים מכל העולם ועבדכם הנאמן ביניהם. הארוע לא היה בעל אופי טכני אלא עסק בהרחבה בהשלכות של מידעצום על האנושות בכלל ועל אנשים כפרטים. זו הייתה ללא ספק חוויה רבת השראה.

מיזם הפנים האנושיות של מידעצום מורכב מכמה נדבכים. נדבך ראשון, שעליו לא ארחיב רבות הוא הפקת יומן צילום. 150 צלמים נשלחו ל-2000 משימות צילום על מנת לתעד את השפעות שונות של המידעצום על האנושות. הנדבך השני הוא אפליקציית טלפון חכם, שמטרתה איסוף נתונים מתמשך מכמות עצומה של משתמשים. האפליקצייה אספה נתונים פאסיבים (בצורה אנונימית) דרך החיישנים המשובצים בטלפונים חכמים, כגון המרחק שעשה המכשיר ביום ובאיזה מהירות, כמה אימיילים נשלחו ממנו, כמה מכשירים Bluetooth עברו בקרבתו, ועוד.

מחסן נתוני ערכים אנושיים

דרך האפליקצייה נאספו גם נתונים אינטראקטיביים, שדורשים מעורבות מודעת של המשתמש. למשל, לאחר ההתקנה, הוצגו לו שאלות הקשורות לערכות הנושא במיזם עליהן הוא התבקש להשיב. חלקן פשוטות, כגון "האם גדלת עם חיית מחמד?" או "במקרה שהתבטלת כל היום, האם תרגיש רע או טוב עם עצמך?" ואחרות מעוררות מחשבה, כגון "אם הייתה באפשרותך לשנות אחת מהתכונות הגנטיות של ילדך בטרם שנולד, לדוגמא חסינות למחלות או אינטליגנציה גבוהה, באיזו היית בוחר?" או "האם אתה מאמין בחיים אחרי המוות?".

לאחר סבב הרצאות מעניין במיוחד ניתנה לנו גישה למאגר התשובות, ויכולנו לבצע חיתוכים מעניינים ביותר על המידע הזה. לדוגמא, להפתעתי יותר נשים מגברים ענו בשלילה על השאלה "בכלליות, האם אתה חש שהחיים היו הוגנים עמך?". הוספתי שאלת חיתוך נוספת לקבוצת המדגם הזאת: "איזה מהמשפטים הבאים מתאר בצורה הטובה ביותר מה יקרה לך לאחר המוות?" והשוותי בין הנשים והגברים ביחס לשתי התשובות שהוצעו לבחירה:"אלך לגיהנום או לגן עדן" או "לא יקרה דבר". התברר שבקבוצת הנשים הדתיות דווקא, אחוז הסבורות שהחיים לא היו הוגנים עמן גדול יותר גם ביחס לנשים שלא מאמינות בעולם הבא.

האם זה אומר שהתסכול מחיים לא הוגנים מגדיל את כוח המשיכה של דת, או ההיפך, שרגשות דתיים מולידים צפיות מוגזמות להוגנות? על זה לא קיבלתי תשובה משום, שלצערי הארוע ארך רק חצי יום ולא הספקתי לנסח שאלות שיכולות לענות על השאלה. אני מניח שהייתי נתקע מול העמדה ההיא כמה ימים לפחות, אם רק הייתה ניתנת לי ההזדמנות. אין ספק, היכולת לבצע את החיתוכים הללו על מיליוני תשובות לחמישים שאלות ולנסות להסיק תובנות מהתוצאה הקסימה והפנטה אותי. יתרה מזאת, התשובות לשאליתות שניסיתי על מנת לחשב את החיתוכים ההזויים האלה ניזונו ממידע חי, שהתעדכן כל העת במהלך הקלט של תשובות משתמשי האפליקציה. הדינמיות הזאת הפכה את התרגיל הסטטיסטי המהפנט למלהיב אף יותר.

רוחב פס של צינור כיבוי

הנדבך האחרון של המיזם הוא איסוף וניתוח נתונים מטוויטר בנושאי המיזם השונים. מערכות המיזם מתחברות לטוויטר דרך ממשק "שמן" במיוחד, הנקרא "צינור הכיבוי של טוויטר", שנגיש למספר מצומצם של גופים ברחבי העולם ומאפשר גישה בזמן אמת לכל הציוצים בטוויטר. מדובר בכמות מידע עצומה. מחסנית שהייתה בת ימים ספורים בזמן הארוע כבר הכילה של מעל למיליארד ציוצים, היוצרים תמונת מצב רגעית אודות הפופולריות של שני המועמדים בבחירות לנשיאות בארה"ב - בכל מדינה (כמעט) בעולם.

אך, כמו לכל טכנולוגיה או רעיון בסדר גודל כזה, גם למידעצום יהיו השלכות שליליות ופוטנציאל לשימושים פסולים. גם במגבלות של היום ניתן לראות פגיעה משמעותית בפרטיות של כולנו וברור לכל כי, אם לא תתבצע חקיקה מרחיקת ראות ואכיפה קפדנית בקנה מידה עולמי, התופעה תלך ותחריף.

מצד שני, מידעצום כשלעצמו אינו מבטיח הפקת תובנות נשגבות באופן אוטומטי. להיפך, בידיו של ארגון סורר או פרט חסר אחראיות או סתם טיפש, התוצאות יכולות להיות הרות אסון. איכות התובנות המופקות תלוייה באיכות השאלות ובכוונות השואל. הן מובילות לחיזוי, שבידיים לא מקצועיות יכול להגיע למסקנות אבסורדיות, ולקבלת החלטות שהמוסריות שלהן היא נגזרת של הגורם החוקר.

יתר על כן, אף אחד לא מבטיח לאנליסט גן של שושנים. תהליך כריית רסיסי הזהב הטמונים בהררי המידע הוא לרוב איטרטיבי (מחזורי), מצריך הגדרות סינון הולכות ומתפרטות, ודורש בחינה קפדנית של תוצאות הביניים ובסך הכל מאמץ מפרך שלא כל אחד בנוי לו. היועצים ממליצים על יצירת משרה מיוחדת לתפקיד, "מדען מידע" הוא התואר ונטייה חקרנית חסרת מנוח היא דרישה מוקדמת.

פוטנציאל לא ידוע

המין האנושי רק מתחיל לגלות הפוטנציאל הגלום במערכות מידעצום. הייתי מרחיק לכת ואומר שההשפעה של מידעצום עלינו תהיה כל כך גדולה שאפשר להגדירה כ"עידן חדש". מעולם לא היה ביכולתינו להפיק תובנות מכמויות כל כך גדולות של מידע בפרקי זמן כה קצרים שניתן להגדירם כ"זמן אמת" או "כמעט זמן אמת".

אין כמעט אף תחום בחיינו שלא ניתן לקדמו בעזרת מערכות כאלה. לחימה במחלות והתפשטותן, שיפור הקיימות (sustainability) של מדינות מתפתחות, ניטור אוכלוסיות בעלי חיים, הפחתת האלימות בחברה, צמצום פשע וזהו רק קצה קצהו של מזלג ההבטחות.

יותר ויותר גופים, מסחריים וציבורים נעזרים במידעצום בכדי לקבל החלטות טובות יותר או למצות תבניות מתוך המידע שיאפשרו חיזוי יותר מדוייק של אירועים עתידיים. מהירות עיבוד המידע הגבוהה של מערכות "עיבוד מקבילי מסיבי" (MPP), הנובעת מחידושים טכנולוגיים הן בחומרה והן במתודה האנליטית, מאפשרת בניית מערכות זמן אמת בסדרי גודל שלא נראו עד לפני שנתיים שלוש. כפטריות אחרי הגשם, אנו מתחילים לראות דור של חברות אשר המידעצום לא רק מסייע להם להשיג יתרונות תחרותיים אלא מהווה למעשה את המנוע היחידי מאחורי המודל העיסקי שלהן.

מידעצום כבר משנה את החברה שלנו מבלי שנשים לב לכך - וקצב השינויים הולך וגדל. מערכות אלו, שתאורן נשמע כמדע בדיוני או מהדורה מעודכנת של 1984, משפיעות על תהליכי קבלת ההחלטות של רובנו גם בחיי היומיום הבלתי יומרניים שאנו מנהלים - כן, כבר עכשיו! אינכם מאמינים לי? נסו להזכר מתי פעם אחרונה החלטתם לרכוש מוצר או להזמין שירות לפי מיקומו בדף תוצאות החיפוש של גוגל, החלוצה העסקית בתחום המידעצום. רבים הסיכויים שזה היה ממש לא מזמן. והפעם הבאה בה תזדקקו למידעצום יהיה כנראה בעוד דקות ספורות, כשתנסו לברר באינטרנט על מה, לכל הרוחות, אני מדבר!

רוצה להשאר מעודכן/ת בנושא הסיפורים הגדולים של השבוע?
אני מאשר/ת קבלת תוכן פירסומי מגלובס
נושאים נוספים בהם תוכל/י להתעדכן
נדל"ן
גלובס טק
נתוני מסחר
שוק ההון
נתח שוק
דין וחשבון
מטבעות דיגיטליים
✓ הרישום בוצע בהצלחה!
עקבו אחרינו ברשתות
לכתבה הקודמתגם הבחירות הן הזדמנות לחדשנות היי-טק