ישראל יכולה להיות מעצמת ביג דאטה על החיים עצמם

מדינת ישראל יושבת על מכרה זהב של נתונים שמקיפים כל פרט בחיינו האדמיניסטרטיביים, אלא שהם אינם מנוצלים • אם נתחיל לפתח אותם, תחת הגנות פרטיות מתאימות, נוכל להוביל במחקר ובמדיניות

אנחנו יושבים על מאגרי מידע שחוץ אולי מכמה מדינות, בעיקר בצפון אירופה, רוב העולם החופשי לא יכול אפילו לחלום עליהם / צילום: Shutterstock
אנחנו יושבים על מאגרי מידע שחוץ אולי מכמה מדינות, בעיקר בצפון אירופה, רוב העולם החופשי לא יכול אפילו לחלום עליהם / צילום: Shutterstock

הכותב הוא פרופסור במחלקה לכלכלה ובמרכז לרציונליות באוניברסיטה העברית ובבית הספר למינהל עסקים באוניברסיטת קורנל

יש לי חלום. בחלומי מערכת ענפה של בסיסי נתונים מקושרים זה לזה. הם מכילים מידע על כעשרה מיליון אישה ואיש. האנשים שבמערכת אינם לגמרי אמיתיים, לא נוכל בוודאות לזהות ביניהם את עצמנו, אבל נתוניהם מבוססים על נתונים אמיתיים של כולנו. המידע במערכת כל כך עשיר, שיש בו כרגיל גם סכנות של ניצול לרעה. אבל אם ננהג בו בזהירות, נשמור עליו, וניטיב להשתמש בו-השמיים הם הגבול. כי קישורים בין נתונים הופכים לידע, וידע הוא פוטנציאל. מידע כזה יכול לסייע לנו לשפר בריאות, להציל חיים, לבסס מדיניות על מידע רלוונטי ואמין, לפצח חידות מדעיות גדולות, לקדם שגשוג ומי יודע, אולי גם אושר.

כל אחד והחלומות שלו. חוקרים אמפיריים חולמים על נתונים. ישראל יכולה להיות מעצמה של נתונים כאלו. אפשר לייצר פה מכרה זהב של ביג דאטה, שיוביל את העולם גם במחקר וגם במדיניות מבוססת נתונים. פה ושם זה כבר קורה, כפי שהודגם למשל בימי הקורונה, כשחוקרים ישראליים, ובעקבותיהם קובעי מדיניות, עשו שימוש מתוחכם במידע ייחודי שנצבר אצלנו בישראל בקופות החולים. מידע שאין למדינות אחרות, ושאין גם לענקיות הנתונים כמו גוגל ופייסבוק. בזמן הקורונה זה נעשה במהירות ובדחיפות, ללא דיון ציבורי מספק, ללא תשתית מסודרת שתסיר את חששות הציבור, המוצדקים או לא. בחלומי, ישראל מפתחת תשתית כזו.

מנתונים מבוזרים למערכת מקושרת

המידע במערכת שבחלומי מבוסס על נתוני אמת של כולנו. הם כוללים למשל היסטוריה משפחתית של אינטראקציות מתועדות שהיו לכל אחת ואחד מאתנו בשנים האחרונות עם מוסדות המדינה וגופיה השונים. נתוני בריאות, כולל נתונים ביומטריים וגנטיים אם יש, של מחלות, אשפוזים, פרוצדורות רפואיות, בדיקות מעבדה, טיפולים וחיסונים. נתוני מגורים, כולל מיקום, סוג, בעלות על דירות ושאר נכסים, קניה, מכירה, ושאר תשלומים. נתוני השכלה, כולל מוסדות ותחומי לימוד, בחינות ארציות, הישגים, תעודות ותארים. נתוני עבודה, הכנסות, מסים, הכשרות, קצבאות, הקלות, ומענקים. נתונים משפחתיים, דמוגרפיים, סיעודיים. נתוני הוצאות, בעלות על רכבים ורישויים, תאונות, יציאות וכניסות לישראל, ועוד.

בקיצור, הנתונים הגולמיים הם אלו שכבר נשמרים על כולנו, אבל כרגע הם מפוזרים בין מחשבים, שרתים, ועננים של שלל משרדי ממשלה ושאר ארגונים, ציבוריים וחצי ציבוריים. הנתונים כבר קיימים, בנפרד; יכולת הקישור ביניהם, בה טמון הפוטנציאל, חסרה. החוסר של יכולת הקישור מגן עלינו - הוא מונע מדינה בנוסח האח הגדול מ-״1984״ של ג'ורג' אורוול. אבל הוא גם פוגע בנו, יום יום. למשל, כשקובעי המדיניות פה רוצים להעניק עזרה מהמדינה לאלו שהכי צריכים אותה, אבל נאלצים לבסס כללי זכאות לא על המידע האיכותי, הרצוי והאפשרי אלא על המידע המצוי הזמין להם. בחלומי, ההגנה נשמרת, אבל הפוטנציאל ממומש.

סכנות והגנות

בסיס נתונים אחד גדול, שכולל את כל נתוני האמת הפרטיים של כולנו, נשמע כאמור כסיוט מסוכן. אנחנו לא רוצים להפוך את ישראל לסין או לצפון קוריאה, ואפילו לא לאחת מענקיות התוכנה מעמק הסיליקון, שאוספות עלינו שלל נתונים אישיים, ועושות בהם כבשלהן.

אבל בשביל לממש את הפוטנציאל שבנתונים לא צריך לנתח את נתוני האמת הגולמיים. בשביל לחקור את הקשר בין עישון למוות, למשל, לא צריך לדעת את זהויות האנשים עליהם מבוססים הנתונים. לא צריך אפילו את הנתונים הגולמיים עצמם. כל עוד יש לנו מספיק תצפיות, אפשר לבצע את המחקר על נתונים ״מורעשים״, כלומר על אנשים פיקטיביים שמבוססים על אנשים אמיתיים.

חוקרים בעולם כבר עורכים ניסויים ראשוניים לקראת יצירת בסיסי נתונים כאלה, מורעשים, למשל מנתוני המפקד האמריקאי. התהליך מתחיל בנתונים הגולמיים, הפרטיים. תהליך ההרעשה מבוסס על החדרת רעש אקראי באופן מבוקר לתוך הנתונים, כלומר שינוי של חלק מהם. בסוף התהליך, בסיס הנתונים המורעש משמר תכונות סטטיסטיות מסוימות של הנתונים הגולמיים אבל מספק מעטה של הגנת פרטיות מסוימת לאנשים (האמיתיים) עליהם מבוססים הנתונים. הרעש מוריד כמובן את איכות הנתונים; זהו מחיר ההגנה.

הכלים המתמטיים כבר קיימים ומשתפרים, וגופים ציבוריים וחברות פרטיות, כולל ענקיות עמק הסיליקון, כבר מתחילים להתנסות בהם. כל העסק עוד בחיתוליו, ויש עוד הרבה מה ללמוד, אבל העניינים מתקדמים מהר. בחלומי, ישראל מקצה משאבים לנושא. נצטרך לגלות את הדרך.

נצטרך גם להסדיר שאלות קשות של בעלות על הנתונים, אחריות, אסדרה (רגולציה), ואתיקה-שאלות שמחייבות דיון ציבורי מקיף. גם הוא כבר התחיל בעולם האקדמי, אבל עדיין לא ממש הגיע לשאר החברה. נצטרך גם לפתח מוסדות שיזכו לאמון הציבור, שמטרתם לשמור על הנתונים, לנהל אותם, ולהגן עליהם. גם בתחומים האלו, של פיתוח תשתיות לניהול נתונים פרטיים בקנה מידה גדול, יש התקדמות מחקרית, חלקה מגיע מישראל. נצטרך גם מערכות של אבטחת הנתונים הגולמיים. לישראל יכולות מפורסמות גם בתחום הזה.

למה אנחנו?

לא כל מדינה יכולה ליצור מערכת מידע כזו. ישראל בין המעטות שאולי יכולות. הרי אנחנו מקישים מספר תעודת זהות בכל פעם שלוקחים פה נשימה: כשממלאים דלק במכונית, רושמים את הילדה לחוג, או מזמינים כרטיס קולנוע. כל אינטראקציה שלנו עם כמעט כל מערכת, מלווה ברישום-וודאי כשהאינטראקציה היא אדמיניסטרטיבית או כלכלית. זה משהו שלא קורה בכל דמוקרטיה, ואולי גם לא צריך לקרות. אבל כרגע, אצלנו, בסיסי הנתונים כבר קיימים. הם משאב בלתי מנוצל. אני חולם על טיוב וקישור (עם הרעשה והגנות) של נתוני הלשכה המרכזית לסטטיסטיקה, משרד הפנים, האוצר, התחבורה, הבינוי והשיכון, קופות החולים, משרד הרישוי, העיריות, הביטוח הלאומי, רשויות המס, רשות האוכלוסין וההגירה, מערכת החינוך והמוסדות להשכלה, השירות הציבורי, המכס. המידע הגולמי כבר נאסף, זה כבר קרה. אפשר לפתח אותו.

אני לא הראשון לחלום. יש בישראל יוזמות ותוכניות, כבר המון שנים, של טיוב, קישור, והשמשה של חלק ממאגרי הנתונים הקיימים. יש גם התקדמות בחזיתות מסוימות, והחלטות, גם של הממשלה, ואפילו תקציבים. ואני בטוח שיש עוד המון דברים שקורים כאן בתחום הנתונים. אבל למביט חצי מהצד, נראה שזה לא ממש זז, או שזה זז לאט באופן מתסכל, או שזה זז ללא הדיון הציבורי, השקיפות וההגנות הנחוצים.

ישראל לא יושבת על מאגרי נפט, זהב, או יהלומים. לטוב ולרע. אנחנו יושבים על מאגרי מידע שחוץ אולי מכמה מדינות, בעיקר בצפון אירופה, רוב העולם החופשי לא יכול אפילו לחלום עליהם. צריך לנהוג בהם בזהירות רבה, כמו ביכולת גרעינית, שלא יקרה פה אסון. אבל חייבים לפתח אותם. צריך להוביל, להתוות את הדרך, לא להישאר מאחור. אפשר להפוך חלום למציאות.