כמה קל לייצר מניפולציות בנתונים? התובנות של המומחה לתורת המשחקים

ד"ר חיים שפירא מלמד סטטיסטיקה כבר 39 שנה • בכנס המשכנתאות של גלובס ובנק לאומי הוא מצביע על נורות האזהרה כשמסתכלים על נתונים: "אל תתלהבו כשאתם שומעים בחדשות מספר בודד. לא לצעוק, לא לצאת להפגנות, לא להחליט שאנחנו הכי עניים או הכי עשירים. כל הדברים יותר מורכבים ממה שנדמה לנו"

ד''ר חיים שפירא / צילום: תמר מצפי
ד''ר חיים שפירא / צילום: תמר מצפי

איך יכול להיות שישראל, לפי כותרות העיתונים, היא המדינה היקרה ביותר בעולם, אבל גם הענייה ביותר במערב? ד"ר חיים שפירא, מומחה לתורת המשחקים, הרצה השבוע בכנס המשכנתאות של גלובס ובנק לאומי, והסביר עד כמה חשוב לזהות כשלים סטטיסטיים - הרווחים באינספור ידיעות בתקשורת ועלולים להוביל לעתים למסקנות ממש הרות אסון.

"סטטיסטיקה זה מקצוע מקולל", הסביר שפירא, "כי גם אדם שלא למד אותה בטוח שהוא יודע מה היא אומרת. הוא שומע את זה כל הזמן בחדשות. למשל, בסקרים - כל הסקרים זה שטויות. למה? שימו לב איך מתחיל כל סקר: 'לו הבחירות היו נערכות היום'. אבל הן לא. אילו 2+2 היה 18, לכו תדעו אילו דברים מוזרים היו קורים. אדם שלא למד תורת הקוונטים יודע שהוא לא מבין בזה כלום. אבל סטטסיטיקה? כל אחד מבין!".

ד"ר חיים שפירא 

אישי: בן 61, נולד בליטא, מתגורר בראשון לציון, נשוי ואב לשתיים
מקצועי: ד"ר במתמטיקה ובהוראת המדעים. מכהן בראש החוג למשפטים ולכלכלה במכללה למינהל, ומלמד בחוג למתמטיקה של אוניברסיטת בר אילן. מרצה מבוקש ומומחה בתחום תורת המשחקים. ספרו האחרון מבין 9 הוא "תנינים הימורים וימי הולדת - סטטיסטיקה והסתברות בחיי היום־יום".

שפירא, שידוע גם כמחבר ספרי מדע לקהל הרחב, פרסם לאחרונה את הספר "תנינים, הימורים וימי הולדת", שבו הוא מדבר על שימושים וכשלים בסטטיסטיקה ובהסתברות. הוא פתח את ההרצאה בחשיבות ההכרה בחוסר הידע: "הדוקטורט שלי זה מתמטיקה, אני מלמד 39 שנה סטטיסטיקה, ואני לא יודע מה זה אומר ממוצע, חציון או מדד תשומות הבנייה. גם אין לי מושג איך מחשבים את המדד שלפיו ישראל היא המדינה היקרה ביותר בעולם. למה אני לא יודע? כי אני מבין בזה".

1מה קורה על הכבישים

לדברי שפירא, "למדתי קורס בתואר שני בסטטיסטיקה, שנקרא תכנון ניסויים. למדנו 13 שיעורים רק איך לתכנן ניסוי. הייתי פעם בחתונה, ובחוץ חיכתה ניידת משטרה שבודקת שכרות. אני לא שותה בכלל, אז שאלתי את השוטר למה הוא בודק אותי. 'דע לך' הוא ענה '10% מתאונות הדרכים נגרמות מאנשים שנהגו בגילופין'. עניתי לו 'אבל 90% נגרמות מאנשים שלא היו שיכורים. כלומר לא להיות שיכור זה פי תשעה יותר מסוכן!' זה כל כך הדהים אותו שהוא ויתר לי על הבדיקה. אני כמובן מתלוצץ, אבל איפה הטעות שעשיתי כאן?

"למה אסור לנהוג כשאתה שיכור? הנה דוגמה ממקום אחר: יום אחד פתחתי עיתון, ומומחה תחבורה כתב שמהירות גבוהה היא לא סיבה לתאונות דרכים. איך הוא הגיע למסקנה הזאת? כי התברר שבמהירות של 100 קמ"ש התרחשו רק 2% מהתאונות. לכן, מהירות גבוהה היא לא סיבה לתאונות דרכים. מיד המצאתי את 'חוק שפירא', שאומר שצריך לחייב את כולם לנסוע 300 קמ"ש ומעלה - גם בנסיעה ברברס, כי אין תאונות במהירויות האלה". ובמילים אחרות, צריך לבדוק לא רק את השכיחות של אירוע מסוים, כמו תאונה של אדם שיכור, אלא את שיעור התאונות שעשו שיכורים ביחס למספר הנהגים השיכורים, ולצד זה את שיעור התאונות שעשו נהגים פיכחים ביחס למספר הנהגים הפיכחים. "אם נוסעים במהירות של 100 קמ"ש ומעלה 0.1% מהזמן, ועושים 2% מהתאונות, זה אומר שהסיכון אדיר. אם רק מיעוט זעיר מהנוסעים הם שיכורים, והם אחראים ל-10% מהתאונות, זה אומר שלנהוג שיכור זה מסוכן מאוד".

בנושא דומה, הוא הזכיר סקר בבריטניה, שהראה שנשים נוהגות טוב יותר מגברים. "אבל הנתון היה מטופש, כי אנשים שלא מבינים בסטטיסטיקה חשבו שהם כן מבינים. הסקר אמר שפחות תאונות הן במעורבות אישה מאשר במעורבות גבר. אבל נגיד שיש מיליון נהגים גברים שעושים 1,000 תאונות, ויש שתי נשים נהגות בלבד, ויקטוריה ואליזבת, שעשו 700 תאונות. מי נוהג טוב יותר? במקרה הזה, אישה עשתה 350 תאונות בממוצע בשנה. זה תאונה ביום!".

2 על עניים ועשירים

שפירא התייחס למונחים סטטיסטיים שמבלבלים את הציבור, כמו ממוצע וחציון: "נשיא ארה"ב ביל קלינטון הודיע יום אחד שהוא מחכה ליום שבו כל העובדים בארה"ב ישתכרו מעל השכר הממוצע. אנשים כתבו בזעם שזה לא יכול להיות, בין השאר כי ממוצע זה ערך שתמיד חצי ממנו נמצאים מתחתיו וחצי מעליו. אבל גם זה לא נכון - זה הרי חציון".

מכאן, הוא עבר לדוגמה נפוצה נוספת לכשל סטטיסטי: "ראיתי שמדינת ישראל היא הענייה ביותר. אבל רגע, סיפרו לנו גם שיוקר המחיה פה הוא הכי גבוה, אז גם הכי ענייה וגם יוקר המחיה הכי גבוה? מי מבזבז את כל הכסף הזה? בכלל, איך מחשבים את מדד העוני?".

"יש שתי קבוצות עיקריות של מדדי עוני: יחסי ומוחלט. מדד עוני מוחלט הוא כזה שלפיו אם אני מרוויח פחות מדולר ליום, אני עני (הוא מתייחס למדד העוני הקיצוני של האו"ם, ע' א'). אבל אפשר גם בלי כסף: קרבה למים זורמים, עזרה רפואית דחופה, חינוך כלשהו, תקשורת כלשהי, בית שמורכב מארבעה קירות ותקרה ויכולת לספק 1,600 קלוריות ביום. כמה עניים יש בישראל לפי המדד הזה? אפס. אין. כבר זו בעיה: תראו איך אני עושה עם המספרים מה שאני רוצה. אם אני רוצה להגיד שהמצב טוב, אני אגיד שאין בישראל עניים בכלל. וזה לא שהמדד הזה חסר משמעות - אשתי יוצאת מרוקו, ויש במרוקו 11% עניים לפי המדד הזה. אז רגע, איך מחשבים את המדד שבו אנחנו הכי עניים?"

כאן שפירא מתייחס למדד העוני היחסי של ביטוח לאומי שנהוג לצטט בתקשורת: "אם אני מסדר את כל העובדים בישראל בשורה, לפי שכר מהגבוה לנמוך, ואז אני לוקח את העובד שעומד באמצע, כלומר העובד החציוני, ומחצית מהשכר שלו, נניח 40 אלף שקל בשנה, מי שנמצא מתחת נחשב לעני. זה אחוז העניים בישראל. נשמע מצוין, אבל יש כמה בעיות.

"דבר ראשון, המדד הזה לא מבדיל בין אדם שמרוויח 39 אלף ובין מי שמרוויח 3,000 שהוא כבר מת מרעב. אבל יש בעיה יותר גדולה: אם יגיע הנין של הנין של הברון רוטשילד, ויכפיל את השכר של כל הישראלים פי עשרה בלי לשנות אף מחיר במכולת. המצב בישראל ישתפר פי עשרה, אבל שיעור העניים במדד הזה יישאר אותו דבר!" שפירא הולך לקיצון עוד יותר רחוק כדי להדגים את הנקודה: "גם אם מכפילים את השכר של כולם פי מיליון, זה אומר שהישראלי הכי עני יותר עשיר מהמלך שלמה, ביל גייטס עובד אצלו כנהג וג'ף בזוס ואשתו לשעבר מבשלים לו, אבל אחוז העניים פה נשאר אותו דבר".

שפירא סייג ואמר, שגם "למדד היחסי יש חשיבות. מחקרים בכלכלה מראים שאנשים בודקים את עצמם יחסית, ואם יש לידך אנשים שמרוויחים יותר, אתה מרגיש עני. הדור הצעיר היום הכי אומלל אי פעם. לואי סי.קיי אמר ש'הכול מדהים, אבל אף אחד לא מאושר'. למה? כי יש משמעות למדד היחסי. אנחנו לא משווים את עצמנו לעניים בעשירון התחתון או אפילו לסבא שלנו. כשאתה טס במחלקה הראשונה, אבל אתה היחיד מהחברים שלך בלי מטוס פרטי, אתה מתבאס. העניים של מדד העוני הם חשובים, אבל הם לא עניים 'באמת'".

3 נתונים שמזכים רוצחים

שפירא ביקר את הצורה השטחית שבה התקשורת מתייחסת לנתונים סטטיסטיים: "יש חוק שלא מלמדים, שנקרא 'חוק רוסלינג', שאומר שמספר אחד אף פעם לא אומר כלום. אבל בחדשות תמיד מציגים מספר אחד! רוסלינג עצמו התראיין פעם ואמר שהמצב בעולם מעולם לא היה טוב יותר. והמראיינת אומרת לו 'איך אתה אומר דבר כזה? אתה לא יודע שהשנה מתו 4 מיליון ילדים בעולם?'. הוא ענה לה, בהרבה אומץ, ש'זה מספר קטן באופן יפהפה'. לפני לא כל כך הרבה שנים היו מתים 10 או 15 מיליון ילדים בכל שנה. כשנותנים מספר אחד, זה לא אומר כלום. גם מ-4 מיליון ילדים מתים אי אפשר להבין אם זה טוב או רע. זה כמובן מחריד, אבל זה הרבה יותר טוב ממה שהיה פעם. אבל ניתוחים עם סטיות תקן והתפלגויות ייקחו שעה. אז זורקים מספר אחד, שלא אומר כלום".

גם בתחום המשפט חוסר ההבנה הסטטיסטי יוצר בעיות חמורות. שפירא מסביר שבישראל, השאלה האם אדם אשם או זכאי נקבע ברוב שופטים. אבל, מצד שני - צריך להרשיע במשפט פלילי רק אם האשמה הוכחה מעל ספק סביר". אבל, שפירא זועק: "אם יש 2 מול 1 זה לא מעל ספק סביר!".

שפירא הזכיר כי "גם או ג'יי סימפסון יצא זכאי בגלל חוסר הבנה סטטיסטית. כולם מכירים את הסיפורים עם הכפפה והמרדף. אבל שימו לב לנימוק הסטטיסטי שהכריע את המשפט, והוציא אדם אשם חף מפשע: סימפסון רצח את אשתו לשעבר ואת החבר שלה. הגיע פרופ' דרשוביץ, ואמר: סימפסון היה בעל מכה. הסיכוי שבעל מכה בסוף ירצח את אשתו הוא פחות מ-1 ל-2,000. וזה מספר נכון, אלא שאין לו שום קשר למקרה. מה הטעות? לו היו רוצים לשים על כיסא חשמלי בעל מכה על זה שהוא אולי ירצח את אשתו, אז זה נתון רלוונטי. אבל בזמן המשפט אשתו לא הייתה מוכה, אלא מתה. לכן הנתון הסטטיסטי החשוב הוא לגבי אישה שאנחנו יודעים שהוכתה ונרצחה - מה הסיכוי שהיא נרצחה על ידי אותו אחד שהיכה אותה? זה כנראה מעל 90%, אבל איש לא שאל את זה".

לסיכום, אמר שפירא: "אל תתלהבו כשאתם שומעים בחדשות מספר בודד. לא לצעוק, לא לצאת להפגנות, לא להחליט שאנחנו הכי עניים או הכי עשירים. כל הדברים יותר מורכבים ממה שנדמה לנו - והמספרים ממש לא 'מדברים בעד עצמם'".

***גילוי מלא: כנס המשכנתאות של ישראל נערך בשיתוף עם בנק לאומי