מאסק קיבל את הדאטה של טוויטר, עכשיו מגיע החלק הקשה

למיליארדר גישה ל'זרנוק כיבוי האש', זרם כל הציוצים, אבל מומחי דאטה אומרים שלא פשוט לנתח אותם

אילון מאסק / צילום: Reuters
אילון מאסק / צילום: Reuters

אלון מאסק קיבל גישה לנתונים של טוויטר שאמר שהיה זקוק להם על מנת להשלים את הרכישה בשווי 44 מיליארד דולר, אבל מדעני דאטה ומומחים מטילים ספק בכך שזרם הנתונים הזה יספק למאסק את התשובות הסופיות שהוא מחפש בשאלה כמה מהחשבונות ברשת החברתית מזויפים.

לאחר חילופי דברים משפטיים בין הצדדים, שלחה טוויטר בשבועות האחרונים למאסק נתונים היסטוריים על ציוצים וגישה למה שהחברה מכנה 'זרנוק מכבי האש' של הציוצים, כך אמרו אנשים המכירים את הנושא. זרנוק מכבי האש מראה את כל הציוצים - אנשים מצייצים מאות מיליוני פעמים ביום בפלטפורמה, על פי החברה - בזמן אמת.

הגישה של מאסק לדאטה עשויה לסלול את הדרך להשלמת העסקה. הוא אמר שהעסקה לא תתקדם אלא אם יוכל לראות נתונים אלה כדי להעריך את טענות החברה לגבי כמות החשבונות ברשת החברתית שהם חשבונות פייק או דואר זבל. טוויטר כבר זמן רב מפרסמת הערכה לפיה כמות החשבונות המזויפים או חשבונות ספאם עומדת על פחות מ־5% מכמות המשתמשים היומיים שניתן לפרסם להם. לאחרונה העריכה החברה שיש לה 229 לקוחות אמיתיים. מאסק אומר שהוא מאמין שמספר החשבונות המזויפים קרוב יותר ל־20%.

זרם ציוצים לא פרקטי ועמוס נתונים

האופי של הנתונים היוצאים מזרנוק מכבי האש - גם הנפח וגם המגבלות של זרם הנתונים - מקשים על מאסק או כל אחד אחר להגיע לממצאים ברורים בתקופה קצרה שיוכלו להוכיח אם ההערכות של טוויטר לגבי כמות החשבונות המזויפים וחשבונות הזבל היא מדויקת, כך אומרים מומחי ניתוח מידע ומומחים לרשתות חברתיות. ויהיה קשה להשוות כל הערכה שתיעשה,להערכות שפרסמה טוויטר לציבור, בגלל שלטוויטר פרוטוקול משלה איך להגדיר חשבונות כמזויפים.

הזרנוק של טוויטר הוא זרם של ציוצים שכולל כמות כל כך עצומה של נתונים שלא פרקטי לנתח את הנתונים בחיפוש אחר הודעות זבל, אמר מיכה שפר, יועץ לחברות רשתות חברתיות בנושאים של אמון ובטיחות, שעבד בעברו ביוטיוב ובסנאפ.

הפיכת הזרנוק נגיש למאסק היא "יותר צעד של קח את זה, שתוק ולך מאשר וויתור של ממש", אמר. טוויטר כבר הסבירה למאסק את האופן בו היא מחשבת את כמות המשתמשים היומיים שניתן לשלוח אליהם פרסומות, כך אמר אחד האנשים המכירים את הנושא.

בחודש שעבר אמר מאסק, כמה שבועות לאחר שהסכים לרכוש את טוויטר, שהרכישה "מושהית באופן זמני" בגלל חשש מחשבונות מזויפים - מה שגרם לכמה משקיפים מהצד להעריך שאולי מאסק מנסה להתמקח על המחיר או לסגת מהעסקה.

מוקדם יותר החודש, מנכ"ל טסלה איים לבטל את העסקה במידה וטוויטר לא תספק לו את כל הדאטה שביקש. בתגובה, טוויטר הודיעה ש"תמשיך לשלוח מידע למאסק בשיתוף פעולה".

אנשים שחקרו את הדאטה של טוויטר אומרים שלעכל אותו בזמן אמת זה אתגר עצום בגלל כמות הנתונים המתקבלים וגודל המשאבים הנחוצים לניתוחם, בעיקר כוח מחשוב, תשתיות ומומחיות. ישנן כתריסר חברות ששילמו על גישה לזרנוק מכבי האש לאורך השנים, כך אמר אדם המכיר את הנושא.

"החברה הממוצעת הייתה טובעת בנתונים", אמר רהול טלאנג, פרופסור למערכות מידע במכללת היינץ באוניברסיטת קרנגי מלון. מאסק לא אמר איך יבצע את הניתוח שלו, אם כי בתור האדם העשיר ביותר בעולם, זמינים לו המשאבים להעסיק מספיק אנליסטים של דאטה כדי לסיים את הבדיקה בתוך כחודש, אמר.

ההערכה של מאסק בנוגע לפייקים לא תהיה זהה לשל טוויטר

עם זרנוק מכבי האש של טוויטר, מאסק יוכל למצוא כמה מקרים של התנהגות שכנראה יצביעו על חשבונות פייק או דואר זבל, כמו למשל חשבונות שמפרסמים יותר ציוצים ממה שבן אנוש יכול לפרסם בפרק זמן קצר, כך אמר טאמר חסן, מנכ"ל Human Security Inc., המתמחה במניעת התקפות בוטים ותרמיות רשת. אבל ממצאים כאלה יכולים לכלול גם ציוצים אוטומטיים המפיצים מידע מבדר או שימושי, אמר, כמו למשל עדכונים על מזג האוויר או צילומים של חיות חמודות. כמו כן ישנה אפשרות שבוטים מתוחכמים, שמחקים התנהגות אנושית, יעברו מתחת לרדאר.

באותה עת, זרנוק כיבוי האש של טוויטר לא כולל חלק מהמידע שיכול לעזור לוודא אם חשבונות סpציפיים הם בני אדם - למשל כתובות ה־IP, מספרי טלפון ומידע אישי אחר.

אם מאסק יגיע להערכה משלו לגבי כמות החשבונות המזויפים, סביר להניח שלא יהיה מדובר בהשוואה אחד לאחד עם ההערכות של טוויטר. טוויטר אמרה כבר שהמספר שפרסמה מבוסס על כמה בדיקות אנושיות של אלפי חשבונות שנדגמו באופן אקראי, והושוו למידע על המשתמשים שהחברה לא גילתה מהו.

מאסק "יצטרך להחליף את התהליך שלהם באופן אמין על מנת לערער על ששיטת החישוב בה הם נוהגים", אמר שייפר, היועץ לרשתות חברתיות.

המגבלות של נתוני זרנוק האש עלולות להשפיע באופן ממשי על ספירת אחוז המשתמשים האמיתיים. בזרנוק האש אין נתונים על משתמשים שנכנסים לפלטפורמה כדי לקורא ציוצים אך לא מצייצים בעצמם - כנראה כמות גדולה ממשתמשי הפלטפורמה, כך אמר ג'ון קלי, מנכ"ל חברת האנליסטים המתמחה ברשתות חברתיות Graphika. המשמעות היא שלא ניתן להשתמש בכלי כדי להעריך את סך הכל שממנו ניתן לגזור הערכה של כמות החשבונות המזויפים.

זה לא מספיק להעריך את כמות המשתמשים היומיים שניתן להרוויח מהם כסף בפלטפורמה ואינם אנושיים", אמר.

מה ההגדרה של חשבון מזויף בכלל

טוויטר ומאסק יצטרכו להסכים על ההגדרה מה מהווה חשבון מזויף או דואר זבל, אמר ג'יי נתן מטיאס, עוזר למרצה בתקשורת באוניברסיטת קורנל שחוקר רשתות חברתיות ופלטפורמות טכנולוגיה אחרות. אין הגדרה אוניברסלית של המונחים האלה וחברות לרוב לא מפרסמות את ההגדרות שלהן כי מידע כזה יכול לשמש לעקיפת ההגנות, אמר מטיאס.

"אם מאסק והצוות שלו מחליטים שהם רוצים להגיע לתוצאות שונות ממה שהגיעה טוויטר, יהיה להם מאוד קל לעשות זאת", אמר מטיאס. "אבל כל קבוצה אחרת יכולה לבוא ולערער על ההגדרות של מאסק והצוותים שלו, כי אין סטנדרט אחיד".

בגלל כמות הדאטה והדרכים השונות בהן ניתן לפרש את המידע, פילוג בנתונים על בוטים בין מאסק וטוויטר לא יהיה חריג או מפתיע, כך אומרים מומחי דאטה, אבל הוא עשוי להיות בפער מספיק גדול כדי לשנות את מסלול עסקת הרכישה או התנאים שלה.

"הולך להיות מאוד קשה להגיע לרמת וודאות שתאפשר למאסק לתפוס עמדה מתגוננת או לנקוט פעולה אחרת", אמרה קארי אוקונור ולאג'ה, מנכ"לית חברת אימות הזיהוי Au10Tix.

קארה לומברדו השתתפה בהכנת הכתבה.