קריסת פייסבוק, שלב אחרי שלב: המשרדים ננעלו, העובדים עברו לזום, ואיך נפתרה התקלה?

עובדים שלא יכלו להשתמש במערכות הפנימיות של פייסבוק לתיקון הבעיה, ישיבות דרך הזום וצוות מיוחד שנשלח לדאטה סנטר בסנטה קלרה כדי לנסות לאפס ידנית את השרתים • כך הגיבה פייסבוק לאחת התקלות החמורות שידעה - שלב אחר שלב עד לפתרון

כשוואטסאפ ופייסבוק קרסו / צילום: Shutterstock
כשוואטסאפ ופייסבוק קרסו / צילום: Shutterstock

למשך כמעט 7 שעות נמשכה אמש (ב') תקלה נרחבת בשירותי פייסבוק השונים - פייסבוק, אינסטגרם, וואטסאפ, מסנג'ר ואוקולוס VR. משתמשים רבים דיווחו על תקלות בהתחברות לרשת באפליקציות השונות, מה שהוביל לפאניקה גדולה והרשמות רבות לשירותים מתחרים - כמו סיגנל וטלגרם. מה קרה בתקלה הנרחבת ואיך פייסבוק ניסתה להתמודד עם זה?

הפרשה התחילה באזור השעה 19:00 (שעון ישראל). משתמשים ברחבי העולם דיווחו בתחילה על בעיות בהתחברות לוואטסאפ ובכישלון בשליחת הודעות אחד לשני. השירותים האחרים של פייסבוק  הפסיקו להגיב אחד אחרי השני, ולמעשה לפי הדיווחים הראשונים, גם המערכות והאתרים הפנימיים של פייסבוק קרסו ולא עבדו.

כל השירותים הגיבו בשגיאות שרת - מה שגרם לכל ההערכות להצביע על תקלת DNS - משמע אין גישה לנתונים. מהי תקלת DNS? במילים פשוטות, זוהי הכתובת הבלעדית של המחשב כמו כתובת של בית. אם נשמיט ממכתב את כתובת הבית, לא ניתן יהיה למוסרו. כך גם במקרה הזה, זהו סימן המזהה הייחודי של אותו מחשב.

על פי Downdetector, שירות בו משתמשים מדווחים על תקלות בשירותים השונים, נרשמו 130 אלף דיווחים על התקלה הזו בשעה הראשונה. אז דובר פייסבוק שחרר תגובה כללית: "אנחנו מודעים לכך שאנשים מסוימים מתקשים לגשת לאפליקציות ולמוצרים שלנו. אנו פועלים להחזיר את המצב לקדמותו במהירות האפשרית ומתנצלים על אי הנוחות". חשוב לציין שמדובר בתקלה החמורה ביותר מאז שנת 2008, אז היו לפייסבוק 80 מיליון משתמשים (לעומת כ-3 מיליארד כיום).

המניה של פייסבוק  נחתכה תוך כדי האירוע בכמעט 5% אחוזים, מה שהסב למארק צוקרברג באופן אישי הפסד המוערך לפי בלומברג בכ-6 מיליארד דולר.

על פי תזכיר פנימי שנשלח לעובדים שדווח בגופי תקשורת בעולם, העובדים לא הצליחו להשתמש במערכות הפנימיות של פייסבוק. צוות האבטחה העולמי של החברה "קיבל הודעה על הפסקת מערכת המשפיעה על כל המערכות והכלים הפנימיים של פייסבוק" - כך חוקרי אבטחת המידע בחברה הסבירו מדוע העובדים לא הצליחו להיכנס למשרדי החברה ולחדרי הישיבות. כרטיסי העובד והתגים הדיגיטליים לא עבדו להם, מכיוון שהשבתה פגעה בתקשורת מול השרתים.

מה הוביל לתקלה הזו? עד עכשיו לא באמת ידוע, אבל על פי ההערכות מדובר בתקלה פנימית ולא אירוע סייבר. חברת אבטחת המידע צ'ק פוינט שללה את האפשרות כי מקור התקלה הוא התקפת סייבר, אך בשלב זה לא ניתן לשלול את האפשרות שהתקלה היא תוצאה של טעות אנוש - תקלה או חבלה מכוונת.

מה עשו עובדי פייסבוק?

בעולם נפוצו דיווחים על הדרך שבה עובדי פייסבוק תיקשרו אחד עם השני: הניו יורק טיימס דיווח על שימוש בזום, לינקדאין ואפילו חדרי הצ'אט של דיסקורד; ב-TheVerge דווח כי העובדים עברו לתקשר בעזרת שירות הדואר האלקטרוני Outlook, כי גם הגרסה הפנימית של החברה לא הייתה נגישה. עם זאת, הם לא יכלו לקבל מיילים מכתובות מייל חיצוניות.

חמש שעות לתוך התקלה, פייסבוק שלחה צוות עובדים קטן לדאטה סנטר בסנטה קלרה כדי לנסות לאפס ידנית את השרתים, כך לפי תזכיר פנימי שדווח בניו יורק טיימס. לפי הדיווח, מומחי הבטיחות של פייסבוק עד עכשיו מנסים להבין את המקור של הבעיה.

העיתונאי בריאן קרבס צייץ כי "אדם בצוותי השחזור של פייסבוק אמר שהתקלה נבעה מעדכון BGP שגרתי שהשתבש. אבל העדכון חסם עובדים מרחוק מלבטל שינויים ולאנשים בעלי גישה פיזית לא הייתה גישה לרשת. אז חסום משני הצדדים מלטפל בתקלה". לקראת 1:00 (שעון ישראל), התחילו הדיווחים השונים על כך שהשירותים השונים חוזרים לפעולה. וואטסאפ, האחרונה שחזרה לפעילות, דיווחה שחזרה לפעילות מלאה בשעה 5:30 (שעון ישראל).

לאחר תיקון התקלה בשעות הלילה המאוחרת ואין ספור התנצלויות בזירות השונות, פייסבוק פרסמה פוסט בבלוג המהנדסים של החברה. ראשית פייסבוק, שוב, התנצלה על האירוע והוסיפה כי "עבדנו קשה ככל שנוכל לשחזר את הגישה, והמערכות שלנו פועלות כעת". פייסבוק הגדירה את הסיבה לתקלה כ"סיבה בסיסית" שהשפיעה על הכל.

"צוותי ההנדסה שלנו למדו ששינויי קונפיגורציה בנתיבי עמוד השדרה, המתאמים את תעבורת הרשת בין הדאטה סנטרים שלנו - גרמו לבעיות שהפריעו לתקשורת. לתקלה הזו הייתה השפעה מדורגת על האופן שבו הדאטה סנטרים שלנו מתקשרים, והביאה את שירותינו לעצור", כך לפי פייסבוק. פייסבוק הוסיפה כי "אין לנו הוכחות לכך שנתוני משתמשים נפגעו כתוצאה מההשבתה הזו".