"תקלה בעבודת תחזוקה שגרתית": פייסבוק מסבירה מה הוביל להשבתה אתמול

פייסבוק פרסמה באופן חריג הסבר על התקלה שאירעה אתמול ואיך ניסתה לפתור אותה • לפי החברה, התקלה קרתה במהלך עבודת תחזוקה שגרתית על המערכת המנהלת את קיבולת הרשת המרכזית שלה, ולא מדובר בפעילות זדונית מכוונת נגד התשתיות שלה

אפליקציית פייסבוק / צילום: Shutterstock, Chinnapong
אפליקציית פייסבוק / צילום: Shutterstock, Chinnapong

לאחר תקלה של כמעט שבע שעות ובצעד חריג: ענקית הטכנולוגיה מפרסמת הסבר מפורט של מה שקרה בשעות התקלה, על מנת להסביר יותר טוב למהנדסים ולציבור. לרוב פייסבוק לא מסבירה בצורה כזו, ואפשר להעריך שמדובר כמענה לביקורת על כך שהיא לא שקופה על מה שקורה בתוך החברה.

כך נכתב בבלוג החברה: "התקלה הזו נבעה מתוך המערכת המנהלת את קיבולת רשת 'עמוד השדרה' הגלובלית שלנו. 'עמוד השדרה' זו הרשת שפייסבוק בנתה כדי לחבר את כל מתקני המחשוב שלנו יחדיו, המורכבת מעשרות אלפי קילומטרים של סיבים אופטיים שחוצים את הגלובוס ומקשרים את כל הדאטה סנטרים שלנו", מסבירה פייסבוק.

"הדאטה סנטרים האלה מגיעים בצורות שונות. חלקם בניינים מאסיביים המאכלסים מיליוני מכונות המאחסנות נתונים ומריצות את העומסים החישוביים הכבדים ששומרים על הזירות שלנו, ואחרים הם אתרים ומתקנים קטנים יותר המחברים את רשת 'עמוד השדרה' שלנו לאינטרנט הרחב יותר לאנשים המשתמשים בפלטפורמות שלנו", ממשיכה להסביר.

פייסבוק אומרת שכשאתם פותחים את אחת האפליקציות שלה וטוענים את הפיד שלכם או ההודעות, "נשלחת בקשת נתונים מהמכשיר למתקן הקרוב, מה ש'מתקשר' ישירות דרך רשת 'עמוד השדרה' שלנו לדאטה סנטר גדול יותר. זה המקום שבו המידע הדרוש לאפליקציה שלך מעובד ונשלח בחזרה דרך הרשת לטלפון". "תעבורת הנתונים בין כל מתקני המחשוב הללו מנוהלת על ידי נתבים שמבינים לאן לשלוח את כל הנתונים. ובעבודה השוטפת של תחזוקת התשתית הזו, המהנדסים שלנו לרוב צריכים לעבוד בצורה לא מקוונת לצורך תחזוקה - אולי כדי לתקן סיב או לעדכן תוכנה בנתב עצמו", נכתב.

ועל זה פייסבוק מצביעה כמקור התקלה אתמול. "באחת מעבודות התחזוקה השגרתיות הללו, שוחררה פקודה במטרה להעריך את הזמינות של יכולת 'עמוד השדרה', מה שבאופן לא מכוון הוריד את כל החיבורים ברשת וניתק את הדאטה סנטרים שלנו ברחבי העולם. המערכות שלנו נועדו לזהות פקודות כאלה ולמנוע טעויות, אבל באג בכלי הביקורת לא עצר כראוי את הפקודה", נכתב. "השינוי הזה גרם לניתוק מוחלט של החיבור בין הדאטה סנטרים לאינטרנט. אובדן החיבור גרם לבעיה נוספת שהחמירה את המצב".

פייסבוק לא עצרה כאן, היא אף הסבירה בהודעתה על שאילתות DNS. "אחת העבודות שמתבצעות על ידי המתקנים הקטנים יותר - זה מענה לשאילתות DNS. DNS הוא ספר הכתובות של האינטרנט, המאפשר לתרגם דומיינים שאנחנו מקלידים בדפדפנים לכתובות IP ספציפיות של שרת. השרתים שלנו עונים לשאילתות האלה, ובתורם מפורסמים לשאר האינטרנט באמצעות פרוטוקול אחר שנקרא border gateway protocol (BGP)", כך נכתב בהודעת החברה.

"יש לנו הרבה מה ללמוד מזה"

"שרתי ה-DNS שלנו משביתים את פרסום ה-BGP אם אינם יכולים לדבר עם הדאטה סנטרים שלנו, מכיוון שזו אינדיקציה לחיבור רשת לא בריא. התוצאה הסופית הייתה ששרתי ה-DNS שלנו הפכו לבלתי נגישים למרות שהם עדיין פעילים. זה לא איפשר לשאר האינטרנט למצוא את השרתים שלנו".

פייסבוק מספרת שהמהנדסים ניסו להבין מה קרה ולמה, ושהם התמודדו עם שני מכשולים גדולים: ראשית לא היה ניתן לגשת לדאטה סנטרים באמצעים הרגילים כי הרשתות היו כבויות, ושנית האובדן הכולל של ה-DNS הרס הרבה מהכלים הפנימיים שהם היו משתמשים בהם כדי לחקור ולפתור בעיות כאלה. "זו הסיבה למה שלחנו מהנדסים פיזית לדאטה סנטרים כדי שהם יהיו יכולים לאתר את הבעיה ולהפעיל מחדש את המערכות. זה לקח זמן, כי מתקנים אלה מתוכננים תוך מחשבה על רמות גבוהות של אבטחה". רק אז היה אפשר לתקן.

לאחר החזרה, הבינו בפייסבוק שהבעיה לא הסתיימה. "ידענו שהחזרת השירותים שלנו בבת אחת עלולה לגרום לתקלות ובעיות נוספות. דאטה סנטרים בודדים דיווחו על ירידות בצריכת החשמל ואם היה נוצר היפוך במכה, זה היה עלול לסכן הכול". עוד הוסיפו: "במזל, זה אירוע שאנו ערוכים אליו היטב בזכות תרגילי 'storm' שתרגלנו בעבר. בתרגילים אלה אנו מדמים כישלון גדול של המערכת על ידי הפיכת אזור, דאטה סנטר או שירות למצב לא מקוון, תוך בדיקת מאמץ של כל התשתיות והתוכנות הכרוכות בכם.

אז לפי פייסבוק, דברים התחילו לחזור. וגם כאן, פייסבוק אומרת שהיא לומדת מזה. "כל כישלון כזה הוא הזדמנות ללמוד ולהשתפר, ויש לנו הרבה מה ללמוד מזה". עוד הוסיפו כי לא "מדובר בפעילות זדונית מכוונת", אלא טעות משלהם.