כך חברות יכולות לאסוף פרטים ומידע באחריות ובלי חשיפה

חברות אוספות נתונים פרטיים על אנשים בעבודתן השוטפת לצרכים שונים • על מנת לעשות זאת באופן שלא יפגע בבני אדם, הן צריכות להתמקד בכמה נושאים קריטיים: מקור הנתונים, מטרת איסוף המידע, הכנתו לשימוש והגנה על פרטיות • איך עושים זאת נכון?

האתיקה שבניהול מסחרי של מאגר מידע פרטי / צילום: Unsplash
האתיקה שבניהול מסחרי של מאגר מידע פרטי / צילום: Unsplash

אודות מגזין הניהול של הרווארד (HBR)

מגזין הניהול של אוניברסיטת הרווארד יוצא לאור מזה מאה שנה ומאגד מאמרים מבוססי מחקר ונתונים. עם כותביו נמנים מיטב המומחים הבינלאומיים לניהול ולעסקים במגוון תחומים, ובהם מנהיגות, משא ומתן, אסטרטגיה, שיווק, כספים ותפעול. מאמרי Harvard Business Review מתורגמים ומתפרסמים בגלובס שלוש פעמים בשבוע: בימים שני, רביעי וחמישי (מגזין G).

אודות הכותבים

סגאלה הוא לשעבר פרופסור בבית הספר לעסקים HEC Paris, ושותף בקרן מועצת המנהלים הבין־לאומית.

רוזייס הוא פרופסור לשיווק ב־HEC Paris והדיקן לעניינים אקדמיים במכון המנהלים BMI.

היכולת לקודד, לאחסן, לנתח ולשתף נתונים העניקה לחברות הזדמנויות אדירות - וזו הסיבה שרבות מהן מבצעות השקעות נלהבות באינטליגנציה מלאכותית, אפילו בתקופה של אי ודאות כלכלית. אבל הצורך במאגר מידע פותח גם דלת לניצול. סיפורים על הדרך שבה החלטות מונעות AI מפלות נשים וקבוצות מיעוט בתחומים רבים, מעוררים אי נחת לגבי האופן שבו הנתונים נאספים, משומשים ומנותחים.

חברות הבוחנות פרויקטים חדשים שיכללו נתונים שיספקו להן בני אדם או כאלה שנמצאים במאגרי מידע קיימים, צריכות להתמקד בחמישה נושאים קריטיים: מהו המקור של הנתונים האלה; מהי המטרה שלהם; כיצד הם נשארים מוגנים; איך הפרטיות של האנשים שמספקים את המידע מובטחת, ואיך מכינים את המידע לשימוש.

כל פרויקט חדש שאמור לכלול איסוף, אחסון ועיבוד של נתונים על אנשים צריך להיות מאושר על ידי צוות בדיקה מוסדי לפני שהוא מקבל אור ירוק. לא צריכים להיות שום יוצאי דופן לכלל זה, אפילו בפרויקטים קטנים מאוד. בדיקה של הצוות מתחילה בנושא הראשון: איך הנתונים ייאספו.

1 מקור הנתונים

חברות צריכות לשקול את המקורות לא רק של המידע שהן מתכוונות להשיג, אלא גם של המידע שכבר נמצאת ברשותן. רבות מהן באופן שגרתי אוספות מה שמכונה "מידע אפל", שלעיתים רחוקות נעשה בו שימוש.

דוגמאות ל"מידע אפל" כוללות נתוני צרכנים שהתעלמו מהם, רישום ביקורים באתר, צילומים, מסמכים שמתויקים מבלי להיות מקוטלגים, הודעות דואר אלקטרוני, דוחות שירות לקוחות או תמלילים ותגובות ברשתות חברתיות. למרות שהנתונים האלה לעיתים קרובות חסרים מבנה ולכן קשה לשלב אותם, הערך הפוטנציאלי שלהם עצום - ולכן מעצבי תוכנה רבים יוצרים מוצרים שעוזרים לחברות לאתר את המידע האפל הנוגע להן. זה מביא אותנו לנקודה השנייה.

 

2 מטרה

בהקשר תאגידי, לעיתים קרובות משמש המידע שנאסף בהסכמת האנשים למטרות שאינן ידועות לאותם אנשים. בבחינת הניצול של מידע קיים, לפיכך, חברות חייבות לבדוק אם יש צורך בקבלת הסכמה נוספת.

לדוגמה, בנק אחד בצרפת רצה לבדוק את ההנחה כי בריונות או הטרדה מינית בעבודה יכולה להתגלות בבדיקת הודעות דואר אלקטרוני שנשלחות בארגון. הבנק השיק מחקר שבו נמצאה עדות חזקה לכך שהודעות דואר אלקטרוני יכולות לחזות הטרדה מינית. אך למרות זאת, הבנק ויתר לבסוף על הפרויקט כיוון שהמידע שנאסף - כפי שהבחינו המנהלים בבדיקה - נועד במקור לתקשורת העוסקת בנושאי עבודה. אותם אנשים ששלחו את ההודעות, אם כן, לא היו חושבים או מצפים שמתבצעת בהן בחינה כזאת.

3 הגנה

לפי Identity Theft Resource Center, כמעט 2,000 פריצות מידע קרו בארה"ב ב־2021. המצב באירופה לא הרבה יותר טוב. וירג'ין מדיה הותירה ללא אבטחה פרטים אישיים של 900 אלף מנויים בשרתים שלה במשך עשרה חודשים בגלל טעות בהגדרות - ולפחות אדם אחד ללא הרשאה ניגש לקבצים האלה בתקופת הזמן הזו.

ועדת בדיקה מוסדית חייבת שקיפות באשר לשאלה איפה יהיה מאוחסן המידע של החברה, למי עלולה להיות גישה אליו, האם (ומתי) יעבור המידע אנונימיזציה ומתי הוא יושמד.

4 פרטיות

הבעיה שחברות רבות ניצבות בפניה היא האיזון בין מעט מדי ליותר מדי אנונימיזציה במאגרי מידע. ישנן טכניקות רבות לאנונימיזציה, שאמורות להגן על זהות של אדם פרטי. אולם חוקרים הצליחו לזהות אנשים בתוך מאגר מידע על בסיס נתונים מצומצמים כמו מגדר, תאריך לידה ומיקוד. אפילו מידע פחות ספציפי, בשילוב עם מאגרי מידע אחרים, יכול לשמש לזיהוי אנשים.

נטפליקס שלחה מאגר מידע שכלל רישום של דירוגי הסרטים של 100 מיליון מנויים, לכל מדען מידע שמסוגל ליצור עבורה אלגוריתם המלצות סרטים מוצלח יותר. במידע עצמו לא היו מזהים של המנויים, והוא כלל רק דגימה מהדירוגים של כל מנוי, אבל חוקרים הצליחו לזהות 84% מהאנשים על ידי השוואת התאריך שבו הם ביצעו את הדירוג, ועל ידי תיאום הסרטים שאותם דירגו עם מאגר מידע מצד שלישי ב־IMDB.

5 הכנה

בדרך כלל, מאגר מידע מכיל קריטריונים שונים, אחד מהם יכול להיות למשל "מגדר". המידע המוזן בקטגוריה זו יכול להיות שונה אחד מהשני - הוא יכול להיכתב למשל כ"אישה", כ"נקבה" או פשוט כ"נ'". הנתון עלול להיות מוזן גם עם טעות בכתיב, או בכלל בשפה שונה. כשמדובר במאגר של מיליארד אנשים, יש צורך לבצע בו תהליך של "ניקוי", שעבר תכנון ובדיקה.

לפי Tableau, פלטפורמה לניתוח מידע, יש חמישה צעדים בסיסיים בניקוי מידע: 1) להסיר הבחנות כפולות או לא רלוונטיות. 2) לתקן טעויות מבניות. 3) להסיר יוצאי דופן לא רצויים. 4) לנהל מידע חסר, אולי על ידי החלפת כל ערך חסר בממוצע של אותו סט נתונים. 5) לוודא ולהטיל ספק בנתונים ובתוצאות הניתוח.

העניין מבחינת דירקטוריונים והנהלה בכירה הוא כי שימוש ב־AI כדי לתפוס לקוחות, לקבוע התאמה לתפקיד או לאשר בקשה להלוואה יכולים להיות בעלי השפעה הרסנית. חברי דירקטוריון ומנהלים בכירים צריכים לראות ועדת ביקורת תאגידית לא כהוצאה, מגבלה או מחויבות חברתית - אלא כמערכת התראה מוקדמת.

 © Harvard Business School Publishing Corp