הצ'טבוטים ניזונים מהאינטרנט, ומישהו צריך לשלם על זה

אמ;לק

יישומי הבינה המלאכותית היוצרת צברו לאחרונה תאוצה ופופולריות חסרות תקדים. הם מתבססים על מודלים שאומנו על מאגרים גדולים של תוכן טקסטואלי שזמין באינטרנט ובלעדיו לא היו מתקיימים בצורתם הנוכחית. עד כה הם לא שילמו לאיש על הגישה לנתונים הללו, אך זה עשוי להשתנות. עוד ועוד חברות תקשורת, אתרי אינטרנט ורשתות חברתיות בוחנים את התניית את הגישה בתשלום. והמשתמשים שיצרו את הטקסטים? הם כנראה לא יראו מזה כסף

אם אי פעם פרסמתם בלוג, העליתם משהו לרדיט או שיתפתם תוכן בכל מקום אחר ברשת הפתוחה, סביר מאוד שמילאתם תפקיד ביצירת הדור האחרון של בינה מלאכותית (AI). הצ'טבוט Bard של גוגל, ChatGPT של OpenAI, גרסת הבינה המלאכותית של בינג, מנוע החיפוש של מיקרוסופט וכלים דומים של חברות סטארט-אפ רבות שמשלבים אותם או מודלי שפה מבוססי בינה מלאכותית אחרים - אף אחד מהכותבים האוטומטיים החכמים האלה לא היה יכול להתקיים אלמלא מאגר הטקסט העצום הזמין בחינם באינטרנט.

● כולם צריכים להנות: החוקר שרוצה גישה חדשה לחדשנות ולמימון הייטק
● למה עדיף להניח לילדינו לשחק בכוס פלסטיק במקום להקריא להם סיפור?
● הזוג שרכב 6,000 ק"מ על אופניים עם זוג עיניים אחד

עתה, באופן שלא היה כמוהו מאז קרבות מנועי החיפוש המוקדמים, התוכן של האינטרנט הפך לנושא מחלוקת בשאלה מה שייך למי. כוחות גדולים מנסים להרוויח ממאגר מידע עשיר חסר תחליף, באמצעות ערך מסוג חדש לגמרי.

חברות הטכנולוגיה והתקשורת שסיפקו את הנתונים הללו לא ביודעין, מתעוררות ומבינות כמה הם חיוניים לאימון הדור החדש של בינה מלאכותית מבוססת שפה. רדיט, משאב שלא יסולא בפז מבחינת OpenAI, הכריזה לאחרונה שתתחיל לדרוש כסף מחברות בינה מלאכותית תמורת גישה לדאטה. ב־OpenAI סירבו להגיב.

גם טוויטר החלה לאחרונה לדרוש תשלום על השירות המספק גישה לנתוניה, שינוי שמשפיע על היבטים רבים של הפעילות העסקית של הרשת החברתית, כולל השימוש בדאטה על ידי חברות בינה מלאכותית. News Media Alliance, קבוצה המייצגת מוציאים לאור (וביניהם חברת האם של הוול סטריט ג'ורנל, דאו ג'ונס), הכריזה במסמך שפרסמה החודש שכאשר חברות מאמנות את הבינה המלאכותית שלהן על בסיס תוכן שפורסם על ידי חברות בקבוצה, הן צריכות לשלם על כך דמי רישוי.

"מבחינתנו, זה מסתכם בסופו של דבר בייחוס ראוי", אמר פרשאנט צ'נדראסקאר, מנכ"ל Stack Overflow, אתר בו מתכנתים עונים לשאלות של מתכנתים אחרים. החברה שלו מתכוונת גם לדרוש תשלום מחברות AI גדולות על גישה לעבודה של משתמשים באתרי החברה. "אנחנו באמת רוצים לוודא שקהילת Stack Overflow, שהשקיעה את כל המאמץ הזה במענה לשאלות, תקבל קרדיט ראוי על 15 השנים האחרונות של המאמצים שלה".

כבר כתבתי בעבר על האופן בו שירותי בינה מלאכותית כמו Dall-E2 של OpenAI, ששואבים דימויים מהאינטרנט ואז פולטים צירופים חדשים שהתוכנה מייצרת, הואשמו בגניבת קניין רוחני בקנה מידה תעשייתי. החברות שיוצרות את המערכות האלה עסוקות בימים אלה בתביעות בנוגע להאשמות הללו. הקרב על מילים שנוצרו על ידי בינה מלאכותית יהיה אפילו גדול יותר, ויכלול לא רק את נושא התגמול והקרדיט אלא גם שאלות על פרטיות.

הקרב הזה מתרחש בגלל האופן בו בנויים צ'טבוטים של AI. ה"אלגוריתמים של מודל שפה גדול" שמניעים את הבוטים האלה זקוקים לאימון על ידי קליטה ועיבוד של כמויות עתק של שפה קיימת, כדי לנסות לחקות מה שבני אדם אומרים ואת האופן בו הם אומרים זאת. לא מדובר בסוג הנתונים שאנו רגילים להסתכל עליהם באינטרנט כסחורה, כמו למשל המידע האישי וההתנהגותי שמשמש חברות כמו מטא, החברה האם של פייסבוק, למיקוד הפצה של פרסומות.

הנתונים הללו הם התוצר היצירתי של המשתמשים האנושיים בשירותים השונים, כמו מאות מיליוני פוסטים של משתמשי רדיט. רק ברשת אפשר למצוא מצבורים גדולים מספיק של מילים שכתבו בני אדם. ובלי זה, כל הבינה המלאכותית מבוססת הצ'טים של ימינו והטכנולוגיות הקשורות לא היו עובדות.

מחקר מ־2021 של ג'סי דודג', חוקר בעמותת Allen Institute for AI, מצא שוויקיפדיה ואינספור מאמרי חדשות שמוגנים בחוקי זכויות יוצרים, ממקורות גדולים וקטנים, נמצאו באחד ממאגרי הנתונים הכי נפוצים של תוכן ש"נקצר" מהרשת. גם גוגל וגם פייסבוק השתמשו במאגר הזה כדי לאמן מודלים גדולים של שפה, ו־OpenAI השתמשה במאגר דאטה דומה משל עצמה.

ב־OpenAI כבר לא חושפים מאיפה החברה מקבלת את הדאטה שלה, אבל מחקר שפורסם ב־2020 על ידי החברה הבהיר שמודל השפה הגדול שלה השתמש בפוסטים שנלקחו מרדיט כדי לנסות ולשפר את הדאטה ששימש כדי לאמן את ה־AI שלה.

ברדיט עוד לא יודעים כמה הכנסה ניתן לייצר מגביית תשלום מחברות עבור גישה לדאטה, כך אמר דובר רדיט טים ראתשמידט, אבל בטוחים שסוג הדאטה שיש בפוסטים שלה עוזר לשפר חלק מהמודלים של שפה שקיימים היום.

מנהלים בתעשיית ההוצאה לאור בחנו את ההיקף שבו התוכן שלהם שימש לאימון ChatGPT וכלי AI אחרים, את האופן שבו הם חושבים שהם צריכים לקבל על כך פיצוי ואת האפשרויות המשפטיות העומדות לפניהם, כך דווח בג'ורנל חודש שעבר. בינתיים, עם זאת, אף אחד מבעלי מנועי הצ'ט מבוססי ה-AI הגדולים - גוגל, OpenAI, מיקרוסופט וכו' - לא סגרו עסקאות לתשלום על נתח דאטה האימון שלהם שהגיע מהחברות ב־News Media Alliance, כך אמרה דניאל קופי, יועצת כללית של הקבוצה.

בטוויטר לא הגיבו לבקשות תגובה.

במיקרוסופט סירבו להגיב. דובר של גוגל אמר שלחברה "רקורד ארוך של סיוע ליוצרים ומפרסמים לעשות מונטיזציה של תוכן וחיזוק מערכת היחסים עם הקהלים שלהם. בהתאם לעקרונות ה־AI שלנו, נמשיך לחדש בתחום הזה באופן אחראי ואתי". הוא אמר גם ש"אלה עדיין ימים מוקדמים", ושגוגל עדיין מקבלת משובים על איך לבנות מערכות AI שמיטיבות עם הרשת הפתוחה.

תסבוכת משפטית ואתית

קצירת נתונים שזמינים ברשת הפתוחה היא חוקית בנסיבות מסוימות, אם כי חברות ממשיכות להתווכח על הפרטים של איך ומתי מותר להן לעשות זאת. רוב החברות והארגונים שהופכים את הנתונים שלהם לזמינים ברשת עושים זאת בגלל שהם רוצים שמנועי חיפוש יוכלו לגלות ולאנדקס את המידע, כדי להציגו אחר כך למשתמשים בתוצאות החיפוש.

אבל העתקת הנתונים כדי לאמן מנועי AI עלולה להחליף כליל את הצורך לחפש את המקור וזה כבר סיפור אחר לגמרי.

חברות טכנולוגיה ש"קוצרות" את האינטרנט כדי לאמן את מערכות ה־AI שלהן פועלות על בסיס העיקרון ש"אנחנו יכולים לקחת את זה, ולכן זה שלנו", אמרה אמילי מ' בנדר, בלשנית חישובית מאוניברסיטת וושינגטון. בנד מוסיפה כי הפיכת הטקסטים האלה - החל בספרים, מאמרים במגזינים ופוסטים אישיים בבלוגים וכלה בפטנטים, מסמכים מחקריים והתוכן של וויקיפדיה - לתשובות שפולט צ'טבוט, מפשיטה את החומר הזה מהלינקים למקורות שלו. זה גם מקשה על משתמשי הצ'טבוטים לוודא את אמינות מה שהצ'טבוט אומר להם - בעיה מבחינת מערכות שלעתים קרובות אומרות דברים שאינם נכונים.

פעולות ה'קציר' העצומות האלה עלולות לשאוב גם מידע אישי עלינו. פוסט בבלוג שכתבת לפני כמה שנים ואחר כך מחקת עלול עדיין להימצא בנתונים שמשמשים לאימון ב־OpenAI, שמלמדת את מנועי ה־AI שלה באמצעות נתונים משנים של 'קציר' בכל רחבי האינטרנט, כך אמר סבסטיאן נגל, מדען דאטה ומהנדס ב־Common Crawl.

Common Crawl היא עמותה שכבר יותר מעשור 'קוצרת' חלקים גדולים מהרשת הפתוחה והופכת את מאגרי הדאטה שלה זמינים בחינם לחוקרים. מאגר הדאטה של Common Crawl הוא גם נקודת הפתיחה לחברות שרוצות להכשיר מנועי AI, כולל גוגל, מטא, OpenAI ואחרות.

שלא כמו אינדקס חיפוש, בדומה לאלה שבבעלות גוגל ומיקרוסופט, הסרת המידע האישי ממנוע AI שכבר אומן תצריך אימון מחדש של כל המודל, אמרה בנדר. בגלל שהמחיר של אימון מחדש למודל גדול של שפה עלול להיות כל כך גבוה - בסדר גודל של עשרות מיליוני דולרים, בשל הכמות העצומה של כוח החישוב שנחוצה לכך - לא סביר שחברות יעשו זאת, אפילו אם משתמש יכול להוכיח שגם מידע אישי שלו שימש לאימון ה־AI, אמר דודג'.

אבל ברוב המקרים גם קשה לגרום ל־AI שאומן על דאטה, כולל מידע אישי, לפלוט בחזרה את המידע הזה, אמר. ב־OpenAI אומרים שהחברה שינתה את המערכות מבוססות הצ'ט שלה כך שידחו בקשות למידע אישי. גם באיחוד האירופי וגם בממשל ביידן בארה"ב שוקלים להעביר חוקים חדשים ורגולציות לסוגים כאלה של AI.

דין וחשבון ושיתוף רווחים

חלק מתומכי ה־AI טוענים שמנועי AI צריכים לקבל גישה לכל הנתונים שהמהנדסים שלהם יכולים לשים עליהם את ידיהם, בגלל שזו הדרך שבה גם בני אדם לומדים. למה שמכונות לא יעשו דבר דומה, על פי ההיגיון הזה?

גם אם מניחים בצד את הקביעה שמנועי ה-AI של ימינו לא באמת פועלים כמו בני אדם, בעיה אחת בטענה הזו היא שמנועי AI לא יכולים להיות אחראים לפעולותיהם, אומרת בנדר. בן אדם שמעתיק עבודה של אחרים, או מנסה לארוז מחדש דיסאינפורמציה בתור אמת, עלול לשאת בהשלכות. אבל לא מכונה ולא היוצרים האנושיים של המכונה נושאים באחריות דומה, אמרה.

לא בטוח שתמיד זה יהיה המצב. בדיוק כמו שבעלי זכויות יוצרים כמו חברת גטי תבעו חברות בינה-מלאכותית-מחוללת-דימויים שהשתמשו בקניין הרוחני שלה לאימונים, סביר להניח שחברות וארגונים אחרים בסופו של דבר יתבעו את מנועי ה־AI מבוססי הצ'ט אם האחרונים לא יסכימו לשלם על רישיונות שימוש לתוכן בו הם משתמשים.

אבל מה בנוגע לכל הטקסטים האישיים האלה, פוסטים בפורומים נידחים ורשתות חברתיות שנסגרו ותכנים אחרים שמיליוני אנשים יצרו, ושסייעו להפוך את מנועי ה־AI מבוססי הצ'ט של ימינו לטובים בכתיבה? הדיבידנד היחיד שיוצרי כל התוכן הזה צפויים אי פעם לקבל הוא התועלת שהם יפיקו משימוש במנועי AI מחוללי שפה שאומנו על התוכן שלהם עצמם.

לתשומת לבכם: מערכת גלובס חותרת לשיח מגוון, ענייני ומכבד בהתאם ל קוד האתי המופיע בדו"ח האמון לפיו אנו פועלים. ביטויי אלימות, גזענות, הסתה או כל שיח בלתי הולם אחר מסוננים בצורה אוטומטית ולא יפורסמו באתר.

כלי חדש לניהול זמן:

מה שמעניין אותך. מתי שמענייין אותך

אודות גלובס

פרוייקטים ושיתופי פעולה

הצ'טבוטים ניזונים מהאינטרנט, ומישהו צריך לשלם על זה

הדפסת כתבה זו זמינה למנויים בלבד

אמ;לק

תסבוכת משפטית ואתית

דין וחשבון ושיתוף רווחים