הטכנולוגיה שהופכת משפט קצר לציור מרהיב תוך שניות בודדות

הטכנולוגיה DALL·E 2 משתמשת בבינה מלאכותית כדי ליצור תמונות או יצירות אמנות ריאליסטיות מתיאור טקסט שנכתב באנגלית – והרשת סוערת במיוחד על היכולות המרשימות המוצגות • מדובר בפיתוח של חברה אמריקאית למחקר בינה מלאכותית, OpenAI

מתוך הבלוג של חברת OPENAI
מתוך הבלוג של חברת OPENAI

שני האיורים של השועל בתמונה נוצרו בעזרת מחשב בלבד. התיאור שהטכנולוגיה קיבלה הוא "a painting of a fox sitting in a field at sunrise in the style of Claude Monet".

בינה מלאכותית זה תחום מתפתח וחוקרים ברחבי העולם מנסים להבין את הגבולות והיכולות הגלומות בטכנולוגיות מהסוג הזה. הטכנולוגיה DALL·E 2, משתמשת בבינה מלאכותית כדי ליצור תמונות או יצירות אמנות ריאליסטיות מתיאור טקסט שנכתב באנגלית - והרשת סוערת במיוחד על היכולות המרשימות המוצגות.

התיאורים לתמונות יכולים להיות מורכבים, כמו שילוב תכונות, מושגים, פעולות, סגנונות אמנות ונושאים שונים, והבשורה שהמחשב עושה את זה לבד ובשניות בודדות. מדובר למעשה בפיתוח של חברה אמריקאית למחקר בינה מלאכותית, OpenAI, בין מייסדיה נמנה אילון מאסק, מנכ"ל טסלה ו-SpaceX המעוניין לרכוש את הרשת החברתית טוויטר תמורת 44 מיליארד דולר.

בבלוג החברה מדגימים כמה אפשרויות שונות שהבינה המלאכותית יודעת לעשות, לדוגמה: "An astronaut playing basketball with cats in space in a watercolor style", תיאור כזה יאפיין בין האפשרויות השונות את התמונה הזו:

תמונה שהבינה המלאכותית יצרה לפי התיאור: ''אסטרונאוט משחק כדורסל עם חתולים בחלל בסגנון צבעי מים'' / צילום: מתוך הבלוג של חברת OPENAI
 תמונה שהבינה המלאכותית יצרה לפי התיאור: ''אסטרונאוט משחק כדורסל עם חתולים בחלל בסגנון צבעי מים'' / צילום: מתוך הבלוג של חברת OPENAI

לצורך ההדגמה, תיאור שכזה: "Teddy bears working on new AI research on the moon in the 1980s", יביא בין האפשרויות השונות תמונה שכזו:

תמונה שהבינה המלאכותית יצרה לפי התיאור: ''דובונים עובדים על מחקר בינה מלאכותית על הירח בשנות ה-80'' / צילום: מתוך הבלוג של חברת OPENAI
 תמונה שהבינה המלאכותית יצרה לפי התיאור: ''דובונים עובדים על מחקר בינה מלאכותית על הירח בשנות ה-80'' / צילום: מתוך הבלוג של חברת OPENAI

לפי החברה, DALL·E 2 יכולה לבצע עריכות מציאותיות לתמונות קיימות, גם בעזרת תיאור טקסטואלי. התמונה המקורית היא תמונה של בריכה ובתמונה הערוכה מוסיפים תמונה של פלמינגו.

התמונה המקורית:

תמונה של בריכה שהבינה המלאכותית קיבלה / צילום: מתוך הבלוג של חברת OPENAI
 תמונה של בריכה שהבינה המלאכותית קיבלה / צילום: מתוך הבלוג של חברת OPENAI

התמונה הערוכה:

תמונה של בריכה עם פלמנגו על הבריכה, שהבינה המלאכותית הוסיפה / צילום: מתוך הבלוג של חברת OPENAI
 תמונה של בריכה עם פלמנגו על הבריכה, שהבינה המלאכותית הוסיפה / צילום: מתוך הבלוג של חברת OPENAI

מה שמדהים לראות, זה שהבינה המלאכותית יודעת להשלים את התמונה לא רק מבחינת החיתוך הטכני ואיך האובייקט נמצא בתמונה, אלא היא משלימה את ההשתקפות בבריכה ועושה את השינויים המתבקשים. בנוסף, הטכנולוגיה יודעת להביא לבנות גרסאות דומות של אותה תמונה או ציור בעצמה. התמונה המקורית היא ציור, והבינה המלאכותית יודעת לעשות את אלו:

התמונה המקורית:

התמונה המקורית שהבינה המלאכותית קיבלה / צילום: מתוך הבלוג של חברת OPENAI
 התמונה המקורית שהבינה המלאכותית קיבלה / צילום: מתוך הבלוג של חברת OPENAI

בין האפשרויות:

אחת הווריאציות שהבינה המלאכותית עשתה לאותה תמונה / צילום: מתוך הבלוג של חברת OPENAI
 אחת הווריאציות שהבינה המלאכותית עשתה לאותה תמונה / צילום: מתוך הבלוג של חברת OPENAI

אחת הווריאציות שהבינה המלאכותית עשתה לאותה תמונה / צילום: מתוך הבלוג של חברת OPENAI
 אחת הווריאציות שהבינה המלאכותית עשתה לאותה תמונה / צילום: מתוך הבלוג של חברת OPENAI

איך הטכנולוגיה הזו בעצם עובדת?

למעשה מה שהטכנולוגיה עושה זה ללמוד את ההקשר בין תמונות לבין הטקסט המתאר. הטכנולוגיה משתמשת בתהליך שנקרא "דיפוזיה", כך מוסבר בבלוג החברה, שמתחיל למפות את התמונה בדפוס של נקודות אקראיות שמשתנה בהדרגה בהתאם להיבטים ספציפיים בתיאור התמונה. לפי תיאור החברה, הטכנולוגיה פותחה בעזרת אימון רשתות נוירונים של תמונות ותיאורים שלהם, ומציאת הקשרים בין הרשתות השונות בעזרת למידה עמוקה (דיפ לרנינג). "הבינה המלאכותית לא רק מבינה אובייקטים בודדים כמו דובי קואלה ואופנועים, אלא לומדת על היחסים בין האובייקטים", נאמר בתיאור החברה.

הפיתוח הראשוני הוצג בינואר 2021, חברת OpenAI הציגה את DALL·E, שמה של הטכנולוגיה הולחם בין שתי דמויות: הרובוט WALL-E והאמן סלבדור דאלי. הדור הקודם, בדומה לנוכחי, עשה בדיוק אותו דבר ויצר תמונות בהתאם לטקסט, רק ביכולות פחות משופרים. כיום התמונות מדויקות ומציאותיות יותר ורזולוציה שגדולה פי ארבעה, מ-256X256 פיקסלים ל-1024x1024.

תיאור של המודל שלהם:

איך זה עובד? ב- OpenAI אימנו את המודל כך שאספו מיליוני תמונות עם התיאור שלהם וכך אימנו את האלגוריתם שלהם את הקשר בין התיאור לתמונה. הטכנולוגיה DALL·E 2 משתמשת בתיאור כדי לייצר תמונות חדשות, הן מדורגות בעזרת אלגוריתם נוסף בשם CLIP, שתפקידו לייצר תיאור טקסטואלי לתמונה. כך שלמעשה התמונות עם התיאורים הדומים, הן התמונות הנכונות והמתאימות.

נכון לעכשיו, הפרויקט הזה לא מוצע לכל הציבור, אלא ישנה רשימת המתנה. כדי לוודא שלא יעשו בטכנולוגיה הזו שימושים רעים, הם פיתחו כמה כללים: הבינה המלאכותית מוגבלת ואיננה מסוגלת לייצר תמונות אלימות, תמונות שנאה או תמונות מיניות ולא ראיות. החברה צמצמה את החשיפה למושגים מהסוגים האלו, והם השתמשו בטכניקות מתקדמות כדי למנוע ייצור תמונות של אנשים אמיתיים ואנשים מפורסמים. כך שלמעשה החברה לא תאפשר ליצור תמונות אם המסננים שלהם מזהים הודעות או תמונות שעלולות להפר את המדיניות שלהן. לצד זאת, לחברה יש מערכות ניטור אוטומטיות ואנושיות כדי להגן מפני שימוש לרעה.

במאית שקיבלה גישה לכלי הזה, פרסמה סרטון עם מוזיקה כדי להראות את היכולות המרהיבות של הכלי:

הבשורה היא ההבנה איך בינה מלאכותית רואה את העולם שלנו

"התקווה שלנו היא שהטכנולוגיה הזו תעצים אנשים על מנת שיוכלו לבטא את עצמם בצורה יצירתית", נכתב בבלוג החברה. לצד המטרה הזו, החברה מצביעה על כך שהטכנולוגיה עוזרת להם להבין כיצד מערכות בינה מלאכותית מבינות ורואות את העולם, "וזה קריטי למשימתנו כדי ליצור בינה מלאכותית שתועיל לאנושות", נכתב.

בועז ארד, צלם במקצועו המבוסס בגרמניה, צייץ בטוויטר כמה תהיות סביב היכולות האלו, כמו איך פיתוח טכנולוגיה כזו יכולה להשפיע על משרדי פרסום ועל מעצבים גרפיים וצלמים שמועסקים כדי לעשות בדיוק את זה. הוא מעלה את התהייה לאן זה עוד יכול ללכת בעתיד - הכנת סרטונים כאלו או שירים שלמים.

תהליך חיובי או שלילי?

יחיאל אטיאס, מנכ"ל חברת Hexa הישראלית, פלטפורמה להדמיה תלת-ממדית, מסביר כי "הרשתות האלה בעצם יוצרות מפעל אינסופי של רעיונות, ומכילות בתוכן יכולות אדירות בייצור תוכן. בסופו של דבר, הרשתות האלה יעזרו לייצר קריאייטיב בלי הגבלה ולהקטין את הזמן שלוקח לייצר רעיונות חדשים". לדבריו, אי אפשר להניח איך זה ישפיע על תעשיית הפרסום.

"קצת מוקדם להגיד אם זה תהליך חיובי או שלילי. הרבה נכתב ונאמר על משרות שייעלמו מהעולם בשנים הקרובות וקשה להבין היום איך זה ישפיע על עולם העבודה בהקשר הפרסום, אבל בהסתכלות על תעשיות אחרות התשתיות האלה מפנות אנשים לעשות את התפקיד שמכונות לא יכולות להחליף - חשיבה קריאיטיבית. הטכנולוגיה הזו בעצם מסייעת ונותנות גישה נוחה יותר לכמויות מידע עצומות. הן מאפשרות לעשות את הפעולות החיפוש שהמוח עושה בסדר גודל של מיליוני מוחות", כך אטיאס. "כשנותנים עוצמה כזו לצוות קטן או פחות מנוסה, הוא משנה לחלוטין את הדינמיקה של משרד פרסום ומאפשר להפוך צוות קטן למפעל של רעיונות שיודע לשרת לקוחות רבים בהרבה".