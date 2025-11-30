בדיקה טכנולוגית איך ניתן לשפר שירותים דיגיטליים? אילו מוצרים חדשים יש היום בשוק, ומה איכותם לעומת המתחרים? כיצד פותרים בעיות טכנולוגיות? מדי שבוע המדור ינסה לענות על שאלות אלה ודומות להן. אם נתקלתם בתקלות ואתם זקוקים לעזרה, או שאתם מעוניינים שנסקור מוצרים מסוימים, אתם מוזמנים לפנות למייל: nevo-t@globes.co.il

בימים האחרונים ביצעה גוגל את קפיצת המדרגה המשמעותית שהיא הייתה צריכה - והשיקה את מודל הבינה המלאכותית החדש שלה, Gemini 3, שעליו תידרשו לשלם 20 דולר בחודש (כמקובל בשוק). החברה מתפארת בכך שעד כה יש לג'מיני יותר מ־650 מיליון משתמשים חודשיים, ועם השיפור הנוכחי, הצפי הוא לעלייה בכמות.

מבחני ביצועים זריזים בשוק הכריזו על ג'מיני 3 כמודל הטוב ביותר שיש כיום בשוק, אך הם התבססו על ביצועים באנגלית. כאן נציג בדיקה שנעשתה ברובה בעברית, עם השוואות לביצועים באנגלית.

החידוש העיקרי: יכולות הסקה משופרות

בגוגל אומרים כי המודל החדש מוצלח יותר בכל הנוגע להסקה והיגיון, כך שהוא מבין בצורה טובה יותר ובפחות אינטראקציה את הפרומפטים שמבקשים ממנו. בעיקר ניתן לראות כיצד במצב שנקרא "חשיבה" (Thinking) הוא מפרק את השאלות לחלקים, ומתייחס לכל חלק בצורה ייעודית. כך הוא מגיע לתוצאות טובות יותר, גם אם זה לוקח קצת יותר זמן.

כדי לבדוק זאת, ניסינו מספר פרומפטים שדורשים חלוקה רחבה יחסית של משימות. למשל, שאלנו גם את ג'מיני וגם את ChatGPT מה צריך לעשות אם רוצים לארח קבוצת חברים לצפייה משותפת של משחק כדורגל. המודלים לא התבקשו לבצע רכיב אחד מתוך כל הערב, אלא לומר מה צריך להכין לקראתו.

שני המודלים נגעו פחות או יותר באותן הסוגיות. ג'מיני ירד לפרטים רבים יותר מאשר GPT שהיה יחסית כללי, ומנגד, GPT חשב על כמה חלופות לכל אפשרות - לדוגמה, לא להכין את האוכל אלא להזמין בחוץ. גם שאלת הפולואפ הייתה שונה אצל כל אחד: בעוד שג'מיני הציע מתכונים להכנה מהירה שמתאימים לערב צפייה במשחק, ב-ChatGPT הציעו להכין רשימת קניות ותפריט בכמות מדויקת למספר האנשים. התוצאות בשני המקרים היו טובות.

משימה נוספת שניתנה למודלים היא לפתור תרגיל מבגרות במתמטיקה של 5 יחידות בתיכון. בעוד שהמודל של גוגל הצליח לענות נכונה על השאלה, גם במודל המהיר וגם במודל החושב, ואף להסביר כל שלב בתרגיל, GPT עדיין חשב ולא הגיע לפתרון. גם כשהוא התחיל לפעול, הוא כתב את התשובה בצורה איטית, ולקח לו זמן להגיע לפתרון (שהיה נכון).

המודלים השונים עדיין עושים טעויות, גם עובדתיות וגם מהותיות. התוצרים שתקבלו ידרשו טיפול, ולא תמיד התוצאה הראשונה תעבוד - בין אם זו תמונה שלא תיראה טוב או טקסט לא נכון. לדוגמה, העלינו למודל קובץ וורד, וביקשנו לבצע שינויים אך לשמור על מספר המילים במסמך. המודל קבע שיש בקובץ 400 מילים, למרות שהיו בו 650. בעת התיקון, המודל התנצל ופעל כיאות. מדובר בדוגמה פעוטה, אך היא ממחישה שאי אפשר לסמוך על המודלים האלו בעיניים עצומות.

היתרון הבולט: Vibe Coding

לפי גוגל, המודל החדש הוא בעל יכולות רב-מודאליות טובות יותר. משמע, הוא מסוגל לעבד היטב קול, טקסט, תמונות וקוד. הוא גם יבחר מהי הדרך הטובה ביותר לענות על שאילתה, ובמקרים מסוימים יבחר להציג תמונה ולא טקסט. עם זאת, גם במודל המהיר וגם במודל החושב התוצאות תמיד היו טקסטואליות. עם זאת, ברגע שעוברים למצב Canvas, מגלים עולם אחר לחלוטין.

אנחנו, למשל, ניסינו ללמוד יותר על מערכת השמש, לבנות אפליקציה שמתאימה לטיול בן חמישה ימים בפריז עבור זוג צעירים, וגם ללמוד קצת יותר על מתקפת DDoS (מניעת שירות). בכל אחד מהמקרים סיפק המודל, בין אם לבד ובין אם ממש היינו צריכים להבהיר, מערכת ויזואלית רלוונטית.

האפליקציה חולקה לפי לו"ז וקישורים לגוגל מפות כדי לדעת לאן ללכת, מערכת השמש הסתובבה והיה ניתן ללחוץ על כל אחד מהכוכבים כדי ללמוד עליהם, ומתקפת הסייבר הראתה ממש ויזואליה של בקשות משתמשים ומה החשיבות של חומת אש.

אין ספק שזה שדרוג משמעותי, שכן גם התוצאות טובות יותר מסימולציות קודמות. המודל מצליח לספק מענה איכותי ונהדר, וזה מהיתרונות הבולטים שלו בפער ניכר.

חיבוריות: מהבשורות של גוגל

כשמדברים על ענקית הטכנולוגיה גוגל, חייבים להזכיר את האקוסיסטם שהיא בונה. ג'מיני נכנס לכלל השירותים של גוגל, כך שגם במייל שלכם, בלוח השנה, ביוטיוב ובדרייב המודל יכול לסייע. זה מה שגוגל מבטיחה, אבל למעשה, יש לה יתרון גדל יותר על השאר - המידע של המשתמשים. העובדה שגוגל יודעת עליהם כל כך הרבה, במיוחד ככל שהם ישתמשו יותר בבינה המלאכותית, תאפשר לה להפוך למפלצת של ממש.

לדוגמה, בעת הפעלת סוכן AI כדי להזמין את הפיצה לערב הכדורגל שהוזכר, במקום לשאול איזה פיצה ואיזו תוספת, המידע שכבר קיים אצל גוגל יאפשר לה להזמין את הפיצה אוטומטית. העובדה שהמידע של כולם נמצא אצל גוגל עשוי לאפשר לה בעתיד להציע מוצר בהתאמה אישית, בצורה טובה יותר מכל צ'אטבוט אחר.

ויזואליה: ננו בננה ו־Veo

המודל קיבל יכולות חדשות בכל הקשור לתמונות וסרטונים, ומרגישים את קפיצה המדרגה ביצירת התמונות במודל, מה שמוכר בשם Nano Banana. כאשר ביקשנו, למשל, ליצור תמונה שמורכבת ממותגים מוכרים, כמו הארי פוטר ו-Wicked, המודל הצליח לספק תמונות טובות. נציין כי זה תלוי גם במצב שבו פועלת המערכת: במודל ה-Fast התמונה הופקה מהר מאוד אך הייתה פחות איכותית, ובמודל ה-Thinking התוצאות היו הרבה יותר טובות, אך לקח יותר זמן.

בכל הנוגע לסרטונים, מה שאנחנו מכירים כ-Veo, עדיין יש מקום לשיפור. המודל אפשר לנו לבצע שלושה סרטונים ביום, ובעת בקשה מקבלים תוצר, כך שאין הרבה מקומות למשחק כמו בטקסטים או בתמונות. הסרטונים היו נחמדים, אבל לעומת מודלים מתחרים כמו זה של לייטריקס למשל, לגוגל יש עדיין עבודה. כשביקשנו ממנו לייצר פרסומת לעיתון גלובס, כמעט כל המילים נאמרו בהגייה לא נכונה, והעברית נשמעה 'שבורה' לחלוטין.

כשניסינו לבקש מהמודל לייצר סרטונים שכוללים פוליטיקאים המכריזים דברים שלא נאמרו מעולם, הוא בלם זאת. למעשה, הוא בלם כל סרטון שביקשנו עם דמות מוכרת אך שנויה במחלוקת בהיבטים פוליטיים - גם אם מדובר בסרטון של נפנוף לקהל.

למידה: השיפור ב-NotebookLM

בין הכלים הטובים ביותר של גוגל נמצא NotebookLM, הכלי שעוזר לסטודנטים ובכלל לכל מי שמעוניין לרדת לשורש של סוגיות שונות. איך זה עובד? מזינים למערכת את החומרים הנדרשים, ואז ניתן לבצע עליהם ניתוחים, תובנות ובעיקר לימודים. כך, לדוגמה, אפשר להעלות קבצים מהתואר בלימודים, ולקבל תרשימי זרימה, סרטון שמסכם את החומר, מצגת, בחנים, אינפוגרפיקה ועוד.

אמנם לא מדובר בכלי חדש, אבל בצל השיפורים האחרונים במודל, המערכת השתפרה פלאים, ואף התחילה לעבוד גם בעברית בצורה טובה. ככה אפשר ללמוד במהירות רבה יותר סוגיות שלמות, ולהיות הרבה יותר מוכן אליהם. בין קפיצות המדרגה המשמעותיות של גוגל, וכלי נהדר שעובד היטב רוב הזמן.