מודל GPT-5 יצא לשוק. עד כמה הצ'אט השתפר?

בדיקה טכנולוגית

איך ניתן לשפר שירותים דיגיטליים? אילו מוצרים חדשים יש היום בשוק, ומה איכותם לעומת המתחרים? כיצד פותרים בעיות טכנולוגיות? מדי שבוע המדור ינסה לענות על שאלות אלה ודומות להן. אם נתקלתם בתקלות ואתם זקוקים לעזרה, או שאתם מעוניינים שנסקור מוצרים מסוימים, אתם מוזמנים לפנות למייל: nevo-t@globes.co.il

התחרות על הבינה המלאכותית מתעצמת, ובסוף השבוע שעבר הכריזה חברת ה-AI שמובילה את התחום, OpenAI, על המודל החדש ביותר שלה - GPT-5. החברה הבטיחה שמדובר במודל חכם, מהיר ושימושי יותר, בוודאי אם מדברים על כתיבה, קידוד ונושאי בריאות. בנוסף, היא השיקה את המודל לכולם, כולל למשתמשים החינמיים.

● בדיקה טכנולוגית | היצרנית טוענת שזה מכשיר הדגל הראשון שלה. אז בדקנו
● בדיקה טכנולוגית | האם המתקפל החדש של סמסונג שווה 7,500 שקל?

בדקנו את הכלי החדש בשפה העברית, וחזרנו עם תשובות - האם הוא מציע שיפור משמעותי שמצדיק את העדכון?

החידוש העיקרי: הביצועים, לצד הביקורת

שנתיים חלפו מאז שחרור הדור הקודם, אבל קשה לדבר על ה-GPT-5 ככזה שמביא בשורה אדירה. בדומה להשקות של סמארטפונים מדי שנה, שבהן החברות מבטיחות שהמכשיר כעת הרבה יותר טוב - גם כאן, OpenAI סיפקה מודל שמבחינת הבנצ'מרק ביחס לשוק מציע ביצועים משופרים ומהירים יותר, אבל עבור רבים, באופן לא מאוד מורגש.

בזמן שהמנכ"ל סם אלטמן סיפר כי "ניסיתי לחזור ל-GPT-4, וזה היה די אומלל", ולעומת זאת לדבר עם המודל החדש זה כמו לדבר עם דוקטור, בשוק פחות מסכימים איתו. יתרה מכך, ברשת היו מי שהתחננו לקבל בחזרה את הדור הקודם - מה שהוביל לכך שאלטמן החליט לאפשר למי שרוצה לחזור ל-4o לפחות לתקופה הקרובה.

מי שהשתמש ב־GPT-4o, זוכר את הסגנון החמים והחברי שלו - בין היתר, הצ'אט נהג להחמיא יתר על המידה, וטען כי השאלה ששאלתם היא השאלה המבריקה ביותר שהייתה יכולה להישאל. כעת סגנון השיחה השתנה, ההוא תכליתי ומדויק יותר, ובמידה מסוימת אפילו מרוחק. גם רמת השימוש באימוג'י התמתנה משמעותית, כאילו המודל התבגר. ולא כולם אוהבים את זה.

כאשר שאלנו אותו על כך, הוא הסביר שזה אחד השיפורים שנעשו, ואפשר "לחזור אחורה", רק צריך לבקש. מכיוון שהצ'אט זוכר את השיחות, ההעדפה הזו יכולה להשתמר.

אחד החידושים הוא שהמודל יכול כעת לכתוב קוד, משמע היכולת הזו היא כבר לא רק בידי מתכנתים. כך, לדוגמה, בנינו תוך מספר דקות עמוד נחיתה לאחד מכתבי גלובס - המערכת ביקשה לדעת מהיכן רוצים למשוך את הנתונים, ובנתה את העמוד.

בהשקה הדגימו כיצד המודל בנה אפליקציה ללימוד שפה בקלות, אך כשאנחנו ביקשנו ממנו אפליקציה למעקב אחר קלוריות, הוא הציג תוצאה ראשונה לא מספקת, ונדרשו תיקונים. גם לאחר התיקונים התוצאה עדיין לא הייתה מושלמת, אך זה הגיוני. עם זאת, לא תמיד שמר על ההתקדמות - משמע, אחרי שביקשנו ממנו לתקן משהו אחד, דבר אחר באפליקציה נעלם.

היתרון הבולט: ההתאמה האישית

אחד היתרונות המרכזיים של OpenAI הוא שהמודל זוכר את המשתמש, יכולת שגם גוגל הכריזה עליה השבוע. המשמעות היא שלא בכל שיחה "מתחילים מההתחלה", ושהמודל זוכר את ההעדפות ואת השאלות הקדומות, וכך מספק מענה הרבה יותר טוב.

היכולת הזו מצטרפת לשיפורים הנוספים בצ'אט: קודם כל, אפשר לעצב את הצבעים שלו, וגם לכוונן את ה"אישיות" שלו - משמע, לבקש ממנו להיות מתחשב ותומך, סרקסטי, ציניקן, רובוטי, חנון ועוד. יש גם שיפורים בקול של הצ'אט.

שיפור נוסף שעתיד לחזק את ההתאמה האישית למשתמשים הוא חיבור יומן הגוגל וחשבון ה־Gmail שלכם, כך שהצ'אט יוכל לענות על שאלות בלוח הזמנים שלכם, ולהציע לכם דברים. כמובן של־Gemini של גוגל כבר יש את החיבור המדובר, ואפילו בקלוד של אנתרופיק יש חיבור למוצרי גוגל.

אחד הפיצ'רים החדשים ש-OpenAI הכניסה הוא מצב Auto. בדרך כלל יש שתי אפשרויות: מצב מהיר, שבו מתקבל מענה מהיר מהמודל, ומצב חושב, שמתרחש במשימות שלוקחות זמן רב יותר, דורשות מחקר או קידוד. עד כה הייתם צריכים לבחור בין האפשרויות השונות, כדי שהמודל יבין מה אתם רוצים. במצב Auto המודל מבין לבד מתוך השאלה באיזה מודל עליו להשתמש - תגובה מהירה או חשיבה עמוקה.

מצב למידה: תסביר שלב-שלב

פיצ'ר חדש נוסף הוא מצב למידה. הרעיון הוא שאפשר לבקש מהמודל לענות על שאלה תוך שהוא עובר שלב־שלב בפתרון הבעיה, ומציג את הרציונל מאחורי התשובה שלו.

כך, לדוגמה, נתנו למודל שאלה ברמת 5 יחידות במתמטיקה, וביקשנו שיפתור את התרגיל במצב למידה. המודל קבע שבכל מענה ייפתר סעיף בודד, כדי לאפשר הבנה עמוקה יותר. בפועל, המודל ענה על הסעיף הראשון הפשוט באיטיות רבה יותר מאשר בתשובה מהירה, אבל סיפק מענה נכון. עם זאת, כשהגיע לסעיף השני, אף הוא פשוט ולא דורש המון חשיבה, לקח לו הרבה יותר זמן.

בסך הכול, הוא ענה על כמעט כל הסעיפים בפעימה אחת, ואף דילג על חלק משלבי הפתרון. המשמעות היא שהוא לא המשיך במצב למידה כפי שהתבקש. לצד זאת, וכנראה בגלל התאימות לשפה העברית, המודל הציג חלק מהתשובות בצורה הפוכה.

בחנו את GPT-5 גם בתרגיל מילולי שקשור בהבנת הטקסט מתוך מבחן אוניברסיטאי. המודל ערבב בין הפרטים, מה שהוביל לכך שהוא פתר את השאלה בצורה לא מדויקת. הדוגמאות האלו נקודתיות, אבל הן עדיין מראות את הפער שיש בהבנת המודל. הוא עדיין לא שולט היטב בשפה העברית, ובמקרה אחר הוא אף היפנה לעמודים לא נכונים. בקצרה, הרעיון מעולה, אבל הביצועים עדיין לא.

המחיר והמגבלות: מה תוכלו לקבל?

ב-OpenAI מאפשרים לצרכנים לעשות שימוש חינמי מוגבל, כך שבשלב מסוים הם יעברו למודל מיני חלש יותר. מי שמשלם למסלול
ה-Plus 02 דולר בחודש יקבל מגבלת שימוש גבוהה יותר, ומי שמשלם 200 דולר בחודש עבור מודל הפרו יקבל גישה בלתי מוגבלת, ואף גישה למודל חזק יותר.

בחברה מדברים על כך שהמודל השתפר מאוד בכל הנוגע להטיות או לתשובות לא נכונות. עם זאת, בשימוש הקצר שעשינו עד כה, לא הרגשנו דרמטית את השינויים האלו. המודל עדיין עשה טעויות ועדיין הציג "הזיות", לפחות בשפה העברית.

באופן כללי, בלא מעט מקרים שהמודל נדרש לתקן טעות שלו, הוא הפעיל באופן עצמאי את החשיבה העמוקה כדי למצוא פתרון הגיוני וטוב יותר. כמובן שזה לקח יותר זמן, אבל לפחות זה תיקן את הטעות.

המתחרים העיקריים: קלוד, ג'מיני ופרפלקסיטי

ה-GPT-5 עדיין לא מביא את הבשורה האמיתית שכולם חיכו לה בתחום הבינה המלאכותית, והשיפורים מינוריים בלבד. המתחרים העיקריים הם פרפלקסיטי (מנוע החיפוש שמבוסס על בינה מלאכותית), ג'מיני (המודל של גוגל) וקלוד (המודל של אנתרופיק). המסלול בתשלום של כל אחד מהם מספק תחרות ראויה ל-ChatGPT - אך כמובן זה תלוי בצרכים שלכם.

בתקופה האחרונה משתמשים רבים מתלוננים גם על המתחרות, ולא רק GPT מקבל ביקורת, אבל במשימות כמו טקסטים וכתיבה קלוד יכול להוות פתרון מעולה, ג'מיני מספק שירות מוצלח בכל הקשור לחיבור לשירותי גוגל אחרים, ופרפלקסיטי עובד נהדר באימות מקורות וחיפושים ברשת. ההמלצה היא להתנסות בכולם, ולראות מה הכי מתאים לכם.

לתשומת לבכם: מערכת גלובס חותרת לשיח מגוון, ענייני ומכבד בהתאם ל קוד האתי המופיע בדו"ח האמון לפיו אנו פועלים. ביטויי אלימות, גזענות, הסתה או כל שיח בלתי הולם אחר מסוננים בצורה אוטומטית ולא יפורסמו באתר.

כלי חדש לניהול זמן:

מה שמעניין אותך. מתי שמענייין אותך

אודות גלובס

פרוייקטים ושיתופי פעולה