ימים בודדים אחרי שהמודלים של הסטארט אפ הסיני "דיפסיק" (Deepseek) זעזעו את עולם ה-AI והבורסות בעולם ואחרי שהאפליקציה החינמית שלו הגיע לראש טבלת ההורדות בחנות האפליקציות של אפל בארה"ב, החברה מפרסמת כלי חדש, הפעם ליצירת תמונות, שמתחרה ב-DALL-E 3 של OpenAI וב-Stable Diffusion 3 של Stability AI, ולפי נתונים שמציגה החברה הסינית - אפילו עולה עליהם.
ואם הצגת המודלים V3 ו-R1 היו אגרוף בבטן לתעשיית ה-AI האמריקנית עתירת ההשקעות והמשאבים ולממשל טראמפ, הצגת הכלי הגרפי כמעט מיד לאחר מכן היא כבר סוג של אצבע בעין.
ארכיטקטורה חדשנית
דיפסיק הציגה אתמול (ב') את המודל הגרפי החדש שלה - Janus-Pro-7B - ולצידו נתוני מבחני השוואה (Benchmarks) שמוכיחים שהוא עבר בביצועיו את המודלים של OpenAI ושל Stability AI ביכולות שלו ליצור תמונות על פי הנחיות (פרומפטים בעגה המקצועית, ט"ש) טקסטואליות. כמו קודמיו, המודל החדש מוצע בקוד פתוח בפלטפורמת Hugging Face, והוא כולל צ'אטבוט הדגמה פעיל.
המודל החדש מהווה שיפור של המודל הקודם, Janus, שהושק בסוף השנה שעברה. מדובר במודל מולטי-מודאלי, כלומר כזה היודע לשלב טקסט, וידאו ותמונה בעבודתו, לייצר תמונות וסרטונים וגם להבין מה רואים בתמונות שניתנות לו.
4 צפייה בגלריה


תמונה שיצר המודל החדש של דיפסיק לבקשתנו (לוויתן מעל וושינגטון)
(נוצר באמצעות Janus-Pro-7B)
Janus-Pro-7B משתמש בארכיטקטורה חדשנית המפצלת את קידוד התמונה למסלולים נפרדים ובטרנספורמר (טכנולוגיה להבנת טקסטים והקשרים בעיבוד שפה טבעית ותמונות, ט"ש) מאוחד לעיבוד המידע, מה שמעניק לו יתרון על פני מודלים מולטי-מודאליים מסורתיים. "הפשטות, הגמישות הרבה והאפקטיביות של Janus-Pro הופכים אותו למועמד חזק לדגמים מולטי-מודליים מאוחדים לדור הבא", נכתב בהודעת החברה.
החברה מציינת שהגרסה החדשה שודרגה באמצעות תהליכי אימון ונתוני אימון משופרים, כמו גם על ידי הגדלת המודל עצמו. התוצאה - יציבות משופרת של התמונות ועושר גדול יותר בפרטים.
במקביל, עיקר השיפור נובע עקב הוספת 72 מיליון תמונות סינתטיות (כלומר מיוצרות באמצעות AI) באיכות גבוהה, ושילובן לצד תמונות אמיתיות. הגרסה החזקה יותר של המודל הגרפי משתמשת ב-7 מיליארד פרמטרים, ומשיגה שיפור במהירות האימון ובדיוק ביצירת התמונה על פי טקסט.
התגובות לא איחרו להגיע
מנכ"ל OpenAI, סם אלטמן, הגיב מוקדם יותר היום להתרחשויות האחרונות בפוסט ברשת החברתית X, בו כתב: "R1 של דיפסיק הוא מודל מרשים במיוחד, בעיקר לאור מה שהוא מספק ביחס למחיר שלו. ברור שנביא מודלים הרבה יותר טובים, וזה בהחלט מרענן שיש מתחרה חדש! נעלה כמה עדכונים בקרוב".
עוד הוא הוסיף: "אבל בעיקר, אנחנו נרגשים להמשיך וליישם את מפת הדרכים המחקרית שלנו ומאמינים שעכשיו יותר מתמיד, כוח מחשוב מוגבר הוא קריטי להצלחה במשימה שלנו. העולם הולך להשתמש בהרבה מאוד בינה מלאכותית, והוא הולך להיות באמת מופתע מהדור הבא של המודלים שבקרוב יגיע".
גם חברת אנבידיה, שחוותה בעקבות הנתונים המרשימים של דיפסיק ירידה משמעותית במניה (כ-17% נכון לכתיבת שורות אלו), ואיבדה בימים האחרונים לא פחות מכ-600 מיליארד דולר בשוויה - המחיקה הגדולה ביותר בתולדותיה ובתולדות וול סטריט, הגיבה בהודעה רשמית: "דיפסיק היא התקדמות מצוינת בבינה מלאכותית והיא דוגמה מושלמת ל-Test-Time Scaling (שיטה שבה משתמשים כדי לשפר את ביצועי המודלים בשלב ההיסק)".
"העבודה של דיפסיק ממחישה כיצד ניתן לייצר מודלים חדשים באמצעות טכניקה זו, תוך מינוף של מודלים קיימים וטכנולוגיות מחשוב שעומדות בתקנות הייצוא. ביצוע Inference דורש מספר משמעותי של מעבדים גרפיים וטכנולוגיות תקשורת מואצת. כעת, ישנם שלושה חוקי סקיילינג: Pre-Training, Post-Training וכן Test-Time Scaling", לשון ההודעה.
ובזמן שההודעות של אלטמן ואנבידיה נועדו כנראה גם לאוזני המשקיעים שלהם, ולא רק לאוזני הציבור הרחב, החלטנו אנחנו לפנות ל-ChatGPT 4o mini ולראות מה יש לו להגיד על המתחרה שלו והמודל החדש ליצירת תמונות שהוצג אתמול.
וזו הייתה תשובתו: "נראה שדיפסיק מצליחה להתבלט על פני המתחרים בתעשיית ה-AI בהפקת תמונות, לפחות לפי הדירוגים וההערכות שהיא מציגה. החברה טוענת כי היא שיפרה את איכות הנתונים, תהליכי ההכשרה וגודל המודל, מה שמוביל לתוצאות מרשימות ביותר".
"עם זאת, חשוב לזכור שהשוק של מודלים ל-AI הוא דינמי מאוד, ויש כל הזמן עדכונים ושדרוגים. בעוד שדיפסיק מציג תוצאות מעולות, כל מודל וכל חברה יכולים להציע יתרונות שונים בהתאם לצרכים ספציפיים של משתמשים. בסופו של דבר, זה תלוי בשימושים המיועדים ובמהות הפיתוחים שנעשים בכל אחד מהמודלים". סם אלטמן לא היה יכול לנסח את זה טוב יותר.
עכשיו רק נותר לחכות ולראות אם Janus-Pro-7B יתרום לזעזוע נוסף בשוקי המניות, או שהעיקרון כבר הובהר בסיבוב הקודם, וכעת תבוא ההתאוששות. מבחינתה של דיפסיק, בכל מקרה, העניינים לא יכולים היו להתפתח טוב יותר. הבעיה העיקרית שהחברה מתמודדת איתה כעת היא שהשרתים שלה לא מצליחים להתמודד עם עומס הפניות מכל רחבי העולם.