תיאוריה בסיסית וייצור של טקסט וקוד
בינה מלאכותית היא היכולת לדמות את אופן המחשבה האנושי ולהציג יכולות שעד כה אפיינו את הבינה האנושית בלבד.
המונח נאמר לראשונה בשנת 1950 על ידי מדען המחשב ג׳ון מקארתי.
🤔 נסו לחשוב - אילו יכולות מאפיינות בינה אנושית?
כל מודלי הבינה המלאכותית שאנו מכירים היום מבוססים על למידת מכונה - תת-תחום במדעי המחשב שעוסק בפיתוח אלגוריתמים שמאפשרים למחשב ללמוד מתוך דוגמאות, במקום שנכתוב לו הוראות מדויקות לכל פעולה.
מבוסס על חוקים נוקשים.
אנחנו כותבים למחשב הוראות ספציפיות (למשל if/else).
קלט (Data) + חוקים (Rules) = תשובה (Output)
מבוסס על דוגמאות.
אנחנו נותנים למחשב המון נתונים, והוא מוצא את הדפוסים לבד.
קלט (Data) + תשובות (Answers) = חוקים (Model)
תארו לכם שאנחנו רוצים לכתוב תוכנית שמזהה אם בתמונה יש חתול.
☝️ הסוד הוא בדאטה: ללא למידת מכונה, אנחנו חייבים לתת הוראות מאוד ספציפיות. עם למידת מכונה, העבודה שלנו היא לאסוף ולסדר את הדוגמאות.
🧪 רוצים לנסות בעצמכם? ב-Teachable Machine אפשר לאמן מודל זיהוי תמונות פשוט ישירות בדפדפן.
דאטה-סט הוא מאגר המידע העצום שעליו המודל ״התאמן״. הוא יכול לכלול תמונות, טקסט, קוד, אודיו, וידאו - או כל שילוב שלהם.
איכות הדאטה-סט היא קריטית: אם המודל לומד על דוגמאות גרועות או חד-צדדיות, התוצאות שלו יהיו בהתאם.
☝️ כלל ברזל: הדאטה צריך להיות תואם לקלט ולפלט שהמודל צריך לקלוט ולפלוט. אם אנחנו בונים מודל שמייצר קוד מתמונה, אנחנו צריכים לאמן אותו על זוגות של תמונות-וקוד.
🔍 דוגמאות למאגרי דאטה-סטים:
מודל הוא ה״מוח״ המתמטי שלמד דפוסים מתוך הדאטה-סט. הוא לא ״מבין״ את העולם, אלא יודע לחזות מה התוצאה הסבירה ביותר בהינתן קלט מסוים.
בפועל, מודל הוא רשת של מיליארדי פרמטרים מתמטיים שהתכוונו בתהליך האימון. ככל שהמודל גדול יותר ואומן על יותר דאטה, בדרך כלל הוא חכם יותר - אבל גם יקר יותר להרצה.
🤔 אילו מודלים אתם כבר מכירים?
🔍 דוגמאות למאגרי מודלים:
מודליות היא סוג הקלט או הפלט שהמודל עובד איתו.
כל מודל בינה מלאכותית עובד באותו עיקרון בסיסי: מקבל קלט מסוג מסוים, מעבד אותו, ומחזיר פלט.
מודלים שונים תומכים בשילובים שונים. למשל, GPT-4o תומך בקלט של טקסט + תמונה ופלט של טקסט + תמונה + קוד. Midjourney תומך בקלט טקסט ופלט תמונה בלבד.
כשאנחנו אומרים שמודל הוא ״מולטי-מודלי״ (Multi-modal), הכוונה שהוא יודע לעבוד עם כמה סוגים של מידע בו-זמנית - למשל לקבל תמונה וטקסט ולפלוט וידאו או קוד.
מאגר המידע העצום שעליו המודל ״התאמן״ - תמונות, טקסט, קוד.
ה״מוח״ המתמטי שלמד דפוסים מתוך הדאטה-סט ויודע לחזות את התוצאה הבאה.
סוג הקלט והפלט - טקסט לטקסט, טקסט לתמונה, תמונה לקוד...
☝️ מודל הוא כמו פונקציה: נותנים לו Input (פרומפט/קובץ) והוא מייצר Output מבוסס הסתברות.
מה חשוב לדעת על מודל?
לפני שמתחילים לעבוד עם מודל, כדאי להכיר כמה מושגים שישפיעו על הבחירה שלנו:
| פרמטר | מה זה אומר? |
|---|---|
| מודליות קלט/פלט | מה אפשר להכניס למודל ומה הוא יודע להוציא? |
| יכולות | מה המודל יודע לעשות? (ניתוח תמונות, קוד מורכב, עברית) |
| דאטהסט שעליו המודל אומן (Training Data) | על מה המודל אומן? האם הוא מכיר את התחום שלנו? מתי הוא יצא? |
| רישיון וזכויות (License) | למי שייך הפלט? האם מותר להשתמש בו לצרכים מסחריים? |
| מחיר | חינם? מנוי חודשי? תשלום לפי שימוש (API)? |
| חווית משתמש (UX) | האם הממשק נוח? יש Canvas? יש שיתוף פעולה? |
💡 טיפ: אין מודל אחד ש״הכי טוב״ לכל דבר. כדאי להכיר כמה כלים ולבחור לפי המשימה.
כשאנחנו בוחרים מודל, כדאי שנבין מה אנחנו נותנים לו ומה אנחנו רוצים לקבל בחזרה.
צ׳אט רגיל, כתיבת מיילים, סיכום טקסט, תרגום.
קוד זה גם סוג של טקסט!
Midjourney, DALL-E, Imagen - יצירת ויזואליה מטקסט.
תיאור תמונות, זיהוי תווים (OCR), ניתוח ויזואלי.
המרת טקסט לדיבור, יצירת מוזיקה, אפקטים קוליים.
יצירת סרטוני וידאו מתיאור טקסטואלי.
יצירת סרטוני וידאו מתמונה.
פרומפט הוא הטקסט שנכנס כקלט למודל. זו הדרך שלנו לתקשר עם הבינה המלאכותית - לתאר מה אנחנו רוצים, לתת הקשר, ולהגדיר את הפורמט של התוצאה.
ככל שהפרומפט שלנו ברור ומדויק יותר, כך התוצאה תהיה טובה יותר.
שיטה מוכחת לבניית פרומפט טוב - לתת למודל שלושה מרכיבים:
מי אתה? תנו למודל פרסונה.
מה צריך לעשות?
איך צריכה להיראות התוצאה?
💡 דוגמה: ״אתה סופר במאה ה-19, עלייך לכתוב ברכת יום הולדת לאמא, תכתוב ברכה באורך 100 מילים בחרוזים.״
מה המידע שאנחנו נותנים למודל כחלק מהפרומפט.
ככל שניתן יותר הקשר רלוונטי, התוצאה תהיה מדויקת יותר.
☝️ למודלים יש מגבלה על אורך הפרומפט (Context Window), אז חשוב להיות ממוקדים.
אפשר לכתוב גם עברית וגם אנגלית. השפה היא שפה טבעית, אך צריך להיות ברורים ומפורשים.
אנחנו עוברים מעידן שבו צריך לדעת ״תחביר״ (איפה שמים נקודה-פסיק) לעידן שבו צריך לדעת לתאר מה רוצים ולנהל שיחה עם ה-AI.
זה לא אומר שלא צריך להבין קוד או לא לדעת מה אנחנו רוצות ליצור - זה אומר שהתפקיד שלנו משתנה למנחים של הבינה המלאכותית.
יש כמה דרכים לעבוד:
הדרך הפשוטה: פותחים צ׳אט, מבקשים קוד, מעתיקים אותו לקובץ HTML או ל-p5.js Editor.
זה עובד מצוין בהתחלה ומאפשר ללמוד איך לנסח בקשות (Prompting).
✏️ נסו עכשיו: פתחו אחד מהכלים למעלה ובקשו ממנו:
״צור לי דף HTML שאומר Hello World עם עיצוב צבעוני ומגניב.״
העתיקו את הקוד לקובץ HTML ופתחו בדפדפן.
בשיטה הזו ה-AI לא רק כותב קוד - הוא גם מריץ אותו בשבילנו בחלון צדדי. אפשר לראות את התוצאה בלייב ולהמשיך לשפר דרך השיחה.
✏️ נסו עכשיו: פתחו Gemini
Canvas
ובקשו: ״בנה לי כרטיס ביקור דיגיטלי עם השם שלי ו-QR Code.״
שנו את העיצוב דרך השיחה עד שמתאים לכם.
ה-AI הופך לשותף לכתיבה בתוך עורך הקוד שלנו. הוא מכיר את כל הפרויקט, יודע להשלים שורות, להציע תיקונים, ואפילו לכתוב קבצים שלמים.
הכלים האלה שונים מצ׳אט רגיל כי הם מכירים את כל הקבצים בפרויקט ויכולים לערוך ישירות, לא רק להציע.
7 תרגילים - מהקל לקשה:
צרו מסך שאומר Hello World ב-Gemini Canvas.
עכשיו שנו את ה״ווייב״: בקשו ממנו להפוך את זה לסגנון Brutalist, או למסך של משחק רטרו משנות ה-80.
הוסיפו את השם שלכם באנימציה.
בנו דף HTML/CSS שכולל את השם שלכם, קישורים לרשתות, ו-QR Code שנוצר בעזרת AI.
נסו ב-Canvas או העתיקו קוד מצ׳אט לקובץ מקומי.
ציירו סקיצה ידנית של מבנה אתר (Header, Main, Footer) על דף נייר.
צלמו אותה ובקשו מה-AI להפוך אותה לשלד HTML תקין.
נסו ב-Claude או
Gemini.
קחו עבודה (תמונה / איור / עיצוב) שיצרתם בסמסטר א׳.
העלו אותה ל-AI ובקשו לייצר גרסה אינטראקטיבית ב-p5.js שמגיבה לעכבר בהשראת אותה עבודה.
קחו את קובצי ה-CSS של האתר שבניתם בשיעורים הקודמים.
העלו ל-AI ובקשו: אנימציות Hover מורכבות, Dark Mode יוקרתי, או פלטת צבעים חדשה לגמרי.
בנו אפליקציה קטנה שחוקרת סוגי קלט שונים: עכבר, מקלדת, מיקרופון, מצלמה -
ופלטים שונים: שינויי מסך, צבעים, צורות, אודיו.
בנו אפליקציה שמשתמשת במודל AI בתוכה - למשל:
אפשר להשתמש ב-Gemini API (חינמי ל-AI Studio) או כל API אחר.
כלי AI מומלצים:
בפרקים הקודמים: