חלון ההקשר - מה זה בעצם 200K.
מה נכנס, מה יוצא, ומתי המודל 'שוכח' את ראש השיחה.
- למה שיחות ארוכות מתדרדרות
- מה בדיוק גוזל מהחלון
- איך לנהל שיחה ארוכה בלי לאבד הקשר
קלוד לא "זוכר" - הוא קורא. כל פעם שאתם שולחים הודעה, המודל עובר מחדש על כל הודעה בשיחה מההתחלה ועד הסוף - שלכם ושלו - ואז עונה. חלון ההקשר הוא המגבלה על כמה טקסט יכול להיות שם בו-זמנית.
קלוד 3.5 ומעלה מגיע עם 200,000 טוקנים - כ-150,000 מילים באנגלית. בעברית זה פחות, כי עברית עולה יותר טוקנים למילה. בכל מקרה, גם 200K מתמלא - וכשהוא מתמלא, מה שקורה שווה להבין.
חמישה צעדים
≈ 6 דקות200K טוקנים - לא 200K מילים
טוקן הוא יחידת המדידה של המודל - בערך 3–4 תווים בעברית ו-4–5 תווים באנגלית. 200,000 טוקנים שווים ≈ 150,000 מילים באנגלית, אבל רק ≈ 80,000–100,000 מילים בעברית.
חשבו על חלון ההקשר כ"זיכרון עבודה" - כל מה שנמצא בתוכו מעובד מחדש בכל הודעה. מה שמחוצה לו לא קיים לצורך אותה הודעה.
מה בדיוק גוזל מקום בחלון
כשאתם פותחים שיחה ב-claude.ai, החלון כבר לא ריק. כל אחד מהמרכיבים האלה גוזל טוקנים - ומצטבר לאורך השיחה:
| מרכיב | גודל טיפוסי | הערה |
|---|---|---|
| System prompt (ב-Projects) | 500–3,000 טוקן | שם תמיד, בכל הודעה |
| הודעות + תגובות בשיחה | 500–50,000+ | גדל עם כל סיבוב |
| קובץ PDF שהועלה | 15,000–80,000 טוקן | תלוי באורך |
| תמונה שהועלתה | 1,500–8,000 טוקן | תלוי ברזולוציה |
| תוצאות כלים (Web Search) | 2,000–10,000 טוקן | לכל חיפוש |
כלל אצבע:שיחה ממוצעת עם PDF אחד מגיעה ל-30,000–60,000 טוקן - עדיין הרחק מ-200K, אבל מספיק כדי שקלוד יתחיל "להרגיש" את הצפיפות.
מה קורה כשהחלון מתמלא
ב-claude.ai: מופיע אינדיקטור ויזואלי כשמתקרבים לגבול. כשמגיעים אליו, הממשק חוסם המשך השיחה ומציע לפתוח שיחה חדשה. קלוד לא שכח - השיחה פשוט הגיעה לגבולה.
ב-API: המודל מחזיר שגיאה 400 (context_length_exceeded) - או, לפי ההגדרות, מקצץ אוטומטית מתחילת השיחה. התוצאה: קלוד עונה בלי גישה להודעות הראשונות, כאילו שכח אותן.
אל תבלבלו בין "שכח" ל"לא ענה נכון". כשקלוד לא זוכר מה אמרתם בתחילת השיחה, זה לרוב כי ההיסטוריה קוצצה. הפתרון - שיחה חדשה עם הסיכום המעודכן כהודעה הראשונה.
שלוש אסטרטגיות לשיחה ארוכה
לפני שהחלון מתמלא - לא אחרי. הנה מה שעובד:
- שיחה חדשה בזמן: כשמרגישים שיחה מתארכת - סכמו את ההחלטות שהתקבלו, פתחו שיחה חדשה, הדביקו את הסיכום כהודעה ראשונה. קלוד יכיר את ההקשר בלי לנשא את כל ההיסטוריה.
- Projects לקבצים שחוזרים: קבצים שמועלים ל-Project נשמרים בין שיחות. לא צריך להעלות מחדש בכל שיחה - הם נכנסים לחלון רק כשצריך.
- סכמו לפני שמעלים: במקום להעלות מסמך ארוך שלם, הכינו גרסה מקוצרת לצידו - bullet points מהחלקים הרלוונטיים. חוסך טוקנים ומיקד את קלוד על הנקודות החשובות.
מתי 200K מרגיש ענק - ומתי קטן
200K טוקנים זה הרבה לשיחה יומיומית. אבל יש תרחישים שבהם 200K מתמלא מהר, ולא תמיד ברור מראש:
- ✓שיחת יום-יום ללא קבצים
- ✓ביקורת קוד של קובץ בודד
- ✓סיכום מסמך של 10–20 עמוד
- ✓כתיבת מאמר עם הוראות
- ×קוד-בייס שלם עם עשרות קבצים
- ×ביקורת משפטית של מאות עמודים
- ×איטרציה ארוכה עם הרבה Artifacts
- ×מחקר ספרות עם עשרות PDF
אם אתם עובדים ב-API: Prompt Caching מאפשר לשמור הקשר חוזר (כמו system prompt ארוך) ולשלם עליו 10% מהמחיר בפעמים הבאות. לשיחות ארוכות עם הקשר קבוע - חיסכון עצום.
מלכודות נפוצות
ארבעה דברים שעדיף לדעתעברית גוזלת יותר
עברית דחוסה פחות ב-tokenizer. מסמך עברי של 50 עמוד עלול לקחת פי 1.5–2 טוקן ממסמך אנגלי זהה. ה-200K שלכם מרגיש בפועל כמו 100,000–130,000 מילים עבריות.
קלוד קורא הכל - גם הלא-רלוונטי
חלון עמוס תוכן לא-רלוונטי לא גורם רק לעלות גבוהה יותר - הוא גם מפזר את תשומת לבו של המודל. פחות זה לרוב יותר טוב.
Projects לא אינסופי
קבצים ב-Project נשמרים בין שיחות - אבל הם עדיין נכנסים לחלון ההקשר בתחילת כל שיחה. Project עמוס קבצים גדולים שורף טוקנים לפני ששלחתם הודעה אחת.
כל Artifact revision = עוד טוקנים
כל פעם שקלוד מעדכן Artifact, הגרסה המלאה מתווספת לחלון. אחרי 15–20 סיבובי עריכה של רכיב מורכב, אתם עלולים לגלות שאכלתם רבע מהחלון על ההיסטוריה של קוד אחד.
המשך טבעי מחלון ההקשר
שלושה פריטים שמשלימים את ההבנה - על מה שניזון לחלון, על מה שנשמר מעבר לו, ועל הלאה בתיאוריה.