טוקנים - איך קלוד באמת קורא טקסט
למה 'שלום עולם' אינו שתי מילים בעיני המודל, ולמה עברית עולה יותר באנגלית.
מה זה טוקן, בדיוק?
כשאתם שולחים הודעה לקלוד, היא לא מגיעה אליו כמחרוזת תווים ולא כרשימת מילים. היא מגיעה כרצף של טוקנים - יחידות טקסט שהמודל למד לעבוד איתן. הבנה של מה זה טוקן היא הבסיס להבנת כמעט כל שאר הדברים: למה עברית עולה יותר, מהו חלון ההקשר, ולמה פרויקט ב-API עולה כמה שהוא עולה.
טוקן הוא לא מילה ולא אות - הוא איזשהו דבר ביניים. לרוב: קטע של מילה, מילה שלמה, או סימן פיסוק. המודל לא "קורא" טקסט כפי שאנחנו קוראים; הוא מעבד סדרה של מספרים, שכל אחד מהם מייצג טוקן. הקשר בין הטקסט לרצף המספרים נקרא tokenization, ומי שמבצע אותה הוא ה-tokenizer - תוכנה שרצה לפני שהמודל רואה את ההודעה שלכם.
אנתרופיק משתמשת ב-tokenizer מסוג BPE (Byte Pair Encoding - קידוד זוגות בתים). ב-BPE, הטוקניזר סורק כמויות אדירות של טקסט ולומד אילו רצפי תווים מופיעים לעתים קרובות יחד, ומקצה להם טוקן אחד. רצפים פחות נפוצים מפורקים ליותר טוקנים. זו בדיוק הסיבה שעברית "עולה" יותר - אבל ניגיע לזה.
ככה זה נראה בפועל
הדרך הכי טובה להבין tokenization היא לראות אותה. בדוגמאות הבאות, כל צבע מייצג טוקן אחד. שימו לב לגבולות בין הטוקנים - הם לא תמיד נפלים בין מילים.
אנגלית - מילים נפוצות וקצרות:
5 מילים · 5 טוקנים - כל מילה נפוצה = טוקן אחד
אנגלית - מילה ארוכה ופחות נפוצה:
מילה אחת · 5 טוקנים - מילים נדירות נחתכות לחלקים
עברית - ביטוי פשוט:
2 מילים · ~5 טוקנים - גם מילים יומיומיות נחתכות
עברית - מילה מורפולוגית מורכבת:
"שאכלתן" = that you (f.p.) ate · מילה אחת · ~3 טוקנים
שימו לב לדפוסים: באנגלית, מילים יומיומיות ונפוצות מקבלות טוקן אחד. בעברית, גם ביטויים פשוטים נחתכים ליותר טוקנים - לא בגלל שעברית "קשה", אלא בגלל שה-BPE אומן על פחות עברית.
ועוד דבר לזכור: סימני פיסוק, רווחים ומספרים הם גם הם טוקנים. "3.14" הוא לרוב ["3", ".", "14"] - שלושה טוקנים לשלושה תווים.
עברית - למה היא "יקרה" יותר?
שתי סיבות עיקריות, ועדיף להפריד ביניהן:
סיבה ראשונה: פחות עברית בנתוני האימון של ה-tokenizer
BPE לומד את הטוקנים מטקסטים. ה-tokenizer של אנתרופיק אומן על כמויות אדירות של טקסט - רובו המכריע אנגלית. התוצאה: ה-tokenizer "יודע" לדחוס אנגלית ביעילות. רצפים כמו "tion", "ing", "ment" - שמופיעים באלפי מילים אנגליות - מקבלים כל אחד טוקן אחד. עברית, שנמצאת פחות בנתוני האימון, לא זכתה לאותה דחיסה. שורשים ותחיליות נפוצים בעברית נשארים מפורקים לכמה טוקנים.
סיבה שנייה: עברית מורכבת מורפולוגית יותר
עברית היא שפה גלוטינטיבית - מילים בונות מבניות. אנחנו "דוחסים" הרבה מידע לתוך מילה אחת שבאנגלית הייתה מחייבת שתיים או שלוש. "הפירמידות" (ה + פירמידות) = "the pyramids" - שתי מילים אנגליות, מילה עברית אחת. "שאכלתן" מכיל ש + אכל + ת + ן, שמשמעו "that you (plural feminine) ate" - ארבע רכיבים, מילה עברית אחת.
כלומר: אותה כמות מידע מסתתרת תחת מספר קטן יותר של מילים עבריות - אבל ה-tokenizer עדיין חוצה את המילה הזאת לכמה טוקנים. אנחנו לא מרוויחים הרבה מהדחיסה המורפולוגית.
עברית ואנגלית יכולות לומר את אותו דבר. בעברית תצטרכו בדרך כלל פי שניים עד שלושה יותר טוקנים.
כלל האצבע שמקובל בשדה: טקסט עברי יצרוך פי שניים עד שלושה יותר טוקנים מהמקבילה האנגלית שלו. בפועל, המספר תלוי בסגנון הכתיבה: עברית פורמלית ומורכבת עולה יותר; עברית מדוברת וקצרה - פחות.
מה זה אומר לכם בפועל?
התשובה תלויה מאוד באיך שאתם משתמשים בקלוד. שלושה תרחישים עיקריים:
1. אתם משתמשי claude.ai Pro (מנוי חודשי)
לא צריך לאבד שינה. המנוי לא נמדד לפי טוקנים בפרוטות - יש מגבלת שימוש יומית כללית, אבל היא לא מחייבת אתכם "לשמר" טוקנים. שתי השפעות מעשיות שכן קיימות: כשאתם עובדים עם מסמכים ארוכים בעברית, הם תופסים יותר "מקום" בחלון ההקשר; ועיבוד עברית מורכבת עשוי לקחת מעט יותר.
2. אתם מעלים מסמכים ארוכים
200 עמודות בעברית לא שוות 200 עמודות באנגלית בעיני קלוד. אם אתם מעבדים חוזים, דוחות, ספרות מקצועית, או כל תוכן עברי ארוך - חשבו בערך על פי-2.5 לתפיסת הקשר ביחס לאנגלית. PDF עברי ארוך? עדיף לחלק לחלקים ולסכם שלב-שלב, ולא לצפות שהכל "ייכנס" בבת אחת.
3. אתם בונים על ה-API
כאן זה מחושב לפרוטה. עלות ה-API של אנתרופיק נמדדת לפי מיליון טוקנים - input ו-output בנפרד. כשמחשבים עלות: לא מספיק להסתכל על כמות המילים. גם אם ה-prompt שלכם "קצר" בעברית - בטוקנים הוא עשוי להיות כפול מאנגלית מקבילה. כשבונים מחשבון עלויות, קחו מקדם ×2.5 לפחות לטקסט עברי.
ניתן לבדוק בדיוק כמה טוקנים צורך כל טקסט דרך Anthropic Tokenizer - כלי מקוון רשמי שמציג את הפירוק ואת ספירת הטוקנים. הכלי בחינם ולא דורש רישום.
חלון ההקשר - הכל נמדד בטוקנים
קלוד 3.7 תומך ב-200,000 טוקנים. זה נשמע כמו מספר גדול - ואכן הוא גדול מאוד לפי כל סטנדרט. אבל כמה זה בעברית?
| שפה | מילים ב-200K טוקנים | עמודות (מוערך) |
|---|---|---|
| אנגלית | ~150,000 מילים | ~500 עמודות |
| עברית | ~70,000–90,000 מילים | ~230–300 עמודות |
ספר עברי ממוצע (כ-80,000 מילים) עשוי לגרום לחלון ההקשר להתמלא - ואז קלוד מתחיל "לשכוח" את ראשיתו. זה לא בגלל שמשהו השתבש; זה בגלל שהחלון פשוט מלא. הפתרון הפרקטי: לחלק טקסטים ארוכים לחלקים, לסכם שלב אחרי שלב, ולא לצפות שקלוד יזכור מה שכתבתם בתחילת שיחה מאוד ארוכה.
עוד דבר חשוב: כש-200,000 הטוקנים הם "חלון", הם כוללים הכל בשיחה - לא רק את השאלה האחרונה שלכם. כל היסטוריית השיחה, קבצי ה-context שהעליתם, הוראות ה-system (אם יש), ותשובות קלוד עצמו - כולם תופסים מקום בחלון. ב-Projects, גם ה"ידע" השמור תופס מקום.
בקיצור: 200K טוקנים הם נדיבים מאוד, ורוב השימושים היומיומיים לא מגיעים לגבול. אבל כשתחזרו בעוד כמה חודשים עם השאלה "למה קלוד לא זוכר משהו שסיפרתי לו בתחילת השיחה" - דעו שהתשובה כנראה קשורה לטוקנים.
ממשיכים להבין את המנוע
שלושת הפריטים האלה מרחיבים ישירות על מה שקראתם כאן