1. קליטת תוכן דייר
מסמכים (PDF, DOCX, HTML שנגרד, זוגות FAQ, מאמרים מחוברים-ידנית) מחולקים לקטעי 200-500 טוקנים עם חפיפה של 50 טוקנים. כל chunk מקבל metadata: ClientId (מחיצת דייר), sourceUrl, chunkIndex, lastUpdated.
טכני: אלגוריתם chunking מכבד מבנה מסמך (גבולות פסקה) כשאפשר. החפיפה מונעת אובדן-הקשר על-פני גבולות chunk.
2. ייצור הטמעות
OpenAI text-embedding-3-small (1536 ממדים) ממיר כל chunk לוקטור סמנטי. הטמעות מאוחסנות ב-Qdrant עם metadata של ה-chunk.
טכני: אותו מודל הטמעה בשימוש לשאילתות — מבטיח השוואות דמיון-קוסינוס תקפות סמנטית.
3. הטמעת שאילתה
כאשר מבקר שולח הודעה, הבוט מטמיע את השאילתה באמצעות אותו מודל OpenAI. הטמעת השאילתה מסוננת מול ClientId לפני האחזור — זיהום בין-דיירים הוא בלתי-אפשרי מבנית.
טכני: תבנית repository אוכפת מסנן ClientId בזמן-הידור דרך כלל מנתח-סטטי (SLATECH001).
4. אחזור Top-K
Qdrant מחזיר את top-K (ברירת-מחדל 10) chunks עם דמיון-קוסינוס הגבוה ביותר לשאילתה. ScoreThreshold ברירת-מחדל = 0.5 מסנן chunks ברלוונטיות-נמוכה.
טכני: TopK מוגבל ל-[1, 20] לכל תצורת דייר. שאילתות מתחת-לסף מנותבות לנפילת "אין תוכן רלוונטי" במקום הזיה.
5. הרכבת הקשר
Chunks שאוחזרו + system prompt + היסטוריית שיחה עוברים ל-LLM. System prompt מורה ל-LLM מפורשות: "ענה רק מההקשר המסופק. אם התשובה אינה בהקשר, אמור זאת."
טכני: תקציב טוקנים נאכף (ברירת-מחדל 4000 טוקנים של הקשר); אם התקציב חורג, chunks בעלי ציון-נמוך נושרים תחילה.
6. ייצור LLM
GPT-4o-mini (ברירת-מחדל) או LLM מוגדר-דייר מייצר את התגובה, מעוגן בהקשר שאוחזר. טמפרטורת ברירת-מחדל 0.3 לתשובות מעוגנות מול-לקוח.
טכני: הפשטת ספק LLM לכל-דייר מאפשרת החלפת OpenAI / Anthropic / Cohere ללא הגירה בצד-הלקוח.
7. הוצאת ציטוטים
התגובה כוללת רשימת ציטוטים מובנית: { sourceUrl, snippet, score } לכל chunk שאוחזר. Snippet הוא הטקסט המצוטט בפועל — לא רק ה-URL.
טכני: BuildSnippet helper ב-QueryRequest record מוציא את טווח 200-התווים הרלוונטי מה-chunk.
8. SSE streaming עם אירוע sources-early
תחבורת Server-Sent Events. אירוע ראשון הוא sources-early — פולט metadata ציטוט לפני שמתחיל streaming של LLM. הווידג'ט מרנדר hover-card "לפי" בעוד התשובה עדיין זורמת.
טכני: חותך אחורית-נתפסת ב-~70% לעומת תגובה סינכרונית. מאפשר ל-AI scrapers להוציא ציטוטים מעוגנים מהתגובה.
9. ניקוד ביטחון LLM-as-Judge
כל תגובה מנוקדת דרך קריאת LLM משנית מול שלושה צירים: עובדתיות, הזיה וביטחון. ציונים מצופים ב-Inbox האדמיני.
טכני: ציון ביטחון מתחת ל-0.5 בדרך-כלל מפעיל נפילת העברה-לאדם במקום תשובה מנוחשת.
10. נפילת העברה-לאדם
כאשר הביטחון נמוך או שהשאילתה מזוהה כסיכון-גבוה (ייעוץ קליני, עמדה משפטית, שאלה רגולטורית) — הבוט מנתב לדפוס "אדם יחזור אליך". המבקר מקבל אישור + ערוץ-מעקב.
טכני: מסווג סיכון לכל-אנך מכוון לכל תעשייה. Med מנתב כל שאילתה סמוכת-אבחון לאדם; Legal מנתב כל שאלה משפטית מהותית לאדם.
11. מסלול ביקורת לכל-תגובה
כל תגובה מתועדת עם הקשר מלא: שאילתת קלט, chunks שאוחזרו עם ציונים, system prompt, מודל LLM בשימוש, תגובה שיוצרה, snippets ציטוטים, ציוני ביטחון.
טכני: יומני ביקורת נשמרים 13 חודשים. יומן ביקורת לכל-דייר ניתן לייצוא במסלול Enterprise.
12. משוב הערכה מתמשך
חבילת הערכה רצה לילית מול סט-בדיקה אטום של 200-שאלות לכל-אנך. ציוני הזיה במעקב לאורך זמן. רגרסיות ≥3 נקודות מפעילות התראת טריאז' ידני.
טכני: מתודולוגיית הערכה קוד-פתוח — קונים יכולים להריץ אותה מול הדייר SLAtech שלהם. לוח-תוצאות פורסם ב-/he/eval/.