צינור עיגון

איך SLAtech נמנעת מהזיה

12-שלבי צינור עיגון מבוסס-RAG + מערכת ציטוטים מובנית. כל תגובה מעוגנת בתוכן דייר — לא מכוונת-עדין. המבקרים רואים snippets ציטוטים לכל מקור. מנוקדת-ביטחון. מסלול ביקורת מתועד. משוב הערכה מתמשך. צמד עם סקירת ארכיטקטורה, לוח תוצאות הערכה והצהרת אתיקת AI.

1. קליטת תוכן דייר

מסמכים (PDF, DOCX, HTML שנגרד, זוגות FAQ, מאמרים מחוברים-ידנית) מחולקים לקטעי 200-500 טוקנים עם חפיפה של 50 טוקנים. כל chunk מקבל metadata: ClientId (מחיצת דייר), sourceUrl, chunkIndex, lastUpdated.

טכני: אלגוריתם chunking מכבד מבנה מסמך (גבולות פסקה) כשאפשר. החפיפה מונעת אובדן-הקשר על-פני גבולות chunk.

2. ייצור הטמעות

OpenAI text-embedding-3-small (1536 ממדים) ממיר כל chunk לוקטור סמנטי. הטמעות מאוחסנות ב-Qdrant עם metadata של ה-chunk.

טכני: אותו מודל הטמעה בשימוש לשאילתות — מבטיח השוואות דמיון-קוסינוס תקפות סמנטית.

3. הטמעת שאילתה

כאשר מבקר שולח הודעה, הבוט מטמיע את השאילתה באמצעות אותו מודל OpenAI. הטמעת השאילתה מסוננת מול ClientId לפני האחזור — זיהום בין-דיירים הוא בלתי-אפשרי מבנית.

טכני: תבנית repository אוכפת מסנן ClientId בזמן-הידור דרך כלל מנתח-סטטי (SLATECH001).

4. אחזור Top-K

Qdrant מחזיר את top-K (ברירת-מחדל 10) chunks עם דמיון-קוסינוס הגבוה ביותר לשאילתה. ScoreThreshold ברירת-מחדל = 0.5 מסנן chunks ברלוונטיות-נמוכה.

טכני: TopK מוגבל ל-[1, 20] לכל תצורת דייר. שאילתות מתחת-לסף מנותבות לנפילת "אין תוכן רלוונטי" במקום הזיה.

5. הרכבת הקשר

Chunks שאוחזרו + system prompt + היסטוריית שיחה עוברים ל-LLM. System prompt מורה ל-LLM מפורשות: "ענה רק מההקשר המסופק. אם התשובה אינה בהקשר, אמור זאת."

טכני: תקציב טוקנים נאכף (ברירת-מחדל 4000 טוקנים של הקשר); אם התקציב חורג, chunks בעלי ציון-נמוך נושרים תחילה.

6. ייצור LLM

GPT-4o-mini (ברירת-מחדל) או LLM מוגדר-דייר מייצר את התגובה, מעוגן בהקשר שאוחזר. טמפרטורת ברירת-מחדל 0.3 לתשובות מעוגנות מול-לקוח.

טכני: הפשטת ספק LLM לכל-דייר מאפשרת החלפת OpenAI / Anthropic / Cohere ללא הגירה בצד-הלקוח.

7. הוצאת ציטוטים

התגובה כוללת רשימת ציטוטים מובנית: { sourceUrl, snippet, score } לכל chunk שאוחזר. Snippet הוא הטקסט המצוטט בפועל — לא רק ה-URL.

טכני: BuildSnippet helper ב-QueryRequest record מוציא את טווח 200-התווים הרלוונטי מה-chunk.

8. SSE streaming עם אירוע sources-early

תחבורת Server-Sent Events. אירוע ראשון הוא sources-early — פולט metadata ציטוט לפני שמתחיל streaming של LLM. הווידג'ט מרנדר hover-card "לפי" בעוד התשובה עדיין זורמת.

טכני: חותך אחורית-נתפסת ב-~70% לעומת תגובה סינכרונית. מאפשר ל-AI scrapers להוציא ציטוטים מעוגנים מהתגובה.

9. ניקוד ביטחון LLM-as-Judge

כל תגובה מנוקדת דרך קריאת LLM משנית מול שלושה צירים: עובדתיות, הזיה וביטחון. ציונים מצופים ב-Inbox האדמיני.

טכני: ציון ביטחון מתחת ל-0.5 בדרך-כלל מפעיל נפילת העברה-לאדם במקום תשובה מנוחשת.

10. נפילת העברה-לאדם

כאשר הביטחון נמוך או שהשאילתה מזוהה כסיכון-גבוה (ייעוץ קליני, עמדה משפטית, שאלה רגולטורית) — הבוט מנתב לדפוס "אדם יחזור אליך". המבקר מקבל אישור + ערוץ-מעקב.

טכני: מסווג סיכון לכל-אנך מכוון לכל תעשייה. Med מנתב כל שאילתה סמוכת-אבחון לאדם; Legal מנתב כל שאלה משפטית מהותית לאדם.

11. מסלול ביקורת לכל-תגובה

כל תגובה מתועדת עם הקשר מלא: שאילתת קלט, chunks שאוחזרו עם ציונים, system prompt, מודל LLM בשימוש, תגובה שיוצרה, snippets ציטוטים, ציוני ביטחון.

טכני: יומני ביקורת נשמרים 13 חודשים. יומן ביקורת לכל-דייר ניתן לייצוא במסלול Enterprise.

12. משוב הערכה מתמשך

חבילת הערכה רצה לילית מול סט-בדיקה אטום של 200-שאלות לכל-אנך. ציוני הזיה במעקב לאורך זמן. רגרסיות ≥3 נקודות מפעילות התראת טריאז' ידני.

טכני: מתודולוגיית הערכה קוד-פתוח — קונים יכולים להריץ אותה מול הדייר SLAtech שלהם. לוח-תוצאות פורסם ב-/he/eval/.

אמת את העיגון על הדייר שלך

חבילת הערכה ומתודולוגיה קוד-פתוח. הרץ אותה מול הדייר SLAtech שלך לאמת עובדתיות לכל-תגובה.