מה נמדד: בין הקליפ החדש (למשל טיוטת TTS לאחר יישור) לבין כל וריאנט קיים מחושב דמיון קוסינוס בין וקטורי שמיעה — ספקטרום ממוצע + (אופציונלי) רכיב סטייה לאורך הזמן, עם חיתוך אמצע הגל כדי לצמצם ארטיפקטים בקצוות. זה לא משנה את קובץ האודיו המאוחסן, רק את ההשוואה לזיהוי כפילות.
מתי נדחה ככפילות: אם הקוסינוס המקסימלי מול אחד הוריאנטים גדול או שווה לסף — הסטטוס הוא rejected_too_similar והקליפ לא מתווסף כוריאנט נפרד.
דוגמאות מספריות: מול הוריאנט הכי דומה יצא קוסינוס 0.90 וסף 0.86 → מאחר ש־0.90≥0.86, זה נחשב לאותה הגיה ונדחה. אם תעלה את הסף ל־0.95, תדרוש דמיון חזק יותר לפני דחייה — פחות דחיות (יותר הקלטות יעברו). אם תוריד את הסף ל־0.75, דחייה תתרחש גם בדמיון בינוני — התנהגות יותר אגרסיבית נגד כפילויות, עם סיכון לדחות גוונים לגיטימיים.
ברירת המחדל 0.86 באה לאזן בין „אותו דבר מ־TTS עוד פעם” לבין וריאציות קטנות של קצב או יישור. מחזור 2+ בבדיקת מילון: גם בלי קוסינוס, אם למילה כבר יש וריאנט במילון הבדיקות — לא נוסף עוד (ראו `admin_repeat_pass_he` בפרטי הרצה).