ReadMeABook - המרת PDF לאודיו

הרשמה

התחברות

הגדרות מילון הגיות

העלאת PDF

הספרים שלי

אין ספרים עדיין. העלה PDF כדי להתחיל.

🔐 התחברות מנהל

🧪 לוח בקרה - בדיקות

בדיקת בניית מילון פועלת מול מילון בדיקות נפרד מהמילון הגלובלי (Firestore + קבצים תחת ברירת המחדל lexicon/sandbox/). שלב «הכנה» מאפס את מילון הבדיקות ויוצר רשומת הרצה; כל «מחזור» מריץ TTS, יישור ומיזוג טיוטות כמו באפליקציה.

קטע להקראה

כמות פעמים להקראה

מזהה קול ElevenLabs (ריק = ברירת מחדל ל-API)

זיהוי כפילות (אופציונלי לפני «הרץ בדיקה»)

אחרי התחברות מנהל הערכים נטענים מהשרת. לחיצה על «טען ערכי ברירת־מחדל מהשרת» מסנכרנת מחדש. ריק בשדה בשליחת prepare = השרת משלים מהקונפיג. סף «הגייה נוספת» מוסתר בדף זה — מחזור בדיקת המילון משתמש רק במצב טיוטת TTS.

אלגוריתם זיהוי «הגיות שונות»

ⓘ

perceptual_cosine (ברירת מחדל): השוואת וקטורי שמיעה בין צמדי וריאנטים; הסף בשדה lexicon_distinct_variants_max_cosine חל על מסלול זה בלבד.

nikud_compare: על כל וריאנט בפועל — תמלול Whisper (OPENAI_API_KEY; דגם LEXICON_DISTINCT_WHISPER_MODEL, ברירת מחדל whisper-1) ואחריו ניקוד דרך נקדן דיקטה (LEXICON_DICTA_NAKDAN_ADDNIKUD_URL + במצב ציבורי רצוי DICTA_API_KEY). ההבדלה נקבעת לפי טקסט מנוקד מנורמל. חסרים משתני סביבה מתאימים או הצינור נכשל עם שני קליפים ומעלה — השרת מחזיר שגיאה (אין מעבר לפרספצואלי).

ריק בשדה בשליחה = השרת משתמש במה שבקובץ ההגדרות / env (LEXICON_DISTINCT_ALGORITHM).

lexicon_distinct_algorithm

בחירת nikud_compare מתאימה לבדיקות A/B מול המסלול הישן; דורשת מפתחות רשת וזמן ריצה ארוך יותר.

סף «הגיות שונות» (קוסינוס בין צמדי וריאנטים)

ⓘ

כיוון ההשוואה: שונה משני ספי הקוסינוס הקודמים — כאן לא שואלים „האם הקליפ החדש מספיק דומה כדי להיחשב כפילות“, אלא האם קיימים שני וריאנטים קיימים שלא נשמעים כמעט זהים: אם הקוסינוס ביניהם קטן או שווה לסף, כלומר הדמיון האקוסטי לא גבוה מדי (c ≤ סף בשפת הקוד בשרת), הצמד מסומן כשיש הבדלה משמעותית בשמיעה.

דוגמה: עם סף 0.86, זוג עם קוסינוס 0.83 מספיק כדי שהמערכת תסמן שיש הבחנה פרספצואלית בין שני הוריאנטים. אם כל הזוגות בין הוריאנטים נותנים קוסינוס מעל 0.86 (למשל הכי גרוע הוא 0.90) — אין זוג שהגיע לסף, ולפי הכלל אין „הגיות שונות” במובן הזה.

כיוון כוונון: העלאת הסף (למשל ל־0.92) מרככת את התנאי c≤סף עבור יותר זוגות — קל יותר שייחשבו שני הגיים כשונים. הנמכה (למשל ל־0.70) דורשת קוסינוס נמוך כדי שהזוג ייענה „שונה” בפועל — דרישה קשוחה יותר לשונות.

מסלול nikud_compare: בשדה האלגוריתם למעלה — השדה הזה מוסתר, כי «הגיות שונות» נקבעות לפי ניקוד טקסט (לא לפי קוסינוס בין קליפים).

lexicon_distinct_variants_max_cosine

ברירת מחדל בקובץ ההגדרות: 0.86. ריק = ללא עקיפה.

דחיית כפילות בין טיוטות TTS (פרספצואלי · לא משמש את מסלול Whisper ל־«הגיות שונות»)

סף קוסינוס — מיזוג טיוטות TTS ובדיקת sandbox

ⓘ

מה נמדד: בין הקליפ החדש (למשל טיוטת TTS לאחר יישור) לבין כל וריאנט קיים מחושב דמיון קוסינוס בין וקטורי שמיעה — ספקטרום ממוצע + (אופציונלי) רכיב סטייה לאורך הזמן, עם חיתוך אמצע הגל כדי לצמצם ארטיפקטים בקצוות. זה לא משנה את קובץ האודיו המאוחסן, רק את ההשוואה לזיהוי כפילות.

מתי נדחה ככפילות: אם הקוסינוס המקסימלי מול אחד הוריאנטים גדול או שווה לסף — הסטטוס הוא rejected_too_similar והקליפ לא מתווסף כוריאנט נפרד.

דוגמאות מספריות: מול הוריאנט הכי דומה יצא קוסינוס 0.90 וסף 0.86 → מאחר ש־0.90≥0.86, זה נחשב לאותה הגיה ונדחה. אם תעלה את הסף ל־0.95, תדרוש דמיון חזק יותר לפני דחייה — פחות דחיות (יותר הקלטות יעברו). אם תוריד את הסף ל־0.75, דחייה תתרחש גם בדמיון בינוני — התנהגות יותר אגרסיבית נגד כפילויות, עם סיכון לדחות גוונים לגיטימיים.

ברירת המחדל 0.86 באה לאזן בין „אותו דבר מ־TTS עוד פעם” לבין וריאציות קטנות של קצב או יישור. מחזור 2+ בבדיקת מילון: גם בלי קוסינוס, אם למילה כבר יש וריאנט במילון הבדיקות — לא נוסף עוד (ראו `admin_repeat_pass_he` בפרטי הרצה).

lexicon_tts_merge_max_cosine_similarity

ברירת מחדל בקובץ ההגדרות בפרויקט: 0.86. השדה ריק → ב־prepare לא תישלח עקיפה (השרת ייקבע מקונפיג / env).

חלק אמצע הגל בשביל וקטור TTS (ללא שינוי קול)

ⓘ

רק במצב מיזוג טיוטות TTS: לפני חישוב הוקטור לדדאפ נלקחת רק רצועה ממורכזת של ה־PCM; הערך הוא שבר מ־0 עד 1 שמייצג איזה חלק מאורך הקליפ נשמר סביב המרכז (השאר נזרק לצורך ההשוואה בלבד).

למה: קצוות מילה אחרי יישור או cross-fade לעיתים מכילים שקט, לחישה או חיתוך חד — הם מעלים קוסינוס מטעה בין גרסאות כמעט זהות. חיתוך אמצע ממקד את הדמיון בגוף ההגיה.

דוגמאות: 0.65 (ברירת מחדל) שומרת כ־65% מהמרכז — איזון טיפוסי. 0.45 מצמצמת מאוד למרכז — פחות רגיש לקצוות אבל אולי מתעלמת מחלקים רלוונטיים. 0.85 כוללת כמעט את כל הקליפ — יותר נתונים מקצוות, מתאימה רק כשיש ביטחון שאין ארטיפקטים משמעותיים.

tts_middle_trim_keep_fraction

ברירת מחדל בשרת (_TTS_DEDUP_MIDDLE_KEEP_FRACTION): 0.65. ריק = ללא עקיפה.

משקל סטיית זמן בין פריימים (במצב TTS merge; 0 = רק ממוצע)

ⓘ

במצב מיזוג TTS הוקטור משלב לא רק ממוצע ספקטרלי על כל הקליפ, אלא גם מידע על שינוי לאורך זמן (סטייה בין „פריימים” קצרים). המשקל קובע כמה החלק הזה משפיע לעומת הממוצע.

0 (ברירת מחדל) = רק ממוצע — פשוט ויציב כשחוזרים על אותו משפט ב־TTS; שני קליפים עם אותו צבע ספקטרלי ממוצע יקבלו קוסינוס גבוה גם אם אחד „רועד” יותר בזמן.

דוגמאות: ערך קטן כמו 0.05–0.15 יכול להבדיל בין שני קליפים שבממוצע נשמעים דומים אבל אחד אחיד והשני עם דינמיקה/נשימות שונות — ולכן להשפיע על החלטת כפילות. ערך גבוה מדי מול ממוצע נמוך עלול לרעוש את המדד; כדאי לשנות בהדרגה ובהתאם לתוצאות בבדיקת המילון.

tts_std_weight_along_time

ברירת מחדל בשרת (_TTS_DEDUP_STD_WEIGHT): 0. ריק = ללא עקיפה.

סף קוסינוס — «הגייה נוספת» (לא override)

ⓘ

הבדל ממיזוג טיוטות: כאן נעשית השוואה עם אותה לוגיקת דחייה (קוסינוס מול הוריאנט הכי דומה ≥ סף ⇒ כפילות), אבל על וקטור ברירת־מחדל רגיל — בלי פרופיל המיוחד של מיזוג TTS (אמצע הגל והפרמטרים שלהלן).

איפה בשימוש: שמירה כ„הגייה נוספת” ונתיבים דומים שאינם override; מתאים כשמשווים הקלטה אנושית או קליפ ארוך לעומת מחזורי TTS התחלה־סוף מהירים במיזוג טיוטות.

דוגמאות: ברירת מחדל 0.88 גבוהה מ־0.82 של מיזוג TTS — כלומר נדרש דמיון חזק יותר (קוסינוס גבוה יותר) כדי שהמערכת תדחה ככפילות; זה מתאים לוקטור „רגיל” בלי חיתוך אמצע של מיזוג טיוטות, שבדרך כלל מתאר קליפים ארוכים/מלאים. אם קוסינוס מול ההגיה הקיימת הוא 0.91 וסף 0.88 → נדחה. עם סף 0.95 אותה 0.91 כבר לא נדחית — פחות הגבלות. עם סף 0.80 דחיות יתרחבו.

lexicon_additional_max_cosine_similarity

ברירת מחדל בקובץ ההגדרות: 0.88. ריק = ללא עקיפה בשליחה.