התמלול קול ווידאו על ידי אינטרנט כל עוד מטופלים

0 Comments

המלץ הכול על עמוד עמוד הערות הדפס מאמרשתף מאמר זה הזמן בפייסבוקשתף לינק זה הזמן בטוויטרשתף לינק זה הזמן ב-Linkedinשתף מאמר זה הזמן ב-Deliciousשתף קישור זה בין השנים Diggשתף מאמר זה ב-Redditשתף מאמר הגיע ב-Pinterest
במשך שבוע הראשון על ידי מאי, 2010 רשת הכריזה על שחרור עולמי אצל עריכת תמלול הווידאו שלה ביוטיוב. אף על פי שפורסמה בראשם 2009, גרסת הבטא של התמלול סרטוני YouTube נודעה נוכחת למס’ מוסד לימודים נבחרות, שדרני נוספות וסוכנויות ממשלתיות.

ההיסטוריה של טכנולוגיית זיהוי הדיבור החלה מסוף שנות ה-30, כשיקרה מעבדות AT&T Bell פיתחו מספר טלפון פרימיטיבי שמסוגל לזהות שיחה. החוקרים ידאגו שהשימוש הנרחב בזיהוי דיבור ישמש עלול ביכולת ללכוד אם אמין ומקצועי ועקבי קלט מילולי פגיע ובנוי. אך מכיוון שטכנולוגיית המחשוב אינן הייתה מספיק נעמה, הפיתוח על ידי זיהוי שיחה מתבצע בתזמון חילזון.

50 שנה מעתה והלאה, הכישורים בידי מכשירי חשמליים דיגיטליים רבים עלו אפילו על אודות הטכנולוגיות הכדאיות והיקרות ביותר בקרב שנות ה-30. זה התאפשר עקב פריצות הדרך שבוצעו בייצור שבבים ומוליכים למחצה. המחסומים תמלול שיחות טלפון ביותר למהירות ולדיוק בקרב זיהוי דיבור – מהירות מצג והכוח – באופן מיידי אינם היו מקרה.

בעלות כוח מחשוב גבוה יותר שנתיים (נמדד ביחידות על ידי FLOPS) ממה שמדעני המחשב על ידי שנות ה-30 של העסק שלכם יכלו להבין, מתכנתים יש להם זכאות מעתה למרב אלגוריתמים לקוד ולפענוח בקרב 10 גבוה על ידי דפוסי קול. מעשית הם יכלו עתה להרכיב מסד דברים על ידי מאות דפוסי קול ייחודיים, להמיר אשר לגלי סינוס דיגיטליים ולנתח סימבולים אודות סמך המתמטיקה על ידי אותות דפוסי קול. לתקופה של מתי מיוחדת, אם וכאשר אביזרי הדיבור לטקסט הפכו לשימושיות; פירמות רבות התחילו להציע זיהוי קולי ללקוחותיהם שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות נישת גבס אחרות.

אם כן בזמן זה נשאלת השאלה – עד הרגע כמה הטכנולוגיות הנוספים הוגנות, פחות או יותר תמלול יוטיוב בידי מנועי החיפוש ואם הינן יתחרו פעם אחרת יעלו בדבר דיוק התמלול האנושי?

האדם האוהב לצפות בסרטוני יוטיוב עם כיתובים מופעלים, שמא תהיה שהדיוק על ידי הכתוביות גדל במספר קיפולים תוך כדי כך החודשים האחרונים. הדיוק עולה מעת עבור יום והוא רק מתעצם להשתפר ככל שיותר כאלו משתמשים בשירות. כפי שאריק שמידט, מנכ”ל רשת בע”מ ללא הפסקה -‘ התמלילים שלכם ב-YouTube בקרב Google ישתפרו למשך כמה זמן, ככל שיותר ויותר משתמשים יעשו שימוש וש, זו טכנולוגיה הויזואלית על ידי הוראה עצמית”

אולם עומד על קיים 2 פגמים מהותיים שאפשר לראות מקרוב מתחילה אף על פי שזו פיתוח בידי למוד עצמית –



1. כיתוב מדויק מוצלח היגויני במקרה שבו הדובר מסביר בצורה בצורה ניכרת ברורה וברורה.

תמלול הקלטות . הסביבה חייבת להיות טבעית כמעט מכל הוא ניתוח הפרעה

3. שגיאות מתגנבות מפאת מילים שנשמעות דומות למשל – שמיים וגבוהים – כאשר מדובר בזמן קצר, המערכת הן לא עלולה להבדיל מצד השניים.


4. קריאות ביניים – מפעם לפעם קרובות אנשים עוצרים אם משמיעים צלילי חשיבה בעת נאומים – אילו כוללים אה, המממ, אהה וכולי. תוכנת הזיהוי ירצה לעשות מאמצים לתמלל ואלה את אותו האלו, ולעתים מייצרת השפעות מצחיקות. (חפש ביוטיוב עבור התמלול קולי מצחיק אצל גוגל)


ולבסוף מגיע החיסרון הרחב ביותר

5. שביעות כוונה פסיכולוגית – אחרי שהכתוביות בוצעו על ידי הרובוטים אצל גוגל, למקרה מייקר הסרטון יכול להיות רוצה במידת הדיוק? ברור ובאופן מיוחד שחשוב מאוד לאמת את אותה הכתוביות המתומללות למציאת שגיאות ולהגהה מקרים. זה כל הזמן לעשות על מירב הסרטון מקרים, לתקן את אותם המילים באופן ידני, לשפץ את אותם החלק הדקדוק הכללים של פסיקים, מקפים, מרכאות וכו’ ולהעלות וש. תהליך שלוקח ימים.

אוקי, אז מה הוא הפיתרון האולטימטיבי לתמלול קבצים אחר טכנולוגיית זיהוי קול לטקסט?

המענה הוא בינונית, ההשתלשלות בו קבצים דיגיטליים ואנלוגיים תומללו ב-50 עם הזמן האחרון – אנשים.

עוד אודות שירות תמלול קבצי אודיו ותמלול מסה ב-Etranscriber Transcriptions.



Leave a Reply

Your email address will not be published.