תמלול קול ווידאו של גוגל לעומת בני אדם

המלץ הכול על מאמר מאמר תלונות הדפס מאמרשתף מאמר זה בפייסבוקשתף לינק הגיע בטוויטרשתף לינק זה ב-Linkedinשתף לינק הגיע ב-Deliciousשתף לינק זה ב- Diggשתף קישור זה הזמן ב-Redditשתף לינק זה ב-Pinterest
בשבוע ההתחלתי בידי מאי, 2010 גוגל הכריזה על אודות שחרור עולמי בידי עריכת התמלול הווידאו שלה ביוטיוב. על אף שפורסמה בראש 2009, גרסת הבטא על ידי תמלול סרטוני YouTube הייתה נוכחת לכמה מוסד לימודים נבחרות, שדרני חדשות וסוכנויות ממשלתיות.

ההיסטוריה בידי טכנולוגיית זיהוי הדיבור החלה מסוף שנות ה-30, כאשר מעבדות AT&T Bell פיתחו מספר טלפון פרימיטיבי שידע לדעת דיבור. החוקרים ידעו שהשימוש הנרחב בזיהוי דיבור יהווה עומד ביכולת לתפוס אם וכאשר אמין ועקבי קלט מילולי פגיע עשוי. אולם אירועים מכיוון שטכנולוגיית המחשוב הן לא הינה מספיק משובחת, הפיתוח בידי זיהוי שיחה התבצע בקצב חילזון.


חמישים שנה להבא, הפוטנציאל בידי ציוד ומכשירים אלקטרונים דיגיטליים מקיפים עלו אפילו הכול על הטכנולוגיות המוצלחות והיקרות מאוד בידי שנות ה-30. זה התאפשר עקב כניסת גנבים הדרך שנערכו בייצור שבבים ומוליכים למחצה. המחסומים העצומים עד מאוד למהירות ולדיוק בקרב זיהוי דיבור – מהירות המחשב הביתי והכוח – באופן מיידי הן לא שיש אי נעימות.

תמלול דרושים כוח מחשוב רב יותר (נמדד ביחידות בידי FLOPS) איפה שמדעני המחשב בידי שנות ה-30 שלך יכלו לדמיין, מתכנתים יכולים בזמן זה להעצים אלגוריתמים לקוד ולפענוח בידי 5 יקר בידי דפוסי קול. מעשית הנם יכלו עתה לבנות מסד פרמטרים של מאות דפוסי קול מיוחדים, להמיר אותם לגלי סינוס דיגיטליים ולנתח תוים בדבר סמך המתמטיקה בידי אותות דפוסי קול. לאורך מתי ספציפית, כאשר שיטות הדיבור לטקסט הפכו לשימושיות; פירמות רבות החלו לשווק זיהוי קולי ללקוחות שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות מחיצת גבס נוספות.

קדימה היום נשאלת השאלה – ועד ל 2 הטכנולוגיות האלו העולות על כל הציפיות, יחסית תמלול יוטיוב על ידי רשת ואם הן כדלקמן יתחרו פעם אחת אחרת יעלו על אודות דיוק התמלול האנושי?

אדם שאוהב שיש בסרטוני יוטיוב שיש להן כיתובים מופעלים, או שלא תראה שהדיוק בקרב הכתוביות גדל בכמות קיפולים תוך כדי הזמן החודשים האחרונים. הדיוק עשוייה לעלות מעת לעת והוא רק מתעצם להשתפר ככל שיותר עוזרות משתמשים בשירות. לפי שאריק שמידט, מנכ”ל רשת בע”מ ללא הפסקה -‘ התמלילים שלכם ב-YouTube בקרב Google ישתפרו לאורך כמה זמן, ככל שיותר ויותר משתמשים ישתמשו אותם, שזו טכנולוגיה הויזואלית בידי לימוד עצמית”

אולם הוא מותקן כמה פגמים מהותיים שרצוי לעיין מראש למרות זוהי טכנולוגיה הויזואלית של למידה עצמית –


1. כיתוב אמין ומקצועי מוצלח פשוט במקרה שבו הדובר מדבר מההבטים בצורה משמעותית ברור וברורה.

2. השטח רוצה ליטול ירוקה כמעט מכל ניתוח של הפרעה

3. שגיאות מתגנבות מחמת מילים שנשמעות דומות כמו – שמיים וגבוהים – שנתקלנו בפרק זמן מהיר, המערכת לא יתכן ותהיה להכיר מכיוון השניים.


4. קריאות ביניים – לפעמים קרובות כמו זה עוצרים אם משמיעים צלילי חשיבה במהלך נאומים – אלה מכילים אה, המממ, אהה וכיוצא בזה. תוכנת הזיהוי ישמח לעשות זמן ומאמץ לתמלל ואלה את אותן אלה, ולעתים מעניקה השפעה מצחיקות. (חפש ביוטיוב בעבור התמלול קולי גורם חיוך של גוגל)

ולבסוף מעתיק את מקום מגוריו המגרעת המסיבי מכולן

5. שביעות רצון פסיכולוגית – כעבור שהכתוביות בוצעו על ידי הרובוטים אצל רשת, במקרה ש מייקר הסרטון יתכן מקווה במידת הדיוק? ברורה ברוב המקרים שחשוב מאוד מומלץ לבדוק את אותן הכתוביות המתומללות לחיפוש שגיאות ולהגהה מקרים. זה הזמן ללא הפסקה לחדש המיועדים לכל הסרטון מקרים, לתפעל את המילים אם וכאשר ידני, לשפץ רק את החלק הדקדוק כללי פסיקים, מקפים, מרכאות וכו ולהעלות אשר. הליך שלוקח עת.

לאחר מכן מה הפיתרון האולטימטיבי לתמלול קבצים שונה טכנולוגיית זיהוי קול לטקסט?

הפתרון הינה קטנה יותר, התהליך שבו קבצים דיגיטליים ואנלוגיים תומללו ב-50 התקופה האחרונות – אנשים.

בנוסף הכול על בעלי חברת התמלול ותמלול מסה ב-Etranscriber Transcriptions.


g