התשמע קולי? לא אם הוא בעברית

טכנולוגיות הזיהוי הקולי באופן מסחרי ושווה לכל נפש, הולכות ומשתכללות * "סירי" ששולבה באייפון החדש, מרשימה במיוחד ומאפשרת שליטה כמעט מלאה במכשיר רק באמצעות דיבור * אך בינתיים - וגם בעתיד הנראה לעין - לא יהיו טכנולוגיות כאלה בעברית

אנחנו רגילים לראות בטלפון הסלולרי ובמכשירים אלקטרוניים בכלל, כמשהו פונקציונלי. רוצים לראות טלוויזיה? פותחים אותה; רוצים להתקשר לחברים? מחייגים אליהם בטלפון.

רוב הדברים מבוצעים באמצעות פעולות ידניות, רק מיעוט מהפקודות מתאפשרות באמצעות טכנולוגיות זיהוי דיבור. בבתים חכמים, למשל, אפשר באמצעות דיבור להפעיל מכשירים שונים, אבל זה רק הקצה העליון של הלקוחות ולא משהו המוני לעת עתה.

אבל האם הסלולרי, שגם כך כמעט כל החיים שלנו נמצאים בו - אנשי קשר, אימיילים, גלישה לאינטרנט, תמונות ויכולת תקשור עם אחרים - יהפוך לעוזר אישי שלנו? והאם הכרחי לנו לשאול את המכשיר: "האם צפוי לרדת גשם היום" - ולקבל ממנו תשובה קולית?

טכנולוגיית זיהוי הדיבור נמצאת במחשבים ובטלפונים סלולריים כבר שנים רבות, אולם רק באחרונה היא עברה קפיצת דרך משמעותית בבשלות שלה וביכולת שלה להפוך להמונית במחיר שווה לכל נפש, כאשר אפל השיקה את השירות Siri (סירי) באייפון 4S.

יכולת זו פותחה בחברה הנושאת את השם סירי, שאפל רכשה לפני כשנה. "מה השעה כעת בפריז", תשאלו את המכשיר והוא יענה: "20:10". הטכנולוגיה מאפשרת לבצע כמעט כל פעולה באייפון רק באמצעות פקודות קוליות, כולל התקשרות, גלישה באינטרנט, קביעת תזכורות או שליחת סמסים.

קיראו עוד ב"גלובס"


הדבר המרשים ביותר הוא שהנוסח לביצוע הפעולות, לא צריך להיות קבוע מראש. סירי מזהה גם את הכוונה בניסוח חופשי. התוכנה גם לומדת את העדפות המשתמש - כך, אם היא למדה את שם בת הזוג של המשתמש משליחת הודעת טקסט או פעולה אחרת, ניתן יהיה לבקש מסירי גם לקבוע פגישה ביומן ביום שישי בצהריים עם בת הזוג.

גם אם אפל ספגה ביקורת בעת ההשקה של סירי באייפון S4, שכן השוק כולו ציפה לאייפון 5 חדש ומהפכני, אי אפשר להפחית בערכה של התוכנה. זו מהפכה של ממש בעולם הזיהוי הקולי. סירי אפילו מצליחה לזהות משפטים מורכבים באנגלית במבטא ישראלי גם במקומות רועשים (את המבטא הסקוטי באנגלית היא כבר מתקשה לזהות) והיא עובדת בשפות אנגלית, צרפתית וגרמנית.

בעוד שסירי נחשבת למערכת הזיהוי הקולי הכי מתקדמת, לפחות בפרסום שלה, אפל היא היחידה שמציעה אותה על האייפון 4S ומשתמשים של אנדרואיד צריכים להסתפק בתחליפים. חברת הפיתוח Applidium פרצה את סירי ולטענתה ניתן להשתמש בפרוטוקול, להטעמת סירי באפליקציות אנדרואיד. השלב הבא כנראה יהיה בהטמעת סירי או גרסאות אחרות בטאבלטים ובשלב מאוחר יותר, אפל אולי תכניס אותה למחשבי המק או לטלוויזיה שהיא כנראה עובדת אליה. מה שאומר, שבטווח הרחוק שימושים קוליים חכמים יהיו בדסקטופים ובמוצרים אחרים שבהם אנשים משתמשים בחיי היומיום.

סירי, הטכנולוגיה המתקדמת ביותר בסמארטפונים מבחינה מסחרית, לא עובדת בעברית, ובכלל, קשה למצוא היום בשוק יכולות זיהוי טובות בעברית. אחד הניסיונות הראשונים היו כבר לפני שבע שנים, כאשר הושק בישראל הטלפון הקבוע לרכב ספיריט של חברת מוטורולה. הטלפון, שאף יוצר ופותח בישראל, הציע אופציה לחיוג מספרי טלפון בקול אנושי, מבלי שהיה צריך ללמד אותו מראש - כלומר, להקליד כל ספרה על-ידי בעל המכשיר. טכנולוגיה זו עבדה באותה תקופה בצורה טובה, אבל היה לה חיסרון משמעותי, שכן מאגר המילים שלה היה מצומצם בעיקר לספרות ולא אפשר דיבור חופשי.

קולי צריך להיות פשוט

"טכנולוגיית זיהוי הדיבור תלויה בשפה", אומר פרופ' עמי מויאל, ראש המרכז לעיבוד שפה וראש מחלקת הנדסת חשמל במכללת אפקה. "בכל פעם שחברה רוצה להציע פתרון מלא לשפה חדשה, עליה לאסוף 1,000 דוברים ולאמן את המערכת.

"זהו תהליך שלוקח זמן ועולה כסף, ולכן חברות מתחילות עם שפות פופולריות. העברית, מטבע הדברים, נכנסת לתמונה אחרי זמן רב או שלא נכנסת בכלל".

מויאל מציין כי באפקה עובדים בימים אלה על אימון של מנוע בשפה העברית, כדי שאפשר יהיה להעמיד אותו לרשות הקהילה המחקרית והתעשייתית בישראל, כאשר הם מחפשים מימון לפעילות בשפה העברית.

הצלחת טכנולוגיית הזיהוי הקולי אצל המשתמש הסופי מתבטאת בפשטות. אם הצרכן צריך ללמד את המכשיר את המילים שהוא רוצה להגיד, הוא כנראה לא יעשה זאת. ואולם, מה שיותר חשוב מתהליך הלימוד הוא אחוזי ההצלחה בדיבור אל המכשיר וזיהוי המילה.

התוכנה במכשירים צריכה לדעת לזהות את דיבור המשתמש במבטאים שונים ובצורות הגייה שונות של אנשים. בספיריט, מאגר המילים התבטא בעיקר בספרות ולכן היה יותר קל לבצע את הפעולה הזו אבל ברגע שצריך ללמד את המכשיר מילים רבות יותר ומשפטים, מדובר כבר ביכולת מאתגרת יותר.

דוגמה נוספת ומוכרת לזיהוי קולי בעברית קיימת דווקא במכשירים המבוססים על מערכת ההפעלה סימביאן של נוקיה, שנחשבים לפחות מוצלחים מהאייפון או מהדגמים המבוססים על מערכת ההפעלה של גוגל, אנדרואיד.

סימביאן יודעת להקריא - גם אם במבטא אמריקני כבד - מילים בעברית, כמו שמות אנשי קשר או קטגוריות שונות במכשיר. הדבר מיושם גם כזיהוי שיחה, כאשר אדם מתקשר ואז הטלפון מקריא את שמו. הבעיה: קשה לעיתים קרובות להבין מה הוא אומר.

הזיהוי הקולי מאפשר לעבוד גם בצורה הפוכה: המשתמש יכול להגיד את שמו של האדם שאליו הוא רוצה להתקשר או פונקציה שאותה הוא רוצה להפעיל במכשיר - כמו נגן מוזיקה - ולבצע את הפעולה בקולו. בחלק מהמקרים הדבר עובד בצורה טובה, אך בשאר המקרים - ממש לא.

גוגל לא תישאר מאחור

פונקציית ההפעלה הקולית המתקדמת עובדת לא רק באייפון - גם גוגל מקדמת את הנושא באופן עקבי, והיום מכשירי אנדרואיד מסוגלים לבצע חיפוש קולי ישירות מהאפליקציה הפנימית שלהם.

במטרה להראות כי הטכנולוגיה הקולית של גוגל בשלה לשימוש, היא העלתה ליו-טיוב סרטונים שבהם עובדי החברה מבצעים חיפושים קוליים, למשל, באמצע המדבר או במהלך צלילה. הקליפים אינם מציגים טכנולוגיה חדשה, רק את היתכנות הטכנולוגיה.

גוגל מאפשרת הכתבת הודעות טקסט, מיילים והפעלה קולית של תוכנת הניווט ואפילו חיפוש שירים באמצעות קול.

גם בגוגל, בדומה לאפל, השירות לא עובד בעברית, אלא רק באנגלית. גם למיקרוסופט יש מערכת דומה לזו שבמכשירי אנדרואיד, רק במכשירי הווינדוס-פון שלה.

כך שמי שראה את הדו-שיח שאפשר לנהל עם סירי (כמו: "מה משמעות החיים", והיא עונה: "להיות נחמד לאנשים, לא להשמין ולחיות בהרמוניה") או את השירותים שגוגל מציעה, וקיווה שהם יגיעו לישראל - ימשיך לחכות אולי אפילו שנים.

"אנחנו מקווים להרחיב את החיפוש ואת שירותי ההפעלה לשפות נוספות ככל האפשר, כולל עברית, אבל אין לנו משהו קונקרטי להכריז עליו עכשיו", מציינים בחברת גוגל.

הפיתוח של תחום הזיהוי הקולי החל כבר לפני 40 שנה, אבל התפתח בעיקר בשנים האחרונות. "היום אנחנו יכולים לראות את זיהוי הדיבור במרכזי שירות טלפוניים, שם הוא מחליף את המענה האנושי, וגם בתחום הרפואי בארה"ב כאשר רופאים מכתיבים למערכת שלהם נתונים בזמן שהם מבצעים בדיקה לחולה", אומר מויאל.

ומה הלאה? "ברגע שאנשים יתחילו להשתמש בזיהוי דיבור במכשירים, הדבר יגרום לחדירה מואצת", סבור מויאל. בזיהוי הדיבור הוא רואה עוד שלב במהפכת התקשורת שלנו מול מכונות. "זה התחיל בטקסט, המשיך במסכי מגע, ועכשיו הגיע לזיהוי דיבור. השלב הבא יהיה בהחדרה משמעותית יותר של זיהוי התנועה".