ДОСЛІДЖЕННЯ РОБОТИ МОДУЛЯ ПЕРЕТВОРЕННЯ МОВИ В ТЕКСТ У ЗАПРОПОНОВАНІЙ МОДЕЛІ АВТОМАТИЧНОГО АНОТУВАННЯ ПРОМОВИ СПІКЕРА

Автор(и)

  • Olesia Barkovska Харківський національний університет радіоелектроніки https://orcid.org/0000-0001-7496-4353

DOI:

https://doi.org/10.30837/ITSSI.2022.22.005

Ключові слова:

STT, текст, оброблення, анотація, реферат, аудіофайл, модель, навчання

Анотація

Предметом дослідження є модуль конвертації мови спікера в текст у запропонованій моделі автоматичного анотування промови спікера, що стає все більш затребуваним в Україні завдяки активному переходу спілкування, навчання, проходження тренінгів, співбесід, обговорення важливих питань тощо на форму онлайн. Мета роботи – скорочення появи хибних або спотворених даних під час перетворення звукового ряду в релевантний текст для подальшого семантичного аналізу. Для досягнення поставленої мети були виконані такі завдання: запропоновано узагальнену модель текстової сумаризації вхідних аудіоданих; проналізовано наявні моделі STT (перетворення аудіоданих у текст); досліджено можливість роботи модуля STT з українською мовою; оцінено якість роботи модуля STT та таймінгу роботи з українською та англійською мовами. Запропонована модель автоматичного анотування промови спікера має два головних функціональних модулі: speech-to-text (STT) і summarization module (SUM). Для модуля STT досліджено та вдосконалено такі моделі лінгвістичного аналізу тексту: для англійської мови це wav2vec2-xls-r-1bз, а для української – Ukrainian STT model (wav2vec2-xls-r-1b-uk-with-lm), математичним апаратом яких є нейронні мережі. Отримано такі результати: завдяки використанню додаткової української лінгвістичної моделі wav2vec2 зменшується показник рівня помилок слів майже в 1,5 раза, що впливає на якість розпізнавання слів з аудіо й потенційно може сприяти отриманню більш якісних текстових даних на виході. Для оцінювання таймінгу роботи модуля STT було проаналізовано три аудіозаписи англійською та українською мовами різної довжини: 5 с, ~60 с та ~240 с. Результати показали помітну тенденцію прискорення отримання вихідного файлу за умови використання обчислювального ресурсу графічного прискорювача NVIDIA Tesla T4 саме для найдовшого аудіозапису. Висновки. Використання глибокої нейронної мережі на етапі шумопригнічення у вхідному файлі є виправданим, оскільки забезпечує збільшення метрики WER майже на 25%, а збільшення обчислювальних потужностей графічного процесора та кількості потокових процесорів надають прискорення лише для вхідних аудіофайлів великого розміру. Подальші дослідження автора спрямовані на вивчення ефективності методів модуля сумаризаціїї отриманого тексту.  

Завантаження

Дані завантаження ще не доступні.

Біографія автора

Olesia Barkovska, Харківський національний університет радіоелектроніки

кандидат технічних наук, доцент

##submission.downloads##

Опубліковано

2023-08-02

Як цитувати

Barkovska, O. (2023) «ДОСЛІДЖЕННЯ РОБОТИ МОДУЛЯ ПЕРЕТВОРЕННЯ МОВИ В ТЕКСТ У ЗАПРОПОНОВАНІЙ МОДЕЛІ АВТОМАТИЧНОГО АНОТУВАННЯ ПРОМОВИ СПІКЕРА», СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ, (4 (22), с. 5–13. doi: 10.30837/ITSSI.2022.22.005.

Статті цього автора (авторів), які найбільше читають