ДОСЛІДЖЕННЯ РОБОТИ МОДУЛЯ ПЕРЕТВОРЕННЯ МОВИ В ТЕКСТ У ЗАПРОПОНОВАНІЙ МОДЕЛІ АВТОМАТИЧНОГО АНОТУВАННЯ ПРОМОВИ СПІКЕРА
DOI:
https://doi.org/10.30837/ITSSI.2022.22.005Ключові слова:
STT, текст, оброблення, анотація, реферат, аудіофайл, модель, навчанняАнотація
Предметом дослідження є модуль конвертації мови спікера в текст у запропонованій моделі автоматичного анотування промови спікера, що стає все більш затребуваним в Україні завдяки активному переходу спілкування, навчання, проходження тренінгів, співбесід, обговорення важливих питань тощо на форму онлайн. Мета роботи – скорочення появи хибних або спотворених даних під час перетворення звукового ряду в релевантний текст для подальшого семантичного аналізу. Для досягнення поставленої мети були виконані такі завдання: запропоновано узагальнену модель текстової сумаризації вхідних аудіоданих; проналізовано наявні моделі STT (перетворення аудіоданих у текст); досліджено можливість роботи модуля STT з українською мовою; оцінено якість роботи модуля STT та таймінгу роботи з українською та англійською мовами. Запропонована модель автоматичного анотування промови спікера має два головних функціональних модулі: speech-to-text (STT) і summarization module (SUM). Для модуля STT досліджено та вдосконалено такі моделі лінгвістичного аналізу тексту: для англійської мови це wav2vec2-xls-r-1bз, а для української – Ukrainian STT model (wav2vec2-xls-r-1b-uk-with-lm), математичним апаратом яких є нейронні мережі. Отримано такі результати: завдяки використанню додаткової української лінгвістичної моделі wav2vec2 зменшується показник рівня помилок слів майже в 1,5 раза, що впливає на якість розпізнавання слів з аудіо й потенційно може сприяти отриманню більш якісних текстових даних на виході. Для оцінювання таймінгу роботи модуля STT було проаналізовано три аудіозаписи англійською та українською мовами різної довжини: 5 с, ~60 с та ~240 с. Результати показали помітну тенденцію прискорення отримання вихідного файлу за умови використання обчислювального ресурсу графічного прискорювача NVIDIA Tesla T4 саме для найдовшого аудіозапису. Висновки. Використання глибокої нейронної мережі на етапі шумопригнічення у вхідному файлі є виправданим, оскільки забезпечує збільшення метрики WER майже на 25%, а збільшення обчислювальних потужностей графічного процесора та кількості потокових процесорів надають прискорення лише для вхідних аудіофайлів великого розміру. Подальші дослідження автора спрямовані на вивчення ефективності методів модуля сумаризаціїї отриманого тексту.Завантаження
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
-
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
-
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
-
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.












