26.04.2024, пятница


20.02.2017 г. - 3i Technologies разработал облачный сервис для профессиональной обработки ТВ и радиоконтента


3i Technologies разработал облачный сервис для профессиональной обработки ТВ и радиоконтента
3i Speech Recognition API работает с аудио и видео любой длительности


Консорциум 3i Technologies разработал облачный сервис для профессиональной обработки речевых данных из медийного контента – 3i Speech Recognition API. Сервис позволяет с точностью более 90% переводить теле- и радиоэфиры и медиа-архивы ТВ-каналов и радиостанций в текстовый формат.

3i Speech Recognition API работает с аудио и видео любой длительности. Сервис обрабатывает загруженные в облако файлы в несколько раз быстрее реального времени звучания и выдает на выходе «стройный» текст, разбитый на предложения с расставленными знаками препинания. Бета-версия 3i Speech Recognition API открыта для публичного тестирования.

«Это специализированный сервис, ориентированный на обработку именно телевизионного или радио-контента. Мы разработали уникальные модели, которые позволили добиться очень высокой точности распознавания. Надеемся, что сервис будет полезен профессионалам, которые работают с медиа-контентом. В дальнейшем он может стать частью высокотехнологичных решений для массового потребителя, например, основой для перевода иностранных каналов и субтитрирования в режиме реального времени. Все технологии для создания такого продукта у компаний, входящих в консорциум, уже есть»,

— говорит председатель совета директоров консорциума 3i Technologies Алексей Любимов.

В сервисе используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст «экономических» или «отраслевых» передач, в которых спикеры используют профессиональную лексику.

Бета-версия 3i Speech Recognition поддерживает русский и английский язык. 3i Speech Recognition будет полезен в работе разработчиков программного обеспечения, системных интеграторов, специалистов в области создания и обработки медиаконтента (телерадиовещательные компании, продакшн-студии, креативные агентства, фрилансеры и т.д.). Сервис быстро и легко интегрируется в приложения и комплексные решения сторонних разработчиков.

content-review.com

• Деятельность Meta (соцсети Facebook и Instagram) запрещена в России как экстремистская.
•• А.А. Венедиктов внесен Минюстом РФ в реестр СМИ-иноагентов.
••• Генеральная прокуратура России признала нежелательной в РФ деятельность иностранной неправительственной организации Medusa Project (владельца интернет-издания "Медуза"/Meduza), которая ранее была признана иноагентом Минюстом РФ.


Полная версия новости на основном сайте OnAir.ru

Опубликовано: 20.02.2017 г. - OnAir.ru - 1499


  На главную

 Новости дня:
• О результатах апрельских конкурсов ФКК
• Ведущие «Авторадио» исполнили на концерте в Кремле культовую песню о самой масштабной стройке XX века
• Генеральный директор «Русской Медиагруппы» Любовь Маляревская: «Даже сегодня бренды не отказываются от рекламы»
• «Детское радио Екатеринбург» выберет самый лучший детский сад
• Победа «Радио Шансон» в конкурсе на право вещания
Полная версия сайта

2000-2023 гг. © OnAir.ru - Наши контакты