Google Cloud Speech, облачный речевой API, позволяющий разработчикам использовать службы поискового гиганта для преобразования голоса в текст, получил первое крупное обновление с момента своего запуска в 2016 году. Наиболее существенное новшество, пожалуй, — поддержка трёх десятков новых языков в дополнение к 89 понимаемым службой ранее.

Впрочем, «языки» — это не вполне верно: с точки зрения Google различные региональные диалекты английского, испанского или арабского входят в этот список отдельным пунктом. Так или иначе, среди новых языков присутствуют такие, как бенгальский, латвийский, суахили и другие, покрывающие в совокупности порядка миллиарда человек.

Кроме того, Google внесла и другие ключевые новшества в свою службу. Среди прочего речь идёт о поддержке временных меток на уровне слов. Идея состоит в том, чтобы пометить каждое слово своей меткой времени, чтобы разработчики могли, например, позволить пользователям слышать, кто произнёс то или иное слово. Это особенно интересно для транскрипционных и переводческих услуг, которые используют этот API для ускорения своих рабочих процессов. Иметь возможность разметить звук текстовыми метками, по словам соучредителя Happy Scribe Андрэ Бастье (André Bastie), существенно снижает время, затрачиваемое на проверку автоматических транскрипций (его компания берёт за такую работу $0,1 на минуту интервью).

Кроме того, длительность файлов, загружаемых разработчиками в службу, повышена с 80 минут до 3 часов (при необходимости можно запросить дополнительное расширение). Как и прежде, разработчики могут использовать Google Cloud Speech API бесплатно на отрывках до 60 минут, а каждые дополнительные 15 секунд оплачиваются по тарифу $0,006.