Google опубликовал данные и модель машинного обучения для разделения звуков

Компания Google опубликовала базу данных эталонных смешанных звуков, снабжённую аннотациями, которую можно использовать в системах машинного обучения, применяемых для разделения произвольных смешанных звуков на отдельные компоненты. Также опубликована универсальная модель глубинного машинного обучения (TDCN++), которая может быть использована в Tensorflow для разделения звуков. Данные подготовлены на основе коллекции freesound.org и опубликованы под лицензией CC BY 4.0.

Представленный проект FUSS (Free Universal Sound Separation) нацелен на решение проблемы разделения любого числа произвольных звуков, о характере которых заранее не известно. Другие подобные системы, как правило, ограничены задачей разделения определённых звуков, например, голоса и не голоса или разных говорящих людей.

БД насчитывает около 20 тысяч смешиваний. В набор также входят предварительно рассчитанные импульсные характеристики помещения, подготовленные при помощи специально созданного симулятора комнаты и учитывающие отражение от стен, местоположение источника звука и местоположение микрофона.

Google опубликовал данные и модель машинного обучения для разделения звуков

Рубрики

Свежие записи

Декабрь 2023
Пн	Вт	Ср	Чт	Пт	Сб	Вс
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Google опубликовал данные и модель машинного обучения для разделения звуков

Интересные записи:

Рубрики

Свежие записи