Strona główna Strona główna projektu Repozytorium Kontakt

Zasoby mowy projektu CLARIN-PL

Powrót

Korpus nagrań studyjnych

Korpus można ściągnąć w formacie EMU-SDMS z linku poniżej. Tak ściągniętego korpusu można użyć do analizy przy pomocy narzędzia R oraz biblioteki emuR. Więcej informacji pod tym linkiem.

Link do korpusu

Przeglądarka EMU-WebApp

Korpus można też objerzeć bez ściągania korzystając z linku poniżej:

Link do usługi

Licencja do korpusu

LICENSE

Kaldi baseline

Pod linkiem poniżej można znaleźć informacje na temat wersji korpusu przygotowanej do wytrenowania systemu rozpoznawania mowy opartego o system LVSCR Kaldi. Tam znajdują się wszystkie opisy i skrypty pozwalające na samodzielne wytrenowanie systemu.

https://github.com/danijel3/ClarinStudioKaldi

Cytowanie

Osoby korzystające z zasobów lub narzędzi proszone są o cytowanie następującej publikacji:

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Link do pracy