Korpusy Clarin-PL


Korpus w formacie EMU

Licencja do korpusu: LICENSE

Pod linkiem poniżej można znaleźć informacje na temat wersji korpusu przygotowanej do wytrenowania systemu rozpoznawania mowy opartego o system LVSCR Kaldi. Tam znajdują się wszystkie opisy i skrypty pozwalające na samodzielne wytrenowanie systemu.
https://github.com/danijel3/ClarinStudioKaldi

Cytowanie:

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki, and Krzysztof Wołk Polish read speech corpus for speech tools and services In Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, number 136, pages 54–62. Linköping University Electronic Press, Linköpings universitet, 2017.