Strona główna Strona główna projektu Repozytorium Kontakt

Segmentacja krótkich nagrań

Powrót

Opis narzędzia

Dopasowanie czasowe tekstu do nagrania. Podział nagrania na segmenty (wyrazy i fonemy).

Narzędzie to jest dostosowane do przetwarzania stosunkowo krótkich nagrań (poniżej minuty). Dłuższe nagrania mogą spowodować powstanie błędu.

UWAGA: Pliki audio przekazywane do tej usługi muszą być w odpowiednim formacie (WAV, 16kHz, mono, 16-bit). Jeśli plik nie jest w odpowiednim formacie, można skorzystać z usługi normalizacji audio do odpowiedniego przekonwertowania pliku.

Przykład korzystania z usługi z linii poleceń

Usługę uruchamiamy następującym poleceniem:

curl -s -F "audio=@audio.wav" -F "transcript=@trans.txt" http://mowa.clarin-pl.eu/tools/speech/forcealign

Co wygeneruje identyfikatory plików wejścia i wyjścia w formacie JSON, np:

{"output": "59aeffa039ec7803291c5e1f", "audio": "59ad218239ec782dcfa73599", "transcript": "59ad217639ec782dcfa73597"}

Plik można pobrać według identyfikatora poleceniem download, np:

curl http://mowa.clarin-pl.eu//tools/download/59aeffa039ec7803291c5e1f -o output.ctm

Pliki można też ściągnąć w formacie TextGrid, podając opcjonalnie alfabet fonetyczny używany w wartstwie fonetycznej, np:

curl http://mowa.clarin-pl.eu//tools/textgrid/59aeffa039ec7803291c5e1f -o output.TextGrid

curl http://mowa.clarin-pl.eu//tools/textgrid/59aeffa039ec7803291c5e1f -o output.TextGrid?script=sampa

curl http://mowa.clarin-pl.eu//tools/textgrid/59aeffa039ec7803291c5e1f -o output.TextGrid?script=ipa

Pliki można również ściągnąć w formacie annot.json używanym przez system EMU-SDMS, np:

curl http://mowa.clarin-pl.eu//tools/annot/59aeffa039ec7803291c5e1f -o output_annot.json

Jeśli plik jest jeszcze przetwarzany, otrzymamy kod statusu 503. W przypadku błędu, otrzymamy kod 500. Status można sprawdzić również poleceniem status, np:

curl http://mowa.clarin-pl.eu//tools/status/59aeffa039ec7803291c5e1f

Polecenie to może zwrócić wartości ok, kiedy plik jest gotowy do ściągnięcia, wait, jeśli jest wciąż przetwarzany, oraz error (z opisem), jeśli wystąpił błąd.

Plik wejściowy można też nagrać poleceniem upload, np:

curl -s -F "file=@audio.wav" http://mowa.clarin-pl.eu/tools/upload/audio

Co wygeneruje identyfikator pliku wejściowego, który można przekazać do pierwszego polecenia, jak wyżej:

curl http://mowa.clarin-pl.eu/tools/speech/forcealign/59ad218239ec782dcfa73599/59ad217639ec782dcfa73597

Co wygeneruje identyfikator pliku wyjściowego, który można przekazać do poleceń download oraz status, tak jak pokazano wyżej.

Cytowanie

Osoby korzystające z zasobów lub narzędzi proszone są o cytowanie następującej publikacji:

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Link do pracy