Strona główna Strona główna projektu Repozytorium Kontakt

Normalizacja tekstu

Powrót

Opis narzędzia

Zamiany tekstu ortograficznego na postać nadającą się do transkrypcji fonetycznej: konwersja liczebników na tekst, rozwijanie skrótów, usuwanie znaków specjalnych, itd.

UWAGA: w trakcie tworzenia! W tej chwili narzędzie nie wspiera większości wymienionych funkcji!

Wczytaj plik tekstowy

Przykład korzystania z usługi z linii poleceń

Usługę uruchamiamy następującym poleceniem:

curl -s -F "file=@test.txt" http://mowa.clarin-pl.eu/tools/text/normalize

Co wygeneruje identyfikatory plików wejścia i wyjścia w formacie JSON, np:

{"input": "599565d139ec782642683890", "output": "599871a739ec781a48838f70"}

Plik można pobrać według identyfikatora poleceniem download, np:

curl http://mowa.clarin-pl.eu/tools/download/599871a739ec781a48838f70

Co wygeneruje wynik przykładowo:

ala ma kota

Co wygeneruje identyfikator pliku wyjściowego, który można przekazać do poleceń download oraz status, tak jak pokazano wyżej.

Plik wejściowy można też nagrać poleceniem upload, np:

curl -s -F "file=@test.txt" http://mowa.clarin-pl.eu/tools/upload/transcript

Zasób będący transkrypcją zawsze można przetworzyć poleceniem text/normalize/[id]:

curl http://mowa.clarin-pl.eu/tools/text/normalize/599565d139ec782642683890

Co wygnereuje identyfikator, który można pobrać poleceniem download tak, jak opisano wyżej.

Cytowanie

Osoby korzystające z zasobów lub narzędzi proszone są o cytowanie następującej publikacji:

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Link do pracy