چوڭقۇرلاپ ئۈگۈنۈشنى ئاساس قىلغان ئۇيغۇرچە ئاۋازنى خەتكە ئايلاندۇرۇش تېخنىكىسى

بۇ مودېل CTC فۇنكىسيەسىدىن پايدىلىنىپ تەربىيەلەنگەن.مەشىقلەندۈرگەن ئامبار بولسا (THUYG-20).

THUGY20 بولسا ئاۋاز ۋە تىل تېخنىكىسى مەركىزى (CSLT) تەرىپىدىن نەشىر قىلىنغان ئوچۇق ئۇيغۇر ئاۋاز ئامبىرى .چىڭخۇا ئۇنۋېرسىتىتى، شىنجاڭ ئۇنۋېرسىتىتى سىگنال ۋە ئۇچۇر بىر تەرەپ قىلىش تەجرىبىخانىسى ۋە سۈنئىي ئىدراك تەجىربىخانىسى تەرىپىدىن قۇرۇلغان ئۇيغۇرچە ئاۋاز سانلىق ئامبىرى

تۈر ئادىرىسى:

https://github.com/gheyret/uyghur-asr-ctc?tab=readme-ov-file

مەشىقلەندۈرۈش ئۇسسۇلى :

ئاۋال يۇقارقى ئادىرىستىن تۈرنى چۈشۈرۈپ بىر ھۆججەت خالتىنىڭ ئىچىگە يېشىمىز ئاندىن results.7z ھۆججىتىنى ھەمدە thuyg20_data.7z ھۆججىتىنى چۈشۈرۈپ(چۈشۈرۈش ئادىرىسى تېما ئاستىدا) يېشىپ تۈرنىڭ غول مۇندەرىجىسىگە يۆتكەيمىز، ئاندىن تۆۋەندىكى كودنى يۈرگۈزىمىز:

python train.py

ئاۋاز پەرىقلەندۈرۈش :

ئەگەر مەشىق قىلدۇرمىسىڭىز results.7z ھۆججىتىنىلا چۈشۈرسىڭىز بولىدۇ .ئاندىن تۆۋەندىكى كودنى يۈرگۈزىمىز:

 python tonu.py test1.wav

بۇ يەردىكى test1.wav دىگەن ئاۋاز ھۆججىتى ،فورماتى wav

قايتۇرغان نەتىجىسى :

        Model loaded: results/UModel_last.pth
            Best CER: 7.21%
             Trained: 473 epochs
The model has 26,389,282 trainable parameters

======================
Recognizing file .\test2.wav
test2.wav -> bu öy eslide xotunining xush tebessumi oghlining omaq külküsi bilen güzel idi

results.7z چۈشۈرۈش ئادىرىسى: https://github.com/gheyret/uyghur-asr-ctc/releases/download/data/results.7z
thuyg20_data.7z چۈشۈرۈش ئادىرىسى: https://github.com/gheyret/uyghur-asr-ctc/releases/download/data/thuyg20_data.7z
thuyg20 ئورگان تورى(تېخىمۇ كۆپ سانلىق مەلۇمات ئامبىرى بار) : http://www.openslr.org/22

نادىر ئوچۇق كود تۈرى