بۇ مودېل CTC فۇنكىسيەسىدىن پايدىلىنىپ تەربىيەلەنگەن.مەشىقلەندۈرگەن ئامبار بولسا (THUYG-20).
THUGY20 بولسا ئاۋاز ۋە تىل تېخنىكىسى مەركىزى (CSLT) تەرىپىدىن نەشىر قىلىنغان ئوچۇق ئۇيغۇر ئاۋاز ئامبىرى .چىڭخۇا ئۇنۋېرسىتىتى، شىنجاڭ ئۇنۋېرسىتىتى سىگنال ۋە ئۇچۇر بىر تەرەپ قىلىش تەجرىبىخانىسى ۋە سۈنئىي ئىدراك تەجىربىخانىسى تەرىپىدىن قۇرۇلغان ئۇيغۇرچە ئاۋاز سانلىق ئامبىرى
تۈر ئادىرىسى:
https://github.com/gheyret/uyghur-asr-ctc?tab=readme-ov-file
مەشىقلەندۈرۈش ئۇسسۇلى :
ئاۋال يۇقارقى ئادىرىستىن تۈرنى چۈشۈرۈپ بىر ھۆججەت خالتىنىڭ ئىچىگە يېشىمىز ئاندىن results.7z ھۆججىتىنى ھەمدە thuyg20_data.7z ھۆججىتىنى چۈشۈرۈپ(چۈشۈرۈش ئادىرىسى تېما ئاستىدا) يېشىپ تۈرنىڭ غول مۇندەرىجىسىگە يۆتكەيمىز، ئاندىن تۆۋەندىكى كودنى يۈرگۈزىمىز:
python train.py
ئاۋاز پەرىقلەندۈرۈش :
ئەگەر مەشىق قىلدۇرمىسىڭىز results.7z ھۆججىتىنىلا چۈشۈرسىڭىز بولىدۇ .ئاندىن تۆۋەندىكى كودنى يۈرگۈزىمىز:
python tonu.py test1.wav
بۇ يەردىكى test1.wav دىگەن ئاۋاز ھۆججىتى ،فورماتى wav
قايتۇرغان نەتىجىسى :
Model loaded: results/UModel_last.pth
Best CER: 7.21%
Trained: 473 epochs
The model has 26,389,282 trainable parameters
======================
Recognizing file .\test2.wav
test2.wav -> bu öy eslide xotunining xush tebessumi oghlining omaq külküsi bilen güzel idi
results.7z چۈشۈرۈش ئادىرىسى: https://github.com/gheyret/uyghur-asr-ctc/releases/download/data/results.7z
thuyg20_data.7z چۈشۈرۈش ئادىرىسى: https://github.com/gheyret/uyghur-asr-ctc/releases/download/data/thuyg20_data.7z
thuyg20 ئورگان تورى(تېخىمۇ كۆپ سانلىق مەلۇمات ئامبىرى بار) : http://www.openslr.org/22