Национальный институт корейского языка
- 1 year ago
- 0
- 0
Первые исследования по частотности букв в таджикском языке были предприняты в 2001 году и связывались с определениями «наилучшей» раскладки букв на компьютерной клавиатуре и объёма репрезентативной выборки для получения достоверных статистических результатов. Ниже приведены результаты на основе статистической обработки произведений отдельных поэтов и писателей и сформирована общая картина частотности букв в классической и современной таджикской литературе.
Статистика частотности букв таджикского языка без учёта пробелов:
Ранг | Буква | Употреблений | Частотность | Информативность | ||
---|---|---|---|---|---|---|
1 | А | 195836 | 16,54 % |
|
0,429 |
|
2 | О | 100038 | 8,45 % |
|
0,301 |
|
3 | Р | 87084 | 7,35 % |
|
0,277 |
|
4 | И | 86991 | 7,35 % |
|
0,277 |
|
5 | Н | 81061 | 6,84 % |
|
0,265 |
|
6 | Д | 80182 | 6,77 % |
|
0,263 |
|
7 | У | 55282 | 4,67 % |
|
0,206 |
|
8 | Б | 52717 | 4,45 % |
|
0,200 |
|
9 | М | 49675 | 4,19 % |
|
0,192 |
|
10 | Т | 42325 | 3,57 % |
|
0,172 |
|
11 | С | 32392 | 2,74 % |
|
0,142 |
|
12 | К | 32105 | 2,71 % |
|
0,141 |
|
13 | Ш | 30861 | 2,61 % |
|
0,137 |
|
14 | Ҳ | 30175 | 2,55 % |
|
0,135 |
|
15 | З | 28835 | 2,43 % |
|
0,131 |
|
16 | Е | 25284 | 2,13 % |
|
0,118 |
|
17 | Г | 22190 | 1,87 % |
|
0,108 |
|
18 | В | 18755 | 1,58 % |
|
0,095 |
|
19 | Х | 18248 | 1,54 % |
|
0,093 |
|
20 | Л | 14694 | 1,24 % |
|
0,079 |
|
21 | Ӯ | 13967 | 1,18 % |
|
0,076 |
|
22 | Ф | 12976 | 1,10 % |
|
0,071 |
|
23 | П | 12425 | 1,05 % |
|
0,069 |
|
24 | Ч | 10000 | 0,84 % |
|
0,058 |
|
25 | Ҷ | 8748 | 0,74 % |
|
0,052 |
|
26 | Й | 8447 | 0,71 % |
|
0,051 |
|
27 | Ӣ | 7874 | 0,66 % |
|
0,048 |
|
28 | Я | 6870 | 0,58 % |
|
0,043 |
|
29 | Ё | 6454 | 0,54 % |
|
0,041 |
|
30 | Қ | 4650 | 0,39 % |
|
0,031 |
|
31 | Ғ | 2734 | 0,23 % |
|
0,020 |
|
32 | Э | 1503 | 0,13 % |
|
0,012 |
|
33 | Ъ | 1488 | 0,13 % |
|
0,012 |
|
34 | Ж | 867 | 0,07 % |
|
0,008 |
|
35 | Ю | 574 | 0,05 % |
|
0,005 |
|
Сумма | 1184307 | 100,00 % | 4,358 |
Статистика частотности букв таджикского языка с учётом пробела:
Ранг | Буква | Употреблений | Частотность | Информативность | ||
---|---|---|---|---|---|---|
1 | Пробел | 265983 | 18,34 % |
|
0,449 |
|
2 | А | 195836 | 13,50 % |
|
0,390 |
|
3 | О | 100038 | 6,90 % |
|
0,266 |
|
4 | Р | 87084 | 6,00 % |
|
0,244 |
|
5 | И | 86991 | 6,00 % |
|
0,243 |
|
6 | Н | 81061 | 5,59 % |
|
0,233 |
|
7 | Д | 80182 | 5,53 % |
|
0,231 |
|
8 | У | 55282 | 3,81 % |
|
0,180 |
|
9 | Б | 52717 | 3,63 % |
|
0,174 |
|
10 | М | 49675 | 3,43 % |
|
0,167 |
|
11 | Т | 42325 | 2,92 % |
|
0,149 |
|
12 | С | 32392 | 2,23 % |
|
0,122 |
|
13 | К | 32105 | 2,21 % |
|
0,122 |
|
14 | Ш | 30861 | 2,13 % |
|
0,118 |
|
15 | Ҳ | 30175 | 2,08 % |
|
0,116 |
|
16 | З | 28835 | 1,99 % |
|
0,112 |
|
17 | Е | 25284 | 1,74 % |
|
0,102 |
|
18 | Г | 22190 | 1,53 % |
|
0,092 |
|
19 | В | 18755 | 1,29 % |
|
0,081 |
|
20 | Х | 18248 | 1,26 % |
|
0,079 |
|
21 | Л | 14694 | 1,01 % |
|
0,067 |
|
22 | Ӯ | 13967 | 0,96 % |
|
0,065 |
|
23 | Ф | 12976 | 0,89 % |
|
0,061 |
|
24 | П | 12425 | 0,86 % |
|
0,059 |
|
25 | Ч | 10000 | 0,69 % |
|
0,050 |
|
26 | Ҷ | 8748 | 0,60 % |
|
0,044 |
|
27 | Й | 8447 | 0,58 % |
|
0,043 |
|
28 | Ӣ | 7874 | 0,54 % |
|
0,041 |
|
29 | Я | 6870 | 0,47 % |
|
0,037 |
|
30 | Ё | 6454 | 0,45 % |
|
0,035 |
|
31 | Қ | 4650 | 0,32 % |
|
0,027 |
|
32 | Ғ | 2734 | 0,19 % |
|
0,017 |
|
33 | Э | 1503 | 0,10 % |
|
0,010 |
|
34 | Ъ | 1488 | 0,10 % |
|
0,010 |
|
35 | Ж | 867 | 0,06 % |
|
0,006 |
|
36 | Ю | 574 | 0,04 % |
|
0,004 |
|
Сумма | 1450290 | 100,00 % | 4,246 |