Interested Article - Частотность букв таджикского языка

Первые исследования по частотности букв в таджикском языке были предприняты в 2001 году и связывались с определениями «наилучшей» раскладки букв на компьютерной клавиатуре и объёма репрезентативной выборки для получения достоверных статистических результатов. Ниже приведены результаты на основе статистической обработки произведений отдельных поэтов и писателей и сформирована общая картина частотности букв в классической и современной таджикской литературе.

Статистика

Статистика частотности букв таджикского языка без учёта пробелов:

Ранг Буква Употреблений Частотность Информативность
1 А 195836 16,54 % 16.54
0,429 0.429
2 О 100038 8,45 % 8.45
0,301 0.301
3 Р 87084 7,35 % 7.35
0,277 0.277
4 И 86991 7,35 % 7.35
0,277 0.277
5 Н 81061 6,84 % 6.84
0,265 0.265
6 Д 80182 6,77 % 6.77
0,263 0.263
7 У 55282 4,67 % 4.67
0,206 0.206
8 Б 52717 4,45 % 4.45
0,200 0.2
9 М 49675 4,19 % 4.19
0,192 0.192
10 Т 42325 3,57 % 3.57
0,172 0.172
11 С 32392 2,74 % 2.74
0,142 0.142
12 К 32105 2,71 % 2.71
0,141 0.141
13 Ш 30861 2,61 % 2.61
0,137 0.137
14 Ҳ 30175 2,55 % 2.55
0,135 0.135
15 З 28835 2,43 % 2.43
0,131 0.131
16 Е 25284 2,13 % 2.13
0,118 0.118
17 Г 22190 1,87 % 1.87
0,108 0.108
18 В 18755 1,58 % 1.58
0,095 0.095
19 Х 18248 1,54 % 1.54
0,093 0.093
20 Л 14694 1,24 % 1.24
0,079 0.079
21 Ӯ 13967 1,18 % 1.18
0,076 0.076
22 Ф 12976 1,10 % 1.1
0,071 0.071
23 П 12425 1,05 % 1.05
0,069 0.069
24 Ч 10000 0,84 % 0.84
0,058 0.058
25 Ҷ 8748 0,74 % 0.74
0,052 0.052
26 Й 8447 0,71 % 0.71
0,051 0.051
27 Ӣ 7874 0,66 % 0.66
0,048 0.048
28 Я 6870 0,58 % 0.58
0,043 0.043
29 Ё 6454 0,54 % 0.54
0,041 0.041
30 Қ 4650 0,39 % 0.39
0,031 0.031
31 Ғ 2734 0,23 % 0.23
0,020 0.02
32 Э 1503 0,13 % 0.13
0,012 0.012
33 Ъ 1488 0,13 % 0.13
0,012 0.012
34 Ж 867 0,07 % 0.07
0,008 0.008
35 Ю 574 0,05 % 0.05
0,005 0.005
Сумма 1184307 100,00 % 4,358


Статистика частотности букв таджикского языка с учётом пробела:

Ранг Буква Употреблений Частотность Информативность
1 Пробел 265983 18,34 % 18.34
0,449 0.449
2 А 195836 13,50 % 13.5
0,390 0.39
3 О 100038 6,90 % 6.9
0,266 0.266
4 Р 87084 6,00 % 6
0,244 0.244
5 И 86991 6,00 % 6
0,243 0.243
6 Н 81061 5,59 % 5.59
0,233 0.233
7 Д 80182 5,53 % 5.53
0,231 0.231
8 У 55282 3,81 % 3.81
0,180 0.18
9 Б 52717 3,63 % 3.63
0,174 0.174
10 М 49675 3,43 % 3.43
0,167 0.167
11 Т 42325 2,92 % 2.92
0,149 0.149
12 С 32392 2,23 % 2.23
0,122 0.122
13 К 32105 2,21 % 2.21
0,122 0.122
14 Ш 30861 2,13 % 2.13
0,118 0.118
15 Ҳ 30175 2,08 % 2.08
0,116 0.116
16 З 28835 1,99 % 1.99
0,112 0.112
17 Е 25284 1,74 % 1.74
0,102 0.102
18 Г 22190 1,53 % 1.53
0,092 0.092
19 В 18755 1,29 % 1.29
0,081 0.081
20 Х 18248 1,26 % 1.26
0,079 0.079
21 Л 14694 1,01 % 1.01
0,067 0.067
22 Ӯ 13967 0,96 % 0.96
0,065 0.065
23 Ф 12976 0,89 % 0.89
0,061 0.061
24 П 12425 0,86 % 0.86
0,059 0.059
25 Ч 10000 0,69 % 0.69
0,050 0.05
26 Ҷ 8748 0,60 % 0.6
0,044 0.044
27 Й 8447 0,58 % 0.58
0,043 0.043
28 Ӣ 7874 0,54 % 0.54
0,041 0.041
29 Я 6870 0,47 % 0.47
0,037 0.037
30 Ё 6454 0,45 % 0.45
0,035 0.035
31 Қ 4650 0,32 % 0.32
0,027 0.027
32 Ғ 2734 0,19 % 0.19
0,017 0.017
33 Э 1503 0,10 % 0.1
0,010 0.01
34 Ъ 1488 0,10 % 0.1
0,010 0.01
35 Ж 867 0,06 % 0.06
0,006 0.006
36 Ю 574 0,04 % 0.04
0,004 0.004
Сумма 1450290 100,00 % 4,246

Примечания

  1. Усманов З. Д., Солиев О. М. Проблема раскладки символов на компьютерной клавиатуре — Душанбе: Ирфон, 2010, 104 с.
  2. Усманов З. Д., Косимов А. А. Частотность букв таджикской литературы — Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112—115
  3. Косимов А. А. Басомади такроршавии ҳарфҳои адабиёти тоҷик — Маҷаллаи «Шафақ», Нашрияи Кумиҷроияи Ҳизби Халқии Демократии Тоҷикистон дар шаҳри Хуҷанд, 24.11.2015, № 21, с. 2.
Источник —

Same as Частотность букв таджикского языка