Interested Article - Частотный словник

Вторая редакция (включены предлоги, имена собственные, исправлены ошибки).

Методика

  1. С сайта был скачан образ русскоязычного раздела Википедии в формате XML (ruwiki-20061023-pages-meta-current.xml), содержащий последние версии всех страниц.
  2. С помощью удобного Perl-модуля Parse::MediaWikiDump из массива всех страниц были выделены исходные тексты статей (страницы из основного пространства имён) и обсуждений (страницы из пространств имён «Обсуждение», «Обсуждение участника», «Обсуждение Википедии», а также страницы, содержащие в названии «Википедия:Форум», «Википедия:К удалению», «Википедия:Вниманию участников», «Википедия:Опросы», «Википедия:Обсуждения»). Эти тексты были сохранены в двух больших файлах, их размеры составили: 135 и 48 МБ (в кодировке UTF-8)
  3. Из текстов были удалены: изображения, перенаправления, категории, интервики-ссылки, шаблоны, таблицы, комментарии, теги, многие небуквенные символы (кавычки, тире). Ссылки были заменены на свои заголовки ([[название страницы|заголовок ссылки]]).
  4. С сайта был скачан и установлен морфологический анализатор и словари для него (LGPL версия под Linux).
  5. Из-за особенностей работы морфологического анализатора, тексты были дополнительно обработаны: символы подчёркивания были заменены на пробелы, убраны пустые строки; файлы были разбиты на множество маленьких, по 500 строк.
  6. Был произведён морфологический анализ текстов (то есть фраза «мама мыла раму» была преобразована в «мама мыть рама»), лексемы были записаны в файлы. Среди слов затесались также и отдельные буквы, например, «н» (вероятно, от «год до н. э.»), «т» (вероятно от «т. к.») и другие (например, инициалы).
    • Анализатор допускает заметное число ошибок, например предлог «при» он посчитал за повелительное наклонение от глагола «переть», в итоге последннее оказалось аж на 26 месте. (я это исправил в списке на этой странице, но не в файлах с общим списком)
    • Анализатор не справился с обсценной лексикой: таким образом, отметку в 100 словоупотреблений у нас преодолел глагол «ховать».
    • Глокая куздра превратилась в «глокий куздр».
  7. Рассчитан частотный словник.

Результаты

Было выявлено (вторая редакция):

  • в статьях
    • всего 22,5 млн слов
    • 650 тыс. лексем
    • 89 тыс. лексем встречаются 10 раз и более раз
    • 17 тыс. лексем встречаются 100 раз и более раз.
  • в обсуждениях
    • всего 4 млн слов
    • 135 тыс. лексем
    • 18,5 тыс. лексем встречаются 10 раз и более раз
    • 3,5 тыс. лексем встречаются 100 раз и более раз.

Таблицы

Полный частотный словник можно скачать (надо бы перенести куда-нибудь в более постоянное место).

250 наиболее популярных слов (вторая редакция)

Ранг Слово в статье Частота Ранг Слово в обсужд. Частота
1 в 907330 1 в 126580
2 и 672533 2 и 117180
3 на 281237 3 не 102234
4 с 239353 4 этот 67911
5 быть 139721 5 что 58993
6 по 128939 6 на 55849
7 этот 124553 7 я 45429
8 год 124478 8 а 42498
9 не 117176 9 с 36144
10 из 105350 10 быть 33970
11 к 101112 11 статья 33937
12 который 92754 12 как 28624
13 для 91126 13 по 27956
14 он 88710 14 но 21871
15 а 86882 15 вы 21801
16 что 80812 16 к 20831
17 от 80353 17 если 20599
18 как 77090 18 о 20353
19 его 74397 19 весь 19843
20 также 73641 20 то 19792
21 они 66690 21 стать 18613
22 до 59253 22 они 18513
23 г 58687 23 так 17900
24 или 58012 24 мочь 17600
25 о 56212 25 для 17020
26 при 55060 26 из 16540
27 за 50361 27 или 16289
28 один 50218 28 он 15326
29 другой 47641 29 есть 15007
30 город 44643 30 который 14754
31 новый 43794 31 такой 14302
32 первый 43784 32 же 14123
33 но 43170 33 бы 14096
34 свой 42232 34 у 13702
35 время 42047 35 тот 12862
36 см 41945 36 только 11964
37 ссылка 40959 37 за 11898
38 весь 39855 38 можно 11747
39 человек 37573 39 википедия 11741
40 после 36085 40 один 10804
41 мочь 34518 41 его 10495
42 у 34167 42 от 10363
43 м 33700 43 еще 10202
44 ngc 33633 44 нет 10105
45 тот 33422 45 мы 9927
46 являться 32929 46 ссылка 9882
47 во 32834 47 другой 9844
48 стать 31763 48 было 8837
49 фильм 30362 49 слово 8819
50 так 30324 50 участник 8595
51 общий 29695 51 надо 8537
52 россия 29605 52 уже 8524
53 было 29434 53 человек 8491
54 иметь 29181 54 сам 8285
55 район 29143 55 простой 7952
56 же 29069 56 написать 7919
57 название 28423 57 до 7713
58 область 28315 58 нужный 7547
59 место 28123 59 удалить 7519
60 число 27824 60 про 7455
61 the 27769 61 т 7432
62 то 27714 62 иметь 7321
63 история 27680 63 вот 7197
64 такой 27081 64 вопрос 6915
65 of 27025 65 чем 6897
66 система 26934 66 должен 6787
67 язык 26722 67 свой 6778
68 ее 25956 68 там 6685
69 два 25604 69 хороший 6607
70 более 25320 70 сделать 6565
71 под 25229 71 страница 6521
72 только 24032 72 более 6520
73 группа 23556 73 ее 6366
74 н 23423 74 ли 6287
75 себя 23401 75 да 6273
76 она 23122 76 чтобы 6258
77 население 22692 77 при 6222
78 война 22411 78 название 6168
79 большой 22041 79 язык 6081
80 вид 21478 80 писать 6040
81 работа 21108 81 год 6038
82 страна 20419 82 она 5971
83 жизнь 20095 83 кто 5944
84 известный 19446 84 текст 5910
85 величина 19443 85 того 5891
86 the 19267 86 оставить 5888
87 тип 19121 87 очень 5850
88 т 19089 88 являться 5645
89 ошибка рег. выр. 18981 89 раз 5638
90 некоторый 18755 90 например 5505
91 получить 18665 91 мой 5491
92 между 18480 92 даже 5427
93 несколько 18452 93 the 5422
94 александр 18390 94 вообще 5421
95 свое 18340 95 обсуждение 5398
96 со 18264 96 какой 5381
97 однако 18191 97 случай 5370
98 сам 18152 98 ваш 5366
99 российский 18094 99 тоже 5349
100 русский 17999 100 считать 5349
101 список 17990 101 знать 5330
102 день 17904 102 информация 5271
103 обозначение 17811 103 мень 5208
104 где 17748 104 данный 5198
105 сайт 17739 105 себя 5188
106 состав 17628 106 категория 5185
107 мир 17627 107 правило 5102
108 звездный 17576 108 большой 5099
109 каталог 17529 109 ни 5047
110 имя 17302 110 говорить 5011
111 веко 17237 111 здесь 4859
112 начало 17130 112 русский 4801
113 того 16612 113 хотя 4755
114 когда 16391 114 об 4704
115 государственный 16378 115 думать 4686
116 д 16344 116 источник 4600
117 and 16166 117 именно 4560
118 часть 16059 118 список 4452
119 самый 15944 119 время 4441
120 высокий 15811 120 шаблон 4424
121 центр 15810 121 вид 4400
122 основный 15730 122 ну 4309
123 еще 15426 123 автор 4262
124 находиться 15415 124 предлагать 4227
125 конец 15326 125 все 4223
126 ребенок 15299 126 где 4191
127 последний 15114 127 новый 4185
128 все 15068 128 английский 4148
129 книга 14995 129 тем 4142
130 если 14991 130 также 4119
131 больший 14833 131 ты 4094
132 советский 14762 132 когда 4088
133 есть 14721 133 видеть 4069
134 главный 14720 134 удаление 4055
135 москва 14687 135 первый 4054
136 ссср 14474 136 почему 4031
137 входить 14464 137 сказать 4030
138 река 14440 138 тут 4016
139 игра 14427 139 пока 3940
140 земля 14394 140 раздел 3922
141 изображение 14358 141 со 3918
142 i 14268 142 дело 3902
143 слово 14232 143 сайт 3891
144 образ 14148 144 без 3883
145 км 14068 145 ничто 3871
146 второй 14004 146 делать 3811
147 через 13938 147 правка 3768
148 можно 13893 148 термин 3733
149 форма 13802 149 кстати 3707
150 э 13800 150 казаться 3689
151 университет 13776 151 хотеть 3677
152 территория 13701 152 поэтому 3630
153 около 13661 153 во 3608
154 многие 13371 154 тогда 3608
155 п 13292 155 тема 3575
156 in 13251 156 мнение 3574
157 сторона 13238 157 итог 3573
158 размер 13102 158 под 3571
159 чтобы 13081 159 против 3571
160 родиться 13059 160 сейчас 3566
161 уже 12910 161 существовать 3544
162 pgc 12895 162 место 3541
163 например 12884 163 любой 3532
164 a 12798 164 история 3523
165 существовать 12692 165 давать 3471
166 каждый 12687 166 имя 3431
167 использовать 12687 167 факт 3404
168 всего 12680 168 два 3402
169 сша 12669 169 of 3390
170 данный 12613 170 после 3378
171 сюжет 12595 171 право 3325
172 школа 12515 172 смысл 3320
173 видеть 12506 173 отдельный 3286
174 использоваться 12462 174 некоторый 3225
175 объект 12450 175 использовать 3178
176 эпоха 12404 176 см 3159
177 роль 12391 177 конечный 3148
178 официальный 12371 178 голосование 3123
179 развитие 12340 179 следовать 3093
180 хороший 12335 180 добавить 3077
181 ii 12222 181 россия 3073
182 крупный 12157 182 сторона 3071
183 род 12126 183 потому 3068
184 литература 12113 184 никакой 3050
185 результат 12098 185 несколько 3031
186 положение 11978 186 согласный 3030
187 р 11968 187 известный 3016
188 наука 11939 188 никто 3002
189 автор 11915 189 стоять 2981
190 работать 11895 190 понимать 2978
191 должен 11882 191 найти 2966
192 церковь 11796 192 какой-то 2954
193 остров 11753 193 наш 2934
194 власть 11751 194 отношение 2923
195 сын 11711 195 каждый 2919
196 николай 11662 196 общий 2912
197 действие 11625 197 привести 2863
198 государство 11586 198 точка 2840
199 иван 11535 199 энциклопедия 2839
200 тем 11520 200 проект 2824
201 временить 11500 201 проблема 2821
202 расположить 11466 202 кроме 2809
203 называть 11455 203 уж 2808
204 современный 11440 204 что-то 2797
205 различный 11293 205 много 2776
206 чем 11291 206 всего 2773
207 дата 11285 207 русская 2763
208 я 11282 208 правильный 2759
209 mcg 11166 209 мало 2748
210 военный 11157 210 работа 2719
211 период 11146 211 самый 2717
212 король 11109 212 число 2693
213 значение 11103 213 to 2655
214 член 11097 214 идти 2649
215 открытие 11014 215 версия 2582
216 компания 10897 216 действительно 2573
217 случай 10832 217 понять 2570
218 очень 10692 218 свое 2570
219 московский 10678 219 разный 2570
220 партия 10674 220 понятие 2564
221 русская 10672 221 вика 2531
222 институт 10616 222 город 2489
223 национальный 10553 223 вполне 2480
224 созвездие 10509 224 администратор 2474
225 создать 10473 225 материал 2423
226 против 10461 226 е 2416
227 владимир 10451 227 создать 2390
228 без 10415 228 править 2377
229 тыс 10305 229 and 2362
230 путь 10297 230 определение 2358
231 качество 10255 231 возможно 2354
232 прямой 10197 232 повод 2349
233 частить 10187 233 решение 2338
234 отношение 10180 234 варианта 2333
235 составлять 10166 235 д 2317
236 связь 10165 236 зрение 2315
237 армия 10163 237 ведь 2311
238 затем 10147 238 a 2308
239 факт 10137 239 убрать 2278
240 поздний 10108 240 теперь 2269
241 друг 10014 241 п 2262
242 над 9947 242 лишь 2243
243 станция 9931 243 значить 2227
244 смерть 9919 244 дать 2222
245 процесс 9894 245 называть 2220
246 оригинальный 9886 246 достаточно 2212
247 общество 9860 247 книга 2189
248 наиболее 9853 248 г 2182
249 ряд 9848 249 перевод 2166
250 деятельность 9828 250 однако 2165

Проверяем Закон Ципфа: «частота n-го слова в частотном словнике обратно пропорциональна его порядковому номеру».

График для частот слов из статей с рангами от 3 до 170.

Интересные наблюдения

Смело пополняйте список!
  • «ВЫ» встречается в обсуждениях 21 801 раз, «ТЫ» — 4094 раз.
  • Просматривая список с конца, можно искать среди редких слов слова с опечатками, затем находить их в статьях и исправлять.
  • В статьях удивительно много «фильмов» (49 место). Ещё больше заготовок о космических объектах — « NGC », 44 место.
  • Слово «Удалить» в обсуждениях (59-е место) встречается чаще, чем «Оставить» (86-е) (эти слова часто встречаются в обсуждениях на ВП:КУ ).
  • Чаще других в статьях встречается имя Александр (94 место), затем идут имена Николай (196 место), Иван (199 место) и Владимир (227 место).
  • В статьях затесалось несколько английских слов - the, to, of, and, I, a и in. Видимо в непереводимых названиях...
  • Также есть слова или обозначения II (видать, римская цифра «2») и MSG — судя по всему, сокращение от Michael Schenker Group.
  • Слово "МЕНЬ" явно от "меня".
  • Слово "российский" (99-е место) встречается немного чаще, чем "русский" (100-е место).

См. также

Источник —

Same as Частотный словник