Interested Article - Частотный словник
martine
- 2020-10-06
- 1
Вторая редакция (включены предлоги, имена собственные, исправлены ошибки).
Методика
- С сайта был скачан образ русскоязычного раздела Википедии в формате XML (ruwiki-20061023-pages-meta-current.xml), содержащий последние версии всех страниц.
- С помощью удобного Perl-модуля Parse::MediaWikiDump из массива всех страниц были выделены исходные тексты статей (страницы из основного пространства имён) и обсуждений (страницы из пространств имён «Обсуждение», «Обсуждение участника», «Обсуждение Википедии», а также страницы, содержащие в названии «Википедия:Форум», «Википедия:К удалению», «Википедия:Вниманию участников», «Википедия:Опросы», «Википедия:Обсуждения»). Эти тексты были сохранены в двух больших файлах, их размеры составили: 135 и 48 МБ (в кодировке UTF-8)
- Из текстов были удалены: изображения, перенаправления, категории, интервики-ссылки, шаблоны, таблицы, комментарии, теги, многие небуквенные символы (кавычки, тире). Ссылки были заменены на свои заголовки ([[название страницы|заголовок ссылки]]).
- С сайта был скачан и установлен морфологический анализатор и словари для него (LGPL версия под Linux).
- Из-за особенностей работы морфологического анализатора, тексты были дополнительно обработаны: символы подчёркивания были заменены на пробелы, убраны пустые строки; файлы были разбиты на множество маленьких, по 500 строк.
-
Был произведён морфологический анализ текстов (то есть фраза «мама мыла раму» была преобразована в «мама мыть рама»), лексемы были записаны в файлы. Среди слов затесались также и отдельные буквы, например, «н» (вероятно, от «год до н. э.»), «т» (вероятно от «т. к.») и другие (например, инициалы).
- Анализатор допускает заметное число ошибок, например предлог «при» он посчитал за повелительное наклонение от глагола «переть», в итоге последннее оказалось аж на 26 месте. (я это исправил в списке на этой странице, но не в файлах с общим списком)
- Анализатор не справился с обсценной лексикой: таким образом, отметку в 100 словоупотреблений у нас преодолел глагол «ховать».
- Глокая куздра превратилась в «глокий куздр».
- Рассчитан частотный словник.
Результаты
Было выявлено (вторая редакция):
-
в статьях
- всего 22,5 млн слов
- 650 тыс. лексем
- 89 тыс. лексем встречаются 10 раз и более раз
- 17 тыс. лексем встречаются 100 раз и более раз.
-
в обсуждениях
- всего 4 млн слов
- 135 тыс. лексем
- 18,5 тыс. лексем встречаются 10 раз и более раз
- 3,5 тыс. лексем встречаются 100 раз и более раз.
Таблицы
- Полный частотный словник можно скачать (надо бы перенести куда-нибудь в более постоянное место).
250 наиболее популярных слов (вторая редакция)
Ранг | Слово в статье | Частота | Ранг | Слово в обсужд. | Частота | |
---|---|---|---|---|---|---|
1 | в | 907330 | 1 | в | 126580 | |
2 | и | 672533 | 2 | и | 117180 | |
3 | на | 281237 | 3 | не | 102234 | |
4 | с | 239353 | 4 | этот | 67911 | |
5 | быть | 139721 | 5 | что | 58993 | |
6 | по | 128939 | 6 | на | 55849 | |
7 | этот | 124553 | 7 | я | 45429 | |
8 | год | 124478 | 8 | а | 42498 | |
9 | не | 117176 | 9 | с | 36144 | |
10 | из | 105350 | 10 | быть | 33970 | |
11 | к | 101112 | 11 | статья | 33937 | |
12 | который | 92754 | 12 | как | 28624 | |
13 | для | 91126 | 13 | по | 27956 | |
14 | он | 88710 | 14 | но | 21871 | |
15 | а | 86882 | 15 | вы | 21801 | |
16 | что | 80812 | 16 | к | 20831 | |
17 | от | 80353 | 17 | если | 20599 | |
18 | как | 77090 | 18 | о | 20353 | |
19 | его | 74397 | 19 | весь | 19843 | |
20 | также | 73641 | 20 | то | 19792 | |
21 | они | 66690 | 21 | стать | 18613 | |
22 | до | 59253 | 22 | они | 18513 | |
23 | г | 58687 | 23 | так | 17900 | |
24 | или | 58012 | 24 | мочь | 17600 | |
25 | о | 56212 | 25 | для | 17020 | |
26 | при | 55060 | 26 | из | 16540 | |
27 | за | 50361 | 27 | или | 16289 | |
28 | один | 50218 | 28 | он | 15326 | |
29 | другой | 47641 | 29 | есть | 15007 | |
30 | город | 44643 | 30 | который | 14754 | |
31 | новый | 43794 | 31 | такой | 14302 | |
32 | первый | 43784 | 32 | же | 14123 | |
33 | но | 43170 | 33 | бы | 14096 | |
34 | свой | 42232 | 34 | у | 13702 | |
35 | время | 42047 | 35 | тот | 12862 | |
36 | см | 41945 | 36 | только | 11964 | |
37 | ссылка | 40959 | 37 | за | 11898 | |
38 | весь | 39855 | 38 | можно | 11747 | |
39 | человек | 37573 | 39 | википедия | 11741 | |
40 | после | 36085 | 40 | один | 10804 | |
41 | мочь | 34518 | 41 | его | 10495 | |
42 | у | 34167 | 42 | от | 10363 | |
43 | м | 33700 | 43 | еще | 10202 | |
44 | ngc | 33633 | 44 | нет | 10105 | |
45 | тот | 33422 | 45 | мы | 9927 | |
46 | являться | 32929 | 46 | ссылка | 9882 | |
47 | во | 32834 | 47 | другой | 9844 | |
48 | стать | 31763 | 48 | было | 8837 | |
49 | фильм | 30362 | 49 | слово | 8819 | |
50 | так | 30324 | 50 | участник | 8595 | |
51 | общий | 29695 | 51 | надо | 8537 | |
52 | россия | 29605 | 52 | уже | 8524 | |
53 | было | 29434 | 53 | человек | 8491 | |
54 | иметь | 29181 | 54 | сам | 8285 | |
55 | район | 29143 | 55 | простой | 7952 | |
56 | же | 29069 | 56 | написать | 7919 | |
57 | название | 28423 | 57 | до | 7713 | |
58 | область | 28315 | 58 | нужный | 7547 | |
59 | место | 28123 | 59 | удалить | 7519 | |
60 | число | 27824 | 60 | про | 7455 | |
61 | the | 27769 | 61 | т | 7432 | |
62 | то | 27714 | 62 | иметь | 7321 | |
63 | история | 27680 | 63 | вот | 7197 | |
64 | такой | 27081 | 64 | вопрос | 6915 | |
65 | of | 27025 | 65 | чем | 6897 | |
66 | система | 26934 | 66 | должен | 6787 | |
67 | язык | 26722 | 67 | свой | 6778 | |
68 | ее | 25956 | 68 | там | 6685 | |
69 | два | 25604 | 69 | хороший | 6607 | |
70 | более | 25320 | 70 | сделать | 6565 | |
71 | под | 25229 | 71 | страница | 6521 | |
72 | только | 24032 | 72 | более | 6520 | |
73 | группа | 23556 | 73 | ее | 6366 | |
74 | н | 23423 | 74 | ли | 6287 | |
75 | себя | 23401 | 75 | да | 6273 | |
76 | она | 23122 | 76 | чтобы | 6258 | |
77 | население | 22692 | 77 | при | 6222 | |
78 | война | 22411 | 78 | название | 6168 | |
79 | большой | 22041 | 79 | язык | 6081 | |
80 | вид | 21478 | 80 | писать | 6040 | |
81 | работа | 21108 | 81 | год | 6038 | |
82 | страна | 20419 | 82 | она | 5971 | |
83 | жизнь | 20095 | 83 | кто | 5944 | |
84 | известный | 19446 | 84 | текст | 5910 | |
85 | величина | 19443 | 85 | того | 5891 | |
86 | the | 19267 | 86 | оставить | 5888 | |
87 | тип | 19121 | 87 | очень | 5850 | |
88 | т | 19089 | 88 | являться | 5645 | |
89 | ошибка рег. выр. | 18981 | 89 | раз | 5638 | |
90 | некоторый | 18755 | 90 | например | 5505 | |
91 | получить | 18665 | 91 | мой | 5491 | |
92 | между | 18480 | 92 | даже | 5427 | |
93 | несколько | 18452 | 93 | the | 5422 | |
94 | александр | 18390 | 94 | вообще | 5421 | |
95 | свое | 18340 | 95 | обсуждение | 5398 | |
96 | со | 18264 | 96 | какой | 5381 | |
97 | однако | 18191 | 97 | случай | 5370 | |
98 | сам | 18152 | 98 | ваш | 5366 | |
99 | российский | 18094 | 99 | тоже | 5349 | |
100 | русский | 17999 | 100 | считать | 5349 | |
101 | список | 17990 | 101 | знать | 5330 | |
102 | день | 17904 | 102 | информация | 5271 | |
103 | обозначение | 17811 | 103 | мень | 5208 | |
104 | где | 17748 | 104 | данный | 5198 | |
105 | сайт | 17739 | 105 | себя | 5188 | |
106 | состав | 17628 | 106 | категория | 5185 | |
107 | мир | 17627 | 107 | правило | 5102 | |
108 | звездный | 17576 | 108 | большой | 5099 | |
109 | каталог | 17529 | 109 | ни | 5047 | |
110 | имя | 17302 | 110 | говорить | 5011 | |
111 | веко | 17237 | 111 | здесь | 4859 | |
112 | начало | 17130 | 112 | русский | 4801 | |
113 | того | 16612 | 113 | хотя | 4755 | |
114 | когда | 16391 | 114 | об | 4704 | |
115 | государственный | 16378 | 115 | думать | 4686 | |
116 | д | 16344 | 116 | источник | 4600 | |
117 | and | 16166 | 117 | именно | 4560 | |
118 | часть | 16059 | 118 | список | 4452 | |
119 | самый | 15944 | 119 | время | 4441 | |
120 | высокий | 15811 | 120 | шаблон | 4424 | |
121 | центр | 15810 | 121 | вид | 4400 | |
122 | основный | 15730 | 122 | ну | 4309 | |
123 | еще | 15426 | 123 | автор | 4262 | |
124 | находиться | 15415 | 124 | предлагать | 4227 | |
125 | конец | 15326 | 125 | все | 4223 | |
126 | ребенок | 15299 | 126 | где | 4191 | |
127 | последний | 15114 | 127 | новый | 4185 | |
128 | все | 15068 | 128 | английский | 4148 | |
129 | книга | 14995 | 129 | тем | 4142 | |
130 | если | 14991 | 130 | также | 4119 | |
131 | больший | 14833 | 131 | ты | 4094 | |
132 | советский | 14762 | 132 | когда | 4088 | |
133 | есть | 14721 | 133 | видеть | 4069 | |
134 | главный | 14720 | 134 | удаление | 4055 | |
135 | москва | 14687 | 135 | первый | 4054 | |
136 | ссср | 14474 | 136 | почему | 4031 | |
137 | входить | 14464 | 137 | сказать | 4030 | |
138 | река | 14440 | 138 | тут | 4016 | |
139 | игра | 14427 | 139 | пока | 3940 | |
140 | земля | 14394 | 140 | раздел | 3922 | |
141 | изображение | 14358 | 141 | со | 3918 | |
142 | i | 14268 | 142 | дело | 3902 | |
143 | слово | 14232 | 143 | сайт | 3891 | |
144 | образ | 14148 | 144 | без | 3883 | |
145 | км | 14068 | 145 | ничто | 3871 | |
146 | второй | 14004 | 146 | делать | 3811 | |
147 | через | 13938 | 147 | правка | 3768 | |
148 | можно | 13893 | 148 | термин | 3733 | |
149 | форма | 13802 | 149 | кстати | 3707 | |
150 | э | 13800 | 150 | казаться | 3689 | |
151 | университет | 13776 | 151 | хотеть | 3677 | |
152 | территория | 13701 | 152 | поэтому | 3630 | |
153 | около | 13661 | 153 | во | 3608 | |
154 | многие | 13371 | 154 | тогда | 3608 | |
155 | п | 13292 | 155 | тема | 3575 | |
156 | in | 13251 | 156 | мнение | 3574 | |
157 | сторона | 13238 | 157 | итог | 3573 | |
158 | размер | 13102 | 158 | под | 3571 | |
159 | чтобы | 13081 | 159 | против | 3571 | |
160 | родиться | 13059 | 160 | сейчас | 3566 | |
161 | уже | 12910 | 161 | существовать | 3544 | |
162 | pgc | 12895 | 162 | место | 3541 | |
163 | например | 12884 | 163 | любой | 3532 | |
164 | a | 12798 | 164 | история | 3523 | |
165 | существовать | 12692 | 165 | давать | 3471 | |
166 | каждый | 12687 | 166 | имя | 3431 | |
167 | использовать | 12687 | 167 | факт | 3404 | |
168 | всего | 12680 | 168 | два | 3402 | |
169 | сша | 12669 | 169 | of | 3390 | |
170 | данный | 12613 | 170 | после | 3378 | |
171 | сюжет | 12595 | 171 | право | 3325 | |
172 | школа | 12515 | 172 | смысл | 3320 | |
173 | видеть | 12506 | 173 | отдельный | 3286 | |
174 | использоваться | 12462 | 174 | некоторый | 3225 | |
175 | объект | 12450 | 175 | использовать | 3178 | |
176 | эпоха | 12404 | 176 | см | 3159 | |
177 | роль | 12391 | 177 | конечный | 3148 | |
178 | официальный | 12371 | 178 | голосование | 3123 | |
179 | развитие | 12340 | 179 | следовать | 3093 | |
180 | хороший | 12335 | 180 | добавить | 3077 | |
181 | ii | 12222 | 181 | россия | 3073 | |
182 | крупный | 12157 | 182 | сторона | 3071 | |
183 | род | 12126 | 183 | потому | 3068 | |
184 | литература | 12113 | 184 | никакой | 3050 | |
185 | результат | 12098 | 185 | несколько | 3031 | |
186 | положение | 11978 | 186 | согласный | 3030 | |
187 | р | 11968 | 187 | известный | 3016 | |
188 | наука | 11939 | 188 | никто | 3002 | |
189 | автор | 11915 | 189 | стоять | 2981 | |
190 | работать | 11895 | 190 | понимать | 2978 | |
191 | должен | 11882 | 191 | найти | 2966 | |
192 | церковь | 11796 | 192 | какой-то | 2954 | |
193 | остров | 11753 | 193 | наш | 2934 | |
194 | власть | 11751 | 194 | отношение | 2923 | |
195 | сын | 11711 | 195 | каждый | 2919 | |
196 | николай | 11662 | 196 | общий | 2912 | |
197 | действие | 11625 | 197 | привести | 2863 | |
198 | государство | 11586 | 198 | точка | 2840 | |
199 | иван | 11535 | 199 | энциклопедия | 2839 | |
200 | тем | 11520 | 200 | проект | 2824 | |
201 | временить | 11500 | 201 | проблема | 2821 | |
202 | расположить | 11466 | 202 | кроме | 2809 | |
203 | называть | 11455 | 203 | уж | 2808 | |
204 | современный | 11440 | 204 | что-то | 2797 | |
205 | различный | 11293 | 205 | много | 2776 | |
206 | чем | 11291 | 206 | всего | 2773 | |
207 | дата | 11285 | 207 | русская | 2763 | |
208 | я | 11282 | 208 | правильный | 2759 | |
209 | mcg | 11166 | 209 | мало | 2748 | |
210 | военный | 11157 | 210 | работа | 2719 | |
211 | период | 11146 | 211 | самый | 2717 | |
212 | король | 11109 | 212 | число | 2693 | |
213 | значение | 11103 | 213 | to | 2655 | |
214 | член | 11097 | 214 | идти | 2649 | |
215 | открытие | 11014 | 215 | версия | 2582 | |
216 | компания | 10897 | 216 | действительно | 2573 | |
217 | случай | 10832 | 217 | понять | 2570 | |
218 | очень | 10692 | 218 | свое | 2570 | |
219 | московский | 10678 | 219 | разный | 2570 | |
220 | партия | 10674 | 220 | понятие | 2564 | |
221 | русская | 10672 | 221 | вика | 2531 | |
222 | институт | 10616 | 222 | город | 2489 | |
223 | национальный | 10553 | 223 | вполне | 2480 | |
224 | созвездие | 10509 | 224 | администратор | 2474 | |
225 | создать | 10473 | 225 | материал | 2423 | |
226 | против | 10461 | 226 | е | 2416 | |
227 | владимир | 10451 | 227 | создать | 2390 | |
228 | без | 10415 | 228 | править | 2377 | |
229 | тыс | 10305 | 229 | and | 2362 | |
230 | путь | 10297 | 230 | определение | 2358 | |
231 | качество | 10255 | 231 | возможно | 2354 | |
232 | прямой | 10197 | 232 | повод | 2349 | |
233 | частить | 10187 | 233 | решение | 2338 | |
234 | отношение | 10180 | 234 | варианта | 2333 | |
235 | составлять | 10166 | 235 | д | 2317 | |
236 | связь | 10165 | 236 | зрение | 2315 | |
237 | армия | 10163 | 237 | ведь | 2311 | |
238 | затем | 10147 | 238 | a | 2308 | |
239 | факт | 10137 | 239 | убрать | 2278 | |
240 | поздний | 10108 | 240 | теперь | 2269 | |
241 | друг | 10014 | 241 | п | 2262 | |
242 | над | 9947 | 242 | лишь | 2243 | |
243 | станция | 9931 | 243 | значить | 2227 | |
244 | смерть | 9919 | 244 | дать | 2222 | |
245 | процесс | 9894 | 245 | называть | 2220 | |
246 | оригинальный | 9886 | 246 | достаточно | 2212 | |
247 | общество | 9860 | 247 | книга | 2189 | |
248 | наиболее | 9853 | 248 | г | 2182 | |
249 | ряд | 9848 | 249 | перевод | 2166 | |
250 | деятельность | 9828 | 250 | однако | 2165 |
Проверяем Закон Ципфа: «частота n-го слова в частотном словнике обратно пропорциональна его порядковому номеру».
График для частот слов из статей с рангами от 3 до 170.
Интересные наблюдения
- Смело пополняйте список!
- «ВЫ» встречается в обсуждениях 21 801 раз, «ТЫ» — 4094 раз.
- Просматривая список с конца, можно искать среди редких слов слова с опечатками, затем находить их в статьях и исправлять.
- В статьях удивительно много «фильмов» (49 место). Ещё больше заготовок о космических объектах — « NGC », 44 место.
- Слово «Удалить» в обсуждениях (59-е место) встречается чаще, чем «Оставить» (86-е) (эти слова часто встречаются в обсуждениях на ВП:КУ ).
- Чаще других в статьях встречается имя Александр (94 место), затем идут имена Николай (196 место), Иван (199 место) и Владимир (227 место).
- В статьях затесалось несколько английских слов - the, to, of, and, I, a и in. Видимо в непереводимых названиях...
- Также есть слова или обозначения II (видать, римская цифра «2») и MSG — судя по всему, сокращение от Michael Schenker Group.
- Слово "МЕНЬ" явно от "меня".
- Слово "российский" (99-е место) встречается немного чаще, чем "русский" (100-е место).
См. также
- Википедия:Анализ состояния Википедии/Результаты
- (без учёта словоформ)
- в Русской Википедии (на 20 февраля 2008) и Википедии на английском упрощённом языке (на 14 февраля 2008)
martine
- 2020-10-06
- 1