Частотный словарь английского: «скачать-бесплатно-без-регистрации. Определение термина "частотный словарь"

Вторая версия частотного списка

На этой странице Вы можете получить списки наиболее частотных слов русского языка. До настоящего времени Частотный словарь русского языка под ред. Л.Н.Засориной (1977) чаще всего использовался в качестве источника информации о частоте русских слов. Однако корпус, на основе которого была подсчитана частота слов в этом словаре, по современным стандартам очень мал (около миллиона слов). Кроме того, список существенно устарел: он соответствует частоте использования слов в период с 20-х до 60-х годов. В результате корпус включает большое число идеологических источников, например, произведения Ленина и Калинина, Материалы 22 и 23 съездов КПСС, советские газеты. Слова советский и товарищ входят в первую сотню русских слов, наряду со служебными словами (они встречаются чаще слов где, здесь, ваш ), слова партия, революция, коммунистический встречаются чаще чем назад, около, лучше и т.д. Наконец, список слов из словаря Засориной не существует в электронном виде.

Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы utf8 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).

Структура списков соответствует формату лемматизированных списков из British National Corpus (BNC) , созданных Адамом Килгарифом, а именно:
порядковый номер, частота (ipm), лемма, часть речи (классификация BNC).

Слова с частотой больше 1 ipm

  • - словоформы, отсортированные по частоте

Список 5000 наиболее частых слов

  • - леммы, отсортированные в алфавитном порядке
  • - леммы, отсортированные по частоте

Некоторые статистические данные об использовании русских слов

  • Средняя длина слова 5.28 символа.
  • Средняя длина предложения 10.38 слов.
  • 1000 наиболее частотных лемм покрывает 64.0708% текста.
  • 2000 наиболее частотных лемм покрывают 71.9521% текста.
  • 3000 наиболее частотных лемм покрывают 76.5104% текста.
  • 5000 наиболее частотных лемм покрывают 82.0604% текста.

Более полная информация о соответствии между частотой слова и покрытием корпуса находится .

Список построен на основе представительного корпуса современного русского языка. Он включает в себя подборку современной прозы, политических мемуаров, современных газет и научно-популярной литературы (около 40 миллионов слов, проза составляет примерно чуть больше половины объема). Все тексты корпуса были написаны на русском в промежутке между 1970 и 2002; большинство между 1980 и 1995, газетный корпус 1997-1999 (корпус основан на текстах из Библиотеки Мошкова и корпуса современной публицистики А.В.Баранова).

Хорошо известно, что большие тексты представляют проблему для составления частотных списков, поскольке относительно длинный текст может содержать большое количество вхождений некоторого редкого слова, что существенно увеличит его частоту в итоговом списке. Например, корпус, использованный для составления данного списка, содержит вариацию на тему Толкиеновского "Повелителя Колец" (автор Ник Перумов). Несмотря на то, что длина этого романа составляет 250 тыс.слов, менее одного процента всего корпуса, частота использования слова хоббит в этом романе ставит его в первую тысячу русских слов, если частоту считать по всем текстам без ограничений на их длину. По этой причине частотные списки были составлены при условии, что выборка из больших текстов ограничена 10 тыс. слов, и выборка из текстов одного автора составляет менее 100 тыс. слов. В результате подмножество полного корпуса, использованное при подсчете частоты, составляет около 16 миллионов слов.

Распределение слов в текстах далеко от равномерного. Некоторые слова (например, предлоги) встречаются во многих текстах с вполне предсказуемой частотой. Частота других (например, местоимений или ментальных глаголов) существенно зависит от автора или жанра текста, в то время как многие слова относятся к "заразным": если это слово (например, имя собственное, обозначение человека по званию или должности или технический термин) встретилось в тексте один раз, весьма вероятно, что оно повторится там еще много раз, таким образом, существенно повышая его частоту в документе. Сушествуют разные способы измерения такой вариации (Church, K. and Gale, W. (1995) Poisson Mixtures, Journal of Natural Language Engineering , 1:2). Простейший способ для оценки поведения слова: посчитать коэффициент вариации, который вычисляется как среднеквадратичное отклонение, поделенное на среднее значение. Среднеквадратичное отклонение дает абсолютное значение вариации набора данных (оно увеличивается для слов с большей средней частотой), в то время как коэффициент вариации позволяет сравнить распределение слов с неравной средней частотой. Значения отклонений для 5000 наиболее частотных слов можно посмотреть . Структура файла:
лемма, средняя частота (ipm), число текстов, в которых это слово встречается, среднеквадратичное отклонение частоты по все текстам, коэффициент вариации, дисперсия.

Корпус, средства для работы с ним, а также параллельный англо-русский корпус (выравнение на основе предложения) описаны, в частности, в следующей публикации автора:

Sharoff, Serge, (2002). Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics. Proc. of Language Resources and Evaluation Conference (LREC02). May, 2002, Las Palmas, Spain.

Также отдельные частотные списки есть для следующих классов слов:

Создание корпуса, разработка соответствующих программных средств и частотных списков были поддержаны грантом, предоставленным автору Фондом имени Гумбольдта, Германия. Лемматизация для анализа словоформ в корпусе была проведена с помощью морфологического анализатора Диалинг. Поскольку многие словоформы неоднозначны (например, дорогой, были, стали, для, три, уже ), частота некоторых слов не вполне достоверна, например, для рассматривалось как глагол, только если за ним не следует существительное, прилагательное или местоимение, стали всегда рассматривалось как существительное, для супруги всегда выбиралось супруга при возможных супруг и супруги (мн.ч). Критериями для выбора словоформы служили:

  1. частота соответствующей леммы (забрал, стану, подать в качестве существительного крайне маловероятно, поэтому в этих случаях выбирается глагол);
  2. сравнительная частота конкретной формы (обе леммы для стали достаточно частотны, но существительное в отличие от глагола очень часто употребляется именно в этой форме; форму пора приходится считать в предикативном употреблении, в то время как существительное выступает во всех своих остальных формах).
Подобно словарю Засориной фамилии, имена и отчества были отфильтрованы из лемматизированных частотных списков, но географические названия оставлены, поскольку сложно оправдать почему в словаре Засориной оставлены московский или американский , но не Москва и Америка . Частотный список словоформ отфильтрован не был.

ЧАСТОТНЫЙ СЛОВАРЬ

вид словаря (См. Словарь) (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля (См. Стиль), либо для одного автора. В зависимости от типа лексические единицы различаются Ч. с. словоформ, слов (лексем), основ слов (используются в информатике), слов в определённых значениях (семантический Ч. с.), словосочетаний. Различаются абсолютные и относительные характеристики употребительности лексической единицы (x ).Абсолютной характеристикой является частота (f ) данной лексической единицы (х ), равная числу употреблений х в обследованной совокупности текстов f (x ). В Ч. с. приводится либо f (x ), либо нормированная частота

где N - число исследованных слов текста. Относительной характеристикой употребительности лексической единицы является либо её ранг (число лексических единиц, которые в данном Ч. с. имеют абсолютную характеристику употребительности, более высокую или равную абсолютной характеристике данной лексической единицы), либо какой-либо признак, по которому ранг может быть вычислен с большей или меньшей точностью. В большинстве Ч. с. приводятся и абсолютные, и относительные характеристики. Ч. с. используются для создания эффективных методик обучения языку, для выделения ключевых слов (в информатике), для создания рациональных кодов (в теории связи).

Лит.: Ермоленко Г. В., Лингвистическая статистика. Краткий очерк и библиографический указатель, Алма-Ата, 1970; Штейнфельдт Э. А., Частотный словарь современного русского литературного языка, М., 1973; Частотный словарь русского языка, под ред. Л. Н. Засориной, М., 1977; Kučera Н., Francis W., Computational analysis of present-day American English, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier Н., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles, v. 1- 4, P.- Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., An annotated bibliography of statistical stylistics, Ann Arbor, 1968.

В котором отобраны наиболее употребительные в речи слова (обычно в пределах нескольких тысяч). В качестве пособия для преподавателей был издан “Частотный словарь современного русского литературного языка” Э. А. Штейнфельдт (1963 г.). В словаре, содержащем 2500 слов, дается список слов по частоте, списки слов по частям речи, с указанием частотности некоторых форм, и общий список слов по алфавиту. В 1968 г. вышел словарь “2380 наиболее употребительных слов русской разговорной речи”, подготовленный преподавателями русского языка Университета дружбы народов им. Патриса Лумумбы. Более полным по составу является изданный в США частотный словарь Г.Г. Йоссельсона (1953 г.), построенный на разнообразном по жанрам материале с общим количеством слов около одного миллиона и содержащий 5230 слов, приводимых в двух списках; в первом указанное количество слов разбито на шесть групп в порядке убывающей частотности употребления, во втором слова расположены в алфавитном порядке, с указанием номера группы, в которой слово представлено в первом списке. При оценке и использовании этого словаря следует иметь в виду, что почти половина обследованных текстов относится к дореволюционному периоду (из них 25% к периоду 1830-1900 гг.), поэтому вытекающие из этого материала лингвостатистические выводы во многих случаях не отражают современное словоупотребление. Особый подбор материала имеется в двух частотных словарях Фр. Малиржа. Один из них (1951 г.) создан на материале советских газет и журналов 1948 г., другой (1961 г.) построен на анализе текстов писем советских школьников к чехословацким; оба преследуют учебные цели. В 1970 г. вышел “Частотный словарь общенаучной лексики” под редакцией Е. М. Степановой, а в 1971 г. “Частотный словарь языка газеты” Г. П. Поляковой и Г. Я. Солганика. Этимологический словарь. Словарь, содержащий слова с объяснением их происхождения. Первым русским этимологическим словарем был “Корнеслов русского языка, сравненного со всеми главнейшими славянскими наречиями и с двадцатью четырьмя иностранными языками” ф. С. Шимкевича (1842 г.). В словаре разработано 1378 корней обиходных русских слов, во многих случаях имеются произвольные сопоставления и ошибочные утверждения. Следующим в хронологическом порядке был “Опыт словаря русского языка сравнительно с языками индоевропейскими” М. Иэюмова (1880 г.), стоявший также на невысоком теоретическом уровне. Выше по качеству, хотя несвободным от неверных объяснений, был “Сравнительный этимологический словарь русского языка” Н. В. Горяева (1892 г.). Наиболее известен из дореволюционных изданий “Этимологический словарь русского языка” А. Г. Преображенского (при жизни автора вышло в 1910- 1916 гг. 14 выпусков, объединенных в два тома; окончание было опубликовано в 1949 г. в “Трудах Института русского языка АН СССР”; словарь полностью переиздан фотомеханическим способом). Словарь содержит объяснение этимологии многих общеупотребительных русских слов и части заимствованных. Как те, так и другие группируются по первообразным словам или по корням. При редко встречающихся словах обычно приводятся ссылки на писателей. Хотя словарь далеко не полон и содержит немало устаревших для нашего времени или просто неверных объяснений, он и сейчас служит важным пособием по этимологии. В 1961 г. вышел “Краткий этимологический словарь русского языка” Н. М. Шанского, В. В. Иванова и Т. В. Шанской, под редакцией С. Г. Бархударова. Словарь, изданный как научно-популярное пособие для учителя средней школы, содержит этимологическое толкование общеупотребительных слов современного русского литературного языка, входящих вего активный запас. При объяснении русских слов обычно приводится последовательность словообразовательного процесса (второе издание вышло в 1971 г., третье, исправленное и дополненное,- в 1975 г.). Для школьной практики предназначались тауже пробный “Школьный этимологический словарь”, созданный коллективом языковедов Калининского государственного педагогического института под руководством Г. М. Милейковской и рассматривающий 180 корней (1957 г.), и словарь “Почему не иначе?” Л. В. Успенского, содержащий занимательные рассказы о жизни слов (1967 г.). В 1970 г. появился “Этимологический словарь русского языка” Г. П. Цыганенке, изданный в Киеве. Словарь имеет научно-популярный характер и в качестве справочного пособия предназначен для учителей-словесников и учащихся средней школы. С 1963 г. стал выходить отдельными выпусками “Этимологический словарь русского языка”, работа над которым ведется в этимологическом кабинете Московского государственного университета под руководством Н. М. Шанского. Словарь, предназначенный для специалистов-филологов, предполагается издать в восьми основных и двух дополнительных томах, в которых будет дана этимология диалектизмов и устаревших слов. Этимологические исследования в области русского языка проводятся и за рубежом. В 1950- 1958 гг. в Гейдельберге отдельными выпусками вышел трехтомный. “Русский этимологический словарь” М. Фасмера (в 1964-1973 гг. под названием “Этимологический словарь русского языка” с дополнениями переводчика О. Н. Трубачева он был издан на русском языке в четырех томах в Москве). Этот словарь является самым обширным из словарей данного типа и содержит, кроме нарицательных существительных, довольно большое количество имен лиц и географических названий. Однако словарь не свободен от неточностей, ошибок, неоправданных сопоставлений. В настоящее время начато издание многотомного “Этимологического словаря славянских языков. Праславянский лексический фонд”, которое осуществляется под редакцией О. Н. Трубачева. В первом выпуске (1974г.) содержится предисловие с изложением принципов реконструкции праславянской лексики, списки литературы и собственно словарь. К типу этимологических словарей примыкает “Краткий топонимический словарь” В. А. Никонова, содержащий сведения о происхождении и судьбе около 4 000 названий наиболее крупных географических объектов СССР и зарубежных стран (1966 г.), а также

“Словарь русских личных имен” Н. А. Петровского, включающий около 2600 личных имен и сообщающий сведения об их происхождении (1967 г.), и “Словарь названий жителей (РСФСР)” (под редакцией А. М. Бабкина), в котором собрано около 6000 названий жителей населенных пунктов Российской Федерации и названий жителей столиц союзных республик (1964 г.), “Словарь названий жителей СССР” (под редакцией А. М. Бабкина и Е. А. Левашова), в приложении к которому приводится также первый опыт собрания названий жителей городов зарубежных стран (1975 г.).

Частотные словари - это словари, в которых содержатся числовые характеристики употребительности слов; слова в них располагаются в зависимости от частоты употребления слов в текстах определённой длины. Этот сравнительно новый тип лексикографических изданий в последние годы стал особенно активно развиваться в связи с внедрением в лексикографию новых технологий.

Частотные словари дают большой материал для решения ряда общетеоретических и прикладных лингвистических проблем, они необходимы при составлении учебных словарей, при разработке учебников, лингвометодической адаптации текстов.

Первым в отечественном языкознании частотным словарём был «Частотный словарь современного русского литературного языка» Э.А. Штейнфельдт, составленный по материалам современной литературы, прессы, радиопередач (50-60-е гг. XX в.) и адресованный в первую очередь преподавателям русского языка как неродного. В нём представлены данные о частотности слов, полученные на основе обработки текстов объёмом в 400 000 слов. В словаре содержатся слова, покрывающие до 80% различных текстов. Кроме обычных указаний на количество употреблений, приводится количество текстов, в которых данное слово отмечено. Даются статистические характеристики некоторых морфологических категорий. Словарь Э.А. Штейнфельдт послужил основой для составления многих учебных толковых словарей и словарей-минимумов.

«Частотный словарь русского языка» под редакцией Л.Н. Засо- риной представляет собой свод статистических данных о лексическом составе современного русского языка. Словарь был составлен на основе обработки средствами вычислительной техники 1 млн словоупотреблений; он охватывает не только язык художественной литературы, но также публицистическую и деловую речь, бытовавшую в сфере массовой коммуникации. Хронологические рамки словаря, как отмечают составители, «обнимают эпоху от произведений Ленина и Горького до 60-х годов», поэтому исследователи получают ценный материал для изучения лексики советской эпохи. Алфавитно-частотный словник включает все лексемы, встретившиеся в текстах, каждая лексическая единица снабжена количественными характеристиками. Частотный словник содержит слова с частотой 10 и выше, всего 9044 единицы, расположенные в порядке убывания частот. Разнообразные статистические характеристики единиц словаря создают основу для изучения статистической структуры словарного состава русского языка, для определения границ основной лексики. В приложении приводится имеющий большое практическое значение перечень омографов и грамматических омонимов.

Современные базы данных дали мощный импульс развитию частотных словарей. «Частотный словарь современного русского языка» О. Н. Ляшевской и С. А. Шарова основан на коллекции текстов Национального корпуса русского языка, представляющих современный русский язык периода 1950-2007 гг. Объём выборки, на которой построено большинство разделов словаря, составляет 92 млн словоупотреблений. В словаре содержится разнообразная статистическая информация о 50 000 нарицательных и 3000 собственных имён и аббревиатур. Приводятся частотные списки лексики, характерной для публицистики, устной речи и других функциональных стилей, а также списки наиболее употребительных существительных, прилагательных, глаголов и слов других частей речи. Электронная версия словаря опубликована на сайте Института русского языка им. В. В. Виноградова Российской академии наук (http://dict.ruslang.ru).

Проект «Частотного словаря словоформ русского языка» А. В. Вен- цова и Е. В. Грудевой представляет собой первую в истории составления частотных словарей русского языка попытку организовать по частоте встречаемости не лексемы, а акцентно размеченные словоформы. Словарь составлен на основе одномиллионного Корпуса русского литературного языка (www.narusco.ru). В проекте представлено полное описание словаря и его основные разделы в виде ограниченных выборок.

В «Частотном тематическом словаре „Городской общественный транспорт 44 » Г.А. Мартиновича представлены результаты дистрибутивно-статистического анализа одной понятийной области - 74 521 000 словоупотреблений, извлечённых из корпуса российских газет отдела машинного фонда русского языка Института русского языка им. В. В. Виноградова, и 29 500 примеров из текстов 9 российских газет за 1997 г.

Многие частотные словари носят прикладной характер и адресованы в первую очередь составителям программ, словарей-минимумов, учебных пособий по русскому языку. Одни из них фиксируют общеупотребительную лексику, другие связаны со специальной или жанрово и стилистически закреплённой частью словарного состава.

«Частотный словарь современного русского языка» П.И. Хара- коза состоит из двух частей, представляющих собой два различных частотных словаря, выполненных на различном речевом материале: один на текстах учебников начальных классов, другой - на материале детской разговорной речи. В первой части представлено 5025 слов, составляющих 91,6% всех словоупотреблений в 15 учебниках. Слова представлены в частотных и алфавитных списках. Во второй части представлено 2830 слов бытовой детской разговорной речи, расположенных по частоте и по алфавиту.

Словник «2830 слов, наиболее употребительных в русской разговорной речи» отражает ядро наиболее употребительных слов современной разговорной речи; он составлен на основе анализа живой разговорной речи, записанной на магнитную плёнку (в 1964-1966 гг.). Общий объём собранного материала 400 000 словоупотреблений. Список представлен в двух вариантах - по алфавиту и по распространённости.

«Список наиболее употребительных слов русского языка» под редакцией З.П. Даунене включает слова первой тысячи 13 частотных словарей и списков русского языка, составленных на основе разнообразных материалов. Список насчитывает 3917 слов, включает как знаменательные, так и служебные слова. Рядом с каждым словом указываются источники, в которых оно зафиксировано, и количество этих источников, что даёт возможность выделить наиболее употребительную лексику.

В «Частотный словарь языка газеты» Г.П. Поляковой и Г.Я. Солга- ника оказались включёнными 1997 слов, имеющих частоту не менее 12 в газетных те кетах длиной 200 000 словоупотреблений. В словаре представлен общий список слов по убывающей частоте, покрывающий в среднем 80-83% газетного текста.

«Комплексный частотный словарь русской научной и технической лексики» П.Н. Денисова и др. содержит списки 3047 наиболее употребительных слов русской научной и технической литературы (частотный, алфавитный, инверсионный, с группировкой по частям речи), а также таблицы, позволяющие судить о распространённости тех или иных грамматических явлений в языке научно-технической литературы.

«Частотный словарь общенаучной лексики» включает 2074 слова. В основу словаря положен текст в 400 000 слов (словоформ). Источниками послужили учебники для вузов шести отраслей знания: математики, физики, химии, биологии, медицины, геологии с географией. Из каждого источника брался один отрывок объёмом в 2000 словоформ. Было обследовано 200 таких выборок. Слова представлены в частотных и алфавитных списках.

Изданием сводного, обобщающего типа является книга «Лексические минимумы русского языка», созданная под редакцией В. В. Морковкина. Открывается словарь списком «Основные структурные лексические единицы русского языка», который объединяет неполнозначные слова и словосочетания, обеспечивающие функционирование полнозначных слов и формирующие модальную структуру текста (например, бывать, в виде, ввиду, как раз, как только, кроме того, собственно, таким образом, хотя, целый и т.п.). Далее следуют перечни слов нарастающего объёма, охватывающие лексическое ядро современного русского языка: 1) 500 самых употребительных русских слов, 2) 1000 самых употребительных русских слов, 3) 1500 слов, 4) 2000 слов, 5) 2500 слов, 6) 3000 слов, 7) 3500 слов. Третья часть книги представляет собой тематический словарь-минимум современного русского языка, цель которого - целесообразно организовать и представить совокупности важнейших русских слов, необходимых для обеспечения продуктивных видов речевой деятельности - говорения и письма. Важную часть книги составляет раздел, представляющий сравнительную и обобщённую ценность наиболее употребительных слов русского языка по данным 8 частотных словарей. Таким образом, словарь является ценным пособием для методистов и преподавателей русского языка, занимающихся составлением учебных пособий, книг для чтения, готовящих практические материалы для учебной работы.

Особое место среди частотных словарей занимают словари, которые могут быть использованы в автоматических информационнопоисковых системах. Так, «Частотный словарь индексирования» (под редакцией Л. В. Сахарного) составлен для решения информационнопоисковых задач. Материалом для словаря послужили 1660 рефератов по электроизмерительным приборам (всего около 105 тыс. словоупотреблений). Принципы составления словаря приложимы к любой отрасли знаний. В основу словаря положена новая для лексикографии единица - гиперлексема (некоторое множество однокоренных лексем одной или разных частей речи, связанных между собой отношениями трансформации, производности: инерция, инерционный, инерционность ; зуб, зубец, зубчатый, зубцовый). В словаре гиперлексемы расположены по степени частотности.

«Частотный словарь семантических множителей русского языка» Ю.Н. Караулова составлен по материалам определений в толковых словарях современного русского литературного языка. Единицами счёта в нём являются семантические множители, выступающие в виде сегментов полнозначных слов, являющихся компонентами дефиниций. Отражая статистическую и семантическую структуру правой части толковых словарей, частотный словарь может использоваться для исследований в области лексической семантики, а также в практике лексикографии и информационного поиска. Во вступительной статье показаны возможности применения словаря для нахождения смысловой связи слов при автоматическом построении русского тезауруса.

«Частотный словарь языка массовой коммуникации» Б. В. Кривенко является первым опытом частотного словаря, построенного на материале не только письменных текстов (газета «Комсомольская правда», районные газеты), но и звучащей речи (радио, телевидение, кинохроника). Словарь даёт синхронный срез лексического уровня языка газеты, информационных передач радио и телевидения за 1965-1985 гг. Общая длина текстовой выборки 71 164 словоупотребления. В словаре представлены списки слов по убыванию частотности, списки слов по алфавиту. Первые места в списке наиболее частотных слов (за исключением служебных слов и местоимений) занимают слова год, работа, страна, день, колхоз, дело, время, партия, новый, совет, рабочий, советский, народ, район, сегодня, город, организация, человек, председатель, секретарь, большой, область, имя, мир, республика, план. Частотность слов в языке средств массовой информации прекрасно отражает особенности советского политического дискурса, набор идеологем советского времени. «Статистический словарь русской газеты» А.Я. Шайкевича и др. даёт представление о частотности лексики в газетах 90-х гг. XX в. Эти же цели преследует словарь О. В. Голованя.

Исследование частотности лексических единиц позволяет сделать важные выводы об особенностях языка и стиля писателя. Неслучайно в последние годы издано большое количество частотных словарей языка художественных произведений русских писателей и поэтов (см. раздел «Авторские словари»).

Венцов Л.В., Грудева Е.В. Частотный словарь словоформ русского языка: проект. Череповец: Череповец, гос. ун-т, 2008. 204 с.

Голованъ О. В. Частотный словарь современного языка средств массовой информации: учебное пособие . Барнаул: Изд- во Алт. гос. техн. ун-та им. И.И. Ползунова, 2006. 622 с.

Граудина Л.К., Ицкович В.А., Катлинская Л.П. Грамматические варианты: опыт частотного словаря / Рос. акад. наук, Ин-т лингв, ис- след. М.: Наука, 1971. 102 с.

Денисов П.Н., Морковкин В.В., Сафьян Ю.А. Комплексный частотный словарь русской научной и технической лексики . М.: Русский язык, 1978. 406 с.

Караулов Ю.Н. Частотный словарь семантических множителей русского языка / отв. ред. С.Г. Бархударов. М.: Наука, 1980. 207 с.

Комплексный учебный словарь. Лексическая основа русского языка: / В. В. Морковкин, Н.О. Бёме, И.А. Дорогонова, Т.Ф. Иванова, И.Д. Успенская; под ред. В.В. Морковкина. М. : ACT, 2004. 880 с. .

Кривенко Б. В. Частотный словарь языка массовой коммуникации. Воронеж: Изд-во Воронеж, ун-та, 1992. 218 с.

Кудашева М.А., Левина Р.И. Частотный словарь наиболее употребительных причастий по геологии, минералогии, кристаллографии, геодезии: учебное пособие. Л. : Ленингр. горный ин-т им. Г. В. Плеханова, 1974. 29 с.

Лексические минимумы современного русского языка / В. В. Морковкин, Ю.А. Сафьян, Е.М. Степанова, И.В. Дорофеева; под ред. В. В. Морковкина; Ин-т рус. яз. им. А.С. Пушкина. М. : Русский язык, 1985. 608 с.

Лексический минимум по русскому языку как иностранному: базовый уровень: общее владение / сост. Н.П. Андрюшина, Т.В. Козлова.

4-е изд., испр. и доп. СПб.: Златоуст, 2004. 111 с. (Тест по русскому языку как иностранному). [То же в 2001 г.].

Лексический минимум по русскому языку как иностранному: второй сертификационный уровень: общее владение / сост. Н.П. Андрюшина (отв. ред.) [и др.]. 3-е изд. СПб. : Златоуст, 2011. 162 с. (Российская государственная система тестирования граждан зарубежных стран по русскому языку). [То же в 2009 г.].

Лексический минимум по русскому языку как иностранному: первый сертификационный уровень: общее владение / сост. Н.П. Андрюшина (отв. ред.) [и др.]. 5-е изд., испр. и доп. СПб.: Златоуст,

2011. 195 с. (Российская государственная система тестирования граждан зарубежных стран по русскому языку). [То же в 2002, 2005 гг.].

Лексический минимум по русскому языку как иностранному: элементарный уровень: общее владение / сост. Н.П. Андрюшина, Т.В. Козлова. 4-е изд., испр. СПб. : Златоуст, 2012. 79 с. (Тест по русскому языку как иностранному). [То же в 2000, 2004 гг.].

Ляшевская О.Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка) [статистическая информация о 50 000 нарицательных и 3000 собственных имён и аббревиатур] / Рос. акад. наук, Ин-т рус. яз. им. В. В. Виноградова. М.: Азбуковник, 2009. 1087 с.

Мартинович Г.А. Частотный тематический словарь «Городской общественный транспорт». СПб. : Филол. фак. С.-Петерб. гос. ун-та,

Полякова Г.П., Солганик Г.Я. Частотный словарь языка газеты . М.: Изд-во Моек. гос. ун-та, 1971. 281 с.

Сафьян Ю.А. Частотный словарь русской технической лексики. Ереван: Барцрагуйн дпроц, 1971. 128 с.

Система лексических минимумов современного русского языка: 10 лексических списков: от 500 до 5000 самых важных русских слов / Гос. ин-т рус. яз. им. А.С. Пушкина; сост. Т.Ф. Богачёва, Н.М. Луцкая, В. В. Морковкин, З.П. Попова; под ред. В. В. Морковкина. М.: Астрель: ACT, 2003. 768 с.

Список наиболее употребительных слов русского языка / сост. Л.Г. Вишнякова, З.П. Даунене, Т.П. Ишанова, Р.М. Нефёдова; под общ. ред. З.П. Даунене. М. : Акад. пед. наук СССР, НИИ препод. рус. яз. в нац. школе, 1974. 160 с.

Тер-Мисакянц 3. Т. Частотный словарь математической лексики / под ред. В.М. Григоряна, Р.С. Манучаряна. Ереван: Ереван, гос. ун- т, 1973. 67 с.

Харакоз П.И. Частотный словарь современного русского языка . Фрунзе: Мектеп, 1971. 180 с.

Частотный словарь геологической лексики: учебное пособие / сост. В.И. Рубкалёва, М.А. Кудашева, Е.М. Вал [и др.]; науч. ред. В.И. Рубкалёва. Л. : Ленингр. горный ин-т им. Г. В. Плеханова, 1973. 64 с.

Частотный словарь индексирования / под общ. ред. Л. В. Сахарного.

Пермь: Изд-во Перм. ун-та, 1974. 828 с.

Частотный словарь общенаучной лексики / сост. М.И. Зыкина, В.И. Крупчанова, М.М. Нахабина [идр.]; под ред. Е.М. Степановой. М.: Изд-во Моек. гос. ун-та, 1970. 87 с. Частотный словарь русского языка [около 40 000 слов] / под ред. Л.Н. Засориной; сост. В.А. Аграев, В.В. Бородин, Л.Н. Засорина, В.М. Муратова, Э.В. Тисенко; спец. науч. ред. М.И. Привалова. М.: Русский язык, 1977. 934 с.

Шайкевич Л.Я., Андрющенко В.И., Ребецкая Н.А. Статистический словарь русской газеты: (1990-е годы) / Рос. акад. наук, Ин-т рус. яз. им. В.В. Виноградова. М.: Языки славянской культуры: издатель А. Кошелев, 2008. Т. 1. 578 с. (Studia philologica).

Шилова Г.Е., Стернин И.А. Частотный словарь иноязычных слов: (по материалам публицистики) / Воронеж, гос. ун-т, Межрегион, центр коммуникатив. исслед. Воронеж: Истоки, 2005. 126 с. Штейнфельдт Э.А. Частотный словарь современного русского литературного языка: справочник для преподавателей русского языка / под ред. В.А. Ицковича. М. : Прогресс, 1973. 228 с. .

Шурпаева М.И. Дифференцированный словарь-минимум русского языка по видам речевой деятельности для начальных классов дагестанской национальной школы. Махачкала: Дагучпедгиз, 1982. 153 с.

После того как я решил подтянуть свой уровень знания английского (главным образом в плане словарного запаса), практически сразу стало очевидно, что самый эффективный способ изучения слов - исключительно по частотным словарям. Точнее, способы изучения и запоминания могут быть самые различные, но вот именно очередность, приоритетность тех или иных слов должна определяться исходя из частотных словарей.

Скажем, читаете вы книгу на английском, и через каждые 10 слов вам попадается одно неизвестное. Представьте себе, первое время я записывал каждое неизвестное слово и ежедневно все их зубрил. Но очень скоро стало ясно, что эффективность такого изучения близка к нулю - так как большинство этих слов встречаются лишь раз-два за всю книгу, а в повседневном лексиконе они могут встречаться вообще раз в год.

Именно здесь на помощь приходит частотный словарь. Идея такая: вам встречается слово, перевод которого вы не знаете. Сначала вы припоминаете: насколько часто оно вам встречается вообще? Если это слово из разряда «да, я слышал его много раз, но не знаю, как оно переводится», уверенно ставьте его на изучение и повторение. Если это слово вам встречается редко, или вы вообще его не можете припомнить, значит, самое время заглянуть в частотный словарь.

Есть такой замечательный сервис Test Your Vocabulary , который позволяет по небольшой выборке (несколько десятков слов), путём сопоставления ваших результатов с имеющимися данными статистического анализа, примерно определить ваш словарный запас. Там же имеются различные графики результатов, например, вот это распределение участников (неанглоговорящих) по словарному запасу:

Как видим, уровень словарного запаса большинства людей находится в районе 4500 слов. Медиана же распределения находится в районе 7800 слов (у половины людей словарный запас меньше, у половины - больше).

По данным других лингвистических исследований словарный запас в 6–7 тысяч слов гарантирует понимание 85% английской речи. Таким образом, можно заключить, что 6-тысячный словарь для начала может быть вполне приемлемой целью.

Итак, возвращаясь к нашему алгоритму. После того, как вы нашли совершенно неизвестное вам слово - сразу же ищите его частотном словаре. Если, например, вы задались целью увеличить свой запас не менее чем до 6000 тысяч слов, и искомое слово как раз входит в первые 6 тысяч - ставьте его на повторение.

Фактически, после изучения первых 6000 в ЧС, ваш словарный запас будет конечно же больше, за счёт тех слов, которые вы уже знаете, и которые не вошли в изученный интервал ЧС.

Ну а теперь вопрос. Где взять частотный словарь? В Гугле? Как бы не так.

Как правило, сайты по изучению английского предлагают нам только первую тысячу слов ЧС, а за более обширный словарь придётся платить. Да, первые поиски словаря хотя бы на 3000 слов вызвали у меня бурю негодования. Но потом мне всё же удалось найти весьма обширный словарь, которым, однако, невозможно было пользоваться для поиска слов: он был разбит на много страниц, а текст, кстати, был защищен от копипаста (помогает, конечно же, только в случае со школьниками или домохозяйками). Потому, чтобы нормально работать с частотным словарём, я (не без определённой доли изобретательности) выцепил со страниц код и объединил первые 6000 необходимых мне слов в одну таблицу .

Пользуйтесь на здоровье, и да здравствует свободный доступ к информации.

Update: расширил таблицу до 16000 слов . Этот словарь должен покрыть 98% английских фраз.

Примечание: в таблице пропущены некоторые номера - это имена собственные, переводить которые просто нет смысла.

Информация от спонсора

Примо4ки.com: электроника и гаджеты по низким ценам, продажа китайских телефонов . Качество гарантировано магазином.