bigpo.ru
добавить свой файл
1
Из предисловия к частотному словарю русского языка под редакцией Л.Н. Засориной

ПОСТРОЕНИЕ СЛОВАРЯ

Словарь состоит из трех частей: Алфавитно-частотного словника, Частотного словника, Статистической структуры словаря.

Алфавитно-частотный словник — наиболее важная и объемная часть словаря. Он включает все лексемы, встретившиеся и текстах. Всего в словнике 39268 разных слов (от а до ящичный), полученных с выборки в 1 056 382 словоупотребления. Каждая лексическая единица словаря имеет следующие количественные характеристики:

  1. частоту: а) общую частоту по всей выборке; б) частоты по подвыборкам, т. е. число появлений слова в каждой из четырех жанровых групп текстов (I — газетно-журнальные тексты, II — драматургия, III — научные и публицистические тексты, IV — художественная проза);

  2. количество текстов по жанрам, в которых встретилось данное слово.

По общей частоте слова можно определить его место в Частотном словнике и порядковый номер в Статистической структуре словаря. Алфавитно-частотный словник даст сведения о функциональной отнесенности слова. Поскольку четыре жанровых подвыборки приблизительно совпадают по объему, можно сопоставлять частоты в соответствующих графах, делая выводы о большей или меньшей употребительности слова в тех или иных жанрах (см. примеры в Приложении 4 — Статистические параметры словаря). Для оценки употребительности важно учитывать не только частоту слова, но и количество текстов, в которых оно регистрируется. Узкотематические слова могут часто повторяться в специальном тексте. Если известно, что слово с достаточно большой частотой встречается лишь в одном тексте, пли двух-трех, его нельзя отнести к употребительным, напр.: телефонить (частота 9, но только в одном тексте драматург. жанра), хлопчик (частота 22—12 употреблений в одном тексте драматург. жанра и 10 — в одном тексте жанра художествен. прозы), щелочь (частота 26 — в трех текстах, но одного, научно-публицистического жанра).

Частотный словник содержит слова с частотой 10 и выше, всего 9044 единицы. Они расположены в порядке убывания частот. Наибольшую частоту имеет в(во)—42854. Частые слова, отобранные в Частотный словник, составляют 23,02% всего словника, но покрывают 92,4% всего текста. Остальные 30 тысяч слов (30224) покрывают только 7,6% всей выборки.

^ О построении словаря

В начальной зоне словника группы представлены одиночными словами, далее они постепенно укрупняются (от 2 до 595). Внутри этих групп слова расположены по алфавиту. По частотному словнику удобно отбирать списки частых слов для методических целей и других прикладных задач.

Статистическая структура словаря представляет собой таблицу распределений частот, первые две графы которой дают полную статистическую информацию о связи «ранга» (порядкового номера группы слов с данной частотой) и общей частоты. В третьей графе таблицы даются сведения о количестве слов с данной частотой. Так, по одному разу зарегистрированы частоты от 42854 до 1093 (слова с порядковыми номерами от первого до сотого). В графе «Накопленная абсолютная частота» содержатся сведения о сумме частот группы слов, в которую входят все слова от самого частого (первого по «рангу») до данного слова. Так, для группы слов с порядковым номером 100 эта сумма равна 436940. По этой величине можно определить, какую долю общей выборки составляет данная группа слов. Накопленная относительная частота (см. последнюю графу) служит для определения покрытия текста группой слов с данными частотами. Так, для слова с порядковым номером 100 это величина 0,4136193. Это значит, что 100 самых частых слов покрывают 41,4%текста. Для группы слов с порядковым номером 200 накопленная относительная частота 0,4919915. В эту группу входит 213 слов (что узнаем из графы «Накопленное абсолютное число слов»). Они покрывают 49,2% текста и т. д.

Для отбора группы частых слов следует использовать данные графы «Число слов». По ней можно отбирать группы слов заданного количества и далее определять покрытие текста этой группой. Так, для 100 самых частых слов накопленное относительное число слов 0,0025466, что означает, что они составляют 0,2% всего словинка; 200 частых слов составляют 0,5% словника; 1000 слов — 2,5% и т. д.

Алфавитно-частотный и Частотный словники содержат лексемы в исходной форме (см. «Аналитическая грамматика словаря»). Эта форма обычно однозначно определяет, к какому грамматическому классу относится данное слово, ср. -ый, -ий — показатели прилагательных, -ать, -ить — показатели глагола и т. д.

Совпадение исходных словарных форм у слов, принадлежащих к разным грамматическим классам, наблюдается редко, всего около 50 случаев. Для подобных словарных грамматических омонимов в Алфавитно-частотном словнике вводится специальная помета — двойной треугольник, напр.: аΔΔ — союз/межд., /печьΔΔ — сущ./глаг. (см. Приложение 2). Омографы отмечены одним треугольником, напр.: замокД амок/замок), стоящийΔ (стоящпй/стоящий) (см. Приложение 1). Курсивом выделены слова, являющиеся ненормативными вариантами соответствующих литературных форм. Как правило, это просторечные и диалектные образования типа: скидовать, слухать, страм, теперича. Звездочкой * отмечены слова, паспортизация которых дается в Приложении 3. Это слова в большинстве своем редко встречающиеся и не зафиксированные словарями.

Из приложений к частотному словарю русского языка под редакцией Л.Н. Засориной

ПРИЛОЖЕНИЕ 4

^ СТАТИСТИЧЕСКИЕ ПАРАМЕТРЫ СЛОВАРЯ

При составлении словаря текст рассматривался как ряд независимых испытаний, а появление лексем интерпретировалось как случайное событие.

«Частотный словарь русского языка» представляет собой выборку в 1 056 382 словоупотребления1, распределенную по четырем основным функционально-речевым сферам (подробнее об этом см. «Введение», разд. 2); эта выборка достаточно репрезентативна и отражает свойства совокупности, т. е. русского языка.

Некоторые данные о лексике современного русского языка приводятся ниже.

^ Алфавитно-частотный словник

О лексическом разнообразии словаря

Алфавитный словник Частотного словаря содержит 39 268 различных лексем общим числом 1 056 382 словоупотребления. По этой части словаря представляется возможным получить некоторые характеристики. Остановимся в первую очередь на коэффициенте лексического разнообразия словаря. Он определяется отношением числа разных слов (V) к числу всех словоупотреблений (N):



Интересно сопоставить данные разных частотных словарей по этому коэффициенту:

Частотный словарь языка А.С. Пушкина2



Частотный словарь русского языка, составленный Э. А. Штейнфельдт



Из сравниваемых данных видно, что величина С зависит от двух факторов: от размера выборки и от размера полученного словаря разных слов, на который влияют тематические, жанровые и автор-ские особенности выбранных текстов. Это видно при сравнении коэф-фициентов лексического разнообразия частотного словаря языка i\. С. Пушкина и частотного словаря, составленного Э. А. Штейнфельдт. Наибольшее значение С наблюдается в случае наименьшей и однородной по сфере употребления выборки. Это объясняется тем, что наиболее интенсивно словник растет в начале, а увеличение объема выборки приводит к большему повторению встречавшихся ранее слов и соответственно к замедлению роста словника. Величина С изменяется от 1 (в том случае, когда N = V, т. е. в тексте все слова разные, это может произойти при минимальном N) и стремится к бесконечно малой при неограниченных объемах выборки.

Соотношение объема словника и объема текста можно оценивать и величиной, обратной С, т. е. средней частотой слова Fcp = N/V.

Если рассматривать взаимоотношение между словником и всеми словоупотреблениями, то заметим следующее: 50,02% или 528423 всех словоупотреблении представляют 230 разных, лексем, что составляет 0,58% словника с Fcp = 22975,76; остальные 39038 разных лексем из другой половины всех словоупотреблении составляют 99,42% словника с Fcp = 13,5; 51,2% словника или 20 144 различных лексемы составляют 1031401 словоформу или 97,6% всех словоупотреблений с Fcp == 51,2; остальные 48,8% словника образуют 19124 разных лексемы или 24 981 словоформу, т. е. 2,4% всех словоупотреблений с Fcp = 1,3.

Более подробно соотношение между словником и текстом показано на диаграмме 1. Fcp здесь означает среднюю частоту в каждой указанной на диаграмме зоне.

О средней частоте можно сказать следующее: Fcp в словаре равно 26,9. Таких слов с Fабс > Fcp в словаре 4348, т. е. 11,07% словника или 85,45% словоупотреблений.

Таблица 3








Частота

Слово

общая

по жанрам




газ.-журн.

драм.

н.-публ.

худ. пр.

В

42854

9630

15935

9957

7332

И

36266

8559

6660

10042

11005

НЕ

19228

3681

7060

3499

4988

Я

13839

1355

7563

678

4243

БЫТЬ

13307

2521

5178

2480

3128

ОДИН

3255

921

668

898

768

ГОД

2167

1080

286

555

246

БОЛЬШОЙ

2066

571

708

490

297

ОЧЕНЬ

1415

162

543

376

334




Все 39268 слов — 1056382 словоупотреблений —
100% словника — 100% всех словоупотреблений Fcp = 26,9

Первая 1000 слов — 712552 словоупотреблений —
2,54% словника — 67,46% всех словоупотр. Fcp = 712,5


Первые 100 слов — 436940 словоупотреблений — 0,254% словника — 41,36% всех словоупотреблений Fcp = 4369,4

Первые 10 слов —192777 словоупотреблений — 0,025% словника — 18,25% всех словоупотреблений Fcp = 19277,7


Данные получены из таблицы распределения частот (Статистическая структура словаря)

Диаграмма 1

Соотношение словника и текста




1000 3000 5000 7000 9000 11000 13000 15000 17000 19000


Количество слов в словаре

График 1

Зависимость между словником и текстом
для разных функциональных стилей


По данным словаря построены графики функций, отражающие связь словника и текста (всех словоупотреблений) для всех функциональных стилей. Из графика 1 видим, что наибольшую часть текста при наименьшем количестве разных слов покрывают слова текстов драматургии, а в текстах других функциональных стилей ту же долю текста занимает большее число слои. Например, 300 слов частотного списка газетно-журнального функционального стиля составляют 50% всех словоупотреблений, то же самое составляют в текстах драматургии 100 разных слов, в научно-публицистических — 298, в художественной прозе — 190 разных лексем. В табл. 3 показано сопоставление самых частых слов различных частей речи по функциональным стилям.

На общую частоту предлога в в значительной мере влияет появление его в произведениях драматургии. Вероятно, этим можно объяснить то, что в частотном словаре языка А.С. Пушкина и в частотном словаре, составленном Э.А. Штейнфельдт, ранг № 1 имеет союз и, на общую частоту которого влияет высокое число появлений его в произведениях стиля художественной прозы. Характерно то, что личное местоимение я встречается в драматургических произведениях почти в 6 раз чаще, чем в газетно-журнальных текстах и в 11 раз чаще, чем в текстах научной публицистики. Первое по частоте существительное определяется темой сообщении, поэтому неудивительно, что существительное год имеет большую частоту в газетно-журнальных текстах и в научной публицистике.

Распределение по частям речи

При контрольном обсчете данных словаря устанавливалась принадлежность каждой лексемы к той или иной грамматической категории. Рассматривались следующие грамматические категории: имя существительное, глагол, имя прилагательное, имя числительное, предлог, местоимение, союз, наречие, частица. Остальные разряды слов (междометия, модальные слова и др.) объединялись вместе, особо выделялись субстантивированные прилагательные (напр, рядовой), причастия, субстантивированные причастия (ученый, учащийся), омонимы типа: существительное/глагол (печь, сечь, знать) (см. Приложение 2 — Перечень словарных грамматических омонимов). В табл. 4 представлено частотное распределение частей речи в словаре. Здесь указывается относительная доля (в %) каждой категории в общем числе словоупотреблений по всему словнику в целом и по каждому функциональному стилю в отдельности.

Интересно отметить, что существительные занимают первое место по частоте употребления, следующее место занимают глаголы, причем в газетно-журнальных и научно-публицистических текстах количество глаголов заметно меньше за счет увеличения числа существительных и причастий. В текстах драматургии отмечено большее количество глаголов по сравнению с текстами других функциональных стилей. Распределение частот грамматических категорий знаменательных слов (существительное, глагол, прилагательное, наречие, местоимение) различается для каждого функционального стиля. Распределение частот служебных (нейтральных) слов (предлогов, союзов) оказывается равномерным для всех функциональных стилей.

Таблица 4




^ Грамматические категории

Частота


общая

по жанрам

газ.-журн.

драм.

н.-публ.

худ. пр.
  1. Существительное


26,65

32,77

20,4

31,03

23,44
  1. Глагол


17,12

14,5

20,88

13,50

18,96

  1. Прилагательное

9,37

11,97

6,24

12,46

7,37

  1. Наречие

8,096

6,95

9,01

7,26

8,98

  1. Числительное

1,17

1,55

1,13

1,026

0,9969

  1. Местоимение

13,29

10,01

16,18

11,55

14,94

  1. Союз

7,39

6,57

6,81

7,61

8,56

  1. Предлог

11,1

11,47

11,18

11,23

10,54

  1. Частица

1,002

0,57

1,60

0,67

1,078

  1. Причастие

0,979

1,05

0,523

1,36

1,05

  1. Субстантив. причастие

0,053

0,08

0,06

0,032

0,044

  1. Субстантив. прилагат.

0,4457

0,55

0,42

0,518

0,301

  1. Омонимы (типа сущ./глаг.)

0,035

0,023

0,029

0,080

0,0489

  1. Остальные

3,295

1,92

5,53

1,71

3,69
Итого

 99,996

 99,983

 99,992

100,036

 99,999


Слова с частотой 1

Редкие слова представляют большой интерес при статистическом анализе текста. Появление их трудно предсказать и именно они свидетельствуют о богатстве словаря автора, с одной стороны, и указывают на устаревшую или неустоявшуюся лексику, с другой. Тщательное изучение таких слов дает богатый материал стилисту. В нашем словаре 13 379 слов с частотой единица. Ниже (см. табл. 5) представлено распределение их по грамматическим категориям.

^ Слова, общие для всех функциональных стилей

Список слов, которые встречаются во всех четырех жанровых группах текстов, может служить первичным материалом для отбора и составления словаря наиболее употребительных слов. Число таких слов 6440, что составляет 868577 словоупотреблений. Их распределение по грамматическим категориям отражено в таблице. 6

Таблица 5




Грамматические категории

Количество слов

Доля слов с частотой 1
в общем словнике

Существительное

5041

0,377

Глагол

3100

0,232

Прилагательное

2861

0,214

Наречие

769

0,057

Числительное

16

0,001

Местоимение

9

0,0007

Союз

4

0,0003

Предлог

2

0,00015

Частица

1

0,00007

Причастие

1461

0,109

Субстантив. причастие

11

0,0008

Субстантив. прилагат.

39

0,0029

Омонимы (типа сущ./глаг.)

1

0,00007

Остальные

64

0,0048

Таблица 6




Грамматические категории

Количество слов

Доля общих для всех
жанров слов во всех текстах

Всего

6440




Существительное

2573

0,3995

Глагол

1941

0,301

Прилагательное

903

0,149

Наречие

589

0,091

Числительное

54

0,0084

Местоимение

63

0,0098

Союз

17

0,0020

Предлог

33

0,005

Частица

5

0,0008

Причастие

125

0,0388

Субстантив. причастие

7

0,0011

Субстантив. прилагат.

28

0,0043

Омонимы (типа сущ./глаг.)

5

0,0008

Остальные

37

0,0057


^ Частотный словник

Частотный список словаря содержит 9044 разных слова. В него включены слова с частотой 10 и выше, они составляют 92,4% всех словоупотреблений и 23,02% всего словника. Слова с частотой ниже 10, не включенные в частотный список (всего их 30224), в большей степени определяют богатство словаря, хотя на их долю приходится всего 7,6% словоупотреблений и 76,98% словника.

Если рассмотреть первые 500 самых частых слов, разбив предварительно их на зоны по 100 слов в каждой, и проанализировать эти зоны с точки зрения употребительности частей речи в зонах, то увидим следующее. В первой зоне (первые 100 слов) преобладают служебные слова (предлоги, союзы, местоимения, частицы). В числе глаголов, встретившихся в этим зоне, имеются как вспомогательные, так и знаменательные:

быть думать сказать

видать знать стать

видеть идти хотеть

говорить мочь

^ Группу существительных составляют:

время день рука

глаз жизнь товарищ

год люди человек

дело работа

В первую зону вошли прилагательные: большой, другой, новый, советский.

В эту же зону вошли числительные: один, первый, два. Встретились и наречные формы: более, здесь, очень. Самое частое слово этой зоны в (во) имеет частоту 42854, наименьшую частоту имеет слово глаз — 1093.

Во второй зоне увеличивается число знаменательных слов и резко сокращается число служебных слов: здесь встречаются всего пять предлогов (между, над, перед, против, через), шесть местоимений (ваш, ее, их, каждый, ничто, твой), остальную часть зоны в основном занимают существительные и глаголы. Перепад частот в этой зоне не такой большой: 101-е слово имеет частоту 1 084, а 200-е слово — 557.

В третьей зоне также преимущественно встречаются существительные и глаголы.

В четвертой зоне чаще, чем в других появляются прилагательные и наречия, но в ней не встречаются предлоги, местоимения и союзы.

В пятой зоне также преобладают знаменательные слова. Следовательно, наибольшей частотностью обладают «грамматические» слова, появление которых обусловлено строем языка, затем идут слова, отражающие тематику текстов.

^ Распределение частей речи в частотном словнике.

Таблица 7


Грамматические категории

в словаре

в текстах

Абс. колич.

Отн. колич.

Абс. колич.

Отн. колич.

Существительное

3988

0,442

249 839

0,257

Глагол

2478

0,274

159 006

0,164

Прилагательное

1423

0,157

83 053

0,091

Наречие

705

0,078

79 090

0,081

Числительное

55

0,000

11 550

0,119

Местоимение

69

0,008

141 937

0,146

Союз

17

0,0018

76 897

0,079

Предлог

36

0,008

115 788

0,119

Частица

9

0,009

10 232

0,0105

Причастие

177

0,0196

4 949

0,005

Субстантив. причастие

8

0,0009

497

0,0005

Субстантив. прилагат.

42

0,0040

4 203

0,0043

Омонимы (типа сущ./глаг.)

5

0,0005

353

0,00036

Остальные

71

0,0078

34 252

0,035


^ О длине слова

По данным Частотного словаря было получено частотное распределение длин слов (в словаре и в тексте) в буквах для каждого функционального стиля в отдельности и для всех вместе.

Как и предполагалось, средняя длина слова в тексте оказалась значительно меньше (5,4) средней длины слова в словаре (9,3) за счет первой тысячи самых частых слов, включающей те одно-, двух-, трехбуквенные лексемы, которые влияют на среднюю длину слова в тексте.

В словаре (по всем стилям в целом) чаще встречаются слова длиной в 8—9 букв, а в тексте— длиной в 1 и 6 букв. Вообще распределения длин слов в словаре и тексте сближаются, начиная с длины в 9 букв. Если снять влияние первой тысячи самых частых слов, то можно наблюдать, что распределение длин слов в словаре и тексте близки друг другу.

Алфавитно-частотный словник позволяет получить сведения о распределении единиц словника по начальным буквам.

По данным словаря можно построить диаграмму 2, которая дает наглядное представление о распределении слов в словаре по начальным буквам. Эти данные имеют практическую ценность для любой лексикографической работы над словарем, когда требуется определить объем словаря или картотеки. Подобным образом представляется возможным получить сведения о распределении слов по начальным и конечным буквам в текстах и словаре отдельных жанров.


ПРИЛОЖЕНИЕ 5

^ О МАТЕРИАЛАХ, НЕ ВКЛЮЧЕННЫХ В СЛОВАРЬ

Материалы Частотного словаря довольно обширны. Основная их часть, представляющая наибольший интерес, публикуется в данной книге. У составителей имеются дополнительные материалы словаря по той же выборке: 1) Алфавитно-частотные словники по двум жанрам: научно-публицистическому и газетно-журнальному; 2) Ал-фавитно-частотные словники по отдельным текстам драматургии и прозы; 3) Алфавитно-частотный словник общеупотребительных лексем, встретившихся во всех четырех подвыборках; 4) Обратный словарь по всей выборке, представляющий перечень всех разных слов, упорядоченных от конца букворяда.

Получены дополнительные данные о распределении длин слов для словинка и текста по всей выборке и по отдельным подвыборкам, о распределении словника и текста по первым двум начальным буквам. Для каждого слова вычислены коэффициент стабильности и коэффициент употребительности. Расчет проводился по формулам А. Жуильяна с учетом разных объемов выборки. Оба эти показателя представляют интерес для изучения равномерности распределения слов по подвыборкам и источникам.

Имеются также данные о распределении слов по частям речи (анализ проводился по алфавитно-частотному словнику)

1 Реальная длина текста несколько больше за счет того, что в словарь не вошли имена собственные, цифры и др. знаки (см. с.11-12).

2 См. Материалы к частотному словарю языка Пушкина. (Проспект). М., 1963.