Коефіцієнт варіації (на матеріалі художньої літератури)

Тип работы:
Реферат
Предмет:
Литературоведение


Узнать стоимость новой

Детальная информация о работе

Выдержка из работы

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

ДОНЕЦЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

КАФЕДРА УКРАЇНСЬКОЇ МОВИ ТА ПРИКЛАДНОЇ ЛІНГВІСТИКИ

РЕФЕРАТ

з курсу «Квантитативна лінгвістика»

На тему

«Коефіцієнт варіації (на матеріалі художньої літератури)»

Студентки 4 курсу

спеціальності «Прикладна лінгвістика»

Бойко Анастасії

Вінниця — 2014

ЗМІСТ

ВСТУП

РОЗДІЛ 1. КВАНТИТАТИВНА СПЕЦИФІКА УКРАЇНСЬКОГО ФОЛЬКЛОРУ НА ПРИКЛАДІ КАЗОК УКРАЇНСЬКОЇ МОВИ НА МОРФОЛОГІЧНОМУ РІВНІ

1.1 Частотний аналіз на морфологічному рівні

1.2 Коефіцієнт варіації за результатами частотного аналізу

РОЗДІЛ 2. КВАНТИТАТИВНА СПЕЦИФІКА ФОЛЬКЛОРУ РІЗНИХ НАРОДІВ НА ПРИКЛАДІ КАЗОК ТРЬОХ МОВ (УКРАЇНСЬКА, АНГЛІЙСЬКА ТА РОСІЙСЬКА) НА СИНТАКСИЧНОМУ РІВНІ. КОМПАРАТИВНИЙ АСПЕКТ

2.1 Частотний аналіз на синтаксичному рівні

2.2 Коефіцієнт варіації за результатами частотного аналізу

2.3 Метод Флеша та Флеша — Кінсейда

ВИСНОВКИ

?ВСТУП

Мета — окреслити основні параметри та особливості українського фольклору, здійснити квантитативний аналіз українських казок «Колобок», «Казка про Іваньку-дурачка», «Хлопчик мізинчик» на морфологічному та синтаксичному рівнях, виконати компаративний аналіз зазначених творів з іншомовними казками аналогійного сюжету: англійськими казками «Johnny-Cake», «Lazy Jack» та «Tom Thumb», а також російськими відповідниками «Колобок», «Сказка про Иванушку-дурачка», «Мальчик с пальчик» відповідно.

Для успішної реалізації мети ми розв’язали такі завдання:

ознайомилися з науковою літературою з теми;

визначили кваліфікаційні ознаки та базові особливості українського фольклору; український фольклор варіація казка

зробили вибірку з українських казок та підібрали іншомовні відповідники аналогійного сюжету (по 3 казки з кожної мови);

методом частотного аналізу та за допомогою створеного корпусу текстів окреслили квантитативну специфіку українського фольклору на морфологічному рівні;

методом частотного аналізу окреслили квантитативну специфіку фольклору зазначених народів на синтаксичному рівні;

для отримання більш якісних результатів визначили коефіцієнт варіативності для кожного з етапів дослідження;

за допомогою індексу Флеша — Кінсейда визначили складність текстів казок різних народів, здійснили компаративний аналіз складності читання на синтаксичному рівні;

отримані результати проілюстрували таблицями та діаграмами різних типів.

Об'єктом дослідження є казки української мови: «Колобок», «Казка про Іваньку-дурачка», «Хлопчик-мізинчик», їхні англійські аналоги: «Johnny-Cake», «Lazy Jack» та «Tom Thumb», а також російські відповідники: «Колобок», «Сказка про Иванушку-дурачка», «Мальчик с пальчик».

Предметом дослідження є квантитативні особливості українського фольклору на морфологічному рівні та квантитативні особливості казок трьох зазначених народів на синтаксичному рівні.

Методи роботи. У роботі використовується описовий метод дослідження мовного матеріалу з використанням компонентного аналізу, метод вибірки, метод квантитативного аналізу, кореляційний та порівняльний методи, коефіцієнту варіації, критерію Флеша — Кінсейда, частотного аналізу.

Джерельною базою дослідження слугували тексти казок української мови: «Колобок», «Казка про Іваньку-дурачка», «Хлопчик-мізинчик», їхні англійські аналоги: «Johnny-Cake», «Lazy Jack» та «Tom Thumb», а також російські відповідники: «Колобок», «Сказка про Иванушку-дурачка», «Мальчик с пальчик».

Теоретичне значення роботи визначається тим, що вона являє собою аналіз параметричних характеристик українського, англійського, російського фольклору, надається їхня порівняльна характеристика. Результати проведеного дослідження можуть бути використаними в подальших теоретичних розробках.

Практичне значення роботи полягає у тому, що результати дослідження можна використати для різних лінгвістичних та лексикографічних робіт, подальшого дослідження фольклору різних народів, статистичної структури текстів казок.

РОЗДІЛ 1. КВАНТИТАТИВНА СПЕЦИФІКА УКРАЇНСЬКОГО ФОЛЬКЛОРУ НА ПРИКЛАДІ КАЗОК УКРАЇНСЬКОЇ МОВИ НА МОРФОЛОГІЧНОМУ РІВНІ

1.1 Частотний аналіз на морфологічному рівні

Обчислимо частоту вживання базових частин мов: іменника, прикметника, дієслова, прислівника, займенника, числівника у казках української мови. Задля більш якісного та швидкого аналізу створимо корпус казок за допомогою корпусного менеджера Manatee/Bonito. (див. Рис. 1).

Рис. 1

За допомогою корпусу обчислимо кількість вживаних у казках частин мови та їхнє співвідношення. (див. Табл. 1)

Частота вживання іменника, прикметника, дієслова, прислівника, займенника та числівника в українських казках

Колобок

Казка про Іваньку-дурачка

Хлопчик-мізинчик

Усього

349

1814

325

іменники

75

318

57

прикметники

4

55

10

дієслова (у т.ч. форми)

92

390

91

прислівники

7

94

29

займенники

58

237

41

числівники

0

16

6

інше

113

704

91

Табл. 1

Аналіз Таблиці 1 показує, що у зазначених казках у відсотковому плані базові частини мови співвідносяться майже однаково. Для наочності побудуємо кругові діаграми. (див. Рис. 2, Рис. 3, Рис. 4).

Рис. 2

Рис. 3

Рис. 4

1.2 Коефіцієнт варіації за результатами частотного аналізу

Тепер, аби переконатися у тому, що відсоткове співвідношення у казках української мови є лімітованим та стандартизованим та казки здебільшого мають дієслівний тип, або спростувати цю гіпотезу, визначимо коефіцієнт варіації для цього етапу дослідження за формулою:

де V — коефіцієнт варіації;

x? — середнє аріфметичне;

у — середнє квадратичне відхилення; виражається за формулою

де у — середнє квадратичне відхилення;

xi — середина інтервалу;

ni — частоти вживання;

x? — середнє аріфметичне.

Різницю між варіаційними рядами (відсотками вживання частин мови у різних казках однієї мови у нашому випадку) за коливанням навкого середнього значення можна виразити лише за допомогою у — середнього квадратичного відхилення, адже ми маємо однакові одиниці виміру, аналізуємо варіаційні ряди, варіанти яких були отримані на основі однієї ознаки. Але і у нашому випадку для більш точних результатів доречним виступає використання формули коефіцієнту варіації, тобто такої відносної величини, що виражає співедношення між середньоквадратичним відхиленням та середнім аріфметичним. Отже, наочно продемонструємо коефіціент варіації частоти вживання частин мови в українських казках. (див. Табл. 2)

Коефіцієнт варіації на морфологічному рівні

іменники

прикметники

дієслова (у т.ч. форми)

Стандартне відхилення

0,2 284

0,1 102

0,3 381

Середнє аріфметичне

0,18 853

0,2 418

0,25 287

Коефіцієнт варіації

12,11%

45,57%

13,37%

прислівники

займенники

числівники

Стандартне відхилення

0,3 463

0,2 193

0,923

Середнє аріфметичне

0,5 370

0,14 100

0,9 627

Коефіцієнт варіації

64,48%

15,55%

9,59%

Табл. 2

РОЗДІЛ 2. КВАНТИТАТИВНА СПЕЦИФІКА ФОЛЬКЛОРУ РІЗНИХ НАРОДІВ НА ПРИКЛАДІ КАЗОК ТРЬОХ МОВ (УКРАЇНСЬКА, АНГЛІЙСЬКА ТА РОСІЙСЬКА) НА СИНТАКСИЧНОМУ РІВНІ. КОМПАРАТИВНИЙ АСПЕКТ

2.1 Частотний аналіз на синтаксичному рівні

Казки як різновид фольклору розповсюджені по усій земній кулі. Проте є певні культурні, етнічні, релігійні, історичні та інші внутрішні відмінності у казках різних народів. Вочевидь, такі відмінності можуть виражатися і у квантитативному аспекті.

Розглянемо казки трьох народів: українські, англійські, російські. Вибірка складатиме по три казки кожної з мов зі схожою сюжетною лінією: казки української мови: «Колобок», «Казка про Іваньку-дурачка», «Хлопчик-мізинчик», їхні англійські аналоги: «Johnny-Cake», «Lazy Jack» та «Tom Thumb», а також російські відповідники: «Колобок», «Сказка про Иванушку-дурачка», «Мальчик с пальчик».

Порівняємо казки трьох народів із синтаксичної точки зору. Для цього порівняємо середню довжину речення, а отже складність читання казок кожної з мов. Також за допомогою формули Флеша — Кінсейда проаналізуємо гармонійність та загальну читабельність текстів казок різних народів.

Середня довжина речення

Отже, для обчислення середньої довжини речення (СДР) треба загальну кількість слів поділити на кількість речень (див. Табл. 3).

Для наочності та виявлення відмінностей побудуємо гістограми на базі значень СДР для кожної з казок. (Див. Рис. 5, Рис. 6, Рис. 7).

Рис. 5 Рис. 6

Рис. 7

Визначимо коефіцієнт варіативності, щоб виявити, наскільки наші показники середньої довжини речення є постійною ознакою для казок поданих мов. (Див. Табл. 4)

Коефіцієнт варіації на синтаксичному рівні (компаративний аспект)

Мова

укр

англ

рос

Стандартне відхилення

1,3

4,5

3,4

Середнє аріфметичне

9,2

20,9

10,6

Коефіцієнт варіації

13,6%

21,4%

31,8%

Табл. 4

Як бачимо, коефіцієнт варіації є меншим за 50%. Тобто, можна казати про те, що середня довжина речення у різних зразках фольклору не істотно відхиляється від середнього значення СДР для фольклору певного народу.

Тепер можемо за допомогою формули Флеша вирахувати гармонійність казок трьох народів, індекс легкості читання.

Цей тест оцінює текст за 100-бальною шкалою. Чим вище оцінка, тим легше зрозуміти твір. Формула для визначення легкості читання за Флешем така:

RE = 206,835 — (1,015 x СДР) — (84,6 x СКС)

де:

СДР = середня довжина речення (кількість слів, поділена на кількість речень)

СКС = середня кількість складів у слові (кількість складів, поділена на кількість слів)

Отже, дані СДР для кожної з казок кожною мовою ми вже маємо. Тепер порахуємо СКС та визначимо легкість читання казок. (див Табл. 5).

Тест легкості читання Флеша

Колобок

Казка про Іваньку-дурачка

Хлопчик-мізинчик

Мова

укр

англ

рос

укр

англ

рос

укр

англ

рос

Кількість складів

609

1331

774

3404

1113

4503

667

3787

820

Кількість слів

349

834

407

1814

702

2234

325

2511

427

СКС

1,74

1,60

1,90

1,88

1,59

2,02

2,05

1,51

1,92

СДР

10,00

18,50

14,50

9,80

26,00

9,20

7,70

18,10

8,20

RE

49,06

53,04

31,23

38,13

46,31

26,97

25,39

60,87

36,05

Табл. 5

Визначимо коефіцієнт варіації для кожної з мов: (Див. Табл. 6)

Мова

укр

англ

рос

Стандартне відхилення

11,8

7,3

4,5

Середнє аріфметичне

37,5

53,4

31,4

Коефіцієнт варіації

31,6%

13,6%

14,5%

Табл. 6

Індекс за шкалою FRES (Flesch Reading Ease Scale) розподіляється таким чином:

100: Дуже легко читається. Середня довжина речення складає 12 або менше слів. Немає слів з більш ніж двох складів.

65: проста мова. Середня довжина речення складає від 15 до 20 слів. У середньому довжина речення складає від 15 до 20 складів. У середньому слова мають 2 склади.

30: Трохи складно читати. Речення містять до 25-ти слів. Зазвичай, двоскладні слова.

0: Дуже важко читати. У середньому речення має 37 слів. У середньому речення має 37 слів. Слово має у середньому більше 2-х складів.

Оцінка класу за Флешем — Кінсейдом

Цей тест оцінює текст відповідно до кількості класів в американській школі. Наприклад, оцінка 8,0 означає, що документ може зрозуміти американський восьмикласник. Для більшості документів бажана оцінка має становити в середньому від 7,0 до 8,0.

Формула для оцінки класу за Флешем — Кінсейдом така:

FRE = (0,39 x СДР) + (11,8 x СКС) — 15,59

де:

СДР = середня довжина речення (кількість слів, поділена на кількість речень)

СКС = середня кількість складів у слові (кількість складів, поділена на кількість слів)

Маємо такі результати: (Див. Табл. 7)

Мова

укр

англ

рос

укр

англ

рос

укр

англ

рос

Кількість складів

609,00

1331,00

774,00

3404,00

1113,00

4503,00

667,00

3787,00

820,00

Кількість слів

349,00

834,00

407,00

1814,00

702,00

2234,00

325,00

2511,00

427,00

СКС

1,74

1,60

1,90

1,88

1,59

2,02

2,05

1,51

1,92

СДР

10,00

18,50

14,50

9,80

26,00

9,20

7,70

18,10

8,20

FRE

8,90

10,46

12,51

10,37

13,26

11,78

11,63

9,27

10,27

Табл. 7

Як бачимо з таблиці, теорія оцінки класу за Флешем — Кінсейдом не є найкращим показником легкості читання. Адже результати розрахунків показують, що казки, розраховані для малюків та дітей молодшого шкільного віку здатні сприймати учні 8−13 класів.

Визначимо коефіцієнт варіації для кожної з мов: (Див. Табл. 8)

Мова

укр

англ

рос

Стандартне відхилення

1,4

2,0

1,1

Середнє аріфметичне

10,3

11,0

11,5

Коефіцієнт варіації

13,3%

18,6%

9,9%

Табл. 8

ВИСНОВКИ

У результаті роботи ми дійшли таких висновків.

На морфологічному рівні існують певні закономірності частотності вживання частин мов в українському фольклорі. У відсотковому співвідношенні частини мови у трьох казках української мови розподіляються відносно рівномірно. Найчастотнішим виявляється вживання дієслів. Коливання значень для різних частин мови у зразках українського ольклору, зокрема у казках: «Колобок», «Казка про Іваньку-дурачка», «Хлопчик мізинчик» навколо середнього є незначними. Показники коефіцієнту варіації менше 50% означають, що такі частоти вживання різних частин мови притаманні українському фольклору, зокрема казкам. Крім того, тип мови у таких творах є дієслівним, тобто важливішими виступають дії персонажів, а не їхній опис та образність.

На синтаксичному рівні є певні відмінності між казками трьох зазначених мов. Середня довжина речення є найбільшою для англійської мови, відповідно за критеріями RE та FRE саме англійські казки є найскладнішими для читання серед трьох мов. Тоді як середня кількість складів у слові найбільшою є у російській мові, що також певним чином впливає на легкість читання текстів. Визначені для кожного випадку коефіцієнти варіації дозволяють зрозуміти, що отримані параметри не сильно відхиляються від середніх та є відносно постійними та лімітованими.

Поза всяким сумнівом, формули RE та FRE не є вичерпними для визначення трудності читання. У всякому разі, вони не чутливі до вживання метафор; вони не звертають уваги на довгі слова, які можуть бути добре знайомі читачеві (напр., Масачусетс); і вони не враховують як семантичної, так і синтаксичної структури речень. Однак її використання дозволяє порівнювати на основі єдиної шкали як легкість читання (що ріднить її зі стандартними тестами читання) різноманітних текстів, так і інтерес до них.

Показать Свернуть
Заполнить форму текущей работой