О І Ванівська - Корпусні та лексикографічні технології опису мовної системи термінознавство - страница 2

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96 

-   слова, що пов'язані з чиновництвом, - officials, police;

-   слова, що пов'язані зі спортом, - players, referee;

-   слова, що пов'язані з правовим процесом, - trial, charges, investigation, accused, etc.

Таке групування слів надає інформацію не лише про значення заданих слів, але й про деякі культурні розга­луження поняття, що позначено словом bribery.

Так, ми намагалися переглянути також використання дієслова bribe в BNC і виявилось, що воно використову­ється переважно з часткою to; це стосується давання хабара у вищезгаданих Д. Орпіном контекстах, і лише у 9-ти з 86 прикладів це дієслово використовується без частки to: у п'яти прикладах іде перерахунок дій за допомогою сполучника and (наприклад: I'd have to go to Parliament and bribe them to pass a law specially for my divorce), у двох -виражена майбутня дія з використанням допоміжного дієслова майбутнього часу will (наприклад: We detest you so much we will bribe you to go away), і ще у двох прикладах вказані особи, що дають хабаря - I, they (наприклад: They telephone all day; they run after me in the streets; they bribe my barber for locks ofmy hair; they make my life unbearable). Форма bribed використовується дещо частіше - у 98 прикладах, здебільшого в часовій формі звичайного минулого часу (I think my guards bribed him to let us pass. They had bribed the executioner to jam a wooden peg in the side of the guillotine to stop the blade from falling all the way down. So you've bribed them along with a promise of sweets).

Слід зазначити, що під час аналізу словосполучень і сталих виразів головне - це визначити важливість суттє­вих, показових словосполучень, а не намагатися їх якимось чином інтерпретувати.Наступний підхід до аналізу мовних даних стосується розмітки, завдяки якій можна обрати слово і вказати, що воно нас цікавить тільки, наприклад, як дієслово. Також можна порівняти відносну частотність вживання конкретного слова як різних частин мови (у випадках конверсії), або проаналізувати і порівняти, в яких сферах людської діяльності частіше використовується та чи інша частина мови. Зазвичай, точність, з якою розмітка видає інформацію, становить 90 %, тому необхідно пам'ятати, що в деяких випадках слід зважати на судження самої людини-дослідника (користувача), особливо якщо слово вживається у невластивому для нього способі. В такому випадку деякі уточнення вносять вручну [30, p. 80].

Існує також і граматичний розбір речень у корпусі, за допомогою якого ідентифікують загальні межі речення, фрази та звороти, що супроводжуються помітками, такі як прислівниковий зворот (adverbial clause), іменниковий зворот (nominal clause), порівняльний зворот (relative clause), прикметникова фраза (adjective phrase), приймен­никова фраза (prepositional phrase). Цей аналіз мовних даних був запропонований такими лінгвістами як Джефрі Ліч і Елізабет Айз [32, p. 34]. Проте, комп'ютерні програми, написані для виконання граматичного розбору, не є на 100 % точними, і тому такі корпуси з граматичним розбором часто редагують вручну для досягнення вищого ступеня точності. Необхідно додати, що на основі таких корпусів виконано і виконуються чимало статистичних праць, пов'язаних з різними реєстрами, зокрема праці Дугласа Байбера [30, p. 84].

Ще один підхід до аналізу мовних даних у корпусній лінгвістиці стосується такої важливої характеристики як зв'язність тексту: аналіз використання слів і фраз у тексті, поєднаних зі словами і виразами, що стоять перед і після них [29]. Деякі слова-зв'язки використовуються для того, щоб підсумовувати, позначати чи виражати пев­ний відрізок дискурсу, і таким чином відіграють роль в організації тексту [26, p. 83; 27]. У схемах, які описують (анотують) зв'язки в текстах, використовується термін анафора [39, p. 6].

Можуть бути використані різні варіанти анотації для того, щоб проаналізувати анафору в тексті, але більшість з них мають щось спільне з наступними [28, p. 66]:

розпізнає анафору і антецедент (слово чи фраза, до якої належить анафора), або визначає, чи взагалі можна розпізнати антецедент;

поділяє антецедент на категорії (як номінативний, підрядний та ін.);

розпізнає напрямок зв'язку (forward or backward);

розпізнає тип анафори (відношення (reference), заміни (substitution) і ін.);

визначає відстань між анафорою та її антецедентом.

Мабуть, найцікавішим із вищезазначеного є зв'язок між анафорою і антецедентом. При застосуванні такого підходу кожному антецеденту присвоюється номер і такий самий номер закріплюється за анафорою, що до нього належить [28, p. 72]. Наприклад:

(1 A man carrying a blue sports bag 1) ... was arrested when <REF=1 he... Приклад свідчить, що напрямок зв'язку є зворотним (backwards); REF означає "відношення (reference)". Таким чином, можна простежити за роз­витком тексту, показавши, що з чим найчастіше співвідноситься. Але недолік такого виду анотації в тому, що її неможливо робити автоматично, отже, об'єм тексту, який можна закодувати, обмежений [35, p. 261]. Проте, з іншого боку, така форма анотації відкриває нові перспективи й захоплюючі можливості у виявленні цікавих нюансів про типи анафор і антецедентів, що найчастіше трапляються в різних реєстрах, про те, які типові зміни відбуваються з анафорою під час розвитку тексту, і, врешті-решт, дає змогу представити анафоричний аналіз частин текстів у різних реєстрах.

Існує також і семантична анотація даних, яка полягає в тому, щоб розділити слова і фрази в корпусі на кате­горії за семантичними полями [41, p. 52]. Такий підхід до аналізу мовних даних запропонували Джеррі Томас і Ендрю Вілсон, які досліджували стосунки між лікарями та пацієнтами двох клінік [40, p. 92]. Використовуючи таку систему засобів семантичної класифікації, комп'ютер вираховує найчастіші значення висловлювань, що вживають лікарі, медпрацівники та пацієнти. Результат проведеного аналізу свідчить, що один з лікарів викорис­товував більше особових займенників, підбадьорювальних слів, і, таким чином, його вважали більш комуніка­бельним і приязним до пацієнтів. Водночас, інший лікар використовував більше медичних термінів, пояснював пацієнтам перебіг хвороби. Як виявили вищезгадані науковці в своєму дослідженні, пацієнти були більше задо­волені методами лікування першого лікаря, ніж другого, тобто їм приємніше було розмовляти про їхнє лікування, ніж про перебіг самої хвороби [30, p. 89].

Така автоматична анотація відіграє неабияку роль під час аналізу великої кількості текстових даних, що було б складно і нераціонально робити повністю вручну [40, p. 106]. З метою вивчення отриманих результатів та з урахуванням деяких відмінностей і внесених уточнень, згодом роблять так званий "якісний аналіз дослідження".

Необхідно згадати ще про таку анотацію, як різновид семантичної анотації, тобто йдеться про часткову анота­цію, що стосується певної категорії, наприклад, висловів про "позицію" чи "думку". Цей підхід до аналізу мовних даних у корпусній лінгвістиці застосували Дуглас Байбер і Едвард Файнеган [22, с. 93], а також Сюзан Конрад і Д. Байбер [24, с. 57]. До цієї категорії увійшли такі мовні дані як, наприклад, прислівники (напр. probably), ре­чення (напр. I think) і прийменникові фрази (напр. on the whole). Таким чином, було проаналізовано і зазначено, що прислівники часто використовують для граматичного вираження думки (позиції) у всіх трьох досліджуваних реєстрах, а саме: в розмовному мовленні, в газетних статтях і в академічній прозі, але найчастіше - в розмовній мові. Такі речення, як I think і I guess також найчастіше трапляються в розмовній мові. В академічній прозі та газетних статтях, окрім прислівників, ще широко використовують прийменникові фрази.

Корпусна анотація такого плану створює основу для підходу до корпусу з точки зору значення і може по­єднуватись зі смисловим (понятійним) підходом до вивчання мови. Як зазначає М. М. Полюжин, морфологічні категорії необхідно вивчати "у зв'язку з когнітивними здібностями людини, що проявляються у проникненні в суттєві структури лексичних і словотворчих категорій" [15, с. 129]. Отже, варто сказати, що такий анотованийкорпус дає змогу відповідати на запитання, які слова чи фрази найбільше підходять до ситуації, коли учень (сту­дент) має щось сказати в певному контексті.

Існують три основні методи анотації корпусу: вручну, за допомогою комп'ютера та автоматичний [23, с. 35­37], з яких два останніх методи можуть використовуватись виключно для найменших корпусів. Зрозуміло, що при автоматичній анотації комп'ютер працює самостійно, відповідно до закладених в ньому правил і алгоритмів, і виконує анотацію будь-якого за об'ємом корпусу відносно швидко, але малоймовірно, що результати будуть на 100 % точними порівняно з результатами людини-дослідника. Що ж стосується анотації корпусу за допомогою комп'ютера, то вона дає змогу користувачеві коригувати комп'ютерний вивід даних (як при більшості граматич­ного розбору) і, таким чином, вручну покращити точність отриманих результатів, хоч ця робота буде виконана повільніше і в невеликому обсязі [30, p. 91].

Підсумовуючи все вище викладене, слід зазначити, що простір електронних текстових корпусів мовних даних дає можливість їх результативного використання, що відкриває перспективи моделювання мовної картини світу. Щоб обрати правильний підхід до аналізу мовних даних у корпусній лінгвістиці, необхідно знати, на яке питання ми хочемо отримати відповідь. Наприклад, якщо ми хочемо знати, як використовується певне слово, то найкраще використовувати звичайний корпус мовних даних; якщо необхідно визначити, яка анафора найчастіше вживаєть­ся в академічній прозі, то нам потрібен анотований корпус, і т. д.

Щоб провести ефективний корпусний аналіз, треба мати чітко сплановану картину дослідження. Для початку, необхідно визначити мету дослідження. Наступним має бути правильний вибір самого корпусу, який мав би міс­тити необхідний для дослідження матеріал. Далі слід вибрати відповідний програмний пристрій для проведення аналізу та кодування отриманих результатів. Якщо дотримуватись усіх правил, то можна бути спокійним, що отримані результати матимуть неабияку лінгвістичну цінність [34, p. 137].

Література:

1.Бук С. Учнівські корпуси в методиці викладання іноземної мови [Електронний ресурс]. - Режим доступу : http://www.franko.lviv. ua/faculty/Philol/www/teoria_praktyka_ukr_mova/vyp_2/3.%20Buk.pdf, 2007.

2.Гвишиани Н. Б. Корпусная лингвистика и граматика речи / Н. Б. Гвишиани, О. Ю. Герви // Вестн. Моск. ун­та. - М., 2001. - № 2. - С. 46-62.

3.Демська-Кульчицька О. Що нового в науці про мову ? [Електронний ресурс]. - Режим доступу : http://www. kulturamovy.org.ua/KM/pdfs/Magazine61 -16.pdf

4.Жаботинская С. А. Концептуальный анализ : типы фреймов // Вісник Черкаського університету. - Черкаси, 1999. - Вип. 11. - С. 12-25.

5.Жаботинская С. А. Когнитивная лингвистика : принципы концептуального моделирования // Лінгвістичні студії. - Черкаси, 1997. - С. 3-11.

6.Карпіловська Є. А. Вступ до прикладної лінгвістики : комп'ютерна лінгвістика / Є. А. Карпіловська. -Донецьк : Юго-Восток, 2006. - 188 с.

7.Корпусна лінгвістика [Електронний ресурс]. - Режим доступу : http://uk.wikipedia.org/wiki/Корпусна_лінгвіс-тика

8.Коциба Н. Морфосинтаксичне тагування польсько-українського паралельного корпусу (PolUKR) [Електро­нний ресурс]. - Режим доступу : http://www.domeczek. pl/~natko/papers/megaling2008.pdf, 2008.

9.Кутузов А. Б. Корпусная лингвистика. Лекция 2 [Електронний ресурс]. - Режим доступа : http://tc.utmn.ru/files/ corpus_2.pdf

 

10.Левицкий В. В. Квантитативные методы в лингвистике / В. В. Левицкий. - Черновцы : Рута, 2004. - 190 с.

11.Максимів О. Корпус текстів перської мови як джерело матеріалу для навчальних словників-мінімумів [Елек­тронний ресурс]. - Режим доступу : http://www.lnu.edu.ua/faculty/Philol/www/visnyk/45/21. %20Maksymiv.pdf, 2008.

12.Монахова Т. В. Застосування прийомів корпусної лінгвістики в лексикографії [Електронний ресурс]. - Режим доступу : http://www.nbuv.gov.ua/portal/Soc_Gum/Npchdu/Philology.Linguistics/2009_85/85-11.pdf, 2009.

13.Нагель О. В. Корпусная лингвистика и ее использование в компьютеризованном языковом обучении [Елек­тронний ресурс]. - Режим доступа : http://www.lib. tsu.ru/mminfo/000349304/04/image/04-053.pdf

14.Плугнян В. Почему современная лингвистика должна быть лингвистикой корпусов [Електронний ресурс]. -Режим доступа : http://www.polit.ru/lectures/2009/10/23/corpus.html, 2009.

15.Полюжин М. М. Функціональний і когнітивний аспекти англійського словотворення. - Ужгород : Закарпаття, 1999. - 240 с.

16.Рыков В. В. Корпусная лингвистика [Електронний ресурс]. - Режим доступа : http://rykov-cl.narod.ru/chtml, 2002.

17.Смашнюк О. І. Маркери емоційності у спонтанній комунікації (на матеріалі Британського наці. корпусу тек­стів) : дис.... канд. філол. наук : 10. 02. 04 "Германські мови" / Смашнюк Оксана Іванівна. - К., 2008. - 238 с.

18.Хоменко Ф. В. Комп'ютерна лексикографія при вивченні іноземної мови [Електронний ресурс]. - Режим до­ступу : http://ev.nuos.edu.ua/content/komp%E2 %80 %99yuterna-leksikograf %D1%96ya-pri-vivchenn %D1 %96-%D1 %96nozemnoi-movi, 2010.

19.Шипнівська О. О. Структурно-семантичні та функціональні характеристики міжчастиномовної морфоло­гічної омонімії сучасної української мови : дис.... канд. філол наук : 10. 02. 01 / Шипнівська Ольга Олександрівна [Електронний ресурс]. - Режим доступу : http://www.lib.ua-ru.net/diss/cont/339734.html, 2007.

20.Широков В. А. Корпусна лінгвістика : [монографія] / В. А. Широков, О. В. Бугаков, Т. О. Грязнухіна, О. М. Костишин, М. Ю. Кригін, Т. П. Любченко, О. Г. Рабулець, О. О. Сидоренко, Н. М. Сидорчук, І. В. Шевченко, О. О. Шипнівська, К. М. Якименко. - К. : Довіра, 2005. - 471 с.

21.Barlow M. Corpora for theory and practice / M. Barlow. - International journal of corpus linguistics. - № 1. -1996. - P. 1-37.Biber D. and Finegan E. Style of stance in English : lexical and grammatical marking of evidentiality and affect. -Text 9. - 1989. - Р. 93-124.

22.Biber D. Longman Grammar of Spoken and Written English / D. Biber, S. Johansson, G. Leech, S. Conrad, E. Finegan. - London : Longman, 1999.

23.Conrad S. and Biber D. Adverbial marking of stance in speech and writing / Eds. Hunston and Thompson. -2000. - Р. 57-73.

24.Crystal D., Davy D. Investigating English style / David Crystal & Derek Davy. - London : Longman, 1969. - 260 p.

25.Francis G. Labelling discourse: an aspect of nominal-group lexical cohesion / Ed. M. Coulthard // Advances in Written Text Analysis. - London : Routledge. - 1994. - P. 83-101.

26.Francis W. N., Kucera H. A. Standard Corpus of Present-Day Edited American English (Brown corpus) / W. N. Francis, H. A. Kucera. - Providence : Brown University, 1979.

27.Garside R., Flidgestone S., and Botley S. Discourse annotation : anaphoric relations in corpora / Eds. Garside et al. - 1997. - Р. 66-84.

28.Halliday M. A. K. Cohesion in English / Halliday M. A. K. and Hasan R. - London : Longman, 1976.

29.Hunston S. Corpora in Applied Linguistics / S. Hunston. - Cambridge. - 2002. - 254 p.

30.Kies D. Form and Function of Word Classes in English / D. Kies [Електронний ресурс]. - Режим доступу : http:// papyr.com/hypertextbooks/grammar/word. htm, 2010.

31.Leech G. Syntactic annotation: treebanks / Leech G., Eyes E., Garside et al. - 1997. - Р. 34-52.

32.Lifejournal. Maksymus. Корпусна лінгвістика [Електронний ресурс]. - Режим доступу: http://maksymus. livejournal.com/87361.html, 2009.

33.Meyer C. F. English Corpus Linguistics / C. F. Meyer. - 2004. - 168 p.

34.Mitkov R. Towards automatic annotation of anaphoric links in corpora / R. Mitkov // International Journal of Corpus Linguistics 4th ed. - 1999. - P. 261-280.

35.Orpin D. The lexis of corruption in the news: a corpus-based study in ideology / D. Orpin // Unpublished MA dissertation, University of Birmingham. - 1997.

36.Renouf A. Collocational frameworks in English / A. Renouf, J. M. Sinclair; eds. Aijemer and Altenberg. - 1991. -P. 128-144.

37.Sinclair J. M. A way with common words / Eds. H. Hasselgard and Oskefjell // Out of corpora : Studies in honour of Stig Johansson. - Amsterdam : Rodopi. - 1999. - Р. 157-179.

38.Sinclair J. M. Written discourse structure / Eds. J. M. Sinclair, M. Hoey and G. Fox // Techniques of description. -London : Routledge, 1994. - P. 6-31.

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96 


Похожие статьи

О І Ванівська - Корпусні та лексикографічні технології опису мовної системи термінознавство