Обзор количественных подходов к русскому языку


В русской лингвистике существует традиция количественных / математических лингвистических исследований, которая восходит к 19 веку. Количественная лингвистика (КЛ) на русском языке была разработана одновременно с международными исследованиями КЛ. Фактически был бум российских количественных исследований в 1960–1980-х годах, наиболее известная из которых, в том числе группа Пиотровского «Statistika Reći» («Статистика условно-досрочного освобождения»), серия количественных исследований Тулдавы о лексических системах и работа Арапова по количественной лингвистике и т.д. Эксперты из группы «Статистика условно-досрочного освобождения» являются не только лингвистиками, но также и другими дисциплинами, такими как информатика, математика, психология и статистика и т. д. Однако исследования КЛ просто исчезли после распада Советского Союза, хотя есть еще несколько отличных исследователей КЛ, таких как Б. Б. Кромер и А. А. Поликарпов. Келих (2008) провел более систематическое историческое исследование применения количественных методов в русском языкознании и литературоведении, для обзора см. Лю (2010).

Тем не менее, многие крупные и глубоко аннотированные корпуса доступны в настоящее время для обширных количественных исследований, таких как Российский национальный корпус, ruWac и ruTenTen, и это лишь некоторые из них. Большинство этих статей в этом томе являются достижениями семинара под названием «Количественные подходы к русскому языку», который состоялся в августе 2015 года в Хельсинки, Финляндия, совместно с симпозиумом «Новые разработки в количественном изучении языков». Этот том является новой попыткой в ​​этой области, применяя новейшие новые методы, такие как инструменты НЛП, математические модели и алгоритмы машинного обучения, для количественного анализа больших данных на русском языке, при этом методы также оцениваются. Этот том ориентирован на количественную методологию и обработку данных русского языка ( про  экзамен по русскому языку описание тут), представляющую современные исследования в русском языке QL. В этом томе десять статей, включая первую вводную главу, которая состоит из четырех частей, посвященных следующим темам:

Часть Ⅰ. Вводные главы, в том числе 2 вклада, открывается вступительной статьей под названием «Российские вызовы для количественного исследования» Михаила Копотева, Ольги Ляшевской и Арто Мустайоки, которые также являются редакторами этого тома. Авторы начинают с того, что заявляют, что цель настоящего тома состоит в том, чтобы представить текущие тенденции в изучении качества жизни в России, оценить новые методы и методы исследования по отношению к российским данным, а также показать преимущества и недостатки методов и моделей.  Затем они описывают основные особенности русского языка и оглядываются на количественные (корпусные) исследования на русском языке (2000–2010 годы), делая вывод, что необходимо охватить многие темы грамматики и лексики, и необходимо привести больше примеров количественных подходов. предоставлена. Далее, вклады в этом томе представлены. Инвентаризация интернет-источников и количественные методы, используемые в этом томе, суммированы в конце, что делает его выгодным для расследования.

Другой вклад этой части «Большие данные и частота слов: измерение согласованности российских корпусов» Марии Хохловой направлен на сравнение языковых явлений в основных российских корпусах разных размеров. В частности, рассматриваются 3 языковых феномена, то есть синтаксические отношения, включающие существительные, высокочастотные существительные и низкочастотные существительные; Корпуса включают ruWac и ruTenTen; Основными количественными методами являются оценка логарифмического правдоподобия и коэффициент корреляции Спирмена. Результаты, полученные для синтаксических отношений, включающих существительные в ruWac и ruTenTen, сравниваются друг с другом, и анализ показывает, что эти два корпуса в значительной степени похожи по наличию синтаксических отношений. Результаты высокочастотных и низкочастотных русских существительных сравнивались с данными, опубликованными в «Частотном словаре современного русского языка», которые показывают, что существуют разные ситуации для сравнения высокочастотных и низкочастотных распределений. Дальнейшие исследования необходимы для большей части речи и других лучших показателей.

Часть II. Темы в семантике, точнее говоря, лексическая семантика, содержит 3 вклада. Он начинается со статьи Ольги Ляшевской под названием «Поиск контекстуальных сигналов для дифференциации модальных значений: исследование на основе корпуса», Мария Овсянникова, Нина Шимор и Дагмар Дивяк. Важным свойством модальных слов является то, что они в значительной степени неоднозначны. Таким образом, можно считать, что модалы являются «словесными элементами, которые являются полифункциональными в том смысле, что они выражают не менее двух типов модальности». Авторы предполагают, что наличие больших данных о корпусе открывает путь для изучения эмпирической достоверности существующих классификаций, первоначально предложенных философами. Затем, чтобы проверить, могут ли контекстные сигналы, то есть 12 формальных и семантических признаков (модальных), предсказать тип и функцию модальных слов, были выбраны наиболее часто встречающиеся 6 русских глаголов, и для каждого слова было извлечено 250 предложений из РНК. Аннотация контекстных подсказок для каждого слова в предложениях была сделана двумя экспертами вручную. Для достижения цели использовались два метода визуализации, то есть многократный анализ соответствия и заштрихованные мозаичные графики, и два логически выведенных статистических метода, то есть политомная логистическая регрессия и классификация и случайный лес. Результаты показывают, что, как правило, тип или функцию можно предсказать из подсказок контекста, также с некоторыми исключениями, которые требуют дальнейшего изучения в будущем.

Исследование под названием «Автоматическая оценка частоты словосочетаний для русских существительных» Анастасия Лопухина, Константин Лопухин и Григорий Носырев - первое исследование по частотным распределениям чувств в русском языке. Статья начинается с известного наблюдения Г. к. Zipf (1945), утверждая, что слова, используемые чаще, обычно имеют больше смыслов, чем слова, которые используются реже. Хотя в настоящее время информация о частоте слов широко доступна, смысловые частоты и их распределения остаются в области лингвистики. В этой статье авторы представляют метод автоматического определения частотных распределений имен существующего из необработанного текста, оценку методов, их сравнение с современной системой и обсуждение его применений. Метод фактически основан на методах устранения неоднозначности смысла слова, обычно используемых в вычислительной лингвистике или НЛП, с использованием распределенных векторных представлений с взвешиванием. Распределенные векторные представления - это способ представления слов как низкоразмерных плотных вещественных векторов, известный как семейство методов word2vec. Лингвистическая гипотеза здесь заключается в том, что слова встречаются в сходных контекстах, как правило, имеют сходное значение. Результаты оценки показывают, что ошибка оценки частоты модели составляет 11-15 процентов. Результаты 440 существительных чувствуют информацию о частоте, а также исходный код онлайн для дальнейшей консультации.

Третий вклад в этой части - Андрей Кутузов и Елизавета Кузьменко «Два века в двух тысячах слов: модели нейронного вложения в обнаружении диахронических лексических изменений». Подобно вышеупомянутому исследованию Лопухиной и др., В этом исследовании прослеживаются семантические изменения русского слова с помощью современной техники моделирования лексического семантического сходства: искусственные нейронные сети (модели нейронного вложения) в НЛП. Основное предположение здесь заключается в том, что онлайн-обучение таких моделей новым текстовым данным приводит к «дрейфу» векторов слов в «семантическом пространстве». В примере, представленном в этом исследовании, используются три подкорпорации СРН: тексты, созданные до советских времен (до 1917 года), в советские времена (1918-1990 годы) и после распада СССР (с 1991 года). После обучения 3 моделей встраивания нейронов в эти 3 подкорпора оцениваются несколько алгоритмов для извлечения слов с меняющимися значениями. В конце концов они пришли к выводу, что сравнение наборов ближайших соседей с использованием τ-расстояния Кендалла лучше всего подходит как для искусственно созданных данных, так и для коротких, скомпилированных вручную наборов данных золотого стандарта. Результаты 2000 существительных и прилагательных, которые претерпели самые значительные изменения, доступны в Интернете для дальнейшего утешения.

ЧАСТЬ III. Темы в лексиконо-грамматическом интерфейсе, включая 3 вклада, начинается с «Грамматических профилей русских двунаправленных глаголов» Александра Пиперского. Биаспектуальные слова могут быть использованы для передачи как совершенного, так и несовершенного значения. В этом исследовании были оценены три количественных метода для определения статуса (более несовершенного или подобного совершенству) двунаправленных глаголов (во времени): оценка относительной частоты их совершенных и несовершенных герунд, классификация их грамматического профиля с использованием алгоритма k Nearest Neighbours и проведение эксперимента по восприятию неотъемлемого аспекта биаспектуальных форм глаголов. Результаты показывают, что их приложения согласуются друг с другом.

Исследование, проведенное Лидией Пивоваровой, Дарьей Кормачевой и Михаилом Копотевым под названием «Оценка методов выделения коллокаций для русского языка», начинается с разграничения лексических и эмпирических словосочетаний, из которых последним является предмет настоящего исследования. Затем авторы рассматривают основные существующие меры для извлечения коллокаций, включая t-показатель, логарифмическое правдоподобие, взаимную информацию, кости и wFR. Затем проводится оценка автоматически полученных словосочетаний путем сравнения как со словарными данными, так и с ответами носителей языка. Оба сравнения показывают, что t-показатель немного лучше, чем другие показатели. Однако все они дают сходные результаты, что означает, что было бы более правдоподобным предположить, что различные меры предназначены для выявления различных видов коллокатов.

Третий вклад в этой части - «От количественного к семантическому анализу: русские конструкции с дативными субъектами в диахронии» Анастасии Бонч-Осмоловской. Автор проводит количественное исследование предикативных и соответствующих прилагательных конструкций с дательными аргументами с диахронической точки зрения. Основная проблема здесь состоит в том, чтобы выявить классы поведения лемм, определенных с точки зрения частоты дательного аргумента в трех формах (то есть предикативной, краткой прилагательной формы и длинной прилагательной формы) и изучить диахронические изменения определенных классов поведения. Данные получены от RNC, и поиск ограничен двумя образцами, один из 18-го века, другой из 21-го века. Восемь лемм отобраны для исследования. Исследование показывает, что частота встречаемости субъектов, говорящих на дательном уровне, отличается от предикатов, и диахронические тенденции наблюдаются с использованием методов иерархической кластеризации.

ЧАСТЬ IV. также заключительная часть, обращает наше внимание на Темы в овладении языком, включая 2 вклада. «Измерение двуязычной грамотности: проблемы письменности на двух языках» Алексея Корнеева и Екатерины Протассовой. Это исследование посвящено компьютерной сравнительной оценке двуязычных финско-русских учащихся начальных классов с различным языковым образованием и изучению их письменного языка. Для этого проводятся эксперименты четырех групп: русских доминантных двуязычных с 15 детьми, финских доминантных двуязычных с 13 детьми, русскоязычной контрольной группы с 15 детьми и финноязычной контрольной группы с 10 детьми. компьютерная система оценки почерка. Параметры рукописного ввода включают в себя среднее время написания письма, точное время написания отдельных букв, стабильность края строки. Для анализа различий параметров между различными группами субъектов и в различных письменных заданиях (копирование и диктовка) авторы используют повторные измерения ANOVA. Результаты показывают, что доминирование языка играет важную роль в знании письменности на двуязычных языках; система письма является еще одним важным фактором; язык среды может поддерживать языковые навыки, но обучение на другом языке и на другом языке поддерживает качество письма.

Последний вклад: «Когда исполнение маскируется под понимание: грамматические суждения в экспериментах с не носителями языка» Робина Орфителли и Марии Полинской. В изучении овладения языком многие наблюдения основаны на экспериментах. Однако несоответствующий экспериментальный дизайн может быть проблематичным, потому что это вряд ли может быть воспроизведено и повторно исследовано. В этом исследовании авторы подвергают критике грамматические суждения (GJT), которые первоначально были введены в лингвистику для измерения приемлемости определенных языковых структур для носителей языка, и в настоящее время неправильно используются для носителей языка. Основываясь на многочисленных случаях непоследовательности внутри и между задачами, авторы утверждают, что металингвистические требования, налагаемые задачей, и трудности, связанные с выявлением первопричины любых неправильных ответов, делают задачу непригодной для тестирования понимания языка с помощью не носитель языка. Затем авторы иллюстрируют эту проблему, обсуждая два недавних эксперимента, проведенных с носителями русского языка с использованием GJT и другими задачами. Анализ показывает, что плохая работа на GJT не носителями языка может быть связана не с грамматическими ошибками, а с внеграмматическими факторами, включающими металингвистическую осведомленность и требования к обработке.

В заключение, этот отредактированный сборник представляет ряд ресурсов и новых количественных методов в изучении русского языка QL, которые будут способствовать сочетанию классического QL с новейшими методиками эпохи больших данных. Авторы показывают, что эти современные методы, такие как нейронные модели встраивания, word2vec, алгоритмы устранения неоднозначности слов (WSD) и семантические модели распределения, на самом деле могут и должны применяться к количественным исследованиям русского языка в отношении современных языковых вопросов. Кроме того, проводится ряд оценок количественных методов, а также рассматриваются некоторые теоретические проблемы.

Этот том был опубликован с высоким типографским качеством, а указатель, приведенный в конце книги, делает его очень удобным для чтения и ссылок. Тем не менее, есть еще несколько критических моментов, которые я обязан сделать. «R2» в стр. 60, стр. 66 и стр. 72 должно быть «R ^ 2» или с верхним индексом «2»; «Диаграмма 1» на стр. 168 должна быть «Рисунок 8.3», а «Рис. 8.3» на стр. 169 должна быть «Рисунок 8.4», в противном случае это может привести к путанице. Что касается этого сборника, мы полагаем, что он был бы значительно улучшен, если бы он больше фокусировался на количественных лингвистических законах (Köhler, 2012) и давал более глубокие лингвистические интерпретации и предсказания. Более того, мы с нетерпением ждем большего вклада в такие темы, как количественный синтаксический анализ, анализ лингвистических сложных систем / сетей, которые сегодня являются предметом исследований в QL.

Русские внесли большой вклад в развитие QL, а также вычислительной лингвистики, например, самая известная цепь Маркова, широко используемая и разработанная в практике НЛП, закон Пиотровского-Альтмана в QL (один из трех основных законов в QL) а также точные литературные исследования Б. И. Ярхо, которые можно датировать началом 20-го века. Теперь, применяя современные методы в российских исследованиях КЛ, этот том будет способствовать развитию событий во всех этих областях. Я думаю, что это будет представлять большой интерес для аспирантов и исследователей в области количественного и славянского языкознания как за рубежом, так и внутри России.

Использованные источники

  1. Köhler, R. (2012). Quantitative Syntax Analysis. Berlin and Boston: De Gruyter Mouton.

  2. Liu, H. (2010). Review of Kelih, Emmerich (2008) Geschichte der Anwendung quantitativer Verfahren in der russischen Sprach- und Literaturwissenschaft (History of the application of quantitative methods in Russian linguistics and literature). Hamburg: Kovač. Journal of Quantitative Linguistics, 17(4): 365-370.
  3. Zipf, G. K. (1945). The meaning-frequency relationship of words. The Journal of General Psychology, 33(2), 251–256.

Review of Quantitative Approaches to the Russian Language

Mikhail Kopotev, Olga  Lyashevskaya,  Arto  Mustajoki

Авторизация
Забыли свой пароль?