Меню

Главная
Случайная статья
Настройки
Разрешение лексической многозначности
Материал из https://ru.wikipedia.org

Разрешение лексической многозначности (англ. word sense disambiguation, WSD) — это неразрешённая проблема обработки естественного языка, которая заключается в задаче выбора значения (или смысла) многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентности текста, при анализе умозаключений.

Научные исследования по разрешению лексической многозначности находятся в поле зрения прикладной и компьютерной лингвистики достаточно давно и имеют многолетнюю историю. С течением лет количество предложенных решений и их эффективность неуклонно росли до тех пор, пока эффективность не достигла определённого уровня сравнительно-эффективных показателей точности для определённого спектра слов и типов многозначностей. Задача пока не имеет полного решения, поскольку на пути успешного решения стоит много проблем, напрямую связанных с языковыми особенностями человеческой речи.

Было исследовано большое количество методов: от методов, основанных на знаниях, правилах, лексикографических источников, обучения с учителем на корпусе текстов, до методов обучения без учителя, кластеризующие слова на основе смысла. Среди перечисленных, на сегодняшний день, методы обучения с учителем показали наилучшую эффективность. Однако, объективное сравнение и оценка методов является сложным процессом, зависящим от многих факторов. В обобщённых системах словарных знаний (для английского языка) точность регулярно превышает 90 %, иногда достигая даже 96 %. Для более дифференцированных словарных систем эффективность находятся в пределе 59 %-69 %.

Содержание

О процессе разрешения многозначности

Вообще, под неоднозначностью (или многозначностью) языкового выражения или речевого произведения (текста) понимают наличие у него одновременно нескольких различных смыслов[1]. Учёные разделяют несколько типов подобной многозначности: лексическую, синтаксическую и речевую, однако термин «WSD» включает в себя разрешение именно лексической (смысловой).

О чём речь, можно понять из следующего примера с неоднозначным словом «ключ»:
  1. ключ как инструмент для открывания
  2. ключ как источник воды


а также 3 контекста:
  1. Ключ подошёл, дверь открылась
  2. Я напился из ключа
  3. Жизнь бьёт ключом


Человеку очевидно, что в первом предложении слово «ключ» используется в первом значении, во втором предложении — соответственно во втором значении, а в третьем — возможны варианты. Разработка алгоритмов, имитирующих подобную способность человека может подчас становиться сложнейшей задачей.

Процесс разрешения требует нескольких вещей: системы словарных знаний для определения множества значений слов и корпус текстов для разрешения (в некоторых случаях могут потребоваться иные источники знаний).

Краткая история области

Проблема была впервые сформулирована в качестве отдельной задачи в 1940-х годах, во времена зарождения машинного перевода, что делает её одной из старейших проблем компьютерной лингвистики. Уоррен Уивер (англ. Warren Weaver), в его знаменитом «The „Translation“ memorandum» (1949)[2], представил проблему в компьютерно-вычислительном аспекте. Исследователи того времени прекрасно понимали её значение и сложность, в частности Иешуа Бар-Хиллель (один из первопроходцев) в 1960 выразил сомнение, что задача всеобщего полностью автоматического машинного перевода когда-либо будет осуществима из-за необходимости смоделировать всё знание человека о мире[3].

В 1970-х, проблема WSD стала частью систем семантической интерпретации, разрабатываемых в рамках области ИИ, однако они по большей части состояли из вручную выведенных правил, и поэтому полностью зависели от количества имеющихся знаний, добывать которые в то время было чрезвычайно трудоёмко.

К 1980-м годам такие объёмные ресурсы, как Oxford Advanced Learner’s Dictionary of Current English, стали доступны и ручное выписывание правил было вытеснено автоматическим извлечением знаний из подобных источников, однако методы всё ещё не вышли из класса так называемых «методов, основанных на знаниях».

Однако, в 1990-х годах «статистическая революция» полностью изменила подходы и методы в компьютерной лингвистике, и задача разрешения лексической многозначности стала проблемой, к которой применимы всевозможные методы обучения с учителем[4].

2000-е годы показали, что методы обучения с учителем достигли некоего уровня точности и не могут его преодолеть, поэтому внимание учёных сместилось в сторону работы с более обобщёнными системами словарных знаний (coarse-grained senses), адаптации к предметным областям (domain adaptation), частичного обучения с учителем (semi-supervised systems) и обучения без учителя (unsupervised corpus-based systems), смешанных методов, а также обработки баз знаний и выведению результатов в виде графов (the return of knowledge-based systems via graph-based methods). Однако, до сегодняшнего дня системы обучения с учителем считаются наиболее эффективными.

Проблемы и трудности

В процессе работы над проблемой разрешения лексической многозначности было обнаружено большое количество трудностей, чаще всего обусловленных свойствами человеческой психологии и речи.

Составление словарей

Словари не эквивалентны друг другу. Чаще всего различение значений слова не вызывает трудностей, однако в некоторых случаях различные значения слова могут быть очень близкими друг другу семантически (например, если каждый из них является метафорой или метонимией друг к другу), и в таких ситуациях разделение на смыслы в разных словарях и тезаурусах может значительно разниться. Решением этой трудности может стать всеобщее использование одного и того же источника данных: одного всеобщего словаря. В целом, исследования показывают, что системы с более обобщённым разделением значений работают эффективнее[5][6], поэтому некоторые исследователи игнорируют в своих работах обработку словарей и тезаурусов с более детальным подразделением на смыслы.

Определение части речи

В некоторых языках частеречная разметка может быть очень близко связана с проблемой разрешения многозначностей, в результате чего эти две задачи могут друг другу мешать. Ученые так и не пришли к единому мнению, стоит ли разделять их на две автономные составляющие, однако перевес находится на стороне тех, кто считает, что это необходимо[7].

Человеческий фактор и согласованность ручных результатов

Системы разрешения лексической многозначности всегда оценивались сравнением результатов с результатом работы людей. Для людей задача может оказаться не такой простой, как POS-tagging — размечать смыслы среди нескольких предложенных значительно сложнее[8]. Если человек может держать в голове или же легко угадать части речи, которыми может быть слово, то запомнить все возможные смыслы слов не представляется возможным. Более того, результаты у разных людей не всегда совпадают[9] и они часто не приходят к общему решению о том, в каком значении данное слово употреблено в конкретном контексте. Несмотря на это, учёные берут результат человека в качестве стандарта, эталона для сравнения с результатами компьютера. Люди лучше справляются с обобщёнными системами словарей, чем с детальными — и именно поэтому внимание исследователей переключилось именно на них[5][6].

Здравый смысл
Downgrade Counter