Меню

Главная
Случайная статья
Настройки
Арбитраж:Пересмотр ВП:БЕЛ/Рабочая группа/Особое мнение
Материал из https://ru.wikipedia.org

Будучи одним из участников рабочей группы, считаю необходимым выразить особое мнение касательно опубликованного проекта итога. Оно представлено ниже. В дальнейшем в него могут быть внесены некоторые дополнения и/или небольшие исправления. NN21 (обс.) 13:21, 16 января 2025 (UTC)[ответить]
  • Если у вас есть особое мнение, вы могли бы поделиться им в ходе работы рабочей группы, участвуя в обсуждениях. Особое мнение обычно высказывается в ситуациях, когда договориться не удалось, однако вы по каким-то причинам не взаимодействовали с рабочей группой для достижения согласия. Учитывая, что ваше участие в работе группы отсутствовало, ваше мнение о её итогах не может считаться частью общей работы.
    Рабочая группа уже превысила допустимые сроки работы, и дальнейшее затягивание процесса нежелательно. Поэтому я обратился к другим арбитрам с просьбой зафиксировать текущую ситуацию (что вы не являетесь членом рабочей группы), чтобы предотвратить возможные препятствия в принятии итогового решения. ·Carn 07:49, 19 января 2025 (UTC)[ответить]
    • К слову сказать, «допустимые сроки работы» изначально озвучены не были, если мне память не изменяет. А своё мнение я изложил. Будет ли оно «особым мнением члена рабочей группы» или «частным мнением» кого-то там — это не в моей власти. Извините за причинённые неудобства. С уважением, NN21 (обс.) 13:19, 21 января 2025 (UTC)[ответить]


Содержание

Основные положения

Мне представляется несомненным, что рабочая группа проделала большую работу по изучению вопроса, собрала заметный объём статистических наблюдений и пришла к ценным выводам.

В частности, вывод о предпочтительности использования для оценивания распространённости вариантов корпусов русского языка, а не поисковых систем мне представляется крайне важным:

…в размеченных корпусах можно получить точное количество словоупотреблений, тогда как поисковая система лишь оценивает общее число соответствий, причём точность этой оценки вызывает сомнения.

Очень хотелось бы, чтобы на этот вывод в будущем википедисты ссылались и опирались.

Методика измерения

Интересны и те подходы, которые использовала рабочая группа для того, чтобы «отсеивать нерелевантные словоупотребления», — это «поиск по словосочетаниям с топонимом», а также «поиск по косвенным падежам» (второй подход рабочая группа рассматривает как менее надёжный).

Однако фактически полученные результаты не позволяют считать, что эти два подхода (в особенности первый) дают достоверные данные о распространённости вариантов.

Изначально поиск по словосочетаниям с топонимом представлялся мне вполне разумным подходом: априори не видится никаких причин, по которым относительная частота использования двух вариантов именования белорусского государства могла бы меняться в зависимости от используемого словосочетания. Однако действительность далека от этих сугубо теоретических суждений.

В качестве примера рассмотрим Timestamped JSI web corpus (2014—2022), в котором словосочетания «президент Беларуси» и «президент Белоруссии» употребляются практически на равных: первое из них встречается лишь на 6% чаще, чем второе. В то же самое время словосочетания «герой Беларуси» и «герой Белоруссии» различаются по частоте использования в 26 с небольшим раз (!) в пользу первого. Прочие словосочетания порождают пропорции, находящиеся где-то посередине между этими двумя крайностями.

Однако каково же истинное значение относительной частоты использования этих двух вариантов (хотя бы в рамках данного корпуса)? Даёт ли его первое словосочетание, или второе, или какое-то из остальных? Увы, нет никаких оснований полагать, что это значение совпадает хоть с какой-то из полученных цифр. Больше того, можно думать, что любая из полученных пропорций ошибочна в той или иной степени.

В таких условиях напрашивается вывод о том, что поиск по словосочетаниям с топонимом, изначально призванный устранить искажения статистики, привносит гораздо большие искажения. Соответственно, анализ полученных пропорций выглядит довольно-таки бессмысленной процедурой: гарантированное наличие ошибки в большинстве полученных цифр обесценивает любые выводы, полученные на их основе.

Аналогичные явления возникают при рассмотрении и любого другого корпуса текстов, что нетрудно обнаружить, последовательно просматривая стоблцы «соотн.» и приведённые в них пропорции.
Таблица ОМ1. Диапазоны значений измеренных пропорций использования точных форм с вариантами Беларусь и Белоруссия в отдельных источниках данных
(согласно материалам рабочей группы)
Timestamped JSI web corpus
(2014—2022)
Russian trends corpus
(2021—2024)
Google News
(с 2012 года)
1,06—26,38
1,33-1—31,13
(1,33-1 0,75)
2,89—493,6


Также следует отметить, что «за кадром» остался вопрос о том, по какому принципу рабочая группа отбирала словосочетания для анализа. При этом в первоначальном варианте проекта таблица, где указано количество точных словоформ, содержала строчку «Беларуси и России / Белоруссии и России», однако не содержала строчки «России и Беларуси / России и Белоруссии». Это упущение не вполне безобидно: как ни странно, порядок следования названий двух государств оказывает существенное влияние на полученные результаты (см. таблицу ОМ2).
Таблица ОМ2. Влияние порядка следования топонимов на измерение относительной частотности, Национальный корпус русского языка, точные соответствия, число примеров, 2012 год и далее
России и Беларуси
России и Белоруссии
соотн.
Беларуси и России
Белоруссии и России
соотн.
Основной корпус
4 [1]
7 [2]
0,57
6 [3]
1 [4]
6
Газетный корпус (региональные СМИ)
25 [5]
22 [6]
1,14
24 [7]
10 [8]
2,4


В условиях, когда столь незначительные, на первый взгляд, изменения процедуры измерения вносят столь заметные изменения пропорций (более чем в 10 раз в случае основного корпуса), становится ясно, что выбор одних и отказ от других словосочетаний может внести значительные изменения в полученные результаты.

В этой связи уместно будет также напомнить о прошлых решениях Арбитражного комитета:

1.5. При написании статей для выбора терминологии следует, как правило, опираться на авторитетные источники, за исключением общеизвестных положений. Если терминологические вопросы вызывают разногласия между редакторами, а авторитетные источники, однозначно свидетельствующие о преобладании той или иной нормы, отсутствуют, то в качестве одного из аргументов можно использовать анализ распространённости употребления того или иного варианта в сетевых и печатных публикациях. При этом необходимо избегать нарушения ВП:ОРИСС, то есть механизм исследования должен быть достаточно очевидным, простым, надёжным, а его результат легко воспроизводимым любым участником и при этом достаточно убедительным и наглядным.

Ранее высказанные замечания касаются и поиска по косвенным падежам, хотя масштабы расхождения результатов в данном случае выражены не столь резко. Наличие расхождений отмечено и в проекте итога:

Близость результатов [частотностей употребления — NN21] для форм творительного падежа любопытна, учитывая, что для форм родительного-дательного-предложного падежей разрыв более существенен.

В условиях, когда различные словосочетания на одном и том же наборе данных порождают значения относительной частотности, которые иногда различаются в десятки и даже сотни раз, а простая перестановка слов может привести к шестикратной разнице, неустойчивость подобной процедуры подсчёта становится совершенно очевидна. Меньшие по масштабу различия, получаемые при рассмотрении различных падежей (на многих, но не на всех наборах данных они примерно двукратные), также представляются нежелательными.

Взамен предпочтительно рассмотреть более простую и надёжную процедуру, и в качестве таковой далее использован учёт всех форм слова. Помимо того, для более точного понимания ситуации необходимо: 1) рассмотреть её географические аспекты и 2) ввести в рассмотрение данных, оставшихся «за бортом» проекта итога.
Таблица ОМ3. Относительная частотность вариантов именования, данные Национального корпуса русского языка, учёт всех форм слова,
2012 год и далее*
* Данные для СМИ Киргизии, Латвии, Литвы, Молдовы и Эстонии приводятся без учёта ограничения по времени, фактически же они относятся к 2011 году.
Беларусь
Белоруссия
соотн.
Основной корпус
182 [9]
276 [10]
0,659
Газетный корпус (центральные СМИ)
7288 [11]
59 526 [12]
0,122
Газетный корпус (региональные российские СМИ)
548 [13]
552 [14]
0,993
Газетный корпус (СМИ Республики Беларусь)
3169 [15]
44 [16]
72,0
Газетный корпус (СМИ Киргизии, Латвии, Литвы, Молдовы и Эстонии)
25 [17]
17 [18]
1,47
Социальные сети
2723 [19]
1874 [20]
1,45
Устный корпус
4 [21]
74 [22]
0,054


Полученные в ходе измерения результаты собраны в таблице ОМ3. Она ясно показывает:
  1. колоссальный (больше, чем в 70 раз) перевес формы Беларусь в белорусских СМИ;
  2. примерно полуторакратный перевес этой же формы в СМИ Киргизии, Латвии, Литвы, Молдовы и Эстонии;
  3. примерно такой же перевес при рассмотрении социальных сетей;
  4. почти полный паритет двух форм в российских региональных СМИ;
  5. примерно полуторакратный перевес формы Белоруссия в основном корпусе;
  6. ещё более существенное (примерно 8-кратное) преобладание этой же формы в российских центральных СМИ;
  7. максимальную представленность формы Белоруссия в устном корпусе, где она добивается примерно 20-кратного (!) перевеса.


Указанные наблюдения показывают, что географическое происхождение данных способно оказать решающее влияние на результаты измерения. В частности, отказ от раздельного рассмотрения географических различий при анализе регионального корпуса приводит к тому, что форма Беларусь становится лидером. Помимо того, становится очевидным, что устная и письменная речь (в том виде, в каком их отражает НКРЯ) весьма отличаются друг от друга. Кроме того, наблюдаемый разброс измеренной частотности полностью обессмысливает попытки усреднить данные.

В указанных обстоятельствах можно было бы попытаться, отказавшись от сомнительных попыток что-либо усреднить, объявить один из корпусов своего рода эталоном. Одним из возможных подходов могла бы служить его репрезентативность, на которую мог бы претендовать основной корпус НКРЯ:

Репрезентативный корпус современных текстов с морфологической разметкой составляет ядро основного корпуса. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:
  • современная художественная проза разных жанров и направлений
  • современная драматургия
  • мемуарно-биографическая литература
  • журнальная публицистика и литературная критика
  • газетная публицистика и новости
  • научные, научно-популярные и учебные тексты
  • религиозные и религиозно-философские тексты
  • производственно-технические тексты
  • официально-деловые и юридические тексты
  • бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)


Однако из представленного описания неясно, в какой степени учитывается (и учитывается ли вообще) критически важный географический фактор.

Все остальные корпуса не обеспечивают репрезентативность (в указанном выше смысле) письменной речи.

Репрезентативность устного корпуса (для целей данного исследования) также под большим вопросом:

Ценность этого корпуса для исследователей устной речи заключается прежде всего в его большом объеме (около 14 млн), большом временном диапазоне, отраженном в записях (1900—2020-е гг.), функциональном разнообразии текстов, региональном многообразии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.).

Из этого описания никак не следует, что в устном корпусе отражена речь белорусов (и не россиян в целом).

Выводы

1. Проведённый анализ показал, что использованную для подготовки итога процедуру невозможно считать надёжной, что противоречит п. 1.5 прецедентного решения Арбитражного комитета. Помимо того, она выглядит довольно-таки сложной, что также не согласуется с указанным выше пунктом решения.

2. Попытка воспользоваться более простой процедурой с использованием данных Национального корпуса русского языка (конкретнее, основного корпуса, газетного корпуса, корпуса социальных сетей, устного корпуса) приносит цифры, которые свидетельствуют о необычайно высокой степени неоднородности: одни выборки говорят о преобладании (иногда весьма значительном) формы «Беларусь», другие подталкивают либо к противоположному выводу, либо (речь идёт о российской региональной прессе) к заключению о примерном паритете между двумя формами.

3. Масштаб расхождения таков, что простая процедура усреднения невозможна, а сложные процедуры недопустимы согласно п. 1.5 упомянутого ранее решения.

4. Задача, поставленная перед рабочей группой, не может быть решена (в рамках доступных средств) путём анализа частотности письменных источников.
Downgrade Counter