Меню

Главная
Случайная статья
Настройки
Участник:MBH/AWB
Материал из https://ru.wikipedia.org

Содержание

Подготовка к использованию AWB
  1. Скачайте последнюю стабильную версию AWB с http://sourceforge.net/projects/autowikibrowser/.
  2. Установка AWB не требуется, распакуйте скачанную папку, AWB запускается запуском файла AutoWikiBrowser.exe из неё.
  3. Для работы AWB необходимо, чтобы на компьютере был установлен .NET Framework. Сейчас практически на всех компьютерах он и так установлен, если же AWB при запуске жалуется на его отсутствие, скачайте его с http://www.microsoft.com/net и установите.
  4. Пользоваться AWB могут только участники, внесённые в список допущенных участников. Если вы удовлетворяете требованиям, приведённым в его шапке, для получения допуска подайте запрос на ВП:ЗКА или любому администратору.
  5. При первом запуске AWB зайдите в меню Options - Preferences и выставьте на вкладке Site параметр language - ru (или другую комбинацию проекта и языка, если вы собираетесь использовать AWB не в рувики). Если вы планируете использовать AWB на сайте, не принадлежащем Фонду Викимедиа, выставьте параметр Project - Custom и введите адрес сайта.
  6. Зайдите в меню File - Log in/Profiles и создайте по профилю для каждой учётной записи, с которой вы планируете использовать AWB. Профили создаются кнопкой Add, в появившемся окне введите имя аккаунта и пароль от него.
  7. Все вышеописанные действия нужно выполнить однократно. Теперь для логина под нужной учётной записью заходите в File - Log in/Profiles и выбирайте нужный аккаунт. Если после попытки логина появилось сообщение об ошибке, проверьте, выполнили ли вы 4 и 5 пункты инструкции (вы состоите в списке допущенных участников того раздела, в котором вы собираетесь использовать AWB).


Составление списков для обработки

Для работы в AWB нужно сначала составить список статей, обработка которых будет производиться.

Базовые методы составления списков

В левом нижнем углу программы находится блок Make List для составления таких списков. Выпадающий список Source содержит множество методов составления списка, почти все они требуют указания страницы в текстовом поле ниже. Если в списке находятся 2 одноимённых метода и ко второму добавлено (All NS), значит первый выдаёт удовлетворяющие страницы только из основного пространства, второй - из всех. Назначение большинства методов понятно из их названия, некоторые разъясняются ниже:
  • Categories on page - категории, в которые включена указанная страница.
  • Category (recurse 1 level) - страницы, входящие в категорию и её подкатегории первого уровня вложения, но не глубже.
  • Category (recurse user defined level) - то же, только глубина просмотра задаётся пользователем при нажатии кнопки Make List.
  • Category (recursive) - то же с неограниченной глубиной вложения (страницы, входящие в категорию и её подкатегории всех уровней)
  • Image file links - страницы, в которые включен (как включение, не как ссылка) указанный файл.
  • Images on page - файлы, включенные на указанную страницу.
  • Links on page - все внутренние ссылки на указанной странице.
  • Special page - содержимое некоторых служебных страниц. В окне, которое откроется при нажатии Make List, назначение двух параметров понятно, параметр Page применяется для задания страницы, с которой (а не с начала) нужно начать вывод. Он может применяться для составления очень больших списков: выводимые списки ограничены первыми 25 000 значений, но их можно продолжить, введя значением параметра Page название последней страницы из ранее полученного списка. Однако в методе Link Search поле Page используется для указания искомой внешней ссылки, в т.ч. с подстановочными символами, как на Special:LinkSearch. Помните, что некоторые служебные страницы (например, Disambiguation Pages) давно не актуализируются движком и потому запросы к ним бесполезны (конкретно для получения списка всех дизамбигов надо брать включения шаблона "Неоднозначность", он включен в остальные шаблоны неоднозначностей).
  • Text file - список страниц из файла на вашем компьютере. Файл должен иметь синтаксис, аналогичный одному из тех, в которые AWB сохраняет списки (см. ниже). Кодировка в текстовых файлах современных компьютеров - UTF-8.
  • Transclusions on page - список страниц (обычно шаблонов), включенных в заданную страницу. Проводится рекурсивно, то есть включает и шаблоны, включенные в используемые на странице шаблоны, с максимальной глубиной вложения.
  • User contribs (user defined number) - последние N правок заданного участника, число вводится по нажатию кнопки Make List.
  • What transcludes page - список страниц, содержащих включения указанной страницы (обычно шаблона, префикс пространства имён обязателен).
  • Wiki search (text) - результат обычного внутреннего поиска Википедии (Special:Search) по заданному слову.
  • Wiki search (title) - то же, только поиск по названию.


Обращение со списком и сложные списки
  • Кнопка Filter под списком позволяет отфильтровать его по пространствам имён или тексту заголовка, удалить кратные вхождения (если одна и та же страница находится в списке несколько раз; так бывает, например, при поиске внешних ссылок, т.к. каждая страница попадает в список столько раз, сколько в ней искомых внешних ссылок; либо при рекурсивном чтении больших категорий), отсортировать по алфавиту.
  • Чистка всего списка: List - Clear current list.
  • Можно заменить все страницы списка их обсуждениями или наоборот: List - Convert to/from talk pages.
  • Можно делать определённым методом список не от одной страницы, а от их группы, ранее собранной в список: выделите нужные страницы в списке - правая кнопка мыши - Add selected to list from - метод списка.
  • Можно сохранить список для последующего использования: List - Save list, после чего загрузить его как текстовый файл (см. выше).
  • Можно составлять сложные списки, являющиеся пересечениями или разностями других списков. Меню Tools - List comparer, задавайте два входных списка, после нажатия кнопки Compare в последующих столбцах появятся по порядку: список страниц из первого списка, не содержащихся во втором; список страниц, содержащихся в обоих списках; список страниц из второго списка, не содержащихся в первом. Каждый из них можно сохранить как текстовый файл, загрузить опять же в List Comparer методом списка Text File и продолжить сравнивать с другими списками, составляя список по сколь угодно сложной комбинации условий.
  • Большинство методов составления списка выдают обычному пользователю максимум 25 000 позиций, даже если на самом деле их больше. Это ограничение введено для снижения нагрузки на сервера Фонда и может быть отменено с учётных записей со флагом бота или администратора. Залогинившись под такой записью, откройте Plugins - Load - NoLimits, после чего выбирайте методы списка с постфиксом (NL, Admin & Bot).


Составление списков посредством чтения дампа

Наиболее широкие возможности по составлению списков даёт чтение дампов базы данных раздела. Архивы дампов скачиваются с http://dumps.wikimedia.org/backup-index.html. Найдите ссылку на нужный вам раздел, качайте дампы, содержащие в названии слова pages-articles (только основное пространство) или pages-meta-current (все пространства). После распаковки дамп (всех пространств рувики) будет занимать более 12 гигабайт, т.ч. позаботьтесь о свободном месте на диске. Для чтения дампа зайдите в Tools - Database Scanner, на первой вкладке кнопкой Browse выберите файл дампа, назначение следующих вкладок в принципе интуитивно понятно. Поиск по дампу открывает самые широкие возможности по поиску страниц по нужным признакам: например, можно найти все страницы КУ, в итогах которых ссылались на ВП:ОРИСС (регулярным выражением на вкладке Text - Contains); получить список всех страниц, содержащих или не содержащих интервику на определённый раздел или группу разделов (тем же способом); или получить список всех страниц меньше или больше определённого размера (вкладка Text - Page Properties - Characters, размер считается в символах, а не байтах). Если вы намерены создавать достаточно большой список, увеличьте на вкладке Searching значение параметра Limit Results.
Downgrade Counter