Меню
Главная
Случайная статья
Настройки
|
Содержание
Подготовка к использованию AWB- Скачайте последнюю стабильную версию AWB с http://sourceforge.net/projects/autowikibrowser/.
- Установка AWB не требуется, распакуйте скачанную папку, AWB запускается запуском файла AutoWikiBrowser.exe из неё.
- Для работы AWB необходимо, чтобы на компьютере был установлен .NET Framework. Сейчас практически на всех компьютерах он и так установлен, если же AWB при запуске жалуется на его отсутствие, скачайте его с http://www.microsoft.com/net и установите.
- Пользоваться AWB могут только участники, внесённые в список допущенных участников. Если вы удовлетворяете требованиям, приведённым в его шапке, для получения допуска подайте запрос на ВП:ЗКА или любому администратору.
- При первом запуске AWB зайдите в меню Options - Preferences и выставьте на вкладке Site параметр language - ru (или другую комбинацию проекта и языка, если вы собираетесь использовать AWB не в рувики). Если вы планируете использовать AWB на сайте, не принадлежащем Фонду Викимедиа, выставьте параметр Project - Custom и введите адрес сайта.
- Зайдите в меню File - Log in/Profiles и создайте по профилю для каждой учётной записи, с которой вы планируете использовать AWB. Профили создаются кнопкой Add, в появившемся окне введите имя аккаунта и пароль от него.
- Все вышеописанные действия нужно выполнить однократно. Теперь для логина под нужной учётной записью заходите в File - Log in/Profiles и выбирайте нужный аккаунт. Если после попытки логина появилось сообщение об ошибке, проверьте, выполнили ли вы 4 и 5 пункты инструкции (вы состоите в списке допущенных участников того раздела, в котором вы собираетесь использовать AWB).
Составление списков для обработки
Для работы в AWB нужно сначала составить список статей, обработка которых будет производиться.
Базовые методы составления списков
В левом нижнем углу программы находится блок Make List для составления таких списков. Выпадающий список Source содержит множество методов составления списка, почти все они требуют указания страницы в текстовом поле ниже. Если в списке находятся 2 одноимённых метода и ко второму добавлено (All NS), значит первый выдаёт удовлетворяющие страницы только из основного пространства, второй - из всех. Назначение большинства методов понятно из их названия, некоторые разъясняются ниже:
- Categories on page - категории, в которые включена указанная страница.
- Category (recurse 1 level) - страницы, входящие в категорию и её подкатегории первого уровня вложения, но не глубже.
- Category (recurse user defined level) - то же, только глубина просмотра задаётся пользователем при нажатии кнопки Make List.
- Category (recursive) - то же с неограниченной глубиной вложения (страницы, входящие в категорию и её подкатегории всех уровней)
- Image file links - страницы, в которые включен (как включение, не как ссылка) указанный файл.
- Images on page - файлы, включенные на указанную страницу.
- Links on page - все внутренние ссылки на указанной странице.
- Special page - содержимое некоторых служебных страниц. В окне, которое откроется при нажатии Make List, назначение двух параметров понятно, параметр Page применяется для задания страницы, с которой (а не с начала) нужно начать вывод. Он может применяться для составления очень больших списков: выводимые списки ограничены первыми 25 000 значений, но их можно продолжить, введя значением параметра Page название последней страницы из ранее полученного списка. Однако в методе Link Search поле Page используется для указания искомой внешней ссылки, в т.ч. с подстановочными символами, как на Special:LinkSearch. Помните, что некоторые служебные страницы (например, Disambiguation Pages) давно не актуализируются движком и потому запросы к ним бесполезны (конкретно для получения списка всех дизамбигов надо брать включения шаблона "Неоднозначность", он включен в остальные шаблоны неоднозначностей).
- Text file - список страниц из файла на вашем компьютере. Файл должен иметь синтаксис, аналогичный одному из тех, в которые AWB сохраняет списки (см. ниже). Кодировка в текстовых файлах современных компьютеров - UTF-8.
- Transclusions on page - список страниц (обычно шаблонов), включенных в заданную страницу. Проводится рекурсивно, то есть включает и шаблоны, включенные в используемые на странице шаблоны, с максимальной глубиной вложения.
- User contribs (user defined number) - последние N правок заданного участника, число вводится по нажатию кнопки Make List.
- What transcludes page - список страниц, содержащих включения указанной страницы (обычно шаблона, префикс пространства имён обязателен).
- Wiki search (text) - результат обычного внутреннего поиска Википедии (Special:Search) по заданному слову.
- Wiki search (title) - то же, только поиск по названию.
Обращение со списком и сложные списки- Кнопка Filter под списком позволяет отфильтровать его по пространствам имён или тексту заголовка, удалить кратные вхождения (если одна и та же страница находится в списке несколько раз; так бывает, например, при поиске внешних ссылок, т.к. каждая страница попадает в список столько раз, сколько в ней искомых внешних ссылок; либо при рекурсивном чтении больших категорий), отсортировать по алфавиту.
- Чистка всего списка: List - Clear current list.
- Можно заменить все страницы списка их обсуждениями или наоборот: List - Convert to/from talk pages.
- Можно делать определённым методом список не от одной страницы, а от их группы, ранее собранной в список: выделите нужные страницы в списке - правая кнопка мыши - Add selected to list from - метод списка.
- Можно сохранить список для последующего использования: List - Save list, после чего загрузить его как текстовый файл (см. выше).
- Можно составлять сложные списки, являющиеся пересечениями или разностями других списков. Меню Tools - List comparer, задавайте два входных списка, после нажатия кнопки Compare в последующих столбцах появятся по порядку: список страниц из первого списка, не содержащихся во втором; список страниц, содержащихся в обоих списках; список страниц из второго списка, не содержащихся в первом. Каждый из них можно сохранить как текстовый файл, загрузить опять же в List Comparer методом списка Text File и продолжить сравнивать с другими списками, составляя список по сколь угодно сложной комбинации условий.
- Большинство методов составления списка выдают обычному пользователю максимум 25 000 позиций, даже если на самом деле их больше. Это ограничение введено для снижения нагрузки на сервера Фонда и может быть отменено с учётных записей со флагом бота или администратора. Залогинившись под такой записью, откройте Plugins - Load - NoLimits, после чего выбирайте методы списка с постфиксом (NL, Admin & Bot).
Составление списков посредством чтения дампа
Наиболее широкие возможности по составлению списков даёт чтение дампов базы данных раздела. Архивы дампов скачиваются с http://dumps.wikimedia.org/backup-index.html. Найдите ссылку на нужный вам раздел, качайте дампы, содержащие в названии слова pages-articles (только основное пространство) или pages-meta-current (все пространства). После распаковки дамп (всех пространств рувики) будет занимать более 12 гигабайт, т.ч. позаботьтесь о свободном месте на диске. Для чтения дампа зайдите в Tools - Database Scanner, на первой вкладке кнопкой Browse выберите файл дампа, назначение следующих вкладок в принципе интуитивно понятно. Поиск по дампу открывает самые широкие возможности по поиску страниц по нужным признакам: например, можно найти все страницы КУ, в итогах которых ссылались на ВП:ОРИСС (регулярным выражением на вкладке Text - Contains); получить список всех страниц, содержащих или не содержащих интервику на определённый раздел или группу разделов (тем же способом); или получить список всех страниц меньше или больше определённого размера (вкладка Text - Page Properties - Characters, размер считается в символах, а не байтах). Если вы намерены создавать достаточно большой список, увеличьте на вкладке Searching значение параметра Limit Results.
|
|