Меню
Главная
Случайная статья
Настройки
|
Содержание
Число дизамбигов
Добрый день! Подскажите, как подсчитать число созданных участником страниц неоднозначностей. С уважением, --Lasius 15:14, 11 августа 2013 (UTC)[ответить]
- Не знаю что ответить. В скайпе на канале ботоводов спросил. Дядя Фред ответил: "Берём созданные статьи, берём категорию неоднозначностей и пересекаем. Лучше Аксессом, потому что 1) список статей всё равно берётся копипастом 2) на таком объёме данных АВБ зависнет на сутки.". Хм, надо посмотреть в CatScan2, может там такое возможно. Гляну, потом отвечу. ~Нирваньчик~ 12:57, 21 августа 2013 (UTC)[ответить]
- В CatScan невозможно. Надо ещё в pywikipedia глянуть. Если там и невозможно, то быть может скриптик накидать такой, думаю несложно. ~Нирваньчик~ 10:03, 23 августа 2013 (UTC)[ответить]
- Вижу задача сложная, тогда уточню: для создания таблицы - автор, число статей, число дизамбигов, процент. Хотя бы для первой сотни авторов из Участник:H2Bot/Участники по числу статей (ботовод H2Bot на сходный вопрос 11 июля 2013 мне не ответил) для включения в мою подборку Википедия:Авторы статей, скажем на Википедия:Авторы статей/Авторы дизамбигов (можете и у себя разместить, а я потом интегрирую часть цифр). --Lasius 14:13, 24 августа 2013 (UTC)[ответить]
- Я знаю почему он не ответил. Всё что генерирует H2Bot в Участник:H2Bot/Участники по числу статей, можно получить утилитой tparis [1]. Бот просто берёт оттуда данные и копирует в таблицу. А дизамбиги tparis не умеет считать. А самому считать - это геморно. Представьте себе, например, для такого участника как Lasius пройти 5 тысяч статей (извлечь каждую) и проверить, это дизамбиг или нет. Или использовать выше перечисленные методы. А если по многим учасникам считать, то и сам бот будет долго работать, и нагрузка на сервера большая. Такую работу должен делать только бот/утилита, находящийся на Toolserver или на Labs и имеющий прямой доступ к базам SQL (зеркальным), или как вариант, пользующийся дампами. Toolserver скоро будет уничтожен. Labs у нас мало кто освоил. Т.е. это сложноватая задача. Короче, посчитать такое сейчас можно, но разово. Если вас устроит разово, могу попробовать. А вы на ВП:РДБ писали? Напишите, может кто-нибудь из тамошних захочет взяться. ~Нирваньчик~ 12:05, 25 августа 2013 (UTC)[ответить]
- Попробуйте разово (хотя бы для 20-30 самых активных по числу статей участников из списка:Tretyak, GennadyL, Valdis72, Андрей Романенко, Lasius, Alex717, Slb nsk, Mathew Pifagor, Erokhin, Rartat, Dmitri Lytov, Shuvaev, Александр в. марин, Андрей Перцев 1967, Чръный человек, Sanja565658, Vald, Stauffenberg, PlatonPskov, Ilya Mauter, Schekinov Alexey Victorovich, Permjak, Ghirlandajo, Rinby, Arachn0, Volcanus, Geoalex, Spоrtsmen., Kosun, Mark Ekimov ). Удивили словами «Toolserver скоро будет уничтожен», это когда? и как без него потом? Ваш бот будет работать? --Lasius 14:36, 25 августа 2013 (UTC)[ответить]
- Вчера за вечер написал бота для этого дела. Сильно помогло наличие готовых функций в существующем боте, которые я использовал. Запустил и лёг спать, но он на Tretyakе сразу и сдох. 20 минут только извлекал список вклада, потом проверял его и где-то на 10-тысячной статье глюканул (504 Gateway Time-out - в последний год довольно часто вылетает) и остановился. Вот поправлю эту штуку, чтобы она игнорировала глюки и запущу потом заново. Результат будет с небольшой погрешностью (+/- 5 статей). Кстати, мне кажется этот Tretyak будет чемпоном по дизамбигам. ~Нирваньчик~ 07:05, 30 августа 2013 (UTC)[ответить]
- Тулсервер планировали убить уже давно, к началу этого года, но товарищи убедили боссов продлить жизнь ещё на год. Labs работает уже 2 года и должен заменить Toolserver, я писал об этом на форуме ботоводов или на техническом. Когда тулсервер убьют, ну что будет, конечно мой бот не будет работать некоторое время. Там возможно 2 сценария: 1) заинтересованные лица перенесут CatScan на Labs, (может быть даже это сделаю я, если никто другой не сделает) и бот продолжит работу по-старому 2) CatScan уйдёт в небытиё, а я буду делать нового бота на Labs, уже без использования CatScan. Во втором случае порталы не будут обновляться месяца два. ~Нирваньчик~ 10:33, 30 августа 2013 (UTC)[ответить]
- Спасибо, что начали, а про отдельных чемпионов уже многие говорят в разных обсуждениях, критикуя избыточность предлагаемых ими двухстрочных дизамбигов. --Lasius 12:10, 30 августа 2013 (UTC)[ответить]
НеИтог
Dmitri Lytov:503 Slb nsk:118 Rinby:3 Erokhin:4620 Чръный человек:209 Sanja565658:34 Ilya Mauter:438 Kosun:340 Mathew Pifagor:2171 Tretyak:12118 Ghirlandajo:244 GennadyL:1623 PlatonPskov:314 Андрей Романенко:355 Александр в. марин:6 Vald:699 Arachn0:119 Lasius:53 Андрей Перцев 1967:1424 Schekinov Alexey Victorovich:1675 Spоrtsmen.:1480 Shuvaev:188 Valdis72:645 Alex717:39 Rartat:134 Volcanus:229 Permjak:243 Mark Ekimov:35 Geoalex:482 Stauffenberg:253 ~Нирваньчик~ 08:41, 31 августа 2013 (UTC)[ответить]
- Не знаю как подтвердить правильность данных. По мне правильно посчитало - 4 дизамбига. Принцип действия такой:
- извлек список дизамбиговых категорий: Многозначные_термины, Списки_однофамильцев-тёзок, Страницы_неоднозначностей_имён, Страницы_разрешения_неоднозначностей:Реки и т.д. их там штук 20.
- по каждому участнику
- извлек его вклад с веб-инструмента tparis
- каждую статью проверил на вхождение в дизамбижные категории.
~Нирваньчик~ 09:05, 31 августа 2013 (UTC)[ответить]
- Очень интересная статистика, спасибо. Вообще-то, эта деятельность (при некотором развитии) могла бы послужить автоматизацией статистической таблицы авторов по числу статей без дизамбигов (аналогичной этой, которую Lasius делал вручную). Если определён порог, скажем, в 300 статей без дизамбигов, то надо сначала взять всех участников из этой таблицы, у которых 300+ статей+дизамбигов (это 400 с лишним участников) и начать считать дизамбиги согласно приведённому выше алгоритму. Предположим, у кого-то 362 статьи. Бот начинает считать дизамбиги, как только доходит до 63 — стоп, вылетел из таблицы (362-63 меньше 300), берём другого. Я думаю, в результате в таблице авторов 300 и более статей (без дизамбигов) останется менее 300 участников (фактически это будет добавлением колонки за 2013 год в эту табицу). — Adavyd 14:37, 31 августа 2013 (UTC)[ответить]
- Огромное спасибо ~Нирваньчику~, интересные данные. Получается три лидера по дизамбигам: у Tretyak около 50% статей это дизамбиги (12118 от 24572), а у Erokhin около 93% (4620 от 4957 = остаётся 337 статей), Mathew Pifagor (2171 от 4584) и т.д. На днях интегрирую с пересчетом на проценты. Может стоит и на каком-то форуме проинформировать. --Lasius 23:28, 31 августа 2013 (UTC)[ответить]
- Ну, для начала, я могу, несколько доработав бота, поставить его на регулярный запуск (раз в неделю, например), и выкладывать данные прямо в вики. Но это надо ещё немного поработать над ботом, встроить кеширование. Например, данные, полученные выше, бот собирал 12 часов. Повторный прогон с кэшем займёт часа 2. Тогда я смогу добавить больше юзеров в список, и даже вообще брать их из той большой таблицы. Надо только проверить, можно ли там различить юзера от бота, если можно - будет хорошо, если нет, сделаю свой костыль. Ну что продолжаем делать? ~Нирваньчик~ 08:53, 1 сентября 2013 (UTC)[ответить]
-
- Может, я что-то не понимаю, но мне кажется, что статистика авторов статей без дизамбигов (которая отсюда может быть извлечена и которую я обсуждал выше) стократно более интересна, чем статистика авторов дизамбигов. — Adavyd 16:10, 1 сентября 2013 (UTC)[ответить]
- Я тут подумал. Проще всего мне сделать то, что Lasius предложил, и, как продолжение темы - копию Участник:H2Bot/Участники по числу статей, только отсеять оттуда ботов и в качестве главного поля "Статьи" использовать только энциклопедические статьи (без дизамбигов, без редиректов), а дизамбиги как отдельная колонка. Это будет справедливая и интересная таблица - реальный рейтинг, где боты и дизамбиггеры не будут "влезать". Ну, а Википедия:Авторы статей там как-то вручную наполняются, и сложноватую структуру имеет, я туда влезать не буду. ~Нирваньчик~ 06:29, 2 сентября 2013 (UTC)[ответить]
-
- Да-да, примерно это я и имел в виду. Только с порогом снизу по числу энциклопедических статей (без дизамбигов) определиться надо, устанавливать какой-то минимум (300? 200? 100?) или нет. Скажем, если после пересчёта у кого-нибудь окажется 400 дизамбигов и 4 статьи, оставлять его в таблице или нет? — Adavyd 14:13, 2 сентября 2013 (UTC)[ответить]
Итог
Вроде бы проблема наконец решена, см. Участник:DimaBot/Участники по числу статей. — Adavyd 01:12, 12 июня 2015 (UTC)[ответить]
Портал:Черногория/Новые статьи
Здравствуйте.
Список новых статей на портале «Черногория» перестал обновляться (последнее изменение 05.08.2013). Я сначала подумал, что опять что-то с ботом, но потом заметил, что, к примеру, аналогичный список на портале «Хорватия» продолжает стабильно обновляться.
Может, проблема в чем-то другом?--Montegorn 12:30, 19 августа 2013 (UTC)[ответить]
- Всё обновляется, просто бот игнорирует многие статьи. За последний месяц многие новые статьи относятся к Югославии или к Сербии и Черногории, в настройках в игноре стоят категории "Югославия", "Сербия и Черногория", вот поэтому бот их не включает в список. Кроме того, бот не заходит на глубину дальше 6 корневой категории Черногория. Вот эту вторую проблему я исправлю ща (добавлю в настройки крупные подкатегории). А вообще, приведите примеры статей которые не попали в список, но должны были по вашему мнению. ~Нирваньчик~ 09:43, 20 августа 2013 (UTC)[ответить]
- К примеру, Самарджич, Драган или Ивелич, Иван Константинович (это из недавнего).
- А если статья попадает в игнорируемую подкатегорию, но при этом одновременно попадает также и в неигнорируемую подкатегорию — появится она в списке или нет? Я бы предпочел, чтобы появлялась.
- Например, русский генерал попадает в подкатегорию Категория:Русско-турецкая война (1877—1878), а она игнорируемая (и генерал этот никакого отношеия к Черногории не имеет и в список новых статей попадать не должен, и сейчас не попадает). Но при этом черногорский генерал, попадающий и в подкатегорию Категория:Русско-турецкая война (1877—1878), и в другую (неигнорируемую) подкатегорию Категория:Военачальники Черногории в список новых статей попадать должен именно за счет последней подкатегории (а сейчас, если я правильно понял, не попадет).
- Настраивается ли это каким-либо параметром?--Montegorn 12:27, 20 августа 2013 (UTC)[ответить]
- Да, проблема, которую вы подняли, каждый раз вызывает у меня головную боль. Её уже не раз обсуждали. Сейчас в настройках бота нет подходящего механизма, чтобы всё работало как хотелось. См. обсуждения Обсуждение участника:ClaymoreBot/Архив/2010/1#В продолжение темы обновления списка новых статей из категорий и Обсуждение участника:ClaymoreBot/Архив/2012/1#Вопрос о настройке категорий, там я давал кое-какие ответы. Способ решения проблемы будет, но пока у меня нету времени заниматься этим. Вкратце, я хочу сделать новый параметр "обязательные категории" (вот туда можно будет вписать "Военачальники Черногории" и т.п.), на них не будет влиять игнор, и я хочу сделать возможность указания глубины для каждой перечисленной категории. Но нужно время. Наверное, я подниму приоритет этой задачи до номера 1, ато вижу что она очень насущная. ~Нирваньчик~ 07:58, 21 августа 2013 (UTC)[ответить]
ACHTUNG
- Понятно. Что ж, досадно, но делать нечего, подождем. Все равно спасибо за бот, он действительно очень толковый.
- Однако я не совсем понял насчет приведенных мной примеров статей. Почему исключен Самарджич, Драган ясно - из-за попаданию в категорию "Югославия". Но почему исключен Ивелич, Иван Константинович? Он попадает в категорию "Участники русско-турецкой войны 1787—1791", но ведь она не игнорируемая (игнорируется другая война, 1877—1878). По моему разумению, он должен был попасть в список через категорию "Бока Которска".
- Также, если не возражаете, размышление на тему исправления ситуации. Думается мне, что хотя новый параметр "обязательные категории" безусловно полезен, но проблему в корне он не решит. Например, если из категории X исключается подкатегория XY, то некоторые входящие в XY статьи все равно должны попадать в список новых статей категории X потому, что также входят в X напрямую или опосредованно через подкатегории XA, XB, XC и другие. Вы предлагаете лечить ситуацию параметром "обязательные категории = XA,XB,XC". Но этот перечень подкатегорий (XA,XB,XC) предсказать невозможно, ведь дерево категорий - не жесткая ветвистая структура, а что-то вроде перепутанной сети, куда к тому же постоянно добавляются новые подкатегории (их все в параметр "обязательные категории" не включишь).
- Я предлагаю взглянуть на это немного по-другому. Сначала поработать со списком подкатегорий, а не статей. Представим, что раздел Участник:NirvanaBot#Алгоритм содержит такие шаги:
- 1. Собирается список подкатегорий (на максимально возможную глубину) по всем заданным категориям X (но при этом при составлении списка не исследуются ветки подкатегорий XY из параметра "игнорировать") и объединяется в один большой список Z (т.н. "список хороших подкатегорий" для списка категорий X).
- 2. Используя сервис CatScan получаются списки новых статей по всем подкатегориям из списка Z (только статьи, непосредственно в них входящие, первый уровень без дальнейшего углубления) и объединяет их в один большой список C.
- Т.е. мы для X собираем "список хороших подкатегорий" Z и ничего из него не потом не выбрасываем (игнорируемые ветки туда просто не попадут). И уже потом, имея Z, собираем для него новые статьи первого уровня - а вычитать уже ничего не надо.
- Конечно, можно сделать по-разному, и, не зная исходного кода и специфики работы CatScan, нельзя говорить за автора бота, но основная мысль - статья может попасть в нынешние списки статей A и B различными путями, необязательно только через одну ветвь подкатегорий. Поэтому должны учитываться подкатегории, через которые статья попадает в список, и проверяться - все ли они игнорируемые. Если хоть одна ветвь попадания в список неигнорируемая - то и статья неигнорируемая. Поэтому лучше заранее составить список неигнорируемых подкатегорий, а на остальные не обращать внимания.
- Надеюсь, это реализуемо.--Montegorn 13:23, 21 августа 2013 (UTC)[ответить]
- Вот подумалось: вообще говоря, то что я предлагаю - это стиль работы "включение важнее игнорирования". Но, по зрелому размышлению, нынешний стиль работы "игнорирование важнее включения" тоже кому-то удобен и нужен. Так что идеальный вариант - добавить новый стиль, не уничтожая старый. Можно ли это сделать новым параметром или это потребует полной переработки бота - вот в чем вопрос.
- --Montegorn 15:42, 21 августа 2013 (UTC)[ответить]
- Идея толковая, спасибо за хорошо оформленное предложение. Я, приблизительно похожее что-то и собирался сделать (собирался потому что планируется переезд всех ботов и сервисов с Toolserver на Labs, а это означает что CatScan может долгое время не работать, или вообще исчезнуть если его забросят, когда остановится Toolserver). Но, эта концепция может быть реализовывана только при прямом доступе бота к базе данных Википедии без использования CatScan, или нужен совершенно новый CatScan, с новыми возможностями. В общем, тут придётся фактически нового бота писать, уже в рамках Labs. Я вижу вы шарите в математике) ~Нирваньчик~ 06:49, 23 августа 2013 (UTC)[ответить]
- Что касается совмещения двух стилей - ещё надо подумать. Думаю возможно всё, только потребует много работы. ~Нирваньчик~ 06:50, 23 августа 2013 (UTC)[ответить]
- CatScan давно перестал меня удовлетворять. Он совершенно не способен обслуживать порталы-гиганты. Там появляется в день до 40 статей, список маловат, все не влезают, явно напрашивается пожелание обновлять чаще - 2 раза в день, но CatScan использует кэширование, и получать актуальные данные в нём можно только 1 раз в сутки, если чаще - часть данных всё равно не дойдёт. Далее, CatScan загибается если в категории больше 500 подкатегорий, он просто прекращает поиск где-то на 500-1000 категории. Приходится вписывать в настройки подкатегории. Если кто-то пожалуется. А если не пожалуется, то бот так и будет пропускать многие статьи. Перенастроенных порталов уже штук 20, а всего их наверное под сотню, и дальше будет хуже - википедия растёт. ~Нирваньчик~ 06:58, 23 августа 2013 (UTC)[ответить]
- Сам протокол доступа HTTP, который приходится использовать при работе с CatScan, тоже является ограничительным барьером. По этому протоколу, сервер должен обслужить запрос за несколько секунд. Предел - пару минут. Но категории-гиганты не могут обслужиться так быстро. На них уходит до 5 минут. CatScan обрывает поиск, а это делать не нужно. У бота время есть, он может и подождать эти 5 минут. Бот выполняет всё обновление за 4-6 часов, т.е. на его работу можно дать 20 часов спокойно. ~Нирваньчик~ 07:04, 23 августа 2013 (UTC)[ответить]
- Я, к сожалению, не пишу на Java, работаю с другими языками. Но если понадобится помощь в алгоритмизации логики бота в части пересечений множеств категорий и статей (там есть любопытные нюансы), то я буду рад принять участие. Как соберетесь снова править исходный код бота - дайте знать, готов обсуждать.--Montegorn 07:29, 23 августа 2013 (UTC)[ответить]
- Реализовал некоторое усовершенствование бота. Теперь можно задать дополнительные пары (категории/игнорировать), и то, что было выкинуто первой парой, можно захватить второй парой, а то, что потеряла 2-я пара - третьей и т.д. Примеры настроек с 2-мя парами можете увидеть в порталах Украина и Белоруссия. ~Нирваньчик~ 21:03, 1 мая 2014 (UTC)[ответить]
- Добавил "Военачальники Черногории" как отдельную группу выборки. ~Нирваньчик~ 19:25, 20 августа 2015 (UTC)[ответить]
Итог
Фича эта потребует большой и грандиозной переделки бота. Когда я смогу приняться за этот эпик, неизвестно. В любом случае, мой способ делать выборки несколькими группами помогает решить проблему пересечений. Обращайтесь, если что. ~Нирваньчик~ 19:25, 20 августа 2015 (UTC)[ответить]
- Респект.--Montegorn 20:35, 20 августа 2015 (UTC)[ответить]
Проект:Русский метал/Новые статьи- Приветствую! Во-первых, спасибо за данную функцию для проекта. Есть одно замечание: можно ли сделать так, чтобы добавлялись не все метал-группы из России, а метал-группы, у которых в шаблоне указан русский язык. 2) можно ли сделать такое же ещё для новых альбомов и музыкантов? А ещё бы хорошо если бы был составлен список статей, которые не входят в список статей проекта, но могли бы быть включены в проект (в последнее время редко следил за проектом, и за это время появилось много статей...) Заранее спасибо. --Mr.Aleksio 18:35, 15 декабря 2013 (UTC)[ответить]
- По поводу первого, такой функции нету у бота, но её можно сделать. Но я смогу заняться этим лишь в январе. ~Нирваньчик~ 18:01, 16 декабря 2013 (UTC)[ответить]
- Делаю. ~Нирваньчик~ 10:09, 22 августа 2015 (UTC)[ответить]
- По поводу второго (список), подай заявку на ВП:ЗКБВ. ~Нирваньчик~ 18:01, 16 декабря 2013 (UTC)[ответить]
Итог
Сделано. В качестве примера настроек можно брать вот эти тестовые настройки: Участник:NirvanaBot/test/Портал/Новые статьи (сложные настройки)/Параметры. Mr.Aleksio, обращайся, если нужно помочь с настройкой и вообще по любым вопросам. Могу попробовать сам настроить списки в проекте, но сейчас как я вижу, новые статьи в списках появляются настолько редко, что фильтрация по русскому языку ещё больше ухудшит ситуацию. Во-вторых, это какое-то сильное искусственное сужение интересов группы, я против такого сужения. Как-то не хочется это делать. ~Нирваньчик~ 21:11, 3 сентября 2015 (UTC)[ответить]
|
|