Меню

Главная
Случайная статья
Настройки
Cyc
Материал из https://ru.wikipedia.org

Cyc (написано латиницей, произносится Сайк) — проект по созданию объёмной онтологической базы знаний, позволяющей программам решать сложные задачи из области искусственного интеллекта на основе логического вывода и привлечения здравого смысла.

Содержание

Обзор

Проект начал Дуглас Ленат в 1984 году в Microelectronics and Computer Technology Corporation[англ.]. Название «Cyc» (образованное от англ. encyclopedia: «сайк») является зарегистрированной торговой маркой компании Cycorp, Inc в Остине, которой управляет Ленат и созданной для разработки Cyc. База знаний является собственностью компании, однако небольшая часть базы, предназначенная для установления общего словаря для программ автоматического рассуждения, была выпущена как OpenCyc под открытой лицензией. Позднее Cyc стала доступной для исследователей ИИ под специальной исследовательской лицензией ResearchCyc.

Типичными примерами знаний в базе являются: «Всякое дерево является растением» и «Растения смертны». Если спросить «умирают ли деревья?», машина логического вывода может сделать очевидный вывод и дать правильный ответ. База знаний (англ. Knowledge Base или KB) содержит более миллиона занесённых туда людьми утверждений, правил и общеупотребительных идей. Они формулируются на языке CycL, который основан на исчислении предикатов и имеет схожий с лиспом синтаксис. Англоязычные пользователи шутят, что они «велосипедисты» (от англ. cyclist — велосипедист).

Большая часть сегодняшней работы в проекте Cyc всё ещё связана с инженерией знаний — описание фактов об окружающем мире вручную и реализация эффективных механизмов логического вывода на основе этих знаний. Однако ведётся работа над тем, чтобы дать системе Cyc возможность самостоятельно общаться с пользователями на естественном языке, и над ускорением процесса пополнения базы с помощью машинного обучения.

Описание базы знаний, терминология

Концепции в Cyc называются константами. Имена констант начинаются с необязательных символов «#$» и чувствительны к регистру. Существуют константы для:
  • отдельных элементов, которые называются individual, например #$BillClinton или #$France.
  • совокупностей (Collections) таких, как например, #$Tree-ThePlant (в которую входят все деревья) или #$EquivalenceRelation (в которой содержатся все отношения эквивалентности). Член совокупности называется экземпляром данной коллекции.
  • функций истинности (Truth Functions) которые можно применять к одной или нескольким концепциям и возвращающие значение истина или ложь. Например, #$siblings (потомки одного родителя) является отношением родства, истинным только в том случае, когда два его аргумента являются братьями или сёстрами. По соглашению, константы функций истинности начинаются с буквы в нижнем регистре. Функции истинности поддаются разбиению на логические связки (такие как #$and, #$or, #$not, #$implies), кванторы (#$forAll, #$thereExists, и т. д.) и предикаты.
  • функций Functions, которые образуют новые термы из данных. Например, если передать функции #$FruitFn в качестве аргумента тип (или коллекцию) растений, она вернёт коллекцию их фруктов. По соглашению, имена констант функций начинаются с буквы в верхнем регистре и заканчиваются строкой «Fn».


Наиболее важными предикатами являются #$isa и #$genls. Первый является утверждением, что некий элемент является экземпляром некой коллекции, а второй — что коллекция является подколлекцией другой коллекции. Факты о концепциях декларируются с помощью особых высказываний языка CycL. Предикаты записываются в скобках перед своими аргументами:
(#$isa #$BillClinton #$UnitedStatesPresident)


означает, что «Билл Клинтон входит в совокупность президентов США», а высказывание
(#$genls #$Tree-ThePlant #$Plant)


читается как «Все деревья являются растениями».
(#$capitalCity #$France #$Paris)


значит: «Париж — столица Франции».

Высказывания также могут содержать переменные, строки начинающиеся со знака «?». Эти высказывания называются «правилами». Одно из важнейших правил, относящихся к предикату #$isa, читается:
(#$implies
   (#$and
      (#$isa ?OBJ ?SUBSET)
      (#$genls ?SUBSET ?SUPERSET))
   (#$isa ?OBJ ?SUPERSET))


что означает «если OBJ является экземпляром коллекции SUBSET, а SUBSET в свою очередь является подколлекцией SUPERSET, тогда OBJ также является экземпляром коллекции SUPERSET». Другой типичный пример:
(#$relationAllExists #$biologicalMother #$ChordataPhylum #$FemaleAnimal)


что означает, что любой экземпляр коллекции #$ChordataPhylum (то есть любое хордовое) связан с самкой животного (экземпляром #$FemaleAnimal), которая является его матерью (что описывается предикатом #$BiologicalMother).

База знаний Cyc разделена на микротеории (Mt), коллекции концепций и фактов, принадлежащих одной конкретной области знаний. В отличие от полной базы знаний, всякая микротеория должна быть свободной от противоречий. Всякая микротеория имеет название, которое является обычной константой; по соглашению константы микротеорий содержат строку «Mt». Пример — #$MathMt, микротеория, содержащая математические знания. Микротеории могут наследоваться одна от другой и организованы в иерархию: одной из специализаций #$MathMt является #$GeometryGMt — микротеория о геометрии.

OpenCyc

Последняя версия OpenCyc, 1.0 была выпущена в июле 2006 года. OpenCyc 1.0 включает в себя полную онтологию Cyc, содержащую сотни тысяч выражений, миллионы утверждений, связывающих термы между собой. База знаний содержит 47 000 концепций и 306 000 фактов, и её можно просмотреть на сайте OpenCyc. Первая версия OpenCyc была выпущена в мае 2001 года и содержала только 6000 концепций и 60 000 фактов. База знаний выпущена под лицензией Apache. Cycorp намерена выпускать OpenCyc под параллельными, менее жёсткими лицензиями, чтобы удовлетворить потребности своих пользователей. Интерпретатор CycL и SubL (программа, которая позволяет просматривать и изменять базу данных и делать выводы) выпущена бесплатно, но только в двоичном виде, без исходных текстов. Она работает как под GNU/Linux, так и под Microsoft Windows.

ResearchCyc

В июле 2006 года Cycorp выпустила ResearchCyc 1.0, бесплатную (но с закрытыми исходниками) версию Cyc, предназначенную для исследовательского сообщества. (ResearchCyc находился в стадии бета-версии в течение всего 2004 года, а выпущен в бета-тестирование он был в феврале 2005.) В дополнение к таксономической информации из OpenCyc, ResearchCyc включает значительно больше семантических знаний (то есть дополнительные факты) о концепциях в своей базе знаний, и включает большой лексикон, инструменты для грамматического разбора и генерации английского языка, написанные на языке Java интерфейсы для редактирования знаний и создания запросов к базе.

Cycorp публично выразила своё намерение выпустить все термы и таксономические взаимосвязи, содержащиеся в ResearchCyc, как часть OpenCyc, и это было сделано в версии 1.0. Одна из указанных целей — создать полностью свободный и неограниченный семантический словарь для использования в семантической паутине. Таксономия OpenCyc доступна в формате Owl на сайте проекта OpenCyc.

Критика проекта Cyc

Cyc описывают как «одно из наиболее противоречивых начинаний в истории искусственного интеллекта» (Бертино и др. стр. 275), так что он неизбежно получил свою долю критики.
  • Чрезмерная сложность системы — без сомнения необходимая в силу энциклопедических амбиций — и соответственно сложность добавления (вручную) данных в систему;
  • Проблемы масштабируемости from widespread reification, особенно как константы;
  • Неудовлетворительное использование концепции материи, и связанного с этим, различия между внутренними и внешними свойствами;
  • Отсутствие вменяемых измерений производительности или сравнений эффективности машины вывода Cyc;
  • Нынешняя неполнота системы как в ширину, так и глубину, и связанная с этим сложность в измерении её полноты;
  • Недостаток документации;
  • Отсутствие неустаревшего онлайнового обучающего материала усложняет изучение системы для новичков;
  • Несмотря на своё название система OpenCyc не является полностью открытой: данные доступны для редактирования пользователям, но код недоступен для расширения разработчикам.[1]


Данные вопросы обсуждались в разных местах с момента запуска проекта. Даг Ленат и другие опубликовали множество аргументов в защиту своего проекта.

См. также

Библиография
Downgrade Counter