Про семантику, которая спасет мир
О семантическом поиске активно говорят уже на протяжении нескольких последних лет. Любая технология, которая сможет улучшить уже стандартный поиск от Google, справедливо вызывает всеобщий интерес. Особенно, если речь идет о долгожданной и часто обсуждаемой возможности семантического поиска к качественному “перевариванию” практически любых объемов данных – ведь количество информации в Сети стремительно нарастает, а возможности классических поисковых механизмов, очевидно, достигли своего технического потолка. Еще 10 лет таких лавинообразных темпов накопления информации человечеством – и мир рискует погибнуть от своей собственной сложности. Поэтому сегодня мы приводим обзор ведущих семантических поисковых систем, и хотя многие из них пока уступают в качестве поиска Google, свои преимущества у них тоже, вне сомнения, уже есть.
Что такое семантический поиск?
И прежде чем мы рассмотрим ярко выраженных технологических лидеров на этом молодом рынке поиска, давайте сначала, хотя бы вкратце, дадим определение и характерные отличия семантического поиска вообще.
Итак, что такое семантический поиск? Говоря предельно просто - это процесс поиска документов по их смысловому содержанию. Главные необходимые условия для его машинной реализации:
. Перевод содержания документов и запросов с естественного человеческого языка на информационно-поисковый язык, понятный машине, и составление на его базе поисковых образов документа и, в конечном итоге, точного запроса.
. Составление поискового описания, в котором указывается дополнительное условие поиска.
Принципиальная разница между адресным (повсеместно используемым сегодня) и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания. Это означает, что при адресном поиске мы имеем некоторый экстракт документа (например индекс), хранящийся в базе, вместе с точным адресом на этот документ. И оперировать при таком поиске мы можем в любом случае только этими специально подготовленными экстрактами. При истинном содержательном поиске (семантическом поиске) мы оперируем всем содержимым документа для определения его полноценного смысла и контекста, и только после этой операции “понимания” - формируем представление о его релевантности запросу. Именно поэтому при семантическом поиске находится множество документов без указания их адресов. В этом принципиальное отличие от этого типа поиска каталогов и картотек, которые используются сегодня повсеместно.
Несмотря на то, что данный вид поиска будущего реализуется сегодня на стыке таких наук, как математика, программирование, лингвистика и психология, к сожалению, пока до сих пор отсутствует ясное и непротиворечивое понимание того, как должен реализовываться идеальный механизм семантического поиска, - все, что мы имеем на данный момент, это лишь его частные случаи.
Покончив с базовыми понятиями и, несмотря на сложность и амбициозность поставленной задачи перед разработчиками этого нового вида поиска, предлагаю перейти непосредственно к рассмотрению лидеров этого молодого зарождающегося поискового рынка будущего.
Лучшие из лучших
Hakia
http://www.hakia.com/
Hakia – это семантический поиск общего назначения, который считается одним из технологических лидеров поискового рынка. Семантический поиск развивается сейчас в разных направлениях, в этом смысле Hakia благодаря своей универсальности – противоположность таким известным семантическим поисковикам, как Powerset и Cognition (которые мы рассмотрим далее), которые отлично ищут лишь в хорошо структурированном тексте, имеющем заведомо четкую структуру (очень типичный пример подобного ресурса – Wikipedia).
Как можно видеть, поисковые результаты Hakia собраны в закладки: веб-ресурсы, заслуживающие доверия сайты (как правило, официальные, государственные, образовательные и крупные новостные сайты), а также изображения и новости. В закладке Доверенные сайты можно видеть выдачу лишь тех сайтов или источников, которые были внесены в поиск вручную, проверены и одобрены специальной командой “библиотекарей” поисковика. Для некоторых запросов (обычно это популярные запросы) Hakia предоставляет, кроме самой поисковой выдачи, уже готовое резюме по данном вопросу, где содержатся проверенные информативные и высококачественные ссылки на статьи и ресурсы по заданной теме, а также краткая суть вопроса, чтобы человек получал краткую справочную информацию, не покидая самого поиска Hakia.
Отдельные элементы этих резюме чувствительны к деталям вашего запроса и будут динамически меняться, если вы будете смещать акценты вашего интереса даже в пределах какой-то одной темы. Наиболее часто встречаемые тематики резюме – различные биографии известных людей, исторические характеристики различных времен или правительств, обзоры экономики, политики, культуры, общие характеристики различных стран и т.д. Статистика использования Hakia показывает, что тематические резюме - одни из самых востребованных возможностей данного поискового проекта, их используют как стартовую карту для погружения в тематический вопрос, предпочитая их традиционной машинной выдаче результатов релевантного поиска.
Powerset
http://www.powerset.com/
Powerset с 2008 года спонсируется Microsoft. Область поиска включает хорошо cтруктуризированные источники информации, такие как Wikipedia. На данный момент Powerset - это семантический поиск, который вырос на базе традиционного поискового движка в ходе его длительной эволюции и развития. Увидеть и оценить подход Powerset проще всего на примере его выдачи по поиску в Wikipedia, данные которого будут представлены в структурированном виде. Вы можете задавать отдельные ключевые слова, фразы или вводить в форму поиска точные вопросы – поисковая машина часто отвечает на такие вопросы также в виде конкретных ответов.
Часто в результатах этого поиска появляется кнопка Factz, которая ведет к набору тщательно отсортированных и категоризированных наборов неких связанных с запросом фактов. Например, если вы будете искать по слову Obama, вы увидите в списке результатов эту кнопку, которая ведет к набору результатов-списков, что сказал Obama по поводу Робертса Гейтса, Ближнего Востока, Пакистана, Ливии и т.д. То есть здесь поисковая выдача многократно автоматически группируется, во-первых, для конкретизации результатов поиска, во-вторых, для исключения бесконечных повторений и дублирования одного и того же теста или факта, в-третьих, это попытка динамического создания своего рода досье объекта или явления, ставшего предметом вашего поиска.
Sensebot
http://www.sensebot.net/
“Sensebot ищет вместе с вами” – таков недавний лозунг этой поисковой машины. Каждая поисковая выдача тщательно анализируется и делается попытка, с одной стороны, группировки похожих или идентичных пунктов поиска, с другой стороны – максимально ясно и четко суммировать содержание каждой из выделенных таким образом тематических групп результирующего поиска (концепция так называемого смыслового фолдинга). Таким образом, Sensebot помогает вам пробираться через массивы данных любого объема, легко находя в них именно те детали, которые интересовали вас.
Упомянутое выше краткое содержание может настраиваться и представляться в разных видах. По умолчанию, это своего рода дайджест из содержимого сформированной смысловой группы, где приводятся самый важные и релевантные факты из найденного материала. Также этот дайджест-блок может содержать облако тэгов по теме, а также список предложений, которые выражают самые главные идеи данного смыслового блока. Предложения, как и тэги – в виде ссылки ведут на конкретные страницы или список страниц, иерархически связанных с данным понятием.
Cognition
http://www.cognition.com/
Это поисковый семантический движок, базирующийся на лингвистической карте английского языка. Этот движок создавался на протяжении последних 24 лет, и на данный момент компания, владеющая этим поисковиком, утверждает, что ими составлена наиболее точная в мире карта английского языка и его смыслового пространства. Возможности Cognition не ограничиваются только предоставлением публичного семантического поиска, его ресурсы также используются множеством сторонних фирм для создания своих специализированных поисков, различной бизнес-аналитики, встроенных сервисов машинных переводов, поиску по контексту и много другого
Перечислим направления, в которых семантический поиск Cognition лидирует уже сегодня:
. Поиск по законодательству, как международному, так и сугубо американскому, юридические консультации. Как пример, у Cognition накоплена база окружных решений американский судов начиная с 1950 года.
. Система MEDLINE (Medical Literature Analysis and Retrieval System Online) – один из лучших поисковых индексов в мире по медицинской и научной литературе вообще, различным научным данным. Только в собственной базе на эту тему хранится более 20 миллионов оригинальных документов.
. Лучший возможный поиск по английской версии Wikipedia – единая смысловая карта понятий и логических значений наложена поверх всем привычной Wikipedia, добавляя дополнительное измерение в пространство этой популярной энциклопедии.
. Собственная полнотекстовая база Нового Завета, с примечаниями переводчиков, параллельными текстами исторических оригиналов, историческими контекстными комментариями, исчерпывающей картой перекрестных ссылок внутри текстов, единой семантической картой всего материала.
DeepDyve
http://www.deepdyve.com/
DeepDyve – это профессиональный исследовательский инструмент, предоставляемый бесплатно для публичного использования в некоммерческих целях. Этот поисковик, как это уже видно на его названия, специализируется на индексировании так называемого “глубокого веба”, то есть той части веб- ресурсов, которые, как правило, недоступны обычным поисковым машинам. Например, Google не индексирует текстовое написание ссылки (без образования гиперссылки) вида “some.ru/somedir”, DeepDyve же выделяет подобные ссылки из текста и пытается учесть и такие ресурсы. Второй характерный пример: для DeepDyve достаточно встретить одну ссылку на любую ветку нового для него форума, чтобы он самостоятельно попытался определить тип форумного движка и сгенерировать новые ссылки на другие ветки этого форума, исходя из ранее известной структуры данного типа движка, а также “на лету” вычислить его главные индексные страницы. Подобно планете Нептун, открытой астрономами, что называется, "на кончике пера" (то есть всего лишь на основании теоретических расчетов, а не факта прямого эмпирического наблюдения), – DeepDyve также, в процессе своей во многом исследовательской работы, делает чрезвычайно много гипотетических предположений, многие из которых блестяще оправдываются, открывая дверь в доселе невидимые для поиска части веба.
Специальная команда добровольцев из DeepDyve ежедневно регистрируется на сотне новых популярных форумов, давая возможность движку DeepDyve вслед за ними проникать на эти форумы авторизованным и видеть любой скрытый для публичного наблюдателя текст. DeepDyve также свободно индексирует содержимое SQL-баз данных, как и обычных веб-страниц, если ему становятся каким-либо образом известны параметры доступа к ним.
Также этот поисковик известен своим чрезвычайно развитым языком поисковых запросов, огромным количеством логических, смысловых, текстовых и сортировочных операций над искомым результатом запроса. Так, длина разрешенного запроса в сервисе лежит в диапазоне от одного слова до длины запроса в 25.000 символов.
WolframAlpha
http://www.wolframalpha.com/
Под конец нашего обзора хотелось бы упомянуть сравнительно молодую поисковую систему WolframAlpha, где главным отличием от того же Google является то, что этот поиск сам генерирует ответы на запросы пользователей. В итоге пользователь не просто работает с индексной базой поисковика, доставая при помощи запросов те или иные данные, а буквально общается с системой. WolframAlpha относится к последнему поколению семантических поисковиков, где влияние элементов искусственного интеллекта наиболее существенно, где многие из реализованных передовых концепций представляют собой научный эксперимент, который, что называется, проходит проверку прямо на реальных пользователях системы.
Общий вывод
Очень многие подобные системы находятся еще в своем зачаточном состоянии, например, российские семантические поисковики, такие как AskNet (www.asknet.ru), поэтому их пока бессмысленно сравнивать со своими старшими коллегами, и они справедливо остались за бортом этого обзора “лучших из лучших”.
Семантический поиск – это пока технология будущего, поставившая перед собой на данный момент слишком амбициозные цели. И хотя на данный момент семантический поиск не может полностью заменить собой Google и предоставить более качественные результаты поиска, правда все же заключается в том, что семантический поиск уже сегодня позволяет эффективно решать многие нестандартные и специализированные поисковые задачи, получать ответы на сложные, логически изощренные запросы, которые уже сплошь и рядом встречаются в нашей повседневной жизни. Дополнительный материал по этой теме с яркими примерами и выводами можно найти по адресу habrahabr.ru/blogs/sw/31600.
Игорь Савчук Blogerator.ru
Что такое семантический поиск?
И прежде чем мы рассмотрим ярко выраженных технологических лидеров на этом молодом рынке поиска, давайте сначала, хотя бы вкратце, дадим определение и характерные отличия семантического поиска вообще.
Итак, что такое семантический поиск? Говоря предельно просто - это процесс поиска документов по их смысловому содержанию. Главные необходимые условия для его машинной реализации:
. Перевод содержания документов и запросов с естественного человеческого языка на информационно-поисковый язык, понятный машине, и составление на его базе поисковых образов документа и, в конечном итоге, точного запроса.
. Составление поискового описания, в котором указывается дополнительное условие поиска.
Принципиальная разница между адресным (повсеместно используемым сегодня) и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания. Это означает, что при адресном поиске мы имеем некоторый экстракт документа (например индекс), хранящийся в базе, вместе с точным адресом на этот документ. И оперировать при таком поиске мы можем в любом случае только этими специально подготовленными экстрактами. При истинном содержательном поиске (семантическом поиске) мы оперируем всем содержимым документа для определения его полноценного смысла и контекста, и только после этой операции “понимания” - формируем представление о его релевантности запросу. Именно поэтому при семантическом поиске находится множество документов без указания их адресов. В этом принципиальное отличие от этого типа поиска каталогов и картотек, которые используются сегодня повсеместно.
Несмотря на то, что данный вид поиска будущего реализуется сегодня на стыке таких наук, как математика, программирование, лингвистика и психология, к сожалению, пока до сих пор отсутствует ясное и непротиворечивое понимание того, как должен реализовываться идеальный механизм семантического поиска, - все, что мы имеем на данный момент, это лишь его частные случаи.
Покончив с базовыми понятиями и, несмотря на сложность и амбициозность поставленной задачи перед разработчиками этого нового вида поиска, предлагаю перейти непосредственно к рассмотрению лидеров этого молодого зарождающегося поискового рынка будущего.
Лучшие из лучших
Hakia
http://www.hakia.com/
Hakia – это семантический поиск общего назначения, который считается одним из технологических лидеров поискового рынка. Семантический поиск развивается сейчас в разных направлениях, в этом смысле Hakia благодаря своей универсальности – противоположность таким известным семантическим поисковикам, как Powerset и Cognition (которые мы рассмотрим далее), которые отлично ищут лишь в хорошо структурированном тексте, имеющем заведомо четкую структуру (очень типичный пример подобного ресурса – Wikipedia).
Как можно видеть, поисковые результаты Hakia собраны в закладки: веб-ресурсы, заслуживающие доверия сайты (как правило, официальные, государственные, образовательные и крупные новостные сайты), а также изображения и новости. В закладке Доверенные сайты можно видеть выдачу лишь тех сайтов или источников, которые были внесены в поиск вручную, проверены и одобрены специальной командой “библиотекарей” поисковика. Для некоторых запросов (обычно это популярные запросы) Hakia предоставляет, кроме самой поисковой выдачи, уже готовое резюме по данном вопросу, где содержатся проверенные информативные и высококачественные ссылки на статьи и ресурсы по заданной теме, а также краткая суть вопроса, чтобы человек получал краткую справочную информацию, не покидая самого поиска Hakia.
Отдельные элементы этих резюме чувствительны к деталям вашего запроса и будут динамически меняться, если вы будете смещать акценты вашего интереса даже в пределах какой-то одной темы. Наиболее часто встречаемые тематики резюме – различные биографии известных людей, исторические характеристики различных времен или правительств, обзоры экономики, политики, культуры, общие характеристики различных стран и т.д. Статистика использования Hakia показывает, что тематические резюме - одни из самых востребованных возможностей данного поискового проекта, их используют как стартовую карту для погружения в тематический вопрос, предпочитая их традиционной машинной выдаче результатов релевантного поиска.
Powerset
http://www.powerset.com/
Powerset с 2008 года спонсируется Microsoft. Область поиска включает хорошо cтруктуризированные источники информации, такие как Wikipedia. На данный момент Powerset - это семантический поиск, который вырос на базе традиционного поискового движка в ходе его длительной эволюции и развития. Увидеть и оценить подход Powerset проще всего на примере его выдачи по поиску в Wikipedia, данные которого будут представлены в структурированном виде. Вы можете задавать отдельные ключевые слова, фразы или вводить в форму поиска точные вопросы – поисковая машина часто отвечает на такие вопросы также в виде конкретных ответов.
Часто в результатах этого поиска появляется кнопка Factz, которая ведет к набору тщательно отсортированных и категоризированных наборов неких связанных с запросом фактов. Например, если вы будете искать по слову Obama, вы увидите в списке результатов эту кнопку, которая ведет к набору результатов-списков, что сказал Obama по поводу Робертса Гейтса, Ближнего Востока, Пакистана, Ливии и т.д. То есть здесь поисковая выдача многократно автоматически группируется, во-первых, для конкретизации результатов поиска, во-вторых, для исключения бесконечных повторений и дублирования одного и того же теста или факта, в-третьих, это попытка динамического создания своего рода досье объекта или явления, ставшего предметом вашего поиска.
Sensebot
http://www.sensebot.net/
“Sensebot ищет вместе с вами” – таков недавний лозунг этой поисковой машины. Каждая поисковая выдача тщательно анализируется и делается попытка, с одной стороны, группировки похожих или идентичных пунктов поиска, с другой стороны – максимально ясно и четко суммировать содержание каждой из выделенных таким образом тематических групп результирующего поиска (концепция так называемого смыслового фолдинга). Таким образом, Sensebot помогает вам пробираться через массивы данных любого объема, легко находя в них именно те детали, которые интересовали вас.
Упомянутое выше краткое содержание может настраиваться и представляться в разных видах. По умолчанию, это своего рода дайджест из содержимого сформированной смысловой группы, где приводятся самый важные и релевантные факты из найденного материала. Также этот дайджест-блок может содержать облако тэгов по теме, а также список предложений, которые выражают самые главные идеи данного смыслового блока. Предложения, как и тэги – в виде ссылки ведут на конкретные страницы или список страниц, иерархически связанных с данным понятием.
Cognition
http://www.cognition.com/
Это поисковый семантический движок, базирующийся на лингвистической карте английского языка. Этот движок создавался на протяжении последних 24 лет, и на данный момент компания, владеющая этим поисковиком, утверждает, что ими составлена наиболее точная в мире карта английского языка и его смыслового пространства. Возможности Cognition не ограничиваются только предоставлением публичного семантического поиска, его ресурсы также используются множеством сторонних фирм для создания своих специализированных поисков, различной бизнес-аналитики, встроенных сервисов машинных переводов, поиску по контексту и много другого
Перечислим направления, в которых семантический поиск Cognition лидирует уже сегодня:
. Поиск по законодательству, как международному, так и сугубо американскому, юридические консультации. Как пример, у Cognition накоплена база окружных решений американский судов начиная с 1950 года.
. Система MEDLINE (Medical Literature Analysis and Retrieval System Online) – один из лучших поисковых индексов в мире по медицинской и научной литературе вообще, различным научным данным. Только в собственной базе на эту тему хранится более 20 миллионов оригинальных документов.
. Лучший возможный поиск по английской версии Wikipedia – единая смысловая карта понятий и логических значений наложена поверх всем привычной Wikipedia, добавляя дополнительное измерение в пространство этой популярной энциклопедии.
. Собственная полнотекстовая база Нового Завета, с примечаниями переводчиков, параллельными текстами исторических оригиналов, историческими контекстными комментариями, исчерпывающей картой перекрестных ссылок внутри текстов, единой семантической картой всего материала.
DeepDyve
http://www.deepdyve.com/
DeepDyve – это профессиональный исследовательский инструмент, предоставляемый бесплатно для публичного использования в некоммерческих целях. Этот поисковик, как это уже видно на его названия, специализируется на индексировании так называемого “глубокого веба”, то есть той части веб- ресурсов, которые, как правило, недоступны обычным поисковым машинам. Например, Google не индексирует текстовое написание ссылки (без образования гиперссылки) вида “some.ru/somedir”, DeepDyve же выделяет подобные ссылки из текста и пытается учесть и такие ресурсы. Второй характерный пример: для DeepDyve достаточно встретить одну ссылку на любую ветку нового для него форума, чтобы он самостоятельно попытался определить тип форумного движка и сгенерировать новые ссылки на другие ветки этого форума, исходя из ранее известной структуры данного типа движка, а также “на лету” вычислить его главные индексные страницы. Подобно планете Нептун, открытой астрономами, что называется, "на кончике пера" (то есть всего лишь на основании теоретических расчетов, а не факта прямого эмпирического наблюдения), – DeepDyve также, в процессе своей во многом исследовательской работы, делает чрезвычайно много гипотетических предположений, многие из которых блестяще оправдываются, открывая дверь в доселе невидимые для поиска части веба.
Специальная команда добровольцев из DeepDyve ежедневно регистрируется на сотне новых популярных форумов, давая возможность движку DeepDyve вслед за ними проникать на эти форумы авторизованным и видеть любой скрытый для публичного наблюдателя текст. DeepDyve также свободно индексирует содержимое SQL-баз данных, как и обычных веб-страниц, если ему становятся каким-либо образом известны параметры доступа к ним.
Также этот поисковик известен своим чрезвычайно развитым языком поисковых запросов, огромным количеством логических, смысловых, текстовых и сортировочных операций над искомым результатом запроса. Так, длина разрешенного запроса в сервисе лежит в диапазоне от одного слова до длины запроса в 25.000 символов.
WolframAlpha
http://www.wolframalpha.com/
Под конец нашего обзора хотелось бы упомянуть сравнительно молодую поисковую систему WolframAlpha, где главным отличием от того же Google является то, что этот поиск сам генерирует ответы на запросы пользователей. В итоге пользователь не просто работает с индексной базой поисковика, доставая при помощи запросов те или иные данные, а буквально общается с системой. WolframAlpha относится к последнему поколению семантических поисковиков, где влияние элементов искусственного интеллекта наиболее существенно, где многие из реализованных передовых концепций представляют собой научный эксперимент, который, что называется, проходит проверку прямо на реальных пользователях системы.
Общий вывод
Очень многие подобные системы находятся еще в своем зачаточном состоянии, например, российские семантические поисковики, такие как AskNet (www.asknet.ru), поэтому их пока бессмысленно сравнивать со своими старшими коллегами, и они справедливо остались за бортом этого обзора “лучших из лучших”.
Семантический поиск – это пока технология будущего, поставившая перед собой на данный момент слишком амбициозные цели. И хотя на данный момент семантический поиск не может полностью заменить собой Google и предоставить более качественные результаты поиска, правда все же заключается в том, что семантический поиск уже сегодня позволяет эффективно решать многие нестандартные и специализированные поисковые задачи, получать ответы на сложные, логически изощренные запросы, которые уже сплошь и рядом встречаются в нашей повседневной жизни. Дополнительный материал по этой теме с яркими примерами и выводами можно найти по адресу habrahabr.ru/blogs/sw/31600.
Игорь Савчук Blogerator.ru
Компьютерная газета. Статья была опубликована в номере 31 за 2011 год в рубрике soft