Разделы

Интернет Интернет-ПО

Каким станет интернет-поиск в будущем?

Каждый не раз и не два сталкивался с тем, что поиск в интернете превращается в длительный и скучный процесс. Но все идет к тому, что в будущем он станет быстрым, а его результаты – точными. Как этого достичь? Какие шаги делаются в этом направлении? Какие технологии применяются?

Использование этого метода превращает поисковую систему в навигационную. Иначе говоря, поисковик не выдает пользователю желаемой информации, он лишь указывает ссылки на сайты, которые содержат ключевые слова. Возможно, пользователь найдет там какие-то нужные данные. Содержимое сайтов индексируется, поиск идет по документам с минимальным учетом комбинаций и, тем более, смысловой нагрузки слов запроса.

Другой популярный метод – поиск по досье. В этой системе возможен ввод запроса в виде фактов или утверждений. Поиск производится по соответствию цели поиска содержанию документа. В результате осуществляется контекстный поиск информации, но с ограниченными возможностями. Дело в том, что базы досье не предназначены для широкого круга пользователей. Сами они имеют ограниченный размер, совокупность внесённых в них данных относительно невелика. Среди доступных ресурсов, использующих такой метод поиска – энциклопедии, справочники по составу сотрудников учреждений, адресные справочники и так далее. Примером использования этого метода может служить система zoominfo.com


Одним из новых веяний в поисковых системах является использование концепции tag cloud

Следующий аналитический механизм – поиск в информационных массивах группы связанных данных. Пока этот метод должного распространения не получил, хотя является весьма привлекательным и перспективным. Пример использования - LiveJournal MindMap.

Наконец, четвёртый метод– использование фискально-полицейских систем. Поиск производится по специализированным базам адресной, регистрационной и налоговой информации. Этот метод способен обрабатывать огромные массивы данных, но предназначен исключительно для специалистов-аналитиков. Примеры использования – NetMap, Visual Links, программа i2 Analyst’s Notebook и другие.

Пока объединение всех четырёх методов в той или иной степени удалось системам, используемым разведкой и полицией. Но именно этот путь – объединения известных методов – и приведет к появлению общедоступных, мощных и более совершенных поисковых инструментов нового поколения.

Методы усовершенствования поиска

Одно из наиболее существенных улучшений поисковых механизмов – обеспечение выдачи релевантных документов. В данном случае под релевантностью понимается соответствие документов смыслу запроса. При этом релевантность может иметь смысл только с точки зрения конкретного пользователя.

Например, если человек хочет снять офис, его интересует непосредственно объявление о сдаче помещения соответствующего формата, а не справка о том, что в Москве их ежегодно арендуется более 5 000 штук. "Идеальным" ответом будет адрес сдаваемого помещения, цена и контакты для связи с арендодателем. Но на данном этапе развития это едва ли возможно.

Чтобы обеспечить соответствие ответов, поисковые машины используют различные пути. Например, Google пытается отслеживать запросы пользователей и запоминать их поведение (то есть учитывать частоту запросов по различным темам). Но в результате выдаются не наиболее релевантные, а модные, популярные или разрекламированные ссылки. Поиск сопутствующей справочной информации в этом случае становится более эффективным, но для нахождения знаний этот метод не годится.

Сейчас уже ведутся опыты по практическому использованию кластерного поиска. Результаты запроса раскладываются по отдельным смысловым группам для того, чтобы понять: что же на самом деле нужно пользователю, какую именно информацию он ищет в интернете.

Еще один подход - поиск с обратной связью. Этот метод напоминает систему мастеров, шаблонов, которые пользователь преодолевает шаг за шагом. Это очень перспективное направление, которое способно обеспечить максимальную релевантность ответа на любой запрос. Но в конце развития этого метода – система жёстко детерминированных меню, не подразумевающая какой-либо гибкости (то есть поиск сводится к вводу простых ответов типа "да / нет", а не менее определённых "и / или").

Наконец, для обеспечения релевантности ответов используется добавление синонимов к самим запросам перед их выполнением. То есть перед поиском к запросу добавляются схожие по смыслу и разные по форме слова, которые облегчают релевантный поиск.

Второе важное улучшение поисковых систем, которое можно заметить уже сегодня – грамматический разбор запроса и текстов, в которых производится поиск.

При грамматическом анализе запроса фраза разделяется на взаимосвязанные объекты, а не просто на отдельные слова. В результате основным объектом поиска становится знание, ответ на вопрос, а не просто нахождение документов как таковых. То есть ответ на конкретный вопрос становится главной задачей, а вывод ссылок выполняет вспомогательную, иллюстративную функцию.

Сложности разработки

Для полного грамматического разбора запроса необходимо произвести лингвистический анализ документов, чтобы получить набор элементарных утверждений (или "фактов") о наличии нужных атрибутов и связей. Это связано с переработкой значительных массивов данных, что и объясняет трудности в реализации этих механизмов.

Ещё одна проблема – формализация запроса. Чтобы точно выполнить запрос, необходимо понять его смысл, цель. В каком виде должны быть представлены знания, чтобы ответы носили универсальный характер? Какого-либо специального языка для представления знаний наука до сих пор не выработала. Поиск в этом направлении ведётся, но перспективы пока остаются туманными.

Пока не решена и проблема визуализации ответов. Интерфейс поисковой системы должен быть максимально простым, но и максимально информативным. Требования предъявляются крайне противоречивые. Это равносильно тому, чтобы попытаться построить мощный персональный компьютер, который бы мог быстро понять и освоить пятилетний ребёнок. Задача трудновыполнимая, но всё же... выполнимая. Ведь когда-то и дистанционный пульт управления телевизором казался невероятно сложным устройством.

Наконец – идентификация объектов. Это самая сложная задача, в решении которой особых успехов пока не достигнуто. Как определить соответствие одного и того же документа (или объекта) к разным группам утверждений? Например, одна и та же веб-страница может содержать информацию о турах, об истории Египта, о гостиницах и так далее. Но при этом поисковые запросы могут касаться только туров, только гостиниц или только информации о стране.

Главное условие, которое отличает существующую систему поиска от поисковой системы нового поколения – это успешное решение именно проблемы идентификации. Его выполнение еще впереди, и не факт, что это произойдет в ближайшем будущем. Но рано или поздно это произойдет.

Наталья Евдокимова

Исследование CNews Analytics: «Wi-Fi: Бизнес - модели организации точек доступа»