Разделы

Интернет Интернет-ПО

Каким станет интернет-поиск в будущем?

Каждый не раз и не два сталкивался с тем, что поиск в интернете превращается в длительный и скучный процесс. Но все идет к тому, что в будущем он станет быстрым, а его результаты – точными. Как этого достичь? Какие шаги делаются в этом направлении? Какие технологии применяются?

Интернет самоуправляем, он ежедневно пополняется миллионами разрозненных документов. И поиск нужных сведений в таком колоссальном массиве усложняется. Именно поисковые механизмы – один из важнейших индикаторов развитости сети - требуют постоянного совершенствования, наряду с ростом объемов информации и скоростей ее сбора и обмена.

Поисковые системы используются повсеместно и постоянно. Трудно представить себе рабочий день без обращения к поиску с интересующим запросом. И слишком часто пользователь тратит на него неоправданное количество времени и сил.

Рост объемов информации требует других подходов к работе поисковых систем. Существующая методика работы ограничена заложенной в ней моделью. Она эффективна только в замкнутом пространстве, но не пригодна для пользователя современного интернета с его громадными и постоянно обновляющимися БД. Необходимость создания новой платформы поисковых механизмов очевидна, и для этого сегодня есть все: и технологические ресурсы, и быстрые машины, и большие накопители информации.

В поисках истины

Чего ожидает человек при поиске? Иногда - точного ответа на вопрос. Иной раз - выборки фактов или гипотез по теме. Часто - конечных знаний. Все зависит от запроса.

Основные разработки в области усовершенствования поисковых систем в интернете

Вид поиска Примеры ресурсов Основные характеристики
Выяснение мнения масс Del.icio.us, wink.com и snap.com Использование общественного мнения в различных целях
Извлечение намерений пользователя Yahoo Mindset Поиск в соответствии с задачей (например, на предмет желания купить или просто изучить что-либо)
Кластеризованный поиск quintura.com Использование концепции tag cloud в поиске
Кластеризованный поиск vivisimo.com, ask.com Фрагментирование результатов запроса для более понятной демонстрации связей между терминами
Обработка натуральных языков Powerset Использование слов, игнорируемых при обычном поиске (Stop words) и меняющих смысл запросов
Персонализированный поиск collarity.com,Rollyo.com Использование при поиске данных о пользователе
Поиск изображений

riya.com Распознавание содержимого изображений, поиск по тегам
Семантический поиск Hakia Поиск состоит в задании вопроса поисковой машине с помощью семантического анализа интернет-страниц с использованием метода индексирования QDEX (Query Detection and Extraction

Новая парадигма поиска состоит не просто в нахождении документов, где можно вычитать интересующую информацию, а в ориентации на конечные факты и новые знания, представляющие определенную ценность. Они могут быть разного рода: первичные сведения, предназначенные для дальнейшего анализа и обработки, какие-то факты (например, данные о возрасте человека или его месте работы, и даже – учитывая технологические возможности интернета – фрагмент его речи или видеоизображение).

Но это ещё не всё. Ценные знания содержатся и в том, что прямо или косвенно относится к искомому объекту. Если говорить о поиске человека, пользователь одновременно может интересоваться его связями, семьей или карьерой. Вместе с тем, необходимо помнить, что не всякая информация общедоступна. При разработке новых моделей поисковых систем требуется внедрение в нее механизма защиты от предоставления сведений, которые могут быть использованы мошенниками в корыстных целях.

Итак, поисковые системы нового поколения должны быстро и четко обрабатывать большой объем данных, отличать факты от данных, обладать механизмами фильтрации информации в зависимости от объектов (понимать разницу между именем Петр и Петровским парком), учитывать историческую хронологию запроса (в запросе о Пугачеве различать знаменитого бунтаря и примадонну), учитывать синонимы и, наконец, обрабатывать полученную информацию с учетом возможностей каналов связи и без предъявления завышенных требований к мощности компьютеров.

От методики к практике

То, что интеллектуальный поиск возможен, убеждают успехи в области машинного перевода с одного языка на другой. Любой пользователь интернета знает, что перевод текста с минимальным смысловым анализом гораздо более эффективен, чем просто перевод последовательности иностранных слов. И программы такого уровня, способные осуществлять перевод с сохранением смысла, заложенного в текст, уже есть. А это значит, что схожие по действию механизмы смыслового анализа документов могут применяться в системах поиска информации. Сами же интеллектуальные поисковые системы очень скоро будут доступны любому пользователю Интернета.

Основный и базовый метод поиска сегодня – по образцу, или pattern match. Именно он используется в широкодоступных поисковых системах, таких как Яндекс и Google, и повсеместно распространен. Его главный недостаток для всех очевиден: поисковик выдаёт зашлакованный случайными совпадениями результат, а ссылки на документы не соответствуют контексту запроса.