Каким станет интернет-поиск в будущем?
Каждый не раз и не два сталкивался с тем, что поиск в интернете превращается в длительный и скучный процесс. Но все идет к тому, что в будущем он станет быстрым, а его результаты – точными. Как этого достичь? Какие шаги делаются в этом направлении? Какие технологии применяются?Интернет самоуправляем, он ежедневно пополняется миллионами разрозненных документов. И поиск нужных сведений в таком колоссальном массиве усложняется. Именно поисковые механизмы – один из важнейших индикаторов развитости сети - требуют постоянного совершенствования, наряду с ростом объемов информации и скоростей ее сбора и обмена.
Поисковые системы используются повсеместно и постоянно. Трудно представить себе рабочий день без обращения к поиску с интересующим запросом. И слишком часто пользователь тратит на него неоправданное количество времени и сил.
Рост объемов информации требует других подходов к работе поисковых систем. Существующая методика работы ограничена заложенной в ней моделью. Она эффективна только в замкнутом пространстве, но не пригодна для пользователя современного интернета с его громадными и постоянно обновляющимися БД. Необходимость создания новой платформы поисковых механизмов очевидна, и для этого сегодня есть все: и технологические ресурсы, и быстрые машины, и большие накопители информации.
В поисках истины
Чего ожидает человек при поиске? Иногда - точного ответа на вопрос. Иной раз - выборки фактов или гипотез по теме. Часто - конечных знаний. Все зависит от запроса.
Основные разработки в области усовершенствования поисковых систем в интернете
Вид поиска | Примеры ресурсов | Основные характеристики |
Выяснение мнения масс | Del.icio.us, wink.com и snap.com | Использование общественного мнения в различных целях |
Извлечение намерений пользователя | Yahoo Mindset | Поиск в соответствии с задачей (например, на предмет желания купить или просто изучить что-либо) |
Кластеризованный поиск | quintura.com | Использование концепции tag cloud в поиске |
Кластеризованный поиск | vivisimo.com, ask.com | Фрагментирование результатов запроса для более понятной демонстрации связей между терминами |
Обработка натуральных языков | Powerset | Использование слов, игнорируемых при обычном поиске (Stop words) и меняющих смысл запросов |
Персонализированный поиск | collarity.com,Rollyo.com | Использование при поиске данных о пользователе |
Поиск изображений | riya.com | Распознавание содержимого изображений, поиск по тегам |
Семантический поиск | Hakia | Поиск состоит в задании вопроса поисковой машине с помощью семантического анализа интернет-страниц с использованием метода индексирования QDEX (Query Detection and Extraction |
Новая парадигма поиска состоит не просто в нахождении документов, где можно вычитать интересующую информацию, а в ориентации на конечные факты и новые знания, представляющие определенную ценность. Они могут быть разного рода: первичные сведения, предназначенные для дальнейшего анализа и обработки, какие-то факты (например, данные о возрасте человека или его месте работы, и даже – учитывая технологические возможности интернета – фрагмент его речи или видеоизображение).
Но это ещё не всё. Ценные знания содержатся и в том, что прямо или косвенно относится к искомому объекту. Если говорить о поиске человека, пользователь одновременно может интересоваться его связями, семьей или карьерой. Вместе с тем, необходимо помнить, что не всякая информация общедоступна. При разработке новых моделей поисковых систем требуется внедрение в нее механизма защиты от предоставления сведений, которые могут быть использованы мошенниками в корыстных целях.
Итак, поисковые системы нового поколения должны быстро и четко обрабатывать большой объем данных, отличать факты от данных, обладать механизмами фильтрации информации в зависимости от объектов (понимать разницу между именем Петр и Петровским парком), учитывать историческую хронологию запроса (в запросе о Пугачеве различать знаменитого бунтаря и примадонну), учитывать синонимы и, наконец, обрабатывать полученную информацию с учетом возможностей каналов связи и без предъявления завышенных требований к мощности компьютеров.
От методики к практике
То, что интеллектуальный поиск возможен, убеждают успехи в области машинного перевода с одного языка на другой. Любой пользователь интернета знает, что перевод текста с минимальным смысловым анализом гораздо более эффективен, чем просто перевод последовательности иностранных слов. И программы такого уровня, способные осуществлять перевод с сохранением смысла, заложенного в текст, уже есть. А это значит, что схожие по действию механизмы смыслового анализа документов могут применяться в системах поиска информации. Сами же интеллектуальные поисковые системы очень скоро будут доступны любому пользователю Интернета.
Основный и базовый метод поиска сегодня – по образцу, или pattern match. Именно он используется в широкодоступных поисковых системах, таких как Яндекс и Google, и повсеместно распространен. Его главный недостаток для всех очевиден: поисковик выдаёт зашлакованный случайными совпадениями результат, а ссылки на документы не соответствуют контексту запроса.