Разделы

Интернет Веб-сервисы

Интернет-поиск будущего: командуем голосом

Современный поиск в интернете с использованием ключевых слов исчерпал свои возможности. Будущее – за поисковыми системами, которые научатся обрабатывать естественную человеческую речь. Однако сложность этой задачи раз за разом отодвигает дату появления настоящего "убийцы Google". Зато побочным эффектом разработок в этом направлении стало появление мощных продуктов для работы с разнородными корпоративными данными. Полную версию статьи читайте в декабрьском номере журнала CNews.

По словам профессора Владимира Хорошевского, заведующего сектором "Интеллектуальные прикладные системы" Вычислительного центра РАН и научного консультанта компании "Авикомп Сервисез", убийца Google должен обладать следующими качествами: во-первых, он должен уметь производить полную семантизацию всего контента, который индексируется поисковой машиной, во-вторых, необходим естественный языковый интерфейс и, в-третьих, представление результата должно выглядеть намного удобнее, чем у нынешних поисковиков. По мнению Хорошевского, на сегодня ни один из поисковиков не обладает такими свойствами. Над семантической обработкой текстов уже вовсю трудятся ведущие поисковики, однако в отличие от дерзких, но маленьких убийц они не афишируют своих разработок. "Поисковая система должна уметь понимать тексты на естественном языке. И здесь "Яндекс" находится в середине длинной дороги, причем, как нам кажется, мы прошли по этому пути чуть дальше прочих. Например, "Яндекс" понимает, когда речь идет о людях или организациях, умеет выявлять связи между объектами", – сказал Илья Сегалович, директор по технологиям и разработке компании "Яндекс".

В поиске метаданных

Еще одна концепция, призванная помочь рассортировать разрозненное содержимое интернета была высказана и одобрена Консорциумом W3 в самом начале "нулевых" и получила название "семантической паутины". Согласно этой концепции, для облегчения и увеличения эффективности машинной обработки каждый интернет-ресурс должен дополняться специальными ссылками – универсальными идентификаторами ресурсов (URI). URI – это короткая строка, позволяющая идентифицировать какой-либо ресурс: документ, изображение, файл, службу, ящик электронной почты и т. д. Также были введены форматы для машинной обработки – RDF (модель для описания ресурсов, в особенности — метаданных о ресурсах. В основе этой модели лежит идея об использовании специального вида утверждений, высказываемых о ресурсе), OWL (язык онтологии для интернета на основе XML/Web стандарта) и др. Едва появившись, эта концепция навлекла на себя шквал критики, зачастую вполне оправданной. Главный аргумент, который выдвигали скептики, – практическая нереализуемость полной классификации содержимого сети. Во-первых, мало кто из создателей контента захочет выполнять лишнюю работу по разметке, классификации и добавлению метаданных для уже готового проекта. Во-вторых, совершенно непонятно, кто возьмет на себя труд по переписыванию по новым правилам уже созданного контента. Третье ограничение имеет под собой философскую основу: со времен Аристотеля считается, что не существует очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня, необходимой для всеобъемлющей классификации информации о мире.


"Поисковая обезьяна" предоставляет всем заинтересованным создателям контента инструмент для самостоятельной семантизации содержимого ресурса

"Вариант, когда авторы будут вносить семантическую разметку в создаваемые ими тексты, то есть специальным образом помечать и всю страницу, и каждый ее фрагмент, например, указывать авторство, дату создания текста, упомянутые в нем организации и т.д., кажется нам совершенно утопическим, – говорит Илья Сегалович. Выход из этой ситуации видится в разработке современных и мощных средств автоматизации разметки, пользуясь которыми создатели контента могли бы избавиться от дополнительной докучливой работы. Обязанность по расстановке метатегов постепенно будет забирать на себя специальное ПО. Таким образом можно будет привести в должный вид хотя бы вновь создаваемый контент. При этом не нужно делать использование таких средств обязательным – те, кто пренебрегут созданием метаданных, пусть и в автоматическом режиме, просто вымрут эволюционно – они спустятся на нижние строчки и дальние страницы поисковиков, где их никто не увидит.

На службе бизнеса

Другой, при этом более вероятный, вариант развития событий – внедрением метаданных в массы займутся сами поисковики, поскольку они кровно заинтересованы в высокой релевантности своих результатов. Поисковые серверы могут открывать специальные сервисы, на которые будут подписываться сами контент-провайдеры и получать семантическую разметку контента непосредственно от поисковиков. И уже на основе этих RDF будет проводиться индексация ресурсов. Похожие воплощения уже есть, наиболее известный пример – созданный Yahoo проект SearchMonkey. "Поисковая обезьяна" предоставляет всем заинтересованным создателям контента инструмент для самостоятельной семантизации содержимого ресурса. Существенный минус SearchMonkey – этот процесс приходится проводить вручную, автоматизация развита слабо, а значит и трудозатраты достаточно велики.

Этапы разработок в области компьютерной обработки естественного языка (ЕЯ)

1960-е – середина 1970-х гг. - Разработка формальных моделей и методов, накопление начального опыта в прототипизации ЕЯ-систем.

Середина 1970-х – 1980-е гг. - Создание методов и средств обработки ЕЯ, первых промышленных систем общения с базами данных на ЕЯ.

Середина 1980-х – середина 1990-х гг. - Разработка когнитивных моделей понимания ЕЯ и прототипов систем, использующих модели мира для понимания языка.

Середина 1990-х гг. – начало 2000-х гг. - Переход от лингвистики предложения к лингвистике текста, разработка методов и средств обработки ЕЯ-текстов. Появление первых коммерческих систем обработки ЕЯ-текстов.

"Другой аспект Semantic Web – использование разметки, кем бы она не была сделана (авторами сайтов или поисковыми системами), выглядит более привлекательным. И все, что сейчас уже делается в области автоматического понимания текста – выделение поисковыми системами объектов и определение связей между ними, классификация страниц и их идентификация – по сути и есть настоящий Semantic Web, только не такой идеальный, как казалось прародителям идеи", – комментирует Илья Сегалович из "Яндекса".

Если попытки "причесать" весь интернет пока далеки от воплощения в силу грандиозности самой задачи, исследования в области понимания естественного языка дали свои плоды, притом весьма неплохие, в более узкой области – автоматизации различных задач бизнеса. Сегодня существует немало ИТ-компаний, которые создают продукты, предназначенные для поиска или мониторинга необходимой информации в необъятных корпоративных данных. Подробный список таких решений приведен в таблице "Не только для интернета". Успешные воплощения есть и в России – в частности продукт Ontos компании "Авикомп Сервисез" инсталлирован в отечественных силовых ведомствах. Его главная задача – мониторинг информации по определенным темам в открытых источниках, то есть анализ СМИ. Ведь давно не секрет, что внимательное чтение газет зачастую приносит гораздо больше разведданных, чем внедрение своего резидента в штаб врага.

Делать прогнозы о том, как будут развиваться поисковики в дальнейшем, – дело неблагодарное, слишком динамична эта область. Но можно сделать некоторые предположения. Во-первых, будущее за семантизацией контента, которая позволит проводить высокоточный поиск на основе понимания смысла запросов пользователей. Общение будет осуществляться на естественном языке, причем это будет диалог пользователя и поисковика, если последнему потребуется уточнение смысла запроса. И, наконец, возможным сценарием развития поисковых машин представляется вариант, когда информационный поиск в его современном понимании исчезнет, а вместо него появятся интеллектуальные системы "вопрос-ответ". То есть, когда пользователь спрашивает дату рождения Л.Н. Толстого, ему не нужны десятки и сотни ссылок. Он будет получать один ответ –1828 год.

Сергей Филимонов / CNews