Разделы

Интернет Веб-сервисы

С родного на чужой и обратно: тестируем 7 онлайн-переводчиков

Выбор онлайн-переводчика – дело ответственное и неочевидное. Известно, что различные сервисы предоставляют неодинаковое качество перевода, более того – это качество у одного и того же сервиса разнится в зависимости от выбранной языковой пары. Как не ошибиться в выборе и получить наилучший результат для нужного языка? Ответить на этот вопрос поможет сравнительное тестирование, проведенное профессиональным переводчиком.

Особенность: как синхронист, Bing Translator упрощает "запутанные" фразы, выбрасывает "лишние" слова, старается строить гладкие фразы: зачем в одном предложении слишком много глагольных форм?

Юзабилити: 5. Не хватает только виртуальной клавиатуры.

Pragma: переводчик для славян

Результаты онлайн-переводчика Pragma украинской компании Trident ("трезубец") расцвечены в таблице серым и болотным, кроме вполне хороших переводов между славянскими языками. По-видимому, их и стоит считать специализацией приложения, несмотря на то, что оно поддерживает 56+ языков, включая экзотические. Pragma значительно хуже работает с западноевропейскими языками, чем c родными славянскими. Вопреки заявлениям разработчиков об оригинальной "языконезависимой" архитектуре этого машинного переводчика создается впечатление, что Pragma также переводит через язык-посредник русский или украинский. Во-первых, качество переводов во всех направлениях, где эти языки не участвуют, хуже. Во-вторых, в рассмотренных текстах перевода содержится много кальки с русского и украинского языков, особенно в польском и немецком переводе. В некоторых переводах на польский и немецкий сохраняются непереведенные украинские слова и те же формы слова, что в украинском (но не русском и не языке оригинала).

Главные минусы – ограниченный словарь, малая база собственных имен и алгоритмов транслитерации. Слабо проработана грамматика западноевропейских языков: очень много славянизмов и мало правильно выбранных форм слова, фраз, грамотно построенных словосочетаний, не "от балды" проставленных артиклей и окончаний. По сути это пословный перевод по русскому/ украинскому грамматическому шаблону. Кроме того, в западноевропейских направлениях перевода лексика выбирается часто неуместно, много слов вовсе не переведено и не транслитерировано.

Юзабилити: 5. Все, что нужно для быстрого перевода и выбора/ смены языка. Дизайн несовременный, но "по делу". Есть рекомендации по подготовке теста к машинному переводу.

Классификация технологий машинного перевода

Попытаемся сопоставить основные черты перевода у рассмотренных в обзоре сервисов, перечислить плюсы и минусы соответствующих технических решений. Классификация основывается на внешних показателях ощутимых, реальных результатах перевода, а не "внутренней" информации о рабочих процессах в соответствующих компаниях и не на их публичных заявлениях для пользователей.

Классификация технологий машинного перевода


Источник: данные автора, 2012 г.

Отмеченные в схеме тенденции не проявляются на 100% и не являются монополией указанных приложений. Во-первых, идеального исполнения ни у кого из них нет. Во-вторых, разработчики вполне могут сочетать "полярные" подходы. Обычно это происходит не в равной степени, делается упор на один из методов как основополагающий, "передовой".

Приведем примеры таких дополняющих комбинаций. В статистическом Google Translate на ранней стадии разработки использовали ядро Systran, традиционного машинного переводчика, который анализирует грамматические конструкции одного языка и преобразует их в конструкции целевого языка. Возможно, и на нынешнем этапе Google без публичных деклараций применяет грамматический подход или упорядочение объемных статистических находок людьми, как это делали и Google, и Яндекс для обучения своих поисковиков.

С другой стороны, PROMT не является "чистым" представителем традиционного машинного перевода. Это гибридная система, сочетающая классический грамматический подход со статистическим. Однако в сравнении с результатами Google Translate у российского сервиса на первый план выступает именно лучшая проработка грамматики, с чего и "начинался" этот машинный переводчик, а вот статистические находки фраз, имен, терминов пока недостаточны для полноправной конкуренции с "самым статистическим" онлайн-переводчиком Google. Возможно, дело за временем или же за приобретением баз параллельных текстов какого-нибудь ведущего переводческого агентства. Так, Google на начальном этапе тренировали свой сервис на документации ООН, а IBM в 2010 году выкупила у Lionbridge массив оригиналов и переводов на множество языков в самых разных тематиках.

Это распространенный ход – интегрировать в свою работу чужой успешный опыт, улучшить свой метод чужими наработками. Однако упор лишь на статистический подход не даст на выходе, даже со временем, полноценные читабельные результаты перевода, сопоставимые с трудом специалиста, как автор убедительно показала в своей предыдущей статье. Так что ждем с нетерпением дальнейших новинок машинного перевода, которые бы "разорвали шаблон", представленный в нашей классификации.

Елена Тихомирова