Компьютер на месте переводчика

Главная страница | Назад в архив

Алексей Васильев "Подводная лодка" 6/98

Вычислительная техника, как известно, хорошее подспорье человеку в рутинной работе. Относится ли к таким занятиям перевод текстов? И да, и нет. С одной стороны, труд переводчика во многом формален, а с другой – перевод не может быть выполнен чисто формально. Есть, например, технический перевод, где важно знать принятые за рубежом стандарты обозначений тех или иных понятий. И есть литературный перевод, когда требуется получить текст, по художественной ценности максимально близкий к оригиналу. Возможно ли поручить подобную работу компьютеру?

Первые программы машинного перевода появились в 50-х годах, всего несколько лет спустя после рождения компьютера, но до широкого распространения ПК машинный перевод был скорее интересным объектом научных исследований, чем важной сферой использования вычислительной техники, по двум причинам: дороговизна времени работы компьютера и коллективное пользование его ресурсами. Последнее обстоятельство часто не позволяло немедленно обратиться к электронному помощнику, сводя на нет важнейшее преимущество машинного перевода перед обычным – его оперативность.

И только с начала 80-х годов, когда ПК уверенно и мощно начали завоевывать мир, время их работы, естественно, подешевело и доступ к ним можно было получить в любую минуту. А значит, машинный перевод наконец-то стал экономически выгодным. К тому же в эти и последующие годы совершенствование программ позволило достаточно точно переводить многие виды текстов, однако некоторые проблемы машинного перевода остались нерешенными и по сей день.

Говоря о машинном переводе, следует прежде всего помнить, что компьютер — создание бездушное. Он не понимает языковых нюансов, намеков в тексте, того, что называется тонкой игрой слов. Да и, собственно, понять содержание текста в полной мере ему не под силу. Мышления как такового при машинном переводе не происходит: предложение расчленяется на части речи, в нем выделяются стандартные конструкции, слова и словосочетания переводятся по находящимся в памяти машины словарям. Затем переведенные части речи собираются по правилам другого языка.

Но этого, согласитесь, недостаточно для полноценного перевода. В зависимости от того или иного стиля и назначения текста одно и то же слово нередко имеет разные значения. В какой-то мере эта особенность учитывается в системах машинного перевода: предусмотрены сменные словари, иногда для каждого вида текста предусмотрен свой словарь. Если лексики одного машинного словаря не хватает и применяются несколько словарей одновременно, можно указать системе, из какого словаря нужно брать слово, если есть несколько вариантов его перевода. Наконец, программа сама может предлагать на выбор пользователю несколько вариантов перевода, и он выбирает подходящий вариант, так сказать, вручную. Могут возникнуть и проблемы с переводом слов в устойчивых словосочетаниях и фразеологизмах, но это вполне по силам компьютеру.

Наряду с установленными правилами построения предложения в каждом языке существуют и свои неписаные законы, которые иногда называются красотами языка. Например, предложение на английском языке «This is my book» дословно переводится «Это есть моя книга», и формально это будет правильным, но по-русски так не говорят. В данном случае можно сказать, что предложение «написано так, будто его составил иностранец». Конечно, приведенный пример является простейшим, и возможность исключения слова «is» очень просто отражается в программе машинного перевода. Но на практике получившийся перевод похож на текст, написанный иностранцем.

Текст также может содержать слова, которые нужно понимать в контексте образа жизни людей в конкретной стране. Например, под словом «демократ» в США подразумеваются политики, выступающие за большее вмешательство государства в экономику, а в России те, кто выступает за большую свободу рынка. Это разные понятия.

Итак, компьютер пока во многом не может заменить переводчика. Стоит ли тогда вообще применять системы машинного перевода? Конечно, стоит. Если компьютер используется для перевода литературных текстов, то получается черновой вариант текста, так называемый подстрочник, который превращается в произведение искусства человеком, слабо владеющим языком оригинала, но являющимся хорошим литературным редактором. Если же речь идет о переводе технических текстов, то здесь при правильном выборе словаря по специальности, в рамках которой написан текст, получается вполне удовлетворительный результат, иногда не требующий последующего вмешательства. Вообще необходимость редактирования компьютерного перевода очень часто возникает в связи с проблемами, перечисленными выше. Для этого системы машинного перевода обязательно имеют средства редактирования текстов.

Для качественного перевода очень важно, чтобы практически все слова исходного текста легко было найти и в словаре системы. А те из них, которых в нем нет, переносятся в текст непереведенными уже на выходе из системы, и их впоследствии переводят вручную при редактировании результатов перевода. Такие слова могут повлиять на качество перевода предложения. Дело в том, что для определения, к какой части речи относится рассматриваемое слово, система производит анализ всего предложения в целом. При этом имитируется мыслительная деятельность человека (такую систему принято называть системой с элементами искусственного интеллекта). Если значение хотя бы одного слова в предложении не определено, то это может исказить анализ всего предложения, а иногда и результаты всего перевода.

В мире существует очень много программ машинного перевода. В России наиболее распространены системы Stylus (фирма «ПроМТ») и ПАРС (фирма «Лингвистика 93»). Stylus предназначена для профессионального перевода больших объемов информации, но ее лицензионная копия достаточно дорога. Что же касается использования пиратских копий, то они, как правило, имеют всего один-два словаря с относительно небольшим количеством слов. В лицензионной же копии есть широкий выбор специализированных словарей. Таким образом, использование пиратских копий Stylus не только неэтично с моральной и правовой точек зрения, но и не позволяет получить качественный перевод многих текстов.

Система ПАРС по некоторым параметрам уступает Stylus, хотя для бытового использования она достаточно удобна и, что очень важно, цена ее лицензионной копии доступна (компакт-диск с этой программой и несколькими специализированными словарями стоит около $20). В продаже есть большой набор словарей к этой системе по различным темам: вычислительная техника, медицина, химия и т. д. вплоть до таких областей, как, например, лесная и бумажная промышленность. Цены на компакт-диски со специализированными словарями к системе ПАРС обычно не превышают $30, она размещается на одном CD со словарями. Эта система спокойно работает в среде Windows 3.1 и более поздних версий. Есть даже ее версия для операционной системы MS DOS, что позволяет использовать для машинного перевода устаревшие компьютеры с процессорами 80286, которые вполне пригодны для обработки текстов. В дальнейшем речь пойдет о версии ПАРС для Windows, работающей в среде операционной системы Windows 95.

ПАРС для Windows может работать в двух режимах. В первом случае он переводит файл в формате «текст MS DOS» и результат записывает в другой файл с тем же форматом. Сам же переводимый текст готовится в другом редакторе, причем в среде Windows сделать это затруднительно, так как в ней принята другая кодировка русских букв. Кроме всего прочего, простейший формат «текст MS DOS» все реже применяется для подготовки серьезных документов.

Гораздо удобнее другой режим, когда программа машинного перевода работает совместно с мощным внешним текстовым редактором. Таким редактором для ПАРС является Microsoft Word 6.0 for Windows. Кроме удобства появляется возможность работы с текстами в формате RTF (Rich Text Format), где записываются размеры и форма шрифтов, и эти параметры переносятся в результат перевода.

В процессе инсталляции ПАРС определяется наличие на жестком диске инсталлированного текстового редактора Word. Когда редактор успешно обнаружен при инсталляции программы машинного перевода, то в его окне наверху появляется еще одно меню – «Перевод». Результат перевода представляется в редакторе как новое окно с текстом. Если сначала была инсталлирована система ПАРС, а потом уже Word, то для их совместной работы потребуется повторно осуществить выборочную инсталляцию программы перевода и элементов ее связи с внешним текстовым редактором.

Но если перевод осуществляется впервые после запуска программы, перед его началом потребуется указать используемые словари. Как уже было сказано, словари выбираются в зависимости от стиля и тематики текста. Обратим внимание на кнопку «Приоритет». С ее помощью можно перемещать словари в списке. Если в переводимом тексте имеется слово, встречающееся в нескольких из выбранных словарей и в каждом из них его значения различны, то будет выбран вариант перевода из словаря, стоящего в списке первым. Возможность расположения словарей по различному приоритету позволяет гибко подстраивать систему перевода под тексты, содержание которых лежит на границе двух специальностей. Рассмотрим в качестве примера использование словарей компьютерных и химических терминов. Допустим, имеется текст про компьютеризацию химического производства. В нем, конечно, чаще будут встречаться компьютерные, нежели химические термины, и поэтому термин, имеющий двоякое толкование, должен скорее переводиться по словарю компьютерных терминов. В этом случае словарь терминов компьютерных должен иметь больший приоритет, чем словарь химических. Другой вариант – текст про химические процессы в производстве компьютеров. Здесь чаще будем замечать химические термины, и, соответственно, словарь химических терминов будет иметь больший приоритет. Ну и, конечно, используя специальные словари, не следует забывать подключать и словарь общеупотребительной лексики. При переводе технических текстов целесообразно присвоить этому словарю наименьший приоритет.

Но даже тонкая настройка системы под лексику переводимого текста не учитывает всех его особенностей, поэтому переведенные слова, имеющие несколько синонимов, помечаются звездочкой. Указав мышкой на такое слово, можно выбрать подходящий вариант перевода либо оставить то, что предложил компьютер.

Когда варианты перевода выбраны, можно приступать к редактированию переведенного текста, благо Word обладает для этого мощными средствами.

Текст иногда полезно подвергнуть некоторой обработке перед машинным переводом. Так, системы машинного перевода могут ошибаться из-за наличия в тексте сокращений, заканчивающихся точкой. Если после такого сокращения следует слово, начинающееся с большой буквы, то компьютер воспринимает точку как конец предложения, из-за чего предложение может быть неправильно разобрано, и, следовательно, ошибочно переведено. Значит, точки в сокращениях надо убирать. Сокращения будут перенесены в текст без перевода, и их нужно перевести вручную. В переводимом тексте должны отстутствовать переносы, что, впрочем, легко обеспечивается при подготовке текста в редакторе Word. Особенно внимательно надо просматривать тексты, получаемые в результате распознавания отсканированного изображения (подробнее о системах распознавания текстов написано в ПЛ № 5), так как содержащиеся в них ошибки нередко приводят к тому, что отдельные слова остаются непереведенными всего-то из-за одной неправильной буквы. Кстати, уже упоминавшаяся система Stylus вместе с программой FineReader входит в состав пакета Stylus Lingvo Office, предназначенного для обработки документов, введенных в компьютер путем сканирования.

Заглавные буквы и сокращения таят в себе и другие подвохи. Когда слово начинается с большой буквы, его перевод будет начинаться тоже с большой буквы. Слово, целиком состоящее из таких букв, также будет в переводе записано заглавными. В англоязычной литературе достаточно часто встречаются внешне эффектные аббревиатуры, которые могут быть прочитаны как одно слово. Такая аббревиатура и будет переведена единым словом.

Таким образом, результаты машинного перевода часто требуют редактирования. Насколько адекватными можно считать результаты перевода на компьютере? Это определяется не только качеством системы машинного перевода, но и качеством последующего редактирования. Нередко систему машинного перевода использует в качестве подспорья специалист, которому нужно быстро перевести, например, техническую документацию. Тогда проблема корректного употребления терминов решается сама собой.

Сейчас наблюдается новый всплеск интереса к системам машинного перевода в связи с развитием сети Internet. Миллионы людей, говорящих на разных языках, оказались в едином информационном пространстве. Доминирует в Сети английский язык, но есть пользователи, которые им не владеют, как, впрочем, есть множество Web­страниц, написанных не по-английски. Для облегчения просмотра страниц Internet на незнакомом пользователю языке появились дополнения к броузерам, которые осуществляют немедленный перевод выбранных пользователем фрагментов просматриваемой Web­страницы. Достаточно лишь выделить часть текста мышкой и перенести ее на специальную панель либо нажать указателем на специальную кнопку меню. Примером такого переводчика является система Web Trans Site фирмы ПроМТ, созданная на базе программы Stylus, которая подключается как к броузеру Netscape Navigator, так и к броузеру Microsoft Internet Explorer.

Дальнейший шаг – реализация перевода текстов непосредственно в Сети. Несколько месяцев назад справочная служба AltaVista, осуществляющая поиск Web­страниц, стала бесплатно оказывать услуги по машинному переводу найденной страницы. Пока в списке языков, на которые возможен перевод, русского нет, но, учитывая, что множество людей сейчас более или менее сносно владеет английским, данная услуга будет полезна и для наших пользователей. В будущем следует ожидать увеличения в Internet числа серверов-переводчиков. Работа такого сервера может окупаться и даже приносить прибыль за счет размещения рекламы.