PDA

Просмотр полной версии : Переводчик Google освоил белорусский язык



Sanych
30.08.2009, 11:56
Разработчики Google подключили к переводчику Google Translate (http://translate.google.com.by/#) десять новых языков, в том числе и белорусский.

Таким образом, общее количество поддерживаемых языков в Google Translate возросло до 51, а количество возможных направлений перевода — до 2500 (502).

Интересно, что всему миру эту новость сообщил белорусский программист Игорь Маханёк, работающий в швейцарском офисе Google (блог Google Operating System ссылается в качестве источника на Джона Мюллера, который сделал ретвит Маханька).

Судя по странным особенностям работы Google Translate, именно Маханёк является одним из авторов белорусского направления перевода. Судите сами: система распознаёт в качестве имён собственных фамилии Маханёк и Зиссер, а вот фамилию Лукашенко, например, не распознаёт и не исправляет первую букву на прописную при переводе. Впрочем, сам Игорь с этим категорически не согласен.
Белорусская и совковая журналистика про Google Translate
Забавный был вчера день.

Команда Google Translate запустила 9 новых языков примерно в ~4-5 утра (по беларусскому времени). Придя на работу, я обнаружил этот факт, и сообщил об этом в твиттере (около 10:50). К тому времени уже семь часов как можно было пользоваться беларусским в Translate, но никто не заметил.

Предвидя, что "толерантные" беларусы сразу бросятся искать проблемы и найдут что-то типа "проблемы Януковича", я написал достаточно подробный пост, где объяснил про суть статистического перевода, и про то, почему короткие фразы могут переводиться неоптимально.

В 12:54 generation.by опубликовали длинный и толковый пост. В 14:09 на "НН" появилась короткая новость - без единой гиперссылки, но и без глупых/неверных утверждений. Остальные новостники ещё долго спали в шапку.

Кто-то мне сообщал об ошибках перевода, а [info]beatleofdoom опубликовал пост, в котором обратил внимание, как при переводе меняются маленькие и большие буквы.

В 16:09 naviny.by написали короткую новость, в которой упомянули меня, но не дали ни единой гиперссылки. Далее, очнулся Electroname, и в 16:51 написал новость, в которой без указания источника скопировал абзац из официального FAQ. Неуказание источника привело к тому, что радостно перепечатавшая хартия сформулировала "При экспериментальной оценке система показала очень хорошие результаты, сообщает сайт Electroname.com." (не оставив ссылки на новость на Electroname, конечно же). Хартию ещё через полтора часа перепечатало Радыё Рацыя (тоже без ссылки).

Единственный более менее толковый обзор к этому времени дало "Радыё Свабода" - молодцы. Если бы у них ещё вебмастеры были с руками из нужного места (эх, если бы не та авария...), то был бы лучший информационный сайт страны.

А дальше начинается сюр. На Хабрахабре некий alizar в 18:50 публикует смешной пост, в котором из поста beatleofdoom делает вывод, что это была моя хитрая задумка и, значит, я был "одним из авторов белорусского направления перевода". Забавно, особенно учитывая, что таким образом он мне приписывает то, что мало что я сам менял буквы с маленькой на большую в некоторых фамилиях, так ещё и "беларускую мову" как "русский язык" перевёл (хотя очевидно, что всё это - результаты работы статистической модели). Ну ладно, хабр - это как личный дневничок, мы посмеялись в твиттерах и забыли (а кто-то и указал на неверность предположения о моей причастности в комментах). Ан нет. Самый большой (по количеству посетителей) информационный сайт страны, tut.by, решил поздно вечером опубликовать новость, взяв её из самого ненадёжного источника - с хабра (при этом, как и все прочие, не поставив линк на оригинал), и забив на проверку информации. Конечно, tut.by - это не журналистский портал, а перепечатный, но могли бы вместо хабра даже хартию перепечатать - и то правильнее было бы.

Ну и финальным аккордом стало сегодняшнее письмо от Еврорадио: "Я рыхтую рэпартаж пра беларускі перакладчык Google. якім Вы займаліся". Еврорадио не разместило новости вообще, а интервью планируют взять только завтра (через два дня после инфоповода); и, судя по всему, они пока совершенно не занимались изучением вопроса.

Одно радует в этом фарсе журналистики. То, что эта новость совершенно неинтересна Прессболу - наиболее жёлтой газете с пещерными, мелочно-карманными и низкокачественными методиками работы. (update: речь только о вебсайте, бумажный прессбол я уже года три в руках не держал)

Ну и напоследок хорошее: сегодня "НН" опубликовала короткое интервью со мной, ничего не переврав и сохранив нужные гиперссылки. Правда, у них совершенно поехавшее форматирование и отсутствует ссылка на translate.google.com - но это уже мелочи на фоне всех остальных.

UPDATE: Гендиректор TUT.BY Юрий Зиссер разобрался, и в перепечатке с Хабра уже нет неверной информации. Автор того поста Alizar тоже извинился, правда, пост менять не стал.

Беглый тест возможностей автоматического переводчика показал, что система пока слабо ориентируется в белорусской грамматике, что, впрочем, ожидаемо из-за применяемых алгоритмов перевода. Как утверждают разработчики, Google Translate автоматически сопоставляет готовые переводы на разные языки и постоянно самообучается.

Sanych
10.09.2009, 00:40
апнем тему. чёт глухо тут пока

BiZ111
10.09.2009, 11:01
и что дальше? Очевидность, нечего добавить. Дождь вон тоже идёт иногда - нооовости

Sanych
10.09.2009, 21:19
Ну может кому-то это поможет, а раз поможет, найдётся что сказать.

SDS
12.03.2010, 16:12
Маханёк на лавры посягнул, а Гуглу - то ж и козе понятно, - по барабану