Плохие машинные переводы засоряют Интернет
Ближе к концу прошлого века Билл Гейтс увидел перспективу объединения граждан почти 200 стран, говорящих на более чем 7000 языках, для общего диалога через внезапно растущее интернет-сообщество.
Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
— исследователи Amazon.
Еще в конце прошлого века Гейтс заявил о глобальных перспективах взаимодействия людей в сети. Он предполагал, что интернет будет способен объединить разноязычных пользователей из 200 стран по всему миру для открытого и беспрепятственного диалога.
Сеть становится основой для создания глобальной коммуникации будущего
— одна из ранних цитат Билла Гейтса о еще только развивающейся глобальной сети.
Безусловно, сейчас мы видим, что он оказался прав. Интернет стал самым популярным местом для обмена информацией и остается практически безальтернативной технологией коммуникации для людей по всему миру. Однако недавнее исследование открыло негативную сторону упрощения коммуникации между пользователями.
Ученые из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре изучив более 6 миллиардов предложений в интернете пришли к выводу, что около половины из их количества были переведены единожды или дважды с различных языков. При этом, как правило, качество перевода оставляло желать лучшего, а с каждым последующим только ухудшалось. По данным исследователей некоторые тексты были переведены около восьми или девяти раз, что иногда полностью меняло их изначальный смысл.
Исследование под названием «Шокирующее количество машинных переводов в сети: выводы о многопоточном параллелизме» было опубликовано в открытом доступе на сервисе arXiv 11 января.
Низкое качество таких переводов явно указывает, что они были созданы с использованием машинного перевода. Наша новая работа демонстрирует опасность текущего подхода к созданию больших многоязычных моделей обучения основанных на данных из сети. Также мы обнаружили, что многосторонний параллельный перевод значительно уступает в качестве двусторонний параллельный метод
— из текста работы.
Работа говорит не только о текстах переводимых при помощи ИИ, но также и о созданных с его помощью. Было отмечено, что уровень генеративных переводов был наиболее высоким при работе с языками с низким ресурсным уровнем, такими как африканские, а также Волоф и Коса.
На практике это означает, что некоторые языки почти не представлены в сети, что создает серьезное препятствие для создания надежных и объемных и грамматически корректных баз данных для языковых моделей. Из-за малого количества грамматически корректных и развернутых текстов на языке оригинала системе приходится полагаться на вторичный испорченный перевод широко распространенный в сети.
Мы заинтересовались данной проблемой, поскольку несколько наших коллег, являющихся носителями языка отметили, что большая часть контента на их языке в интернете создана при помощи машинного перевода. Следует учитывать, что любой контент наблюдаемый вами в сети может быть переведен или создан автоматически
— Мехак Даливал, бывший стажер по прикладным наукам в Amazon Web Services.
Также исследователи Amazon выявили некоторую предвзятость в выборе контента используемого в обучении нейросетей.
Генеративные многосторонние параллельные переводы на данный момент составляют основную долю в переведенном текстовом сетевом контенте. То же относится к большей части веб-контента на этих языках. Судя по всему, в общей статистике мы регистрируем весомую долю коротких и некачественных
— исследователи Amazon.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Ящик Пандоры открыт: ИИ-копия погибшего… выступила в Аризоне на суде
После этого убийца получил максимальный срок. Почему это крайне опасный прецедент?...
Ловцы тепла: археологи рассказали, как древние люди сумели пережить жуткое похолодание
Цунами высотой 20 метров обрушилось на Европу, а потом настала зима длиной в 200 дней в году....
Не НЛО, не спутник: почему правительство Колумбии так хочет заполучить этот объект?
Эксперты говорят, что это одна из самых больших сенсаций за последнее время....
В 12350 году до н.э. на Земле произошел настоящий апокалипсис
Если бы эта солнечная буря случилась сейчас, то количество жертв составило бы сотни миллионов человек....
Ученые практически коснулись марсианской воды
Новейшее исследование открывает сенсационные подробности....
Ученые хотят выращивать запасные человеческие тела
Биологи обещают, что не будут включать сознание в «запчастях»....