Второй по наполненности раздел в мире: 6 млн статей для «Википедии» создал бот
Англоязычная версия «Википедии» насчитывает почти 7 миллионов статей и по многим показателям она крупнейшая энциклопедия в мире. А во второй по наполненности версии «Википедии» — чуть более 6 млн статей. И это не французский, не испанский и не китайский сегмент интернет-энциклопедии, создаваемой и редактируемой добровольцами со всего мира.
Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.
Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.
Собственной персоной
Это масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.
Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.
Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.
— Йоханссон.
Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.
Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.
Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.
Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.
— Йоханссон.
Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.
Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.

Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.
В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.
— Томас.
Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.
Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.
Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.
Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.
Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.
Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.
Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.
Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.
Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
Это себуано — язык, на котором говорят в основном на юге Филиппин. Себуанский язык (себуа́но) — язык австронезийской семьи. Другие названия: сугбу, сугбуанон, а в англоязычной и латинизированной традициях — Binisaya, Bisayan, Sebuano, Sugbuanon, Sugbuhanon или Visayan.
Но «Википедия» на себуано выросла не с помощью тысяч редакторов-волонтёров, как её английский аналог. Большинство статей «написаны» одним человеком: шведским лингвистом Сверкером Йоханссоном. Тот разработал программу под названием lsjbot, которая сгенерировала миллионы статей на нескольких языках, но особенно крепко пошевелила своими условными «извилинами» над себуано.
Собственной персонойЭто масштабное (на первый взгляд) достижение высветило проблему, с которой «Википедия» сталкивается с момента своего основания и которую искусственный интеллект (ИИ) делает всё более актуальной.
Как lsjbot «пишет» статьи
Программам, автоматизирующим отдельные разделы «Википедии», почти столько же лет, сколько самому многоязычному коллективному интернет-справочнику. Такие боты сканируют странички, исправляя неработающие ссылки. Что касается стряпни отдельных статей, то многие из таких программ генерируют не собственно тексты, а лишь заготовки для них из одного-двух предложений.
Именно с этими «авторами» статей доктор Йоханссон столкнулся в начале 2010-х годов, когда сам писал и редактировал странички для сетевой энциклопедии.
Я начал думать, что могу это сделать лучше
— Йоханссон.
Isjbot генерирует статьи, беря информацию из онлайн-баз данных, в основном по биологии и географии, и втискивая эти сведения в заранее заданный лимит по количеству предложений.
Как объяснил Йоханссон, основная языковая модель для таких целей — это несколько сотен шаблонов предложений. А затем бот проверяет, какая информация есть в открытом доступе. Например, статья о животном может начинаться с фразы «X — это Y, принадлежащее к семейству Z», а lsjbot заполнит пропуски конкретикой, например, «лев», «млекопитающее», «кошка» и тому подобное.
Хотя lsjbot может работать с любым языком, большая часть его результатов была на языке себуано. На данный момент ПО создало пару миллионов статей о растениях и животных, 4 млн статей о географии и некое количество статей о более мелких категориях, таких как химические элементы.
Йоханссон решил сосредоточиться на языке себуано, потому что это родной язык его жены. Она помогла ему составить шаблоны предложений.
Я хотел помочь и решил, что могу сделать это таким путём
— Йоханссон.
Он также запустил бота на варайском языке, ещё одном языке Филиппин, и на своём родном шведском.
Спор вокруг lsjbot
Isjbot вызвал бурную реакцию среди филиппинских энтузиастов «Википедии», и не все из них были положительными. Википедисты, то есть добровольцы, которые создают и поддерживают коллективную энциклопедию, обнаружили, что на многих страницах на языке себуано есть грамматические, а иногда и фактические ошибки из-за несовершенства перевода.

Ещё одной проблемой было огромное количество статей. То есть небольшой численности редакторов было трудно перепроверять или повышать качество текстов.
В 2018 году даже поступали предложения удалить всю «Википедию» на языке себуано, включая небольшую часть статей, созданных людьми. Но филиппинские википедисты в итоге отклонили столь радикальную идею. Ирвин Томас, один из них, сказал, что небольшая группа национальных пользователей «Википедии» пытается улучшить качество страниц на языке себуано, в том числе сотрудничая с Йоханссоном.
К сожалению, нужно сделать так много, что редакторы-волонтёры не справятся в одиночку
— Томас.
Тем временем сообщество редакторов шведской «Википедии» сначала согласилось с ситуацией, а затем отказалось от использования lsjbot.
Родные языки обесценились
Lsjbot практически не используется с 2021 года. Йоханссон сказал, что споры вокруг применения стали одной из причин, по которой он закрыл проект на родном языке.
Ещё одна причина заключалась в том, что он не удавалось достичь одной из целей, на которые надеялся разработчик: Isjbot не привлекал «критическую массу» читателей и редакторов в «Википедию» на языке себуано, способствуя созданию более обширной энциклопедии.
Согласно статистике «Википедии», статьи на себуано ежемесячно просматривают десятки тысяч раз. Тем временем англоязычную версию онлайн-справочника ежемесячно просматривают более 100 млн одних только филиппинцев.
Такое «обесценивание» встречается по всему интернету. Например, в ранней версии Google Translate ряд научных терминов переводился как ругательства на филиппинском языке, очевидно, из-за отсутствия более точных данных.
Глобальные проблемы с ИИ
Трудно сказать, какая именно часть «Википедии» была создана ИИ, хотя исследователи пытались это выяснить. В одной из недавних публикаций на эту тему сообщалось, что сейчас энциклопедия, вероятно, на 1–2% сгенерирована ИИ, а в другой публикации иная цифра — около 5%.
Если эта доля вырастет, есть угроза, что все версии «Википедии» станут слишком большими для перепроверки людьми, как это произошло с себуанским сегментом.
Поскольку «Википедия» используется для обучения больших языковых моделей, то есть ИИ, то добавление в неё материалов, созданных искусственным интеллектом, также может привести к сбою всей системы. Ошибки, допущенные моделями ИИ, будут использоваться для обучения и включаться в будущие модели ИИ, закрепляя ошибки.
Автоматизация — не новая концепция для «Википедии». Но генеративный ИИ создаёт множество и преимуществ, и новых рисков.
- Дмитрий Ладыгин
- shedevrum.ai; abc.net.au; ceb.wikipedia.org
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Ящик Пандоры открыт: ИИ-копия погибшего… выступила в Аризоне на суде
После этого убийца получил максимальный срок. Почему это крайне опасный прецедент?...
Ловцы тепла: археологи рассказали, как древние люди сумели пережить жуткое похолодание
Цунами высотой 20 метров обрушилось на Европу, а потом настала зима длиной в 200 дней в году....
Не НЛО, не спутник: почему правительство Колумбии так хочет заполучить этот объект?
Эксперты говорят, что это одна из самых больших сенсаций за последнее время....
В 12350 году до н.э. на Земле произошел настоящий апокалипсис
Если бы эта солнечная буря случилась сейчас, то количество жертв составило бы сотни миллионов человек....
Ученые практически коснулись марсианской воды
Новейшее исследование открывает сенсационные подробности....
Ученые хотят выращивать запасные человеческие тела
Биологи обещают, что не будут включать сознание в «запчастях»....