adblock check

Google Books наводнили плохие книги, написанные ИИ: их очень легко отследить

В будущем сгенерированные нейросетью книги могут существенно повлиять на работу лингвистов и не только

Вчера, 5 апреля, информационное издание The Verge со ссылкой на 404Media сообщило, что в каталог Google Books попало несколько книг, которые, вероятно, были написаны искусственным интеллектом или при его помощи. Определить такого рода литературу на самом деле очень просто — журналисты издания просто провели поиск по библиотеке Google Books по ключевой фразе «as of my last knowledge update» («на момент последнего обновления моих знаний»), которую очень часто в своей «речи» используют чат-боты вроде ChatGPT. В Google Books можно искать конкретные предложения или термины — система в итоге отображает произведения с искомым контентом, что и позволило специалистам обнаружить ИИ-книги.

Стоит отметить, что на первых страницах поисковой выдачи в большинстве своём были представлены произведения об искусственном интеллекте, что объясняет наличие ключевой фразы. Но среди результатов поиска были и книги, которые никак не связаны с технологиями — складывается ощущение, что они были написаны чат-ботом. Например, в книге «Bears, Bulls, and Wolves: Stock Trading for the Twenty-Year-Old» («Медведи, быки и волки: Фондовая торговля для двадцатилетних») информация подана таким образом, как будто кто-то «прочесал» Википедию в поисках данных о событиях в финансовом мире, после чего подал это как своё произведение. И в этой книге содержалась ключевая фраза, конечно же.

Также исследователи отметили, что во многих книгах, содержащих искомую фразу, содержится информация исключительно до 2021 года. Это объясняется тем, что именно в этот период времени модели искусственного интеллекта последний раз получали обучающие данные — соответственно, события после 2021 года нейросеть просто не знает и не может писать об этом. И, к сожалению, проблема не только в том, что рынок цифровой литературы постепенно наполняется далеко не лучшей литературой, созданной на базе шаблонных «мыслей» чат-бота. Беда ещё и в том, что библиотека Google Books используется в исследовательской программе Ngram.

Это специальный исследовательский инструмент, который индексирует литературу в библиотеке Google, после чего анализирует полученные данные и позволяет изучить то, как меняется язык с течением времени. В последний раз программа Ngram обновляла данные в 2019 году — эту информацию используют учёные, лингвисты и не только. И когда в следующий раз базу программы обновят, туда попадут и те самые «мусорные» книги, сгенерированные искусственным интеллектом, что может в том числе повлиять на процесс изучения языка в мире.

columbus columbus
Администратор ⭑
AMD Ryzen 5 1600 AF / RTX 3060 Ti
2 комментария по лайкам по дате
Оставьте комментарий...
Оставьте комментарий...
GIK007 2 недели
🇷🇺
Ну люди авторы тоже в основном клепают книги по шаблонам, фантастика в одном жанре может быть на столько похожа что в голове две или три книги могут смешался в одно произведение. И толь когда начинаеш подробнее вспоминать, понимаешь что вот это из одной книги, а это из другой. Самобытных книг не похожих одна на другую, на самом деле очень мало, и это в основном старые книги.
При этом авторы обычно даже не скрывают того, что они «вдохновились» другим романом или серией книг. Например, Джордж Мартин, автор «Игры престолов», взял массу элементов из сразу трёх серий романов, которые он очень любил читать в юности, и если сравнить их сюжет, то там будет оооочень много общего. Но я не вижу в этом проблемы, потому что книги, которыми он вдохновлялся, уже давно забыты