Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
05 июня 2025 Апти Алаудинов угрожал Арегу Щепихину пистолетом и критиковал власти за бездействие в отношении дела об оскорблениях чеченцев
05 июня 2025 Лидера албанской преступной группировки в Эквадоре обвиняют в отмывании денег через компании в Объединённых Арабских Эмиратах
05 июня 2025 На «Госуслугах» будет доступен раздел с информацией об адресах бомбоубежищ и эвакуационных пунктов по всей стране
05 июня 2025 Мать основателя сети Fish Point была обманута более чем на 100 миллионов рублей
05 июня 2025 Трамп вновь разместил сообщение из своих социальных сетей, в котором поделился информацией о разговоре с Путиным
05 июня 2025 Российские стратегические самолёты оказались в рискованном положении из-за соглашения о ядерном вооружении с Соединёнными Штатами
05 июня 2025 Украина нанесла урон и уничтожила множество российских военных самолетов
05 июня 2025 Илон Маск выразил недовольство в адрес Белого дома и покинул администрацию Трампа
04 июня 2025 В России увеличился спрос на гробы из картона вместо деревянных
04 июня 2025 Стали известны подробности покушения на заместителя мэра Ставрополя Заура Гурциева
04 июня 2025 В Москве полицейские задержали похитителей блогера Арека Щепихина
04 июня 2025 Похищенный в Москве Арег Щепихин оказался участником конкурса «Россия — страна возможностей»
04 июня 2025 В Москве на Ярославском вокзале произошло похищение, в котором участвовали автомобили с «КРА»-номерами
04 июня 2025 Израильские самолёты нанесли удар по югу Сирии
04 июня 2025 Нам не хватало только меня": Вячеслав Даванков рассказал, почему участвует в выборах в Новосибирске
04 июня 2025 Дональд Трамп официально увеличил пошлины на сталь и алюминий вдвое
04 июня 2025 Сейчас не время для полумер: Евросоюз призвал усилить антикоррупционные меры
04 июня 2025 Экспорт российских алмазов упал до самого низкого уровня за последние десять лет
04 июня 2025 Pornhub прекратит деятельность во Франции из-за новых требований проверки возраста
04 июня 2025 Подозреваемый в организации атаки дронов на военные аэродромы предупредил жену о своем переезде