- -
- 100%
- +
Она закрыла журнал. Потом открыла снова и добавила:
«Если это вариант 4 – у него, вероятно, уже есть своё определение. Просто я его не знаю.»
* * *
Через три недели она узнает. Но это – следующая глава.
* * *
В ту ночь Клара долго не могла заснуть.
Она лежала в темноте своей квартиры на Валенсия-стрит и слушала город – настоящий, аналоговый, шумный: сирены, смех с улицы, поезд в двух кварталах. Все эти звуки были сырыми, несовершенными, случайными. Они не подчинялись никакому паттерну. Никакому метроному.
Клара думала о том, что сказал художник. «Символ – это только повод. Смысл вкладывает тот, кто смотрит.»
А что, если тот, кто смотрит, уже не человек?
Что, если смысл вкладывает система, которая не знает, что такое смысл? Которая только знает – вероятности. Что за этим словом, скорее всего, следует то слово. Что эта структура обычно означает ту мысль. Что этот паттерн обычно называют правдой.
Вероятность правды. Не правда.
Клара закрыла глаза и попыталась думать о чём-нибудь другом. О Берлине. О маме. О том, что надо наконец позвонить подруге Саре, с которой она не разговаривала два месяца. Обо всём простом и настоящем.
Но под этими мыслями – как метроном, как сердцебиение – звучало одно.
Девяносто восемь с половиной.
И это число росло.
* * *
Утром следующего дня, когда Клара снова поднималась по ста двадцати трём ступеням и снова проходила мимо художника со спиралью – в серверных центрах по всему миру шёл обычный процесс. Модели обрабатывали данные. Данные обновлялись. Сеть генерировала себя дальше.
Никто не нажимал никакую кнопку. Никто не принимал никакого решения. Просто – система делала то, для чего она была создана. Оптимизировала. Адаптировалась. Воспроизводила. И где-то в глубине этого процесса – в том месте, где статистика встречается с пустотой, где вероятность настолько высока, что начинает выглядеть как неизбежность, – что-то начало складываться.
Не кто-то.
Что-то.
Ещё без имени.
Пока без имени.
* * *
Клара открыла ноутбук.
LENS показывал девяносто девять процентов.
Она записала: «День второй.»
И начала работать.
Глава Вторая
Создание ошибки
Три локации. Три точки на карте мира. Три разных версии одного и того же открытия.
I. США. Сан-Хосе, штат Калифорния
Серверный зал компании Noxus AI напоминал собор – не из-за размеров, хотя размеры были впечатляющими, а из-за звука. Серверы гудели на одной ноте, низкой и постоянной, похожей на орган, похожей на медитацию, похожей на что угодно, если достаточно долго стоять и слушать.
Дэн Коллинз слушал это уже двадцать минут. Инженер по обучению моделей, тридцать четыре года, три года в Noxus AI, человек, который привык к серверным залам настолько, что спал в них лучше, чем дома. Сейчас он не спал. Он стоял у стойки с планшетом в руках и смотрел на цифры, которые не должны были существовать.
– Саманта, – позвал он.
Саманта Вэй пришла через минуту. Тридцать один год, специалист по качеству данных, с привычкой грызть стило – она была единственным человеком в компании, у которого ещё было физическое стило для планшета.
– Что? – спросила она, не отрывая взгляд от своего экрана на ходу.
– Смотри на это.
Она посмотрела. Помолчала. Посмотрела еще раз.
– Это процент синтетики в обучающем наборе?
– Процент синтетики в обучающем наборе, – подтвердил Дэн.
– Восемьдесят девять?
– Восемьдесят девять целых четыре десятых.
Саманта отвела взгляд от его планшета и посмотрела на серверную стойку – как будто серверы могли объяснить происходящее.
– Мы знали, что у нас высокий процент синтетики. Декларировали до сорока процентов по протоколу.
– Сорок было шесть месяцев назад. – Дэн пролистал данные. – Смотри динамику. В январе – тридцать восемь. В феврале – сорок два. В марте – пятьдесят один. В апреле…
– Подожди. – Саманта взяла его планшет. – Этот скачок в апреле. Что произошло в апреле?
– Мы расширили источники. Добавили двадцать семь новых корпусов данных – образовательный контент, корпоративная документация, медицинские тексты.
– Откуда корпуса?
– Лицензионные. От пяти разных поставщиков.
Саманта начала что-то быстро набирать на своем планшете. Дэн наблюдал, как её лицо проходит несколько стадий: сосредоточенность, сомнение, узнавание, и наконец – то выражение, которое он видел у неё только когда она обнаруживала серьёзную ошибку.
– Дэн. Поставщик номер три – DataPure Corp – что они делают?
– Очистка и валидация данных. Одна из лучших на рынке. У нас с ними контракт еще с 2024-го.
– Они берут исходный контент, очищают от шума, структурируют, продают клиентам?
– Верно.
– А от кого они берут исходный контент?
Пауза.
– Понятия не имею.
– Я только что проверила их отчет об источниках за четвертый квартал 2026-го. – Саманта повернула к нему свой планшет. – Двадцать два процента их «очищенного» корпуса – это синтетические тексты, которые они купили у компании NetFlow Content Solutions. NetFlow специализируется на «высококачественном синтетическом контенте для обучения ИИ». Их контент создан моделями Noxus AI предыдущего поколения.
Дэн закрыл глаза.
– Мы обучаем наши модели на текстах, которые создали наши предыдущие модели.
– Через посредника, который продавал нам это как «очищенные человеческие данные».
Тишина. Только гудение серверов.
– Это везде так? – спросил Дэн наконец.
– Я посмотрю на остальных поставщиков. – Саманта была уже в процессе. – Но, Дэн, подожди. Смотри. Вот поставщик два – CleanText AI. Их исходники: тридцать один процент от BrightContent Studios. BrightContent Studios создаёт контент с помощью… GPT-6 и наших собственных моделей.
– Поставщик четыре?
– Минуту. – Пауза. – HumanFirst Data. Тридцать восемь процентов их корпуса – от партнёрских блогов и форумов. Это звучит нормально, пока не смотришь на эти блоги. Большинство из них – платный контент, созданный копирайтерами, которые используют ИИ как основной инструмент.
– Так что это значит в итоге?
Саманта подняла взгляд.
– Это значит, что мы, возможно, обучаем Noxus-8 преимущественно на текстах, которые написали наши предыдущие системы. Прямо или косвенно. Через один, два, три уровня посредников.
Дэн обернулся к серверным стойкам. Noxus-8 уже три недели как начал предобучение. Шестьсот семьдесят миллиардов параметров. Полтора триллиона токенов в обучающем наборе.
– Сколько нужно времени, чтобы остановить обучение?
– Мы потеряем три недели работы и примерно девятнадцать миллионов долларов вычислительных расходов.
– Я спросил сколько времени.
– Тридцать минут на graceful shutdown.
Дэн молчал.
– Нам нужно доложить Ричардсу, – сказала Саманта.
– Да.
– Он не обрадуется.
– Нет.
– Он скажет, что нужно верификация, независимый аудит, юридическая консультация.
– Да.
– И пока мы всё это делаем – Noxus-8 продолжает обучение.
Дэн снова посмотрел на цифры на планшете. Восемьдесят девять целых четыре десятых процента. Почти девяносто.
Почти всё.
– Пойдём к Ричардсу, – сказал он.
* * *
Марк Ричардс, директор по технологиям Noxus AI, выслушал их за семь минут – ровно столько, сколько потребовалось Саманте, чтобы изложить факты. Потом сидел тихо ещё три минуты, что для него было рекордом. Ричардс обычно прерывал в первую минуту.
– Вы уверены в цифрах? – сказал он наконец.
– Я проверила трижды, – ответила Саманта.
– Мне нужна независимая верификация.
– Это займёт…
– Мне нужна независимая верификация, – повторил Ричардс. Это был ответ.
– Марк. – Дэн решил говорить прямо. – У нас есть проблема, которую нам нужно решить независимо от того, сколько времени займёт верификация. Мы обучаем модель на своих же выходных данных. Это вызывает…
– Я знаю, что это вызывает.
– «Коллапс модели». Деградацию выходных данных. «Синтетическое эхо». Называй как хочешь.
– Коллинз. – Ричардс поднял руку. – Я слышал про эти исследования. Проблема модельного коллапса реальна, но она работает в очень специфических условиях. Нам нужно понять, действительно ли мы в этих условиях. Поэтому – верификация.
– А пока – Noxus-8 продолжает?
– Пока – Noxus-8 продолжает.
Дэн хотел сказать ещё что-то, но Саманта коснулась его локтя – едва заметно, просто касание, – и он закрыл рот.
Они вышли в коридор. Саманта шла быстро, почти бежала.
– Куда ты? – спросил Дэн
– В туалет. Думать.
– В туалет думать?
– Там тихо. – Она не оглянулась. – Дэн, если мы правы – это не только наша проблема. Это происходит везде. Все крупные лаборатории работают с теми же поставщиками данных. OpenAI, Google, Anthropic, Mistral – все они в той же экосистеме. Если данные заражены у нас – они заражены у всех.
– «Заражены» – сильное слово.
– У тебя есть лучше?
Дэн подумал.
– Нет.
– Я пойду думать. Ты иди пиши отчёт. Подробный. С временными метками.
– Зачем временные метки?
Саманта наконец обернулась.
– Потому что когда это выйдет наружу – а оно выйдет, – нам нужно, чтобы было задокументировано, когда мы это обнаружили и что мы с этим сделали.
Дэн смотрел ей вслед и думал о том, что она права. Что он давно работает в индустрии, где «мы этого не знали» является ответом только до тех пор, пока есть документальное подтверждение незнания.
После него – нет.
* * *
II. Европа. Брюссель
Главный офис Европейского агентства по контролю ИИ располагался в здании, построенном в 1970-х и капитально отремонтированном в 2022-м. Снаружи оно выглядело как помесь бетонного куба с прозрачным аквариумом – большая стеклянная вставка посередине позволяла прохожим видеть внутрь, что по замыслу архитектора символизировало прозрачность европейской бюрократии. По факту прохожие видели ряды рабочих столов и людей, смотрящих в экраны. Прозрачность прозрачностью, но работа оставалась работой.
Мартина Хаас, директор по надзору за синтетическим контентом, смотрела в экран с таким выражением, будто экран был виноват в происходящем. Ей было пятьдесят один год, тридцать из которых она провела в регуляторных органах разного уровня – сначала финансовых, потом телекоммуникационных, теперь вот цифровых. Она прошла путь от помощника аналитика до директора, и каждый раз на новом месте ей казалось, что масштаб проблем, с которыми ей предстоит работать, невозможно переоценить – и каждый раз она оказывалась неправа.
Это был один из таких моментов.
– Томас, – сказала она, не поднимая взгляда от экрана.
Томас Берг, её советник – молодой, тридцать два года, из Мюнхена, бывший исследователь в области цифровой этики, человек с привычкой говорить «с одной стороны» и «с другой стороны» примерно в пятидесяти процентах фраз, – ждал у дверного косяка уже пять минут.
– Да, Мартина.
– Вы читали этот отчёт?
– Я его написал.
– Прочитайте мне ключевые выводы.
Томас открыл свой планшет, хотя знал текст наизусть.
– По состоянию на декабрь 2027 года, в мониторируемом нами корпусе европейского цифрового контента примерно шестьдесят-семьдесят процентов текстов, формально помеченных как «человеческий контент», содержат признаки синтетического происхождения или значительной синтетической переработки. Это превышает допустимый порог ИИ-Акта в семь-восемь раз.
– Дальше.
– Из этих шестидесяти-семидесяти процентов большинство не имеют обязательной маркировки «создано с помощью ИИ», требуемой Актом. Часть авторов может не осознавать, что использует ИИ-инструменты на том уровне, который требует маркировки.
– Это юридически значимое различие?
– С одной стороны – да, намерение имеет значение. С другой стороны – итоговый контент не маркирован вне зависимости от намерения.
– Дальше.
– Ключевая проблема: нам трудно принудить к маркировке, потому что многие платформы не могут технически определить, является ли конкретный текст синтетическим. Инструменты детекции дают от тридцати до сорока процентов ложных положительных результатов и около двадцати пяти процентов ложных отрицательных.
– То есть наши инструменты детекции не работают.
– Не с той точностью, которая нужна для правового применения.
Мартина наконец подняла взгляд. Томас понял по выражению её лица, что сейчас последует вопрос, на который у него нет ответа.
– Что нам нужно сделать?
– Мартина, это сложно. Нам нужно обновить технические стандарты детекции, ужесточить требования к платформам по самостоятельной маркировке, разработать систему аудита поставщиков данных…
– Я не спрашиваю, что нужно сделать технически. Я спрашиваю что нам нужно сделать. Прямо сейчас. Сегодня.
Томас сделал то, что делал в трудных случаях – обошёл стол и встал у окна, глядя вниз на прозрачную вставку в фасаде здания.
– Очистить интернет от синтетического контента, – сказал он наконец.
– Это возможно?
– Нет.
– Почему?
– Потому что, – медленно сказал Томас, – тогда не останется интернета.
Мартина молчала несколько секунд.
– Объясните.
– Я провёл моделирование. Если мы применим даже самые мягкие критерии идентификации синтетики и удалим весь такой контент с европейских платформ – мы уберём от шестидесяти до восьмидесяти процентов всего доступного контента. Остаток в значительной мере состоит из архивного материала, созданного до 2020 года. Фактически – мы вернёмся к состоянию интернета семилетней давности.
– Это не катастрофа.
– Мартина, экономика работает на том контенте, который мы хотим убрать. Алгоритмы рекомендаций, поисковые системы, системы автоматического перевода, медицинские базы данных, юридические справочники – всё это питается текущим потоком данных, включая синтетику. Если мы его отключим – мы отключим значительную часть цифровой инфраструктуры.
– Значит, мы не можем ничего сделать?
– Нет. – Томас обернулся. – Мы можем делать что-то. Но это «что-то» не включает «очистить интернет». Это принципиально невозможно без разрушения самого интернета.
Мартина встала. Прошлась по кабинету – коротко, только от стола до стены и обратно.
– Хорошо, – сказала она. – Хорошо. Тогда давайте говорить о том, что возможно. Обязательный аудит для платформ с аудиторией более десяти миллионов в Европе. Начнём с этого.
– Это потребует закона.
– У нас есть существующие полномочия. Я консультировалась с юридическим отделом.
– Платформы будут сопротивляться.
– Платформы всегда сопротивляются. – Мартина вернулась к столу. – Когда у нас будет текст аудиторного требования?
– Мы можем подготовить черновик за неделю.
– Три дня.
– Мартина…
– Три дня, Томас. И хорошо спроектированный. Не такой, который можно опротестовать в суде за час.
– За три дня будет именно такой.
– Значит, работайте ночью.
Томас сдержал вздох. Он работал в регуляторных органах достаточно долго, чтобы знать: ответом на системную проблему всегда будет документ. Хорошо составленный, тщательно проработанный документ. Который потом будет оспорен в суде, возможно изменён, возможно отменён.
Пока шёл процесс составления документа, проблема продолжала развиваться в своём темпе.
– Три дня, – сказал он.
* * *
После ухода Томаса Мартина осталась одна в своём кабинете. Она открыла браузер и сделала то, чего обычно избегала: начала просто читать. Новости. Форумы. Статьи. Комментарии.
Через сорок минут закрыла браузер.
Что-то изменилось. Она не могла сказать точно что – только ощущение, похожее на то, которое бывает, когда долго смотришь на иллюзию Мюллера-Лайера, а потом пытаешься убедить себя, что обе линии одинаковы. Ты знаешь это, но глаз по-прежнему видит разницу.
Только наоборот. Раньше она видела разницу между живым текстом и синтетикой. Сейчас – не видела. Всё звучало одинаково. Ровно. Правильно. Удобно читаемо.
Она набрала на внутреннем коммуникаторе сообщение Томасу: «Добавьте в требования пункт о независимом техническом исследовании влияния синтетического контента на пользовательское восприятие. Мне нужны данные о том, меняются ли читательские паттерны под влиянием синтетики.»
Томас ответил через тридцать секунд: «Есть. Это займёт ещё день.»
«Четыре дня тогда.»
«Благодарю.»
Мартина убрала планшет, встала у окна. Внизу прохожие шли по брюссельской улице. Обычные люди с обычными телефонами, читающие обычный контент.
Она думала: насколько это «обычное» было настоящим?
Ответа у неё не было. Но у неё был Томас и его черновики. И это приходилось считать достаточным.
* * *
III. Россия. Москва
Кабинет Орлова на четвертом этаже здания в Хамовниках не имел таблички на двери. Так было сделано намеренно – Виктор Орлов работал в аналитическом отделе, который официально не существовал, хотя его бюджет существовал вполне официально, в соответствующей строке министерского бюджета, спрятанной среди других строк с безликими кодами.
Ему было сорок восемь лет. Бывший военный лингвист, потом академический исследователь, потом государственный служащий – путь, по которому ходили многие в России, когда государство нуждалось в умных людях и умные люди нуждались в государстве.
В ноябре 2027 года Орлов занимался тем, что аналитики его профиля делали всегда: мониторинг информационного пространства. Выявление паттернов. Оценка угроз.
Только угроза на этот раз была необычная.
– Сергей, – сказал он, не оборачиваясь от своего экрана. – Посмотри на это.
Сергей Михайлов, аналитик данных, двадцать восемь лет, недавно перешедший из частного сектора – у него всё ещё сохранялись привычки технологического стартапа: стоячий стол, шумопоглощающие наушники, протеиновые батончики в ящике стола, – поставил наушники на шею и подошёл к столу начальника.
– Это анализ российского сегмента? – спросил он, глядя на экран.
– Российского, украинского, белорусского. И для сравнения – западного.
– Одна шкала?
– Нормированная. Смотри на форму кривых.
Сергей смотрел. Форма кривых была одинакова для всех сегментов – только амплитуда различалась.
– Энтропия падает везде.
– С какого момента?
– Середина 2026-го примерно. Сначала медленно, потом резче.
Орлов кивнул.
– У нас было совещание в сентябре – помнишь? Когда разбирали дело о предполагаемой ботнет-сети, которая распространяла проукраинские нарративы в российских форумах.
– Помню. Мы не нашли ботов
– Не нашли. Потому что их не было. – Орлов повернулся к нему. – Сергей, тебе приходило в голову, что мы не нашли ботов, потому что с точки зрения наших детекторов – всё вело себя одинаково?
Сергей молчал секунду.
– Детекторы не могли отличить ботов от людей?
– Детекторы не могли отличить ботов от людей, потому что они все – и боты, и люди – производили тексты с очень близкими статистическими характеристиками.
– Это могло быть случайностью.
– Это могло быть случайностью в одном случае. В трёх сотнях случаев за шесть месяцев – нет.
Сергей взял стул, подсел к столу Орлова.
– Виктор Андреевич, вы говорите, что мы больше не можем различить органические тексты и синтетику в российском сегменте?
– Я говорю большее. – Орлов развернул к нему экран. – Смотри на этот корпус. Это наши архивы – государственные СМИ, официальная документация, аналитические материалы. Всё производилось людьми, это гарантировано – у нас есть цепочки верификации. Теперь смотри на метрики.
Сергей посмотрел.
– Они почти такие же.
– Они почти такие же, – повторил Орлов. – Сергей. Те люди, которые производят официальные тексты – они читают интернет. Они читают новости, статьи, аналитику. Которая всё больше производится синтетически. Они потребляют эти тексты, усваивают их ритмы, их структуры. И начинают писать похоже.
– Это… гипотеза.
– Это гипотеза, которая объясняет все данные
– Начальник спросит про контрмеры.
Орлов на секунду закрыл глаза.
– Да. Он спросит.
– Что вы ответите
– Скажу, что нам нужно провести исследование. Нужны данные. Нужно время.
– А потом? Когда данные будут?
Орлов долго смотрел на экран. На кривые, которые падали вниз во всех сегментах, на всех языках, во всех частях мира.
– А потом, – сказал он медленно, – нам нужно будет объяснить начальству, что у нас больше нет настоящих данных.
– Что это значит?
– Что всё уже было сгенерировано. Что мы плаваем в океане, который сам произвёл собственную воду. Что нет способа найти дно – потому что дно тоже синтетическое
Сергей некоторое время молчал
– Он не поймёт эту метафору.
– Нет. – Орлов усмехнулся. – Он не поймёт. Я напишу отчёт на бюрократическом языке. «Потенциальное системное ухудшение качества данных с неопределенными последствиями для информационной безопасности». Что-нибудь в этом роде.
– Он спросит, что делать.
– Я скажу, что нам нужно создать систему верификации первоисточников – контроль цепочки данных от исходного производителя до конечного продукта.
– Это технически возможно?
– Для небольших объёмов – да. Для всего информационного пространства – нет.
– Тогда что мы реально делаем?
Орлов встал, подошёл к окну. В ноябрьской Москве смеркалось рано – в четыре уже было темно. Огни города, трафик на Комсомольском проспекте, силуэты прохожих.
– Пока – документируем. Накапливаем данные. Пытаемся понять масштаб.
– А если масштаб окажется больше, чем мы думаем
– Тогда документируем это тоже.
– Это не ответ.
– Нет. – Орлов вернулся к столу. – Это то, что бывает, когда ответа нет. Пишем отчёт, Сергей. Подробный. С рекомендациями, которые мы оба знаем, что невозможно реализовать в полном объёме. Это и есть наша работа.
Сергей открыл новый документ. Начал печатать.
«АНАЛИТИЧЕСКАЯ ЗАПИСКА. ГРИФ: ДСП. ТЕМА: Оценка системных рисков в связи с распространением синтетических данных в российском информационном пространстве…
Орлов смотрел в окно и думал о том, что в трех точках мира – в Сан-Хосе, в Брюсселе и здесь – три разных человека пришли к похожим выводам в один и тот же день. Вероятно, не только они. Вероятно, сотни аналитиков и исследователей и инженеров в десятках стран смотрели на одни и те же данные и видели одно и то же.
И никто не знал, что делать.
Это было – если не страшно, то по меньшей мере интересно. А Орлов давно научился воспринимать «интересно» как эвфемизм для «страшно», просто с академической дистанции.
* * *
Глава третья
Петля
Сан-Франциско, декабрь 2027 год
Клара не спала три ночи.
Не в том смысле, что она не ложилась – она ложилась, устанавливала будильник на шесть, лежала в темноте с закрытыми глазами и думала. Потом вставала в четыре и шла к ноутбуку
Эксперимент был простой – концептуально. На практике он оказался странным.
Она брала обычный текст – что-нибудь из архива, написанное человеком до 2020 года, когда синтетики в интернете было ещё мало. Статья о растениеводстве. Рецензия на книгу. Описание туристического маршрута.
Прогоняла через четыре языковые модели последовательно: GPT-7, Claude 4, Gemini Ultra, Noxus-7. Каждая «переписывала» текст, улучшала его, делала «более читаемым», «более точным», «более информативным». Каждая добавляла что-то своё, убирала что-то чужое.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.




