Инжиниринг искусственного интеллекта

- -
- 100%
- +
Если не фильтровать корпус, модель выучит все предрассудки, ненависть и стереотипы, которые есть в интернете. RLHF потом это исправляет, но зачем создавать себе лишнюю работу?
Что делают инженеры с данными перед обучением
Дедупликация
удаляют повторяющиеся тексты (на уровне документов, абзацев и даже предложений).
Фильтрация по качеству
используют классификаторы, чтобы отсеять спам, машинный перевод, бессмысленный контент.
Балансировка языков
если английского слишком много, его искусственно ограничивают, чтобы другие языки получили достаточно внимания.
Токенизация с учётом языков
подбирают размер словаря и алгоритм так, чтобы редкие языки не разбивались на слишком мелкие токены.
Safety -фильтры
удаляют откровенно токсичный или нелегальный контент (насколько это вообще возможно для интернет-масштабов).
Практический вывод
Архитектура определяет потолок возможностей модели, но данные определяют, достигнет ли модель этого потолка. Две одинаковые архитектуры, обученные на разных корпусах, могут отличаться по качеству в разы. Поэтому, когда вы слышите «мы обучили модель на 10 триллионах токенов», всегда стоит спросить: «А что это были за токены? Сколько из них - мусор? Как вы чистили данные?» Часто ответы на эти вопросы объясняют разницу в качестве лучше, чем сравнение архитектур.
Речь идёт не только о сборе данных, но и о создании инфраструктуры, способной переварить эти объёмы. Кластеры из тысяч GPU работают месяцами, потребляя энергию малого города. Сбои оборудования, потери данных, нестабильность обучения - всё это часть ежедневной рутины инженеров, которые тренируют большие модели. Каждая такая тренировка - это лотерея: даже при идеальных настройках никто не гарантирует, что модель "сойдётся" в нужную сторону.
Но что стоит за сухими цифрами «триллионы токенов»? Давайте переведём их в понятные инженеру величины - часы работы GPU, счета за электричество и седые волосы дата-центрщиков.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.



