DeepSeek v3 – как Китай нагнул США

Name: DeepSeek v3 – как Китай нагнул США
Rating: 0 (0 reviews)
Author: Ранас Мукминов

Ранас Мукминов

Рейтинг Литрес:3.8

Издательство:

Автор

Метки:

Только на Литрес,Искусственный интеллект

Жанры:

компьютерная справочная литература,книги о компьютерах,информационная безопасность

Книжный блогЧитать новые статьи

Последние статьи блога

Как быстро выучить чеченский язык

Как быстро выучить тренд

Как легко выучить спряжение глаголов и исключения

Как легко выучить состав числа до 10

Аннотация

Читать онлайн Cкачать на Литрес

DeepSeek также выпустила DeepSeek-V3, модель Mixture-of-Experts (MoE) с 671B параметрами, из которых 37B активированы для каждого токена. Модель использует Multi-head Latent Attention (MLA) и архитектуру DeepSeekMoE для эффективного вывода и экономичной обучения. DeepSeek-V3 была предварительно обучена на 14,8 триллионах разнообразных и высококачественных токенов, за которыми следовали этапы контролируемой доработки и обучения с подкреплением, чтобы полностью использовать ее возможности. Оценки показывают, что DeepSeek-V3 превосходит другие модели с открытым исходным кодом и достигает производительности, сопоставимой с ведущими закрытыми моделями, при этом для полного обучения требуется всего 2,788M часов H800 GPU.

Другие книги автора

DeepSeek

Сравнительный анализ современных AI-моделей: OpenAI o3-mini и DeepSeek-V3

Промпты ChatGPT PLUS, 2-е издание

AI и автоматизация бизнеса: Полное руководство по созданию умного предприятия

Монетизация 2.0

Нейромагия. Как MidJourney, ChatGPT и Claude создают наше будущее