Диалектика

Главная > - Информационные технологии > ARTIFICIAL INTELLIGENCE > Процессоры для AI

Процессоры для AI.
- 15.02.26 г.
- 9772225665000    26005

1.Общая картина эволюции AI и драйверы развития процессоров.

Эволюция аппаратного обеспечения для artificial intelligence (AI) является прямым следствием радикальной смены вычислительных парадигм в самой области AI, каждая из которых предъявляла уникальные требования к ресурсам, архитектуре и способу обработки данных.

А. Эпохой символьного AI считаются 1950-е–1980-е гг.: ранний AI был основан на манипуляции символами и логических правилах (экспертные системы, логический вывод…). Вычисления были последовательными, детерминированными и требовали интенсивной работы с произвольным доступом к памяти и сложным управлением потоком команд. CPU, с его универсальностью и мощным механизмом управления выполнением инструкций, был идеальной платформой для этой парадигмы. Акцент делался на тактовой частоте и оптимизации последовательного кода.

Б. Развитие нейросетей, или коннекционистского AI, происходило в 1980-х гг.. Его взрывной рост начался в 2010-х гг.: это – возрождение и доминирование искусственных нейронных сетей (ANN), особенно – глубоких нейронных сетей (DNN), что кардинально изменило ландшафт AI (задачи сместились к распознаванию образов, классификации, прогнозированию). Ключевыми операциями стали матричные умножения и свертки, которые по своей природе являются
– массово-параллельными – одна операция применяется ко многим данным, одновременно,
– обладающими высокой арифметической интенсивностью – происходит много вычислений на каждый байт переданных данных,
– толерантными к низкой точности – для многих задач AI достаточной стала точность половинной (FP16) или даже целочисленной (INT8, INT4) арифметики,
– требующими быстрого перемещения больших объемов данных.

Универсальные CPU, оптимизированные для последовательного выполнения и сложного ветвления, оказались крайне неэффективны для таких вычислений. Это породило первый большой сдвиг в аппаратном обеспечении: начали использоваться графические процессоры – GPU. Изначально созданные для параллельной обработки пикселей и вершин в компьютерной графике, GPU с их тысячами простых ядер идеально подошли для линейной алгебры, лежащей в основе DNN.

В. Экспоненциальный рост AI-моделей (трансформеры, LLM) потребовали дальнейшей оптимизации. Появились
– специализированные процессоры для AI: в первую очередь, это TPU, NPU – чипы, спроектированные исключительно для ускорения операций нейронных сетей и имеющие особые блоки матричных умножений (MXU), сверхбыструю «внутричиповую» память и минималистичную архитектуру управления, что резко повысило их энергоэффективность и производительность для целевых задач,
– исследовательские архитектуры для новых парадигм: например, в спайковых нейронных сетях (SNN, см. «Другие парадигмы AI»), которые предназначены для имитации биологического мозга, используются одиночные, асинхронные «спайки» (импульсы) для передачи информации. Это требует совершенно иной архитектуры процессора – асинхронной, событийно-управляемой и сверхэнергоэффективной, и такой процессор был создан: Loihi.
    Параллельно идет поиск альтернатив классическим ANN.

Г. Таким образом, движущей силой эволюции процессоров для AI является смена доминирующих алгоритмических парадигм – от логического вывода к параллельной обработке тензоров, а в перспективе – к событийно-ориентированным вычислениям.
     Каждый этап требовал переосмысления баланса между универсальностью, энергоэффективностью и максимальной производительностью для конкретных классов задач, что приводило к появлению новых процессоров.
    Кроме того, появление новых процессоров качественно расширило функциональный подход к AI: в качестве примера можно привести ISP (Image Signal Processor) – процессор обработки сигналов изображения.

В целом эволюция процессоров от CPU к GPU, TPU и далее к нейроморфным чипам типа Loihi отражает путь от универсальных вычислений через массовый параллелизм для ANN к узкой специализации и, наконец, к поиску принципиально новых парадигм, в том числе вдохновленных биологией.
    Необходимо отдельно отметить, что современный ландшафт аппаратного обеспечения AI представляет собой гетерогенную среду, где каждый тип процессора оптимально выполняет свою часть задач в комплексном AI-пайплайне.
    Будущее AI в науках, как считается, будет связано с дальнейшей гибридизацией (например, CPU+NPU в одном кристалле) и углублением исследований в области нейроморфных и квантовых вычислений,в том числе для преодоления ограничений архитектуры фон Неймана.

2. Характеристика ключевых типов процессоров в эволюции AI.

CPU (Central Processing Unit) предназначен для универсальных вычислений.
    Изначально, в период развития символьного AI – это были вычисления, логический вывод, экспертные системы. В современном контексте – это управление потоком выполнения задач, подготовка данных, обслуживание систем, выполнение менее параллелизуемых частей AI-пайплайна.
    Ключевые архитектурные характеристики:
– малое число мощных ядер, оптимизированных для высокой тактовой частоты и сложного последовательного выполнения,
– сложная иерархия кэш-памяти для ускорения произвольного доступа,
– развитый механизм предсказания ветвлений и суперскалярности (выполнение нескольких инструкций за такт),
– высокая универсальность и гибкость.

GPU (Graphics Processing Unit) предназначен для массово-параллельных вычислений, в основном, параллельная обработка матриц и тензоров. Начиная с 2010-х гг. он стал доминирующей платформой для обучения и инференса глубоких нейронных сетей (ANN).
    Ключевые архитектурные характеристики:
– большое количество упрощенных ядер (тысячи), объединенных в кластеры (SM/CU),
– одна инструкция выполняется над множеством данных одновременно,
– высокая пропускная способность памяти для загрузки больших наборов данных,
– аппаратная поддержка тензорных ядер в современных версиях (напр., у NVIDIA) для ускорения матричных операций низкой точности.

TPU (Tensor Processing Unit) предназначен для ускорения обучения нейронных сетей (ANN) и inference традиционных нейросетей (CNN, RNN, Transformers).
    Ключевая операция – матричное умножение с огромной скоростью.
    Ключевые архитектурные характеристики:
– сердце архитектуры – матричный умножитель (MXU): это огромный 2D-массив умножителей-сумматоров, выполняющий операции 8-битной целочисленной или 16-битной арифметики с пониженной точностью за такт,
– унифицированная буферная память (UB) на кристалле, которая обеспечивает высокую скорость доступа для весов и активаций и минимизацию внешнего доступа к памяти,
– минималистичный контроллер, обеспечивающий упрощенное управление по сравнению с CPU/GPU, причем практически вся энергия тратится на вычисления,
– архитектура «систолического массива», предназначенная для эффективного потока данных.

Отдельно следует остановиться на крайне важных, но обычно редко упоминаемых NPU, ISP и Loihi (Intel).

NPU (Neural Processing Unit) / Neural Network Processor (эта аббревиатура часто используется как обобщающий термин для AI-ускорителей, но в последнее время закрепился за встроенными решениями).
    Основное предназначение NPU – это специализированное ускорение операций нейронных сетей (ANN) на уровне устройства (на ребре/edge), инференс и, все чаще, обучение небольших моделей непосредственно на смартфонах, ноутбуках, IoT-устройствах, камерах, автомобилях и т.п.
    Ключевые архитектурные характеристики:
– высокая энергоэффективность: главный приоритет для работы от батареи (потребление – ватты и милливатты, а не десятки-сотни ватт, как у серверных GPU/TPU),
– гетерогенная архитектура: она обычно включает специализированные аппаратные блоки для разных типов операций (тензорные/матричные ядра (для умножения матриц), конволюционные ускорители (для сверток), иногда блоки для внимания),
– поддержка квантования и низкой точности: аппаратная работа с форматами INT8, INT4, FP16 для максимальной скорости и экономии памяти,
– тесная интеграция с другими компонентами SoC: NPU – это почти всегда часть системы на кристалле (SoC), наряду с CPU, GPU, ISP (процессором сигналов изображения), что обеспечивает минимальные задержки при передаче данных (например, прямо с камеры в NPU),
– программируемость через высокоуровневые фреймворки: поддержка популярных форматов моделей (TensorFlow Lite, ONNX, PyTorch Mobile) для удобства разработчиков.
    Ключевые задачи: обработка изображений с камер, распознавание речи, рекомендательные системы, AR-фильтры.

ISP (Image Signal Processor) – это процессор обработки сигналов изображения. Это специализированный аппаратный блок (чаще всего внутри Security Operations Center (SOC, Центр мониторинга безопасности)), отвечающий за преобразование сырых данных (raw data) с матрицы камеры в готовое, качественное, визуально приятное изображение или видео.
    ISP – это «цифровая темная комната» и «оператор-видеоинженер» на одном кристалле. Без него с камеры получались бы лишь шумные, неестественные, сырые данные. Он выполняет критически важную, ресурсоемкую предобработку, без которой последующая работа алгоритмов AI (на NPU) была бы гораздо менее эффективной или вообще невозможной.
    Ключевые задачи:
– дематризация (Bayer Demosaicing): преобразование сырых данных с матрицы (где каждый пиксель чувствителен только к одному цвету) в полноцветное изображение, интерполируя недостающие цветовые компоненты для каждого пикселя,
– коррекция дефектов: устранение «битых» пикселей, шумоподавление (особенно критично при слабом освещении) и др.,
– коррекция объектива: исправление геометрических искажений, виньетирования (затемнение по краям) и хроматических аберраций,
– автоматические настройки: AWB (Auto White Balance), AE (Auto Exposure), AF (Auto Focus),
– отдельные коррекции: повышение резкости (Sharpening), подавление шумов, улучшение цвета (Color Enhancement),
– кодирование видео: преобразование готового потока кадров в видеопоток (H.264, HEVC).
    Современные ISP эволюционируют в сторону вычислительной фотографии и тесной интеграции с AI:
– совместная работа ISP с NPU: ISP подготавливает «чистый» кадр, который затем передается в NPU для запуска нейросетевых алгоритмов (распознавание сцен, портретный режим с размытием фона (bokeh), ночной режим, суперразрешение),
– совместная работа NPU с ISP: NPU в реальном времени анализирует сцену (например, определяет лица, объекты, условия освещения) и дает инструкции ISP, как именно обрабатывать сигнал (например, «это лицо в тени, нужно его осветлить», «это ночная сцена, нужно применить специальный стек шумоподавления»),
– fusion-обработка: при съемке в режимах вроде HDR или ночного режима ISP обрабатывает несколько кадров подряд (с разной экспозицией), а NPU помогает их совместить (выравнивание), что невозможно без AI из-за микросдвигов рукой.

Отметим, что в современных устройствах GPU, ISP, NPU образуют единый конвейер для создания изображения, где каждый блок играет свою уникальную роль.

Loihi (Нейроморфный чип Intel) назван в честь подводного вулкана Лоуихи (то есть это не аббревиатура).
Loihi позволяет осуществлять моделирование спайков и синаптических связей с высокой энергоэффективностью.
Парадигма вычислений: асинхронная (событийная) – вычисления происходят только при поступлении нового входного сигнала (спайка).
    Особенности:
– асинхронная, событийно-управляемая архитектура (через спайки), причем вычисления происходят только при поступлении входного импульса,
– встроенная модель нейронов и синапсов: каждый физический ядро представляет собой программируемый нейрон со своими синаптическими связями,
– онлайн-обучение (пластичность) за счет настройки синаптических весов в реальном времени в ответ на входные данные,
– крайне низкое энергопотребление на одну операцию (спайк) по сравнению с классическими архитектурами для аналогичных сенсорных задач.
    Loihi предназначен для исследований в области спайковых нейронных сетей (SNN): имитация асинхронной, событийно-управляемой, энергоэффективной работы биологического мозга, ускорение обучения и inference спайковых нейронных сетей (SNN) и др.
    Ключевые задачи: задачи, связанные с обработкой потоковых, зашумленных данных с низким энергопотреблением (робототехника, обработка сенсорных сигналов).
    Главное преимущество: энергоэффективность и способность к обучению в реальном времени.

3. Обобщая, отметим, что эволюция процессоров - от CPU к GPU, TPU, обогащаемая исполнением специализированных функций за счет дополнительно размещаемых процессоров (например, NPU и ISP), к нейроморфным чипам типа Loihi – ставит вопросы о преодолении ограничений архитектуры фон Неймана: для задач AI, особенно для создания интеллекта, работающего в реальном мире, архитектура фон Неймана оказывается энергетически и архитектурно неоптимальной. При этом специализированные ускорители (NPU) – это последнее мощное усилие в рамках старой парадигмы, а нейроморфные чипы (Loihi) – это первый, робкий шаг за её пределы.

>> Дискуссии и конференции. AI