Interested Article - Нейронный процессор

Нейро́нный проце́ссор ( англ. Neural Processing Unit, NPU или ИИ-ускоритель англ. AI accelerator ) — это специализированный класс микропроцессоров и сопроцессоров (часто являющихся специализированной интегральной схемой ), используемый для аппаратного ускорения работы алгоритмов искусственных нейронных сетей , компьютерного зрения , распознавания по голосу , машинного обучения и других методов искусственного интеллекта .

Описание

Нейронные процессоры относятся к вычислительной технике и используются для аппаратного ускорения эмуляции работы нейронных сетей и цифровой обработки сигналов в режиме реального времени . Как правило, нейропроцессор содержит регистры , блоки памяти магазинного типа, коммутатор и вычислительное устройство, содержащее матрицу умножения , дешифраторы , триггеры и мультиплексоры .

На современном этапе (по состоянию на 2017 год) к классу нейронных процессоров могут относиться разные по устройству и специализации типы чипов , например:

Нейроморфные процессоры — построенные по кластерной асинхронной архитектуре, разработанной в Корнеллском университете (принципиально отличающейся от фон Неймановской и Гарвардской компьютерных архитектур, используемых последние 70 лет в IT -отрасли). В отличие от традиционных вычислительных архитектур, логика нейроморфных процессоров изначально узкоспециализирована для создания и разработки разных видов искусственных нейронных сетей . В устройстве используются обычные транзисторы , из которых строятся вычислительные ядра (каждое ядро, как правило, содержит планировщик заданий, собственную память типа SRAM и маршрутизатор для связи с другими ядрами), каждое из ядер эмулирует работу нескольких сотен нейронов и, таким образом, одна интегральная схема, содержащая несколько тысяч таких ядер, алгоритмически может воссоздать массив из нескольких сотен тысяч нейронов и на порядок больше синапсов . Как правило, такие процессоры применяются для алгоритмов глубокого машинного обучения .
Тензорные процессоры — устройства, как правило, являющиеся сопроцессорами , управляемыми центральным процессором . Тензорные процессоры оперируют тензорами - объектами при помощи которых удобно выполнять преобразование элементов одного векторного пространства в другое, и которые могут быть представлены как многомерные массивы чисел , обработка которых осуществляется с помощью таких программных библиотек , как, например TensorFlow и Caffe 2 . В угоду производительности они, обычно, выполняют операции над числами малой разрядности (8 или 16 бит ) и специализированы для быстрого выполнения таких операций, как матричное умножение и свёртка , используемых для эмуляции свёрточных нейронных сетей , которые используются для задач машинного обучения .
Процессоры машинного зрения — во многом похожи на тензорные процессоры, но они узкоспециализированы для ускорения работы алгоритмов машинного зрения , в которых используются методы свёрточных нейронных сетей (CNN) и масштабно-инвариантная трансформация признаков (SIFT). В них делается большой акцент на распараллеливание потока данных между множеством исполнительных ядер , включая использование модели (англ.) ( — как в многоядерных цифровых сигнальных процессорах , и они так же, как тензорные процессоры, используются для вычислений c низкой точностью, принятой при обработке изображений .

История

Области применения

Беспилотный автомобиль — например, в этом направлении развивает свои платы (англ.) ( компания Nvidia .
Беспилотный летательный аппарат — например, навигационная система основанная на чипах (англ.) ( успешно управляет автономными беспилотными летательными аппаратами .
Диагностика в здравоохранении .
Машинный перевод .
Обработка естественного языка .
Поисковая система — NPU повышают энергоэффективность центров обработки данных , и дают возможность использовать все более сложные запросы.
Промышленный робот — NPU позволяют расширить спектр задач, которые возможно автоматизировать, путём добавления приспособляемости к меняющимся ситуациям.
Распознавание по голосу — например, в мобильных телефонах использование технологии (англ.) (
Сельскохозяйственный робот — например, борьба с сорняками без применения химических средств .

Примеры

Существующие продукты

16-ядерный чип Adapteva Epiphany (E16G301) на одноплатном компьютере для параллельных вычислений.

Процессоры машинного зрения :
- Intel (англ.) ( , который является многоядерным ИИ-ускорителем, основанным на VLIW -архитектуре, с дополненными узлами, предназначенными для обработки видео .
- (англ.) ( — это специализированный процессор, ускоряющий обработку алгоритмов машинного зрения для использования в беспилотном автомобиле .
Тензорные процессоры :
- Google TPU ( англ. Tensor Processing Unit ) — представлен как ускоритель для системы Google TensorFlow , которая широко применяется для свёрточных нейронных сетей. Сфокусирован на большом объёме арифметики 8-битной точности .
- Huawei Ascend 310 / Ascend 910 — первые два чипа оптимизированные под решения задач искусственного интеллекта из линейки Ascend компании Huawei .
- Intel (англ.) ( ( англ. Neural Network Processor ) — это первый коммерчески доступный тензорный процессор, предназначенный для постройки сетей глубокого обучения , компания Facebook была партнёром в процессе его проектирования .
- Qualcomm Cloud AI 100 — ускоритель искусственного интеллекта, предназначенный для использования в составе облачных платформ, поддерживающий программные библиотеки PyTorch , Glow , TensorFlow , Keras и ONNX .
Нейроморфные процессоры :
- IBM TrueNorth — нейроморфный процессор, построенный по принципу взаимодействия нейронов , а не традиционной арифметики. Частота импульсов представляет интенсивность сигнала. По состоянию на 2016 год среди исследователей ИИ нет консенсуса, является ли это правильным путём для продвижения , но некоторые результаты являются многообещающими, с продемонстрированной большой экономией энергии для задач машинного зрения .
(англ.) ( — предназначен как сопроцессор, включает модель (англ.) ( (англ.) ( , подходит к модели программирования потоком информации, которая должна подходить для многих задач машинного обучения.
- плата расширения PCI Express с максимальной плотностью VPU Intel Movidius (MyriadX) для инференса сверхточных нейронных сетей в ЦОД
(англ.) ( MLU100 — карта расширения PCI Express с ИИ-процессором мощностью 64 TFLOPS с половинной точностью или 128 TOPS для вычислений INT8 .
Cerebras Wafer Scale Engine (WSE, CS-1) — экспериментальный суперпроцессор компании Cerebras , содержит 1,2 трлн транзисторов , организованных в 400 000 ИИ-оптимизированных вычислительных ядер и 18 Гбайт локальной распределённой памяти SRAM , и всё это связано ячеистой сетью с общей производительностью 100 петабит в секунду. Чип Cerebras ― это фактически суперкомпьютер на чипе, где вычислительные ядра SLAC (Sparse Linear Algebra Cores) ― полностью программируемые и могут быть оптимизированы для работы с любыми нейронными сетями .
(англ.) ( — процессор компании (англ.) ( , предназначен для работы в системах распознавания речи и прочих отраслях машинного обучения, он использует соединительную технологию LambdaFabric и позволяет объединять в единую систему до 512 тысяч процессоров .

GPU -продукты

Nvidia Tesla — серия специализированных GPGPU -продуктов компании Nvidia :
- Nvidia (англ.) ( — графические процессоры (GPU) архитектуры Volta (2017 год) компании Nvidia (такие как Volta GV100), содержат до 640 специальных ядер для тензорных вычислений .
- Nvidia (англ.) ( — графические процессоры архитектуры Turing (2018 год) компании Nvidia (такие как Nvidia TU104), содержат до 576 специальных ядер для тензорных вычислений .
- Nvidia DGX-1 — специализированный сервер , состоящий из 2 центральных процессоров и 8 GPU Nvidia (англ.) ( (5120 тензорных ядер), связанных через быструю шину NVLink . Специализированная (англ.) ( у этой системы является особенно подходящей для построения сетей глубокого обучения .
AMD (англ.) ( — специализированная GPGPU -плата компании AMD , предлагаемая как ускоритель для задач глубокого обучения .

ИИ-ускорители в виде внутренних сопроцессоров (аппаратных ИИ-блоков)

6-ядерный SoC Apple A11 Bionic с Neural Engine

Cambricon-1A — NPU-блок в ARM -чипах Huawei Kirin 970, разработанный компанией (англ.) ( .
(англ.) ( NeuPro — семейство лицензируемых ИИ-процессоров для глубокого обучения компании (англ.) ( .
Neural Engine — ИИ-ускоритель внутри ARM-чипов Apple A11 Bionic и A12 Bionic SoC .
PowerVR 2NX NNA (Neural Network Accelerator) — семейство лицензируемых IP-модулей для машинного обучения компании Imagination Technologies .

Научные исследования и разрабатываемые продукты

Индийский технологический институт в Мадрасе разрабатывает ускоритель на импульсных нейронах для новых систем архитектуры RISC-V , направленных на обработку больших данных на серверных системах .
(англ.) ( — разработка, направлена на свёрточные нейронные сети с применением блокнотной памяти и сетевой архитектуры в пределах кристалла.
(англ.) ( — многоблочный и многоядерный сопроцессор компании Fujitsu использующий вычисления с низкой точностью и предназначенный для глубокого машинного обучения .
(англ.) ( — нейроморфный процессор компании Intel , который сочетает процессы обучения, тренировки и принятия решений в одном чипе, позволяя системе быть автономной и «сообразительной» без подключения к облаку . Например, при обучении с помощью базы данных MNIST (Mixed National Institute of Standards and Technology) процессор Loihi оказывается в 1 млн раз лучше, чем другие типичные спайковые нейронные сети .
(англ.) ( — показала (англ.) ( и сообщила о повышении эффективности свёрточных нейронных сетей в сравнении с GPU .
SpiNNaker — массово-параллельная компьютерная архитектура, которая сочетает ядра традиционной ARM-архитектуры с усовершенствованной сетевой структурой, специализированной для моделирования крупной нейронной сети.
(англ.) ( — разработка компании Qualcomm , направленная непосредственно на привнесение возможностей распознавания речи и изображений в мобильные устройства .
IVA TPU — тензорный процессор, над созданием которого работает российская компания IVA Technologies. В октябре 2020 года были опубликованы результаты тестирования архитектуры ускорителя расчета нейронных сетей IVA TPU, проведенного международным консорциумом MLPerf (учрежден в 2018 году Baidu , Google , Harvard University , Stanford University , University of California, Berkeley ).

Примечания

↑ . Servernews. (31 августа 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
. FindPatent.RU. Дата обращения: 17 ноября 2017. 1 декабря 2017 года.
. Компьютерра . (31 марта 2016). Дата обращения: 17 ноября 2017. 19 ноября 2017 года.
. PC Week /RE. (22 ноября 2016). Дата обращения: 17 ноября 2017. 1 декабря 2017 года.
↑ . Servernews. (25 августа 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
↑ . 3DNews . (29 августа 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
. Nvidia . Дата обращения: 17 ноября 2017. 16 июля 2016 года. (англ.)
. 3DNews (10 октября 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года. (рус.)
. Дата обращения: 15 ноября 2017. 9 августа 2016 года. (англ.)
. Дата обращения: 15 ноября 2017. 8 августа 2016 года. (англ.)
. Дата обращения: 15 ноября 2017. Архивировано из 23 июня 2010 года. (англ.)
. Дата обращения: 18 ноября 2017. 7 декабря 2017 года.
. CNews . 2018-10-23. из оригинала 23 октября 2018 . Дата обращения: 24 октября 2018 .
. iXBT.com (18 октября 2017). Дата обращения: 21 ноября 2017. 15 ноября 2017 года.
Kampman, Jeff (2017-10-17). . Tech Report. из оригинала 24 ноября 2017 . Дата обращения: 17 ноября 2017 .
. 2017-10-17. из оригинала 20 октября 2017 . Дата обращения: 17 ноября 2017 .
. Servernews.ru . 2019-04-10. из оригинала 10 апреля 2019 . Дата обращения: 16 апреля 2019 .
. Дата обращения: 15 ноября 2017. 5 июля 2015 года. (англ.)
. — «TrueNorth is incredibly efficient: The chip consumes just 72 milliwatts at max load, which equates to around 400 billion synaptic operations per second per watt — or about 176,000 times more efficient than a modern CPU running the same brain-like workload, or 769 times more efficient than other state-of-the-art neuromorphic approaches». Дата обращения: 15 ноября 2017. 9 июля 2016 года. (англ.)
Дата обращения: 15 июня 2018. Архивировано из 16 июня 2018 года.
. 3DNews . (20 августа 2019). Дата обращения: 21 августа 2019. 20 августа 2019 года.
. 3DNews . (9 июня 2016). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
. « Открытые системы ». (1 июня 2016). Дата обращения: 17 ноября 2017. 1 декабря 2017 года.
3DNews. (14 августа 2018). Дата обращения: 17 августа 2018. 23 марта 2019 года.
. Servernews. (11 мая 2017). Дата обращения: 17 ноября 2017. 1 декабря 2017 года.
. Servernews. (12 октября 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
. Servernews. (1 сентября 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
Smith, Ryan (2016-12-12). . Anandtech. из оригинала 12 декабря 2016 . Дата обращения: 12 декабря 2016 .
Shrout, Ryan (2016-12-12). . PC Per. из оригинала 11 августа 2017 . Дата обращения: 12 декабря 2016 .
Дата обращения: 15 июня 2018. 16 июня 2018 года.
Дата обращения: 15 июня 2018. 16 июня 2018 года.
. The Verge . 2017-09-13. из оригинала 15 сентября 2017 . Дата обращения: 17 ноября 2017 .
. 3DNews . 2018-06-08. из оригинала 16 июня 2018 . Дата обращения: 15 июня 2018 .
. — «The Shakti project now includes plans for at least six microprocessor designs as well as associated fabrics and an accelerator chip». Дата обращения: 15 ноября 2017. Архивировано из 3 июля 2017 года. (англ.)
. Servernews. (24 июля 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
. 3DNews . (26 сентября 2017). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
. Дата обращения: 15 ноября 2017. 23 апреля 2016 года. (англ.)
. Logmag.net (16 октября 2013). Дата обращения: 17 ноября 2017. 17 ноября 2017 года.
embedded world. (англ.) . www.embedded-world.de . Дата обращения: 30 ноября 2020. 21 января 2021 года.
. CNews.ru . Дата обращения: 30 ноября 2020. 25 ноября 2020 года.
(англ.) . MLPerf . Дата обращения: 30 ноября 2020. 28 ноября 2020 года.
Sally Ward-Foxton. (амер. англ.) . Embedded.com (3 ноября 2020). Дата обращения: 30 ноября 2020. 25 ноября 2020 года.