Сегодня, 9 апреля, компания Google в рамках конференции Cloud Next официально представила миру новое поколение чипа TPU — специализированного процессора, созданного для ускорения задач, связанных с искусственным интеллектом, моделями машинного обучения и нейронными сетями. Новинка седьмого поколения получила название Ironwood и является первым чипом компании Google, который оптимизировали специально для процесса инференса (или вывода) ИИ-моделей. Это значит, что новинка нацелена не на обучение больших языковых моделей, а на взаимодействие с уже обученными LLM.
«Ironwood — наш самый мощный, функциональный и энергоэффективный TPU на сегодняшний день. Он специально создан для масштабной работы с инференциальными ИИ-моделями», — написал в официальном блоге Амин Вахдат (Amin Vahdat), вице-президент Google Cloud.
Представители компании Google сообщили, что Ironwood способен демонстрировать вычислительную мощность на уровне 4616 ТФлопс (информация получена в рамках внутренних бенчмарков компании), имея при этом на борту 192 ГБ выделенной оперативной памяти с пропускной способностью до 7,4 Тбит/сек.
Кроме того, новейший чип Ironwood оснащён специализированным ядром SparseCore, предназначенным для обработки данных, характерных для рекомендательных систем и продвинутого ранжирования (например, речь про работу с алгоритмами, которые предлагают одежду, которая может понравиться клиенту).
Ещё в информации, предоставленной Google, указано, что архитектура TPU была разработана с упором на то, чтобы минимизировать перемещение данных и снизить задержки внутри системы на кристалле, что, по словам специалистов компании, приводит к экономии энергии. К сожалению, точных данных по этому вопросу производитель не предоставил, но в пресс-релизе указано, что производительность на ватт энергии чипа Ironwood в два раза выше, чем у Trillium, шестого поколения TPU, представленного в прошлом году.
Релиз Ironwood запланирован на конец текущего года, но только для клиентов Google Cloud. Кроме того, TPU-чип седьмого поколения будут предоставлять клиентам исключительно в двух конфигурациях — в кластере на 256 или 9216 чипов. Промежуточных вариантов Google пока что предоставлять не планирует.