Прорывная техника с малым объемом памяти, разработанная учеными из Университета Райса, может сделать одну из самых ресурсоемких форм искусственного интеллекта — рекомендательные модели глубокого обучения (DLRM) — доступной для небольших компаний.
Системы рекомендаций DLRM — это популярная форма ИИ, которая учится вносить предложения, которые пользователи сочтут актуальными. Но первоклассные обучающие модели, требующие более ста терабайт памяти и вычислительной мощности суперкомпьютера, были доступны лишь небольшому числу технологических гигантов с глубокими карманами.
«Массив встраивания блоков со случайным смещением» Райса, или ROBE Array, может изменить это. Это алгоритмический подход к сокращению размера структур памяти DLRM, называемых таблицами встраивания, и он будет представлен на этой неделе на конференции по машинному обучению и системам (MLSys 2022) в Санта-Кларе, Калифорния, где он получил награду за выдающиеся работы.
«Используя всего 100 мегабайт памяти и один графический процессор, мы показали, что можем сопоставить время обучения и удвоить эффективность вывода современных методов обучения DLRM, которые требуют 100 гигабайт памяти и нескольких процессоров», — сказал Аншумали Шривастава. , адъюнкт-профессор компьютерных наук в Rice, который представляет исследование на MLSys 2022 вместе с соавторами ROBE Array Адитьей Десаи, аспирантом Rice в исследовательской группе Шриваставы, и Ли Чоу, бывшим научным сотрудником Rice, который сейчас работает в Западном Техасе. Университет A&M.
«ROBE Array устанавливает новую основу для сжатия DLRM, — сказал Шривастава. «И это делает DLRM доступным для обычных пользователей, у которых нет доступа к высокопроизводительному оборудованию или инженерному опыту, необходимому для обучения моделей размером в сотни терабайт».
Системы DLRM — это алгоритмы машинного обучения, которые учатся на основе данных. Например, рекомендательная система, предлагающая товары покупателям, будет обучаться на данных о прошлых транзакциях, в том числе о введенных пользователями поисковых запросах, о том, какие продукты им предлагались и какие, если таковые имеются, они покупали. Одним из способов повышения точности рекомендаций является сортировка данных обучения по большему количеству категорий. Например, вместо того, чтобы помещать все шампуни в одну категорию, компания может создать категории для мужских, женских и детских шампуней.
Для обучения эти категориальные представления организованы в структуры памяти, называемые таблицами встраивания, и Десаи сказал, что размер этих таблиц «взорвался» из-за увеличения категоризации.
«Сейчас на встраивание таблиц приходится более 99,9% общего объема памяти моделей DLRM, — сказал Десаи. «Это приводит к множеству проблем. Например, их нельзя обучать чисто параллельным образом, потому что модель должна быть разбита на части и распределена по нескольким обучающим узлам и графическим процессорам. И после того, как они обучены и находятся в производстве , поиск информации во встроенных таблицах занимает около 80% времени, необходимого для возврата предложения пользователю».
Шривастава сказал, что ROBE Array избавляет от необходимости хранить таблицы для встраивания, используя метод индексации данных, называемый хешированием, для создания «единого массива изученных параметров, который представляет собой сжатое представление таблицы для встраивания». Затем доступ к информации о встраивании из массива может быть выполнен «с использованием универсального хеширования, удобного для графического процессора», — сказал он.
Шривастава, Десаи и Чоу протестировали ROBE Array с помощью популярного эталонного теста DLRM MLPerf, который измеряет, насколько быстро система может обучать модели целевой метрике качества. Используя ряд тестовых наборов данных, они обнаружили, что ROBE Array может соответствовать или превзойти ранее опубликованные методы DLRM с точки зрения точности обучения даже после сжатия модели на три порядка.
«Наши результаты ясно показывают, что большинство тестов глубокого обучения могут быть полностью опровергнуты фундаментальными алгоритмами», — сказал Шривастава. «Учитывая глобальную нехватку чипов, это хорошая новость для будущего ИИ».
ROBE Array — не первая крупная презентация Шриваставы на MLSys. На MLSys 2020 его группа представила SLIDE, «сублинейный движок глубокого обучения», который работает на стандартных процессорах и может превзойти тренажёры на базе графических процессоров. Они продолжили на MLSys 2021, продемонстрировав, что ускорители векторизации и оптимизации памяти могут повысить производительность SLIDE, позволяя обучать глубокие нейронные сети до 15 раз быстрее, чем лучшие системы с графическим процессором.
Исследование ROBE Array было поддержано Национальным научным фондом (1652131, 1838177), Управлением научных исследований ВВС (YIP-FA9550-18-1-0152), Управлением военно-морских исследований, Intel и VMware.