Самые популярные фреймворки и инструменты для машинного обучения

21.02.2019

Если вам интересно, какие наборы библиотек и инструментов в языках программирования лучше всего подходят для реализации моделей машинного обучения, тогда помощь всегда под рукой.

Более 1300 человек, в основном работающих в сфере технологий, финансов и здравоохранения, рассказали, какие технологии машинного обучения они используют в своих фирмах, в новом опросе O'Reilly .

Список представляет собой набор программных платформ и библиотек для любимого языка данных Python, платформ BIGDATA и облачных сервисов.

Большинство компаний все еще находятся на стадии оценки, когда дело доходит до применения машинного обучения или ИИ, наиболее распространенными инструментами, которые были реализованы, являлись инструменты для «визуализации модели» и «автоматического поиска модели и настройки гиперпараметра».

Неудивительно, что наиболее распространенной формой использования было контролируемое обучение, где модель МО обучалась с использованием большого количества помеченных данных. Например, модель компьютерного зрения, которой поручено определять людей на видео, может быть обучена на изображениях с аннотациями, чтобы указать, содержат ли они человека.

Вот библиотеки, платформы, платформы больших данных и облачные сервисы, которые, по словам компаний, они используют для машинного обучения.

Программные библиотеки и фреймворки

TensorFlow

Широко используемая в Google структура машинного обучения, разработанная для обработки числовых вычислений, требуемых при обучении моделям МО, и способная распределять вычисления между процессорами, графическими процессорами и специализированными чипами, такими как Tensor Processing Units (TPU) Google.

scikit-learn

Популярная библиотека Python для извлечения и анализа данных, которая реализует широкий спектр алгоритмов машинного обучения.

Pytorch

Платформа глубокого обучения с открытым исходным кодом, которая имеет репутацию более простой в освоении, чем некоторые конкурирующие среды, такие как TensorFlow, и предназначена для использования на каждом этапе конвейера машинного обучения.

Keras

Среда глубокого обучения для работы с нейронными сетями, математические модели, созданные на основе модели человеческого мозга, лежащие в основе глубокого обучения, по опросам с, с ней гораздо проще работать, чем с конкурирующими структурами.

Написанный на Python, он может работать поверх TensorFlow, Microsoft Cognitive Toolkit (CNTK) и с библиотеками Python Theano.

Облачные комплекты

Microsoft Azure ML Studio

Этот набор услуг предназначен для того, чтобы помочь компаниям создавать, обучать и развертывать модели машинного обучения как в облаке Microsoft Azure, так и на вычислительных устройствах, расположенных близко к границе сети. Инструменты помогают автоматизировать процесс определения и настройки подходящей модели машинного обучения, а также с масштабированием базовых вычислений в соответствии с потребностями.

Google Cloud ML Engine

Подобно Azure ML Studio, Google Cloud ML Engine также предоставляет инструменты для обучения, оценки, настройки и развертывания моделей машинного обучения.

Amazon SageMaker

Amazon SageMaker также предлагает услуги по созданию, обучению и развертыванию моделей машинного обучения с целью обеспечения возможности более быстрого и экономичного запуска моделей в производство.

Инструменты платформы BIGDATA

H20

С открытым исходным кодом, платформа, которая может масштабировать рабочие нагрузки машинного обучения в распределенных системах.

Платформа предназначена для поддержки наиболее широко используемых статистических алгоритмов и алгоритмов машинного обучения, а также предлагает определенную степень автоматизации, чтобы помочь ученым, занимающимся данными, выявлять и настраивать соответствующие модели машинного обучения.

Prodigy

Разработанный для оптимизации процесса обучения и оценки моделей машинного обучения, Prodigy - это инструмент, помогающий ученым в области данных соответствующим образом аннотировать наборы данных для обучения.

Spark NLP

Spark NLP предоставляет библиотеку обработки естественного языка (NLP), предназначенную для работы с распределенными системами, работающими на платформе BIGDATA Apache Spark в оперативной памяти.

OpenAI Gym

Описан как инструментарий для разработки и сравнения алгоритмов обучения с подкреплением, типа машинного обучения, при котором программные агенты учатся выполнять задачи, получая вознаграждение за действия, которые приводят к желаемому результату.

Analytics Zoo

Analytics Zoo объединяет серию больших данных и технологий машинного обучения в то, что он называет объединенной платформой аналитики и ИИ.

Платформа интегрирует Spark, TensorFlow, Keras и библиотеку глубокого обучения BigDL и может масштабировать модели машинного обучения в распределенных кластерах Hadoop и Spark для обучения и вывода.

AllenNLP

Предназначен для упрощения процесса разработки и оценки новых моделей глубокого обучения для задач обработки естественного языка.

Библиотека содержит эталонные реализации высококачественных моделей как для основных проблем НЛП, так и для приложений НЛП.

Rise Lab Ray

Фреймворк для запуска моделей машинного обучения в распределенных системах, предлагает, как высокую производительность и отказоустойчивость, в то же время и масштабируемость.