Обучение с подкреплением — когда машины учатся думать

Google инвестирует во множество различных секторов и проектов, особенно когда речь идет о технологиях будущего. В настоящее время интернет-компания уже подлила масла в огонь в области искусственного интеллекта (ИИ) с проектом DeepMind. Идея заключается в том, чтобы использовать программы ИИ и развивать их до тех пор, пока они не будут способны решать сложные проблемы без какого-либо влияния человека. Машинное обучение с подкреплением является важным компонентом для дальнейшего развития ИИ.

Содержание

Что такое обучение с подкреплением?
Как работает обучение с подкреплением?
Где и когда используется обучение с подкреплением?

Что такое обучение с подкреплением?

Термин «обучение с подкреплением» описывает метод в области машинного обучения. Наряду с контролируемым и неконтролируемым обучением, обучение с подкреплением является третьим вариантом обучения алгоритмов таким образом, чтобы они могли самостоятельно принимать решения. Основное внимание здесь уделяется разработке интеллектуальных решений для сложных проблем управления.

Однако, в отличие от контролируемого и неконтролируемого обучения, этот вариант машинного обучения не требует никаких данных для формирования условий. В первых двух методах программам сначала скармливают данные. В обучении с подкреплением этот этап полностью исключен. Вместо этого данные генерируются в процессе обучения методом проб и ошибок, и одновременно им присваивается метка. Таким образом, программа подвергается большому количеству пробных запусков в среде моделирования, чтобы получить достаточно точный результат. Таким образом, вместо того, чтобы в процессе обучения предъявлять системе правильные результаты (как это происходит при контролируемом обучении), система получает поддержку только посредством стимулов (т.е. поощрений и наказаний).

Желаемым результатом такого обучения является то, что искусственный интеллект способен самостоятельно решать очень сложные проблемы управления без каких-либо предварительных знаний, предоставляемых человеком. По сравнению с обычным проектированием это быстрее, эффективнее и дает наилучший результат.

Исследования в области обучения с подкреплением часто проводятся с помощью игр. Видеоигры представляют собой идеальную основу для исследования и понимания обучения с подкреплением, поскольку они обычно включают в себя заранее определенную среду моделирования, различные возможности управления и интерактивную среду. Кроме того, в большинстве игр представлены сложные проблемы или задания, которые необходимо выполнить в течение различных периодов игры. Большинство игр также включают систему дополнительных баллов, которая похожа на систему вознаграждений, используемую в обучении с подкреплением.

Ведущие эксперты в области искусственного интеллекта считают обучение с подкреплением очень перспективным методом для достижения искусственного интеллекта общего назначения. Это позволит машине, как и человеку, принимать рациональные решения и успешно выполнять любое количество задач. Машина наблюдает и учится и, таким образом, способна самостоятельно решать проблемы.

Факт

Подводя итог, можно сказать, что обучение с подкреплением — это метод, с помощью которого машина учится, взаимодействуя с окружающей средой, а затем использует полученные знания для решения сложных задач без необходимости ручного участия человека.

Как работает обучение с подкреплением?

Обучение с подкреплением описывает множество отдельных методов, с помощью которых алгоритм или программный агент автономно обучается стратегии. Целью является максимизация вознаграждения в среде моделирования. В этой имитационной среде компьютер выполняет действие и затем получает соответствующую обратную связь. Программный агент не получает никакой предварительной информации о том, какое действие является наиболее перспективным, и должен самостоятельно определить, какой подход следует использовать, путем проб и ошибок.

Вместо этого в различные моменты компьютер получает вознаграждения, которые влияют на его стратегию. Благодаря этим событиям программный агент учится оценивать последствия определенных действий в среде симуляции. Эта система создает основу для разработки программным агентом долгосрочных стратегий и максимизации вознаграждения.

Для того чтобы правильно обучить систему обучения с подкреплением, используется Q-обучение. Оно названо в честь Q-функции, которая вычисляет ожидаемое вознаграждение за действие в данном состоянии. Целью обучения с подкреплением является создание наиболее оптимальной политики. Термин «политика» здесь означает описание выученного поведения программного агента, которое говорит ему, какое действие должно быть выполнено при любом варианте поведения (наблюдении) в обучающей среде.

Политика представлена в виде Q-таблицы, в которой строки содержат все возможные наблюдения, а столбцы — все возможные действия. В процессе обучения соответствующие ячейки заполняются значениями, которые указывают на ожидаемое будущее вознаграждение.

Однако Q-таблицы имеют свои ограничения. Визуальное представление работает правильно только в небольшом пространстве действий-наблюдений. Если существует большое количество возможностей, программный агент должен использовать нейронную сеть.

В целях защиты вашей конфиденциальности видео не будет загружаться, пока вы не нажмете на него.

Где и когда используется обучение с подкреплением?

Google входит в число компаний, уже использующих метод машинного обучения. Компания использует обучение с подкреплением для управления кондиционированием воздуха в своих центрах обработки данных. Используя технологии ИИ, Google удалось сократить количество энергии, необходимой для охлаждения серверов, на 40%.

Обучение с подкреплением также используется для управления сложными системами, такими как интеллектуальные дорожные системы, для создания интеллектуальных решений по контролю качества. Кроме того, обучение с применением подкрепления используется в интеллектуальных электросетях, для управления роботами, оптимизации цепочек поставок для различных логистических компаний и автоматизации производства.

Для потребителей наиболее конкретными примерами обучения с применением подкрепления являются парковочные ассистенты, которые используют ИИ для распознавания объектов и последующего отображения оптимального пути парковки для пользователя.

Прежде чем новый алгоритм обучения с подкреплением сможет работать должным образом, он должен пройти через многочисленные испытания, поскольку вознаграждение иногда находится медленно. Тем не менее, обучение с подкреплением — это метод машинного обучения, который в будущем будет управлять многими процессами и решать сложные проблемы.