Искусственный интеллект стал одним из модных современных словечек (buzz word). Правда, не таким напыщенным, как предкризисные хедж-фонды, сегодняшние блочные цепи биткоин и стартапы. Но действительно: все о нем говорят, хотя очень немногие понимают, что кроется за значением этого модного словечка, т.е. что такое на самом деле искусственный интеллект.
Работающее машинное обучение
Можно утверждать, что сейчас искусственный интеллект еще не работает. Хорошо запрограммированные говорящие роботы, правда, в состоянии обмануть тест Тьюринга. используемый для различения между имитирующем человека компьютерным кодом и человеком, но если запастись временем и подробнее их расспросить, станет ясно, идет ли речь о роботе или о человеке. Что на самом деле работает, так это скрывающаяся за фразой «искусственный интеллект» технология – машинное обучение.
Если искусственный интеллект – это одновременно и парадигма, и абстракция, как термин «средство передвижения» в случае автомобиля, то машинное обучение – это конкретная действующая технология, такая, как двигатель внутреннего сгорания. И интересующиеся искусственным интеллектом хотят знать, что является этим двигателем внутреннего сгорания, что заставляет средство передвижения двигаться.
На юбилее финансовой службы одного большого местного самоуправления меня как раз и попросили объяснить, состоит ли искусственный интеллект из регрессий – известного специалистам по анализу финансовых данных средства анализа, – хотя в случае искусственного интеллекта упомянутых регрессий выполняется столько, что результаты оказываются «разумнее» обычного анализа данных.
Первый ответ всегда неправильный
Это утверждение недалеко от истины, хотя за машинным обучением скрывается гораздо больше деталей. Алгоритм машинного обучения, основанный на так наз. искусственной нейронной сети, работает подобно настоящей нервной системе: он состоит из множества нейронов – персептронов, которые могут выполнять многочисленные математические операции, в том числе регрессию, хотя по отдельности каждый из них не в состоянии даже приблизительно о чем-то «думать». Тем не менее, действуя совместно, они всегда могут предложить хоть какое-то решение вопросов, которые перед ними ставятся. Иными словами, на поставленный перед искусственной нейронной сетью случайный вопрос ответ всегда неправильный (с точки зрения алгоритма машинного обучения такой ответ обозначается специальным термином: dummy).
Чтобы хоть что-то понять, искусственная нейронная сеть сначала должна научиться
Нейронной сети необходимо узнать, какие ответы на подобные вопросы раньше были правильными. Если набор правильных ответов, т.е. учебный материал, имеется, начинается обучение, важную часть которого составляет обратное распространение ошибки обучения, или backpropagation: искусственная нейронная сеть измеряет, насколько предложенные ею ответы отличаются от правильных, и в соответствии с этим производит в себе перенастройки. После этого нейронная сеть вновь пробует найти ответы и измеряет отклонение результатов новой попытки от правильных ответов.
Таким образом эта совокупность искусственных нейронов повторяет цикл ответа-измерения-перенастройки до тех пор, пока ее ответы не начнут все больше и больше совпадать с правильными ответами. К этому моменту она себя обучила и может приступать к работе: давать рекомендации, принимать за людей решения. За этим стоят другие технологии, например, градиентный бустинг (Gradient Boosting), скорость обучения (Learning Rate), функция активации (Activation Function) и др., но, в общем и целом, это происходит именно так.
Подобно искусственной сети ведет себя и живой организм: стоит человеку пару раз обжечься, и ему на всю оставшуюся жизнь привьется очень устойчивый рефлекс – держаться вдали от источников огня.
Искусственный интеллект полезен
Чтобы получить обзор, в начале весны прошлого года я с помощью робота загрузил с платформы для специалистов по анализу данных Kaggle обзорные данные 327 конкурсов по анализу данных. Затем я распределил упомянутые конкурсы по известным темам, воспользовавшись алгоритмом текстового анализа на базе Wordnet. Выяснилось, что самые крупные денежные призы для специалистов по анализу данных (100 000 долларов или больше) были предусмотрены за алгоритмы, которые позволяют распознавать расположение месторождений полезных ископаемых, давать ответы по медицинской диагностике, понимать спутниковые и другие фотографии.
Более миллиона получили те специалисты по анализу данных, которым удалось спрогнозировать рыночную цену недвижимости. Из Kaggle выясняется, что при оценке недвижимости с помощью искусственного интеллекта были достигнуты – если рассматривать наиболее удавшиеся работы – очень хорошие результаты. Мы говорим об оценке недвижимости без осмотра оцениваемого объекта.
Переход к использованию таких алгоритмов – а с точки зрения разработки они достаточно просты – поставил бы под угрозу рабочие места многих оценщиков недвижимости в Эстонии.
Среди получателей миллионных и более призов было также прогнозирование степени опасности пассажиров, въезжающих в США, которое также дало очень хорошие результаты. Однако медицина, бесспорно, доминировала в Kaggle с несколькими крупными призами, из которых миллионный вручили команде специалистов по анализу данных, которая лучше всего диагностировала рак легких (прогноз на этот раз был не таким удачным), и полмиллиона – тем, кто спрогнозировал общую заболеваемость здоровых людей (и эта попытка была не такой удачной). Если приведенные здесь два конкурса с крупными призами производят впечатление, как будто бы машинное обучение в медицине не слишком результативно, то это впечатление ложное.
Потребности предприятий
Эстонские предприятия практичны и желают внедрять оправдавшее себя машинное обучение и решения статистического анализа. Таковы, например, системы рекомендаций, т.е. рекомендации новых изделий клиентам, исходя из их предыдущих покупок и из истории других клиентов, совершавших похожие покупки, а в сфере финансов – алгоритмы оценки рисков.
Весьма распространенные и очень востребованные приложения машинного обучения сосредоточены на понимании фотографий. Примером может служить не только привычное для нас обнаружение местонахождения автомобиля на стоянках больших торговых центров, но и многочисленные государственные услуги, в том числе и те, о которых много не говорят. Знаете ли вы, что государственные власти уже много лет знают, когда вы выезжаете за границу и возвращаетесь на родину? Даже тогда, когда вы едете в страну, с которой никакой границы как будто бы и нет? Правда, рядом с бывшей государственной границей имеются столбы, а на них камеры, которые записывают номера всех проезжающих машин.
Практические приложения
Как уже было сказано, на втором место после медицины в Kaggle стоят прогнозы в сфере экономики и финансов. Крупные призы предлагались за алгоритмы автоматической оценки недвижимости, а также за прогнозирование финансовых результатов и поведения ценных бумаг. Заказывали также прогнозирование кредитных рисков выдаваемого кредитополучателям кредита. Результаты были как хорошими и средними, так и скорее плохими.
Когда я сказал, что с оценкой недвижимости интеллектуальный робот справился великолепно, то это касалось только рынков западного мира. Так, при прогнозировании цен на недвижимость в США был достигнут нулевой коэффициент ошибок. А вот на конкурсе по прогнозированию цены на недвижимость в России, организованном Сбербанком, коэффициент ошибок достигал в лучшем случае 0,3. Так что в России рабочему месту оценщика недвижимости пока не угрожает ни один Кратт.
В случае финансового сектора всеохватывающих данных по Эстонии я представить не могу, за исключением публичного сектора, где ситуация картирована министерством экономики и коммуникаций и принята так наз. программа Кратта по разработке решений искусственного интеллекта. Для многих других стран обзоры имеются также в отношении частного сектора.
В Великобритании, по последним данным, решения машинного обучения используют почти две трети предприятий банковского сектора, половина предприятий, оказывающих инвестиционные услуги, и предприятий, предлагающих поддержку финансовых услуг, четверть кредитодателей небанковского сектора и абсолютно все опрошенные страховые предприятия.
Из того же исследования выяснилось, что наиболее популярным местом приложения машинного обучения было прогнозирование рисков и управление ими, на втором месте оказались обслуживание клиентов и интеллектуальное предложение услуг.
Радость не только для богатых
Если создается впечатление, как будто бы Краттов с машинным обучением могут позволить себе только богатые ресурсами представители финансового сектора, то это уже далеко не так. Благодаря прорывам, как в самой технологии, так и в расчетной мощности (облака!), нагрузка по внедрению технологии сократилась, а в соответствии с этим сократились и расходы.
Все предприятия с историей экономической деятельности (например, с базой клиентов) могут и должны применять машинное обучение. Хотя бы для хранения все той же базы данных клиентов. Прогнозирование ухода клиентов до того, как они уйдут, - удержание их от ухода с помощью различных подходящих стимулов. Установление должников, также еще до того, как они задолжают, - ограничение их потребления. Все это сегодня просто, нужны только данные.
Такие же выводы явствуют и из вышеупомянутой исследовательской работы: предприятия нашли, что наибольшие выгоды машинного обучения состоят в предложении клиентам персонализированных изделий. Машинное обучение нашло поддержку при обеспечении эффективности затрат и давно получило широкое распространение как технология управления рисками (случаи мошенничества, отмывание денег, нормативное соответствие).