olegfreedom (freedom) wrote,
olegfreedom
freedom

Почему для того, чтобы работать с Big Data, надо быть немного сумасшедшим

Пришли коллеги из Big Data и сказали, что надо про них рассказать. Рассказываю! Интересно кто-нибудь из моих читателей, что-то поймет? :-)



Данные, которые не поддаются логическому анализу человеком
Big Data стала модной. Это слово используют по поводу и без. У нас — одна из самых больших выборок данных, имеющая огромный коммерческий потенциал для применений внутри ВымпелКома. Вопрос в том, что конкретно с этим морем событий делать.

Когда несколько лет назад мы только стартовали направление больших данных в Билайн, проблемы были чёткие и понятные. Нужна была вычислительная мощность и СХД — у нас через некоторое время появился современный кластер «молотилок». Нужны были обучающие выборки — напряглись и создали, где-то — силами сотрудников со всей страны. Нужны были люди — и на интересную задачу пришли наши профессионалы, имеющие десятки научных публикаций за рубежом по Data Mining и машинному обучению. Нужно было проверить выводы на практике «в поле» — ездили. Всё решается.

Наше новое «бутылочное горлышко» — вопрос того, как найти больше людей, которые хорошо умеют делать реальные аналитические продукты. И мы знаем, что в эту проблему упёрлись почти все те, кто занимается Data Mining в стране. Банки, страховые, другие операторы, химики, геологоразведка, автоконцерны, R&D и так далее.

В чём суть проблемы?
В том, что нужно перестроить мышление. Обычные данные легко анализировать, пользуясь человеческой логикой. Грубо говоря, в самом начале вы примерно представляете, что с чем коррелирует и что вы получите. В больших данных это не так. Мы дошли до той стадии практического применения данных, когда многообразие уже подкидывает сюрпризы. В последних разработках мы не знали даже примерного сценария взаимовлияния данных и не могли сознательно установить связи между факторами. Однако наш кластер раз за разом нагревал окружающую реальность на пару градусов и выдавал неожиданные и часто парадоксальные результаты. Часть из них можно было использовать.

А про людей история в том, что даже навык успешного решения задач на Kaggle часто не является достаточным условием для эффективной работы. На практике ждёт множество граблей — выбрали не ту метрику качества алгоритма, неправильно сделали механику кампании — все это выливается в то, что увлекательные задачи машинного обучения не приносят компаниям денег.

Есть еще один факт — ресурсов и книг по машинному обучению и анализу данных нынче очень много, однако, на практике среди всего этого применяется только 20%. О многих вещах просто не пишут в книгах. Совсем. Потому что нужна практика.

Как решить такую задачу
Очевидно, нужно обучать специалистов внутри компании. Мы достаточно большие, чтобы позволить себе решать подобные задачи с помощью собственного внутреннего университета, который уже давно готовит специалистов для нашей компании на базе прикладных занятий — о железе, о сети, о навыках общения и так далее. В той части, где идёт инженерное обучение, курсы ведут практики, имеющие большой опыт работы с конкретным оборудованием и понимание чуть ли не на уровне инстинктов, что и как. Многие наши партнёры и подрядчики хотели бы отправить своих инженеров обучаться у нас, но университет работал только для своих, в частности, из-за множества закрытых коммерческих данных, используемых при обучении.

Сейчас парадигма меняется. И мы решили сделать на базе Билайн Университета отдельный курс по Big Data, открытый для всех (без доступа к коммерческим данным, конечно ). В последний год мы сталкиваемся с тем, что у специалистов этой сферы нет практики. Наша методика — выбирать тех, кто понимает базовые вещи и дообучать внутри компании — работает. Теперь мы хотим сделать кое-что большее.

Так вот, мы собираемся учить вас как на реальной стажировке. Дать вам не только теорию, но и столько практики, что вы сойдёте с ума и начнёте понимать логику больших данных. И будете ещё иногда истерически смеяться, возможно. Над шутками, которые не понимают другие люди.

Итак, мы решили сделать максимально практический курс по анализу данных, направленный на подготовку специалистов в области Data Mining, готовых не просто решать задачи на Kaggle, а приносить с помощью Data Mining нашей или своим компаниям прибыль. Это самое главное — уметь ставить цель и доводить её до результата.

Что за курс?
Курс состоит из 15 занятий. На каждом занятии мы будем разбирать небольшой кусок теории и тут же применять это в форме практических занятий. Мы разберем множество примеров задач, в том числе с платформы соревнований Kaggle, а также покажем, как эти задачи используются в реальной жизни.

Мы будем разбирать полюбившиеся всем Jupyter Notebook's, а в качестве домашнего задания будет модификация предложенных задач. Все примеры слушатели получат на руки исмогут использовать повсеместно в своей работе.

Для зачисления на курс достаточно иметь минимальный опыт программирования на Python, а также знания в области математической статистики.

Программа
Сперва, мы расскажем о всех особенностях задач анализа данных, начиная с машинного обучения, заканчивая довольно сложными задачами анализа графов (включая нетривиальные модели веб-графов, идею предпочтительного присоединения и др.)

Пример лайфхака с занятий
Курс отличается от остальных тем, что в нем будет дан акцент на нетипичные математические подходы к машинному обучению и анализу данных, такие как анализ веб-графов, идеи предпочтительного присоединения и др. Например, мы расскажем, что делать, если API социальных сетей очень ограничено.

Один из преподавателей тренинга недавно смог с помощью эвристических алгоритмов найти ТОП самых влиятельных людей социальной сети — данное исследование до сих пор продолжается и уже применяется на практике, т. к. задача выявления лидеров мнений в соцсетях очень важна и приносит компаниям большую ценность.

На занятиях также будут рассмотрены такие нетривиальные практические подходы, как стекинг/блендинг/композиции алгоритмов — стратегии, которые приносят победу участникам соревнований Kaggle.

Резюме
Приходите. Будет хардкор. Выборки для заданий будут сформированы из общедоступных открытых данных, свои данные приносить можно по желанию (но не гарантируется их использование). Детали про курс и цена на bigdata.beeline.digital. В конце курса у вас будет рекомендация, сертификат и небольшое портфолио, если вы начинали с нуля.

Предвидя первый комментарий – да, это дорого. Но мы уверены в результате и уровне знаний преподавателей.

Tags: big data
Subscribe
promo freedom april 10, 2015 13:38 250
Buy for 200 tokens
...Откровенно говоря, я уже был уверен, что все сроки давности по судебным заявлениям давно прошли... Как вдруг оказался в Кущевке. Не буду вновь описывать эту прекрасную историю, уже рассказанную подробно в конце первой части книги. Скажу только одно. Почему в этой истории с задержанием, с…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 10 comments