Data Science – наука молодая, но очень амбициозная и перспективная. Научившись эффективно обрабатывать данные, она вывела на новый уровень все сферы человеческой деятельности.

Грамотный data scientist может принести компании огромную прибыль, поэтому он необычайно востребован на рынке труда.

Активный спрос и острый дефицит кадров определили привлекательный уровень зарплат. Получается, что быть аналитиком данных очень выгодно!

Особенно большая потребность в этих специалистах наблюдается в data-зависимых отраслях, например, в финансах. Если вы чувствуете, что анализ финансовой информации – это ваше призвание, смело ступайте на тернистый путь Data Science!

Эта статья по шагам проведет вас в мир Data Science, больших данных и умных машин.

Шаг 1. Найдите в себе силы

Наука о данных в настоящее время молода, полна энергии и безгранична. В ней сочетаются фундаментальные научные подходы и современные технологии. Хороший специалист должен во всем этом разбираться, так что учиться будет трудно. Чтобы пройти этот путь, вы должны по-настоящему любить данные и работу с ними.

Успешный Data Scientist — это человек с особым образом мышления. Он любит решать сложные задачи — а других в этой области и не бывает — и не останавливается перед трудностями. По большому счету, именно эти качества отличают хороших специалистов от посредственных.

А еще вам придется много общаться с коллегами и руководителями. Сначала нужно будет понять задачу, затем разобраться, как ее решить, и наконец лучшим образом представить результаты.

Если вы к этому готовы, замечательно! Делайте следующий шаг.

Шаг 2. Разберитесь в концепциях

Насколько велики «большие» данные (Big Data), как и зачем их майнить (Data Mining), при чем здесь нейронные сети (Neural Network), и чему именно учатся машины (Machine Learning)?

Data Science полна непонятных терминов, в которых вам придется разобраться. Составьте общее представление с помощью книг и видео-уроков для начинающих.

Очень важно понимать, какие основные этапы обработки должны пройти данные, чтобы их можно было использовать:

  • Сбор, очистка и предварительная подготовка;
  • Статистический анализ;
  • Обнаружение закономерностей, прогнозирование;
  • Визуализация.

Шаг 3. Постройте фундамент

Анализ данных совершенно немыслим без отличных математических и статистических навыков. Даже великолепное владение инструментами не спасет, если вы не понимаете самой сути аналитики.

Для работы вам точно потребуются знания в области статистического анализа, линейной алгебры, теории вероятностей, многомерного исчисления.

Начать вы можете с этих материалов:

  • Матричный анализ и линейная алгебра, Е. Е. Тыртышников;
  • Курс линейной алгебры, Coursera;
  • Теория вероятностей, Н. И. Чернова;
  • Теория вероятностей для начинающих, Coursera;
  • Математическая статистика, Н. И. Чернова;
  • Курс по основам статистики, Stepik.

И конечно, вы должны отлично разбираться в вашей предметной области — финансах. Нельзя решить задачу, которую не понимаешь. Уделите время изучению основных финансовых статистических моделей.

Также будет полезно углубиться в анализ временных рядов, так как большинство данных в этой сфере представлено именно в таком виде!

Шаг 4. Научитесь пользоваться инструментами

Data scientist работает с огромным количеством данных. Большая часть из них не имеет четкой структуры и нуждается в обработке. Многие задачи требуют быстрого решения, иногда даже моментального. Все это обуславливает необходимость использования компьютеров для анализа.

Для успешной работы вам нужно овладеть рядом инструментов, которые помогают:

  • Собирать данные из разных источников;
  • Извлекать из них полезную информацию;
  • Структурировать ее;
  • Проводить статистический анализ;
  • Находить закономерности и связи;
  • Визуализировать результаты.

Ниже перечислены основные полезные навыки для каждого этапа:

1. Извлечение и предварительная обработка

Базы данных

Большая часть необходимой для работы информации хранится в SQL-хранилищах. Чтобы извлечь ее оттуда, нужно владеть языком запросов к базе.

Важно также понимать основы реляционной алгебры, чтобы уже на этом этапе придать данным определенную структуру.

Технологии Big Data

Для работы с большими данными используется Hadoop, позволяющий распределять вычисления на сотни узлов. Полезно будет ознакомиться с Hadoop-экосистемой, моделью MapReduce и сопутствующими технологиями вроде Apache Spark и Apache Flink.

Эти инструменты особенно важны, так как в финансовой сфере работа ведется со многими потоками данных!

UNIX

Иногда с неструктурированными данными удобнее всего работать через UNIX-консоль без зависимости от базы. Поэтому специалисту полезно знать некоторые команды.

Python

Самый популярный язык программирования для Data Science – это дружелюбный Python. На самом деле, он может использоваться на всех этапах обработки данных, так как имеет великолепные средства анализа и инструменты визуализации!

Для эффективной работы вам потребуются базовые знания языка, а также его библиотеки, в которых уже реализована большая часть необходимых алгоритмов, например, pandas. Если вы еще не знаете Python, но планируете его изучать, то рекомендуем записаться на наш открытый онлайн-курс «Первый код на Python».

Другие технологии

Если вы решите сосредоточиться на первом этапе обработки данных, обратите внимание на такие прогрессивные направления, как распознавание объектов и обработка естественного языка.

2. Анализ

Python/SAS/R

Язык программирования R – основной конкурент Python в области анализа данных. Он больше популярен в науке. Библиотеки обоих языков имеют богатейший набор методов для обработки данных.

SAS – еще одна альтернатива. Он чаще всего применяется в задачах прогнозирования. Если не знаете, какой язык выбрать, взгляните сюда.

Машинное обучение

Пожалуй, самая интересная часть работы data-аналитика – это построение моделей машинного обучения, которые способны автоматически обрабатывать, сопоставлять данные и прогнозировать будущие события.

Чтобы стать профи в этом деле, разберитесь с python-библиотекой scikit-learn. Она имеет понятный интерфейс и позволяет тонко настраивать модели.

Для прогнозирования применяются алгоритмы нейронных сетей.

3. Представление результатов

Нельзя недооценивать этап визуализации данных.

Важная задача аналитика – донести результаты своей работы до тех, кто будет непосредственно воплощать их в жизнь. Это значит, что представление должно быть максимально ясным и четким, исключающим всякую двусмысленность.

Для визуализации создано множество удобных инструментов, с которыми вам следует познакомиться, например:

  • D3.js;
  • Flare;
  • Tableau.

Владение этими инструментами даст вам преимущество при устройстве на работу. Также широко применяется старый добрый Excel.

Шаг 4. Практикуйтесь!

Изучив основы, немедленно принимайтесь за практическую работу.

Работодатели не станут подпускать к своим ценным данным человека, не имеющего реального опыта.

Вы можете самостоятельно придумывать себе задачи, пользуясь готовыми наборами данных, или отправиться на Kaggle и принять участие в соревновании!

Отличные датасеты можно найти здесь и здесь.

А вот замечательные примеры готовых работ:

Выкладывайте свои решения на github, обсуждайте их на форумах, улучшайте. Все время усложняйте задачи: берите больше данных, делайте лучше, быстрее, эффективнее!

Великолепной возможностью для развития являются стажировки в компаниях, на которых вы можете поработать с реальными задачами.

Шаг 5. Определитесь со сферой интересов

Теперь, после первого погружения в Data Science, окиньте взглядом всю эту сферу и определитесь, что вам действительно интересно.

Возможно, ваше призвание — машинное обучение и алгоритмическая торговля, или вы виртуозно отбираете ценную информацию из грязных данных. А может быть, ваша дорога ведет в business intelligence и анализу финансовых отчетов!

Это непростой выбор, и вам, возможно, придется сделать несколько попыток. А для начала просто ознакомьтесь с базовыми ролями Data Science и ее основными применениями в финансах.

Наука о данных по ролям

Есть две основополагающие технологии работы с данными:

  • ETL (Extract/Transform/Load). Это технические специалисты: инженеры и архитекторы данных, администраторы баз данных. Сфера их ответственности — хранение, извлечение и преобразование информации. Они имеют дело прежде всего с формой.
  • DAD (Discover/Access/Distill). А это аналитики, для которых важнее содержание. Они ищут и обрабатывают данные разнообразными способами, выявляют взаимосвязи и делают прогнозы.

В отдельную группу можно выделить бизнес-аналитиков. Они в работе больше полагаются на абсолютно точную информацию прошлого: отчеты, ключевые показатели эффективности (KPI). Их задача — ретроспективный анализ исторических данных и бизнес-тенденций.

Наука о данных в финансах в некоторых отраслях:

  • Кредитование — определение платежеспособности заемщика (lending);
  • Анализ финансовых рисков (risk management);
  • Прогнозирование движения рынка (investing);
  • Алгоритмическая торговля (trading);
  • Обнаружение мошеннических операций (fraud).

Посмотрите, как наука о данных применяется в Сбербанке.

Шаг 6. Получите сертификат

Вы почти достигли своей цели: осталось лишь подтвердить ваши умения официальным сертификатом, который можно будет предъявить работодателю. На самом деле, сертификат нужен, скорее, для успешного прохождения скрининга.

Существует множество курсов и программ аккредитации. Главное, подобрать подходящую именно вам.

Будьте аккуратны, это очень модная сфера, здесь много шумихи и некачественных курсов!

Шаг 7. Найдите работу! Реально, найдите работу!

Вы уже здесь? Замечательно!

Путь к профессии data scientist действительно долгий и трудный, но в то же время невероятно интересный, если вы имеете склонность к анализу. В этой области, вероятно, никогда не закончатся сложные задачи, решение которых требует творческого подхода.

Хотите узнать больше? Рекомендуем скачать наш бесплатный гайд «Первые шаги в Python». Из гайда вы узнаете простейшие операции и познакомитесь с обработкой данных.

Успехов в начинаниях!