Data Science – наука молодая, но очень амбициозная и перспективная. Научившись эффективно обрабатывать данные, она вывела на новый уровень все сферы человеческой деятельности.
Грамотный data scientist может принести компании огромную прибыль, поэтому он необычайно востребован на рынке труда.
Активный спрос и острый дефицит кадров определили привлекательный уровень зарплат. Получается, что быть аналитиком данных очень выгодно!
Особенно большая потребность в этих специалистах наблюдается в data-зависимых отраслях, например, в финансах. Если вы чувствуете, что анализ финансовой информации – это ваше призвание, смело ступайте на тернистый путь Data Science!
Эта статья по шагам проведет вас в мир Data Science, больших данных и умных машин.
Шаг 1. Найдите в себе силы
Наука о данных в настоящее время молода, полна энергии и безгранична. В ней сочетаются фундаментальные научные подходы и современные технологии. Хороший специалист должен во всем этом разбираться, так что учиться будет трудно. Чтобы пройти этот путь, вы должны по-настоящему любить данные и работу с ними.
Успешный Data Scientist — это человек с особым образом мышления. Он любит решать сложные задачи — а других в этой области и не бывает — и не останавливается перед трудностями. По большому счету, именно эти качества отличают хороших специалистов от посредственных.
А еще вам придется много общаться с коллегами и руководителями. Сначала нужно будет понять задачу, затем разобраться, как ее решить, и наконец лучшим образом представить результаты.
Если вы к этому готовы, замечательно! Делайте следующий шаг.
Шаг 2. Разберитесь в концепциях
Насколько велики «большие» данные (Big Data), как и зачем их майнить (Data Mining), при чем здесь нейронные сети (Neural Network), и чему именно учатся машины (Machine Learning)?
Data Science полна непонятных терминов, в которых вам придется разобраться. Составьте общее представление с помощью книг и видео-уроков для начинающих.
Очень важно понимать, какие основные этапы обработки должны пройти данные, чтобы их можно было использовать:
- Сбор, очистка и предварительная подготовка;
- Статистический анализ;
- Обнаружение закономерностей, прогнозирование;
- Визуализация.
Шаг 3. Постройте фундамент
Анализ данных совершенно немыслим без отличных математических и статистических навыков. Даже великолепное владение инструментами не спасет, если вы не понимаете самой сути аналитики.
Для работы вам точно потребуются знания в области статистического анализа, линейной алгебры, теории вероятностей, многомерного исчисления.
Начать вы можете с этих материалов:
- Матричный анализ и линейная алгебра, Е. Е. Тыртышников;
- Курс линейной алгебры, Coursera;
- Теория вероятностей, Н. И. Чернова;
- Теория вероятностей для начинающих, Coursera;
- Математическая статистика, Н. И. Чернова;
- Курс по основам статистики, Stepik.
И конечно, вы должны отлично разбираться в вашей предметной области — финансах. Нельзя решить задачу, которую не понимаешь. Уделите время изучению основных финансовых статистических моделей.
Также будет полезно углубиться в анализ временных рядов, так как большинство данных в этой сфере представлено именно в таком виде!
Шаг 4. Научитесь пользоваться инструментами
Data scientist работает с огромным количеством данных. Большая часть из них не имеет четкой структуры и нуждается в обработке. Многие задачи требуют быстрого решения, иногда даже моментального. Все это обуславливает необходимость использования компьютеров для анализа.
Для успешной работы вам нужно овладеть рядом инструментов, которые помогают:
- Собирать данные из разных источников;
- Извлекать из них полезную информацию;
- Структурировать ее;
- Проводить статистический анализ;
- Находить закономерности и связи;
- Визуализировать результаты.
Ниже перечислены основные полезные навыки для каждого этапа:
1. Извлечение и предварительная обработка
Базы данных
Большая часть необходимой для работы информации хранится в SQL-хранилищах. Чтобы извлечь ее оттуда, нужно владеть языком запросов к базе.
Важно также понимать основы реляционной алгебры, чтобы уже на этом этапе придать данным определенную структуру.
Технологии Big Data
Для работы с большими данными используется Hadoop, позволяющий распределять вычисления на сотни узлов. Полезно будет ознакомиться с Hadoop-экосистемой, моделью MapReduce и сопутствующими технологиями вроде Apache Spark и Apache Flink.
Эти инструменты особенно важны, так как в финансовой сфере работа ведется со многими потоками данных!
UNIX
Иногда с неструктурированными данными удобнее всего работать через UNIX-консоль без зависимости от базы. Поэтому специалисту полезно знать некоторые команды.
Python
Самый популярный язык программирования для Data Science – это дружелюбный Python. На самом деле, он может использоваться на всех этапах обработки данных, так как имеет великолепные средства анализа и инструменты визуализации!
Для эффективной работы вам потребуются базовые знания языка, а также его библиотеки, в которых уже реализована большая часть необходимых алгоритмов, например, pandas. Если вы еще не знаете Python, но планируете его изучать, то рекомендуем записаться на наш открытый онлайн-курс «Первый код на Python».
Другие технологии
Если вы решите сосредоточиться на первом этапе обработки данных, обратите внимание на такие прогрессивные направления, как распознавание объектов и обработка естественного языка.
2. Анализ
Python/SAS/R
Язык программирования R – основной конкурент Python в области анализа данных. Он больше популярен в науке. Библиотеки обоих языков имеют богатейший набор методов для обработки данных.
SAS – еще одна альтернатива. Он чаще всего применяется в задачах прогнозирования. Если не знаете, какой язык выбрать, взгляните сюда.
Машинное обучение
Пожалуй, самая интересная часть работы data-аналитика – это построение моделей машинного обучения, которые способны автоматически обрабатывать, сопоставлять данные и прогнозировать будущие события.
Чтобы стать профи в этом деле, разберитесь с python-библиотекой scikit-learn. Она имеет понятный интерфейс и позволяет тонко настраивать модели.
Для прогнозирования применяются алгоритмы нейронных сетей.
3. Представление результатов
Нельзя недооценивать этап визуализации данных.
Важная задача аналитика – донести результаты своей работы до тех, кто будет непосредственно воплощать их в жизнь. Это значит, что представление должно быть максимально ясным и четким, исключающим всякую двусмысленность.
Для визуализации создано множество удобных инструментов, с которыми вам следует познакомиться, например:
- D3.js;
- Flare;
- Tableau.
Владение этими инструментами даст вам преимущество при устройстве на работу. Также широко применяется старый добрый Excel.
Шаг 4. Практикуйтесь!
Изучив основы, немедленно принимайтесь за практическую работу.
Работодатели не станут подпускать к своим ценным данным человека, не имеющего реального опыта.
Вы можете самостоятельно придумывать себе задачи, пользуясь готовыми наборами данных, или отправиться на Kaggle и принять участие в соревновании!
Отличные датасеты можно найти здесь и здесь.
А вот замечательные примеры готовых работ:
Выкладывайте свои решения на github, обсуждайте их на форумах, улучшайте. Все время усложняйте задачи: берите больше данных, делайте лучше, быстрее, эффективнее!
Великолепной возможностью для развития являются стажировки в компаниях, на которых вы можете поработать с реальными задачами.
Шаг 5. Определитесь со сферой интересов
Теперь, после первого погружения в Data Science, окиньте взглядом всю эту сферу и определитесь, что вам действительно интересно.
Возможно, ваше призвание — машинное обучение и алгоритмическая торговля, или вы виртуозно отбираете ценную информацию из грязных данных. А может быть, ваша дорога ведет в business intelligence и анализу финансовых отчетов!
Это непростой выбор, и вам, возможно, придется сделать несколько попыток. А для начала просто ознакомьтесь с базовыми ролями Data Science и ее основными применениями в финансах.
Наука о данных по ролям
Есть две основополагающие технологии работы с данными:
- ETL (Extract/Transform/Load). Это технические специалисты: инженеры и архитекторы данных, администраторы баз данных. Сфера их ответственности — хранение, извлечение и преобразование информации. Они имеют дело прежде всего с формой.
- DAD (Discover/Access/Distill). А это аналитики, для которых важнее содержание. Они ищут и обрабатывают данные разнообразными способами, выявляют взаимосвязи и делают прогнозы.
В отдельную группу можно выделить бизнес-аналитиков. Они в работе больше полагаются на абсолютно точную информацию прошлого: отчеты, ключевые показатели эффективности (KPI). Их задача — ретроспективный анализ исторических данных и бизнес-тенденций.
Наука о данных в финансах в некоторых отраслях:
- Кредитование — определение платежеспособности заемщика (lending);
- Анализ финансовых рисков (risk management);
- Прогнозирование движения рынка (investing);
- Алгоритмическая торговля (trading);
- Обнаружение мошеннических операций (fraud).
Посмотрите, как наука о данных применяется в Сбербанке.
Шаг 6. Получите сертификат
Вы почти достигли своей цели: осталось лишь подтвердить ваши умения официальным сертификатом, который можно будет предъявить работодателю. На самом деле, сертификат нужен, скорее, для успешного прохождения скрининга.
Существует множество курсов и программ аккредитации. Главное, подобрать подходящую именно вам.
Будьте аккуратны, это очень модная сфера, здесь много шумихи и некачественных курсов!
Шаг 7. Найдите работу! Реально, найдите работу!
Вы уже здесь? Замечательно!
- Для примера посмотрите, как проводят реальные собеседования.
- Проверьте свои знания.
- Вспомните, какой путь вы уже прошли.
Путь к профессии data scientist действительно долгий и трудный, но в то же время невероятно интересный, если вы имеете склонность к анализу. В этой области, вероятно, никогда не закончатся сложные задачи, решение которых требует творческого подхода.
Хотите узнать больше? Рекомендуем скачать наш бесплатный гайд «Первые шаги в Python». Из гайда вы узнаете простейшие операции и познакомитесь с обработкой данных.
Успехов в начинаниях!