КУРС

POWER BI И POWER QUERY

Научитесь использовать функционал программных продуктов Power BI и Power Query для ускорения обработки данных и их визуализации.
 

Одним из ключевых навыков обработки информации, которым должен обладать каждый современный профессионал – визуализация. Как раз об этом и пойдет речь в нашей статье.

Для начала предлагаем разобраться в том, что же такое – визуализация?

Визуализация – это способ представления информации в виде доступных графиков, диаграмм и рисунков. На самом деле, это чрезвычайно важный инструмент в любой сфере деятельности: науке, образовании, менеджменте, маркетинге, бизнесе, экономике – везде.

Почему зрительное восприятие для нас так важно?

Все очень просто. Около 90% информации об окружающем мире мы получаем с помощью глаз. Половина нейронов нашего мозга активно участвует в анализе именно зрительной информации. Мы способны запомнить 80 % данных, которых увидим, всего лишь 20%, которых прочитаем и 10% того, что услышим.

Цифры говорят сами за себя: человеку проще воспринимать визуальную информацию.

Поэтому аналитики, которым постоянно приходится работать с огромными объемами информации: искать необычные закономерности, ошибки, строить предположения, беспрестанно пользуются средствами визуализации, так как это довольно легкий, быстрый, но при этом эффективный способ анализа информации.

Во-первых, как мы уже отметили, проиллюстрированные данные воспринимаются лучше.

Во-вторых, в графиках и диаграммах порой видны те нюансы, которые просто невозможно заметить, глядя в «бессмысленные» таблицы данных.

В-третьих, главная задача аналитиков – изучить всю необходимую информацию и дать какое-то заключение по проблеме.

Полученные результаты нужно грамотно преподнести руководству. Но если аналитик предоставит непонятные выводы или огромные выкладки, то никто в этом даже разбираться не будет.

Поэтому нужно оформлять результаты так, чтобы даже не связанный с данной проблематикой человек мог все с легкостью понять.

Ниже мы привели несколько советов, которые точно понадобятся новичку в визуализации!

Основные правила

При использовании визуализации необходимо помнить несколько правил, без которых не получится добиться желаемого правильного результата.

Можно сказать, что визуализация «стоит на четырех китах» — это: данные, концепция, цель и форма.

Визуализация с помощью Data Science, image #1

Данные: без данных никакого анализа не будет и визуального представления, соответственно, тоже. Поэтому необходимо очень требовательно и серьезно относиться к этому нескончаемому ресурсу. Перед использованием информацию необходимо проверять на точность, корректность и последовательность. Неправильно извлеченная или вовсе не верная информация приведет к ошибкам и результатам, не имеющим никакой практической ценности.

Концепция: визуализация должна иметь смысл и практическое применение. То есть она должна быть связана с конкретным проектом или задачей.

Цель: независимо от того, насколько сложную информацию вам необходимо донести, нужно сделать ее краткой и понятной, чтобы даже человек, не владеющий специальными знаниями мог пользоваться вашими результатами.

В качестве примера приведем вот такую диаграмму спагетти:

Визуализация с помощью Data Science, image #2

Для человека, не знающего концепции диаграммы и цели авторов, рисунок похож на «каляки-маляки». Однако этот график в 2016 году получил престижную награду Data Journalism Awards (первая международная награда, отмечающая выдающуюся работу в области журналистики во всем мире).

На этом графике изображены траектории полетов спецслужб над домом преступников, которые начали стрельбу в Сан-Бернардино в декабре 2015 года.

Форма: во всем многообразии видов графиков и диаграмм нужно выбрать те, что больше всего подходят к конкретной задаче. Сюда же входит и внешний вид визуализации: нужно избегать нагромождения элементов, цветов, линий, других средств и добиваться лаконичности, аккуратности и привлекательности рисунков.

Посмотрим на картинку, представленную ниже.

Визуализация с помощью Data Science, image #3

На графике проиллюстрировано количество убийств во Флориде с применением огнестрельного оружия.

Во-первых, несложно провести параллель между дизайном диаграммы и стекающей кровью. Для достижения такого эффекта создатели изменили направление вертикальной оси: значения увеличиваются сверху вниз.

Если не обратить внимания на шкалу и смотреть на график так, будто он изображен в привычном нам виде, то может показаться, что в конце девяностых годов количество убийств было максимальным, после середины 2000-х уменьшилось, а потом снова увеличилось. Но все «с точностью до наоборот».

Из-за того, что ось перевернута и значения увеличиваются к низу, получается, что в 90-х было самое маленькое количество происшествий, а к 2010 это число выросло.

На этом примере видно, как влияют шкалы и масштаб на восприятие информации. Поэтому нужно тщательно подходить к выбору вида диаграммы, обращать внимание на дизайн и следить за тем, чтобы отображаемые данные были понятны и не искажены.

КУРС

POWER BI И POWER QUERY

Научитесь использовать функционал программных продуктов Power BI и Power Query для ускорения обработки данных и их визуализации.
 

Виды диаграмм

Порой бывает очень сложно подобрать наилучший вид зрительного представления данных. Ведь от этого очень сильно зависит восприятие информации. На этапе выбора диаграмм обязательно нужно учитывать то, какие данные требуется визуализировать и с какой целью.

Это может быть, например, сравнение показателей, обнаружение зависимости или построение распределений.

Рассмотрим несколько распространённых видов диаграмм.

Линейный график (или линейная диаграмма)

Визуализация с помощью Data Science, image #4

Линейный график – самый удобный способ иллюстрации изменений количественных показателей с течением времени. Такой график часто используют для изображения тренда или изменения значений.

Построение графика не составит труда: нужно отметить точки на координатной сетке и соединить прямой линией (отсюда и пошло название).

По вертикальной оси чаще всего идут количественные значения, а по горизонтальной – шкалы последовательностей (натуральные числа, часы, дни, года и другие) или качественные значения.

С помощью линейной диаграммы можно представить изменение на бирже, рост прибыли компании, количество продаж и другие процессы.

Столбчатые диаграммы

Визуализация с помощью Data Science, image #5

Невероятно полезный способ сравнения большого количества данных – столбчатые диаграммы.

Существует два вида: вертикальные столбцы чаще используют в тех случаях, когда необходимо проиллюстрировать изменение показателей, например, какая была средняя температура в ноябре на протяжении 10 лет, а горизонтальную, когда нужно проанализировать большое количество показателей и зрительно подчеркнуть явное превосходство одного из значений.

Гистограммы

Визуализация с помощью Data Science, image #6

Внешне гистограммы очень похожи на столбчатые диаграммы, но цель их использования разная.

Гистограмма показывает распределение величины на непрерывном интервале или за период времени. Поэтому на вертикальной оси находится частота попадания в интервал, а на горизонтальной – непрерывные значения или временной промежуток.

Перечислим отличия столбчатых диаграмм от гистограмм:

Столбчатые диаграммы

  • Есть расстояние между столбцами
  • Используются для сравнения категориальных данных
  • Можно переставлять столбцы местами и смысл не изменится

Гистограммы

  • Нет расстояния между столбцами
  • Используются для нахождения зависимости качественных данных
  • Если поменять местами, то нарушится последовательная логика

Круговые диаграммы

Визуализация с помощью Data Science, image #7

Каждый строил круговые диаграммы в Excel. Это очень популярное средство сопоставления частей одного целого.

С помощью этого вида диаграммы можно иллюстрировать долю фирмы на рынке, вкладов в развитие компании, процентное соотношение прибыли от каждого вида товара, распределение бюджета, продажи по регионам и так далее.

Среди преимуществ круговой диаграммы то, что она дает мгновенное представление о соотношении значений; при небольшом количестве секторов обеспечивает эффективное зрительное восприятие.

Но минусы тоже существенные – могут возникать проблемы при анализе диаграммы, особенно если много секторов. Также диаграмма занимает много места в сравнении с информацией, которую иллюстрирует.

Точечная диаграмма (или диаграмма рассеяния)

Данный тип диаграммы используется в тех случаях, когда нужно проиллюстрировать зависимость одного набора данных от другого.

Например, связь прибыли и затрат на товары; средняя продолжительность разговора с клиентом и количество заключенных контрактов; выделенный на команду по футболу бюджет и место в чемпионате и другие.

Визуализация с помощью Data Science, image #8

Точки на графике – маркеры – имеют две координаты (ось х и ось y). Если на точечной диаграмме маркеры можно соединить почти прямой линией, то значит корреляция между наборами данных очень высокая, если же они разбросаны хаотично, то степень корреляции низкая или даже может равняться нулю.

Пузырьковая диаграмма

Пузырьковая диаграмма – разновидность точечной диаграммы – способ отображения трехмерных данных на двумерной плоскости. То есть к двум переменным, расположенным на осях, добавляется еще одна, которая влияет на размеры «пузырьков».

Например, по горизонтальной оси отложим проценты начисляемой на товар скидки (до 0) и наценки (после 0), по вертикальной оси – коэффициент конвертации, а за доход будет отвечать радиус круга.

Получим такую диаграмму:

Визуализация с помощью Data Science, image #9

По ней мы можем сделать вывод, что самый большой коэффициент конвертации у товаров со скидкой 30%, при этом больше всего дохода приносят товары без скидки и со скидкой 5%.

Географические диаграммы

Достаточно редкий вид диаграмм. Область ее применение вполне очевидна: графическую диаграмму используют, когда нужно показать распределение какого-то показателя по областям, городам, странам, материкам.

Например, если нужно посмотреть с клиентами из каких стран сотрудничает компания; в каких странах клиентов меньше или нет вообще; в каких регионах можно открывать дополнительные производства; сравнить уровень жизни в государствах, степень развития и так далее.

Визуализация с помощью Data Science, image #10

Безусловно, это не все виды диаграмм, которыми пользуются специалисты, но, по-нашему мнению, это основные. Но этих видов достаточно для эффективного анализа данных самой разной природы.

Помимо основных правил визуализации и разных средств представления данных, нужно обратить внимание на самые частные ошибки в визуализации.

Самый верный способ чему-то научиться – учиться на чужих ошибках и никогда их не совершать.

Основные ошибки в визуализации данных

1. Логичное расположение данных

Визуализация с помощью Data Science, image #11

Всегда легче воспринимать упорядоченную информацию. Поэтому если вам нужно сравнивать данные или группировать удобнее всего располагать данные от большего к меньшему или от меньшего к большему, в зависимости от вашей задачи.

Первым делом, создавая график, нужно четко сформулировать, что вы хотите донести своей диаграммой: какую информацию должны получить читатели.

2. Простой дизайн

Визуализация с помощью Data Science, image #12

Чем проще выглядит диаграмма, тем лучше. Нужно избегать различные графические эффекты: яркие цвета, градиенты, рисунки, тени и 3D эффекты.

Это только отвлекает от нужной информации.

А порой и искажает данные: чаще всего это происходит при использовании объемных круговых диаграмм.

Визуализация с помощью Data Science, image #13

Например, на левой диаграмме зелёный сектор кажется намного меньше синего, хотя он составляет ровно половину. А на двумерной диаграмме искажения не происходит, мы с легкостью можем сравнить размеры секторов.

3. Избегайте нагромождений

Большое количество элементов на графике, перекрывающих друг друга, очень мешает восприятию графика.

Нужно избавляться от неинформативных загромождающих элементов:

Визуализация с помощью Data Science, image #14

Например, если на диаграмме есть и подписи значений, и оси, то нужно оставить что-то одно, так как это дублирование информации. Если значения целые, то нужно убрать нули после запятой.

Если вспомогательные линии сетки все же нужны, то они не должны бросаться в глаза.

На первый план всегда нужно выносить основную информацию.

4. Грамотное использование видов диаграмм

При создании дашбордов лучше отказаться от большого числа разных типов графиков и диаграмм. Для наиболее понятного представления информации достаточно использовать 3 вида.

Если нужно проиллюстрировать однотипные данные, то гораздо эффективнее оформить их в одном стиле:

Визуализация с помощью Data Science, image #15

5. Грамотное сочетание

Оформляйте свои отчеты лаконично, без использования нестандартных, ярких цветовых палитр.

Есть некоторые кем-то установленные правила, к которые мы привыкаем. Например, с детства все знают, что мужской цвет – голубой, женский – розовый.

Если проигнорировать эти «установленные нормы» и изменить цвета, то может возникнуть затруднение в понимании.

А если категории раскрашены привычными цветами, то читателю даже не придется смотреть на легенду, ведь и без нее понятно, что цвета обозначают.

При создании дэшбордов также лучше не использовать разные цвета. Диаграммы на протяжении всех отчетов должны быть выполнены в одной цветовой гамме, например, в фирменном стиле компании.

Достаточно соблюдать простые правила создания визуализации и не совершать вышеперечисленных, чтобы ваш отчет был красивым, понятным и, главное, информативным.

Нужно запомнить, что красивая визуализация – качественная визуализация, удовлетворяющая главным принципам: ясность, простота, четкость.

Теперь скажем пару слов про доступные инструменты для визуализации данных.

На рынке программного обеспечения можно найти больше 30 сервисов.

Мы перечислим лишь некоторые из них:

  1. Tableau;
  2. R Studio;
  3. Python, первые шаги в изучении которого поможет сделать наш открытый онлайн-курс;
  4. Plotly;
  5. Google Data Studio.
  6. Power BI, работе с которым можно научиться на нашем курсе «Power BI и Power Query».

При выборе инструмента нужно ориентироваться на конкретную задачу и вашу цель, на то, какие специальные возможности могут понадобиться, насколько интуитивно понятный интерфейс, удобная загрузка и выгрузка данных и другие критерии.

Заключение

Данную статью можно считать обзорным экскурсом по миру визуализации. Есть еще очень много необычных видов графиков, программ для построения диаграмм, нюансов их использования, концепций создания визуализации и так далее.

Мы постарались обратить внимание на азы, без которых невозможно научиться правильно представлять данные.

КУРС

POWER BI И POWER QUERY

Научитесь использовать функционал программных продуктов Power BI и Power Query для ускорения обработки данных и их визуализации.