Диаграмма рассеяния это python

Содержание

Rukovodstvo
статьи и идеи для разработчиков программного обеспечения и веб-разработчиков.
Диаграмма рассеяния Seaborn — Учебное пособие и примеры
Введение Seaborn — одна из наиболее широко используемых библиотек визуализации данных в Python как расширение Matplotlib. Он предлагает простой, интуитивно понятный, но настраиваемый API для визуализации данных. В этом уроке мы рассмотрим, как построить диаграмму рассеяния в Seaborn. Мы рассмотрим простые точечные диаграммы, множественные точечные диаграммы с FacetGrid, а также трехмерные точечные диаграммы. Импортировать данные Мы будем использовать набор данных World Happiness [https://www.kaggle.com/unsdsn/world-happiness] и сравним
Вступление
Импортировать данные
Создайте точечную диаграмму в Seaborn
Построение множественных точечных диаграмм в Seaborn с помощью FacetGrid
Построение трехмерной точечной диаграммы в Seaborn
Настройка точечных диаграмм в Seaborn
Заключение
Визуализация данных в Python
Как сделать диаграмму рассеяния из фрейма данных Pandas
Пример 1: использование панд
Пример 2: Используйте Matplotlib
Как строить красивые графики на Python с Seaborn
Что такое Seaborn?
Установка Seaborn
Строим первые графики

Rukovodstvo

статьи и идеи для разработчиков программного обеспечения и веб-разработчиков.

Диаграмма рассеяния Seaborn — Учебное пособие и примеры

Введение Seaborn — одна из наиболее широко используемых библиотек визуализации данных в Python как расширение Matplotlib. Он предлагает простой, интуитивно понятный, но настраиваемый API для визуализации данных. В этом уроке мы рассмотрим, как построить диаграмму рассеяния в Seaborn. Мы рассмотрим простые точечные диаграммы, множественные точечные диаграммы с FacetGrid, а также трехмерные точечные диаграммы. Импортировать данные Мы будем использовать набор данных World Happiness [https://www.kaggle.com/unsdsn/world-happiness] и сравним

Вступление

Seaborn — одна из наиболее широко используемых библиотек визуализации данных в Python как расширение Matplotlib . Он предлагает простой, интуитивно понятный, но настраиваемый API для визуализации данных.

В этом уроке мы рассмотрим, как построить диаграмму рассеяния в Seaborn . Мы рассмотрим простые точечные диаграммы, множественные точечные диаграммы с FacetGrid, а также трехмерные точечные диаграммы.

Импортировать данные

Мы воспользуемся набором данных World Happiness и сравним показатель счастья с различными характеристиками, чтобы увидеть, что влияет на восприятие счастья в мире:

 import pandas as pd df = pd.read_csv('worldHappiness2016.csv')

Создайте точечную диаграмму в Seaborn

Теперь, когда набор данных загружен, давайте импортируем PyPlot, который мы будем использовать для отображения графика, а также Seaborn. Построим график оценки счастья в зависимости от экономики страны (ВВП на душу населения) :

 import matplotlib.pyplot as plt import seaborn as sns import pandas as pd df = pd.read_csv('worldHappiness2016.csv') sns.scatterplot(data = df, x = "Economy (GDP per Capita)", y = "Happiness Score") plt.show()

Seaborn упрощает построение базовых графиков, например диаграмм рассеяния. Нам не нужно возиться с объектом Figure Axes или настраивать что-либо, хотя мы можем, если захотим. Здесь мы предоставили df в качестве data и предоставили функции, которые мы хотим визуализировать, в качестве аргументов x и y

Они должны соответствовать данным, представленным в наборе данных, и метками по умолчанию будут их имена. Мы настроим это в следующем разделе.

Теперь, если мы запустим этот код, нас встретят:

Здесь существует сильная положительная корреляция между экономикой (ВВП на душу населения) и ощущением счастья жителей страны / региона.

Построение множественных точечных диаграмм в Seaborn с помощью FacetGrid

Если вы хотите сравнить более одной переменной с другой, например — среднюю продолжительность жизни, а также оценку счастья в сравнении с экономикой или любые ее вариации, нет необходимости создавать для этого трехмерный график.

Хотя существуют 2D-графики, которые визуализируют корреляции между более чем двумя переменными, некоторые из них не совсем подходят для начинающих.

Seaborn позволяет нам FacetGrid объект FacetGrid, который мы можем использовать для фасетирования данных и построения нескольких связанных графиков, один рядом с другим.

Давайте посмотрим, как это сделать:

 import matplotlib.pyplot as plt import pandas as pd import seaborn as sns df = pd.read_csv('worldHappiness2016.csv') grid = sns.FacetGrid(df, col = "Region", hue = "Region", col_wrap=5) grid.map(sns.scatterplot, "Economy (GDP per Capita)", "Health (Life Expectancy)") grid.add_legend() plt.show()

Здесь мы создали FacetGrid , передав ему наши данные ( df ). Указав аргумент col «Region» , мы сказали Seaborn, что хотим разбить данные на регионы и построить диаграмму рассеяния для каждого региона в наборе данных.

Мы также назначили hue в зависимости от региона, поэтому каждый регион имеет свой цвет. Наконец, мы установили аргумент col_wrap 5 чтобы весь рисунок не был слишком широким — он разбивается на каждые 5 столбцов в новую строку.

К этому объекту grid map() наши аргументы. В частности, мы указали sns.scatterplot как тип графика, который нам нужен, а также x и y мы хотим отобразить на этих графиках разброса.

В результате получается 10 различных графиков разброса, каждый со связанными x и y , разделенными по регионам.

В конце мы также добавили легенду, чтобы помочь идентифицировать цвета.

Построение трехмерной точечной диаграммы в Seaborn

К сожалению, в Seaborn нет встроенных функций 3D. Это расширение Matplotlib и полагается на него для тяжелой работы в 3D. Тем не менее, мы можем стилизовать 3D-график Matplotlib с помощью Seaborn.

Давайте зададим стиль с помощью Seaborn и визуализируем трехмерный график рассеяния счастья, экономики и здоровья:

 import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from mpl_toolkits.mplot3d import Axes3D df = pd.read_csv('2016.csv') sns.set(style = "darkgrid") fig = plt.figure() ax = fig.add_subplot(111, projection = '3d') x = df['Happiness Score'] y = df['Economy (GDP per Capita)'] z = df['Health (Life Expectancy)'] ax.set_xlabel("Happiness") ax.set_ylabel("Economy") ax.set_zlabel("Health") ax.scatter(x, y, z) plt.show()

Выполнение этого кода приводит к интерактивной трехмерной визуализации, которую мы можем панорамировать и исследовать в трехмерном пространстве, стилизованной под график Сиборна:

Настройка точечных диаграмм в Seaborn

Используя Seaborn, легко настраивать различные элементы создаваемых вами сюжетов. Например, вы можете установить hue и size каждого маркера на точечной диаграмме.

Давайте изменим некоторые параметры и посмотрим, как будет выглядеть график после внесения изменений:

 import matplotlib.pyplot as plt import seaborn as sns import pandas as pd df = pd.read_csv('2016.csv') sns.scatterplot(data = df, x = "Economy (GDP per Capita)", y = "Happiness Score", hue = "Region", size = "Freedom") plt.show()

Здесь мы установили hue на Region что означает, что данные из разных регионов будут иметь разные цвета. Кроме того, мы установили size пропорциональный функции свободы . Чем выше коэффициент свободы, тем крупнее точки:

Или вы можете установить фиксированный размер для всех маркеров, а также цвет:

 sns.scatterplot(data = df, x = "Economy (GDP per Capita)", y = "Happiness Score", hue = "red", size = 5)

Заключение

В этом уроке мы рассмотрели несколько способов построения диаграммы рассеяния с использованием Seaborn и Python.

Читайте также: Python что такое reduce

Если вас интересует визуализация данных и вы не знаете, с чего начать, обязательно ознакомьтесь с нашим комплектом книг по визуализации данных в Python :

Визуализация данных в Python

. Станьте опасными с визуализацией данных

âœ… 30-дневная гарантия возврата денег без вопросов

âœ… от начального до продвинутого

âœ… Регулярно обновляется бесплатно (последнее обновление в апреле 2021 г.)

âœ… Обновлено с бонусными ресурсами и руководствами . . .

Визуализация данных в Python с помощью Matplotlib и Pandas — это книга, предназначенная для абсолютных новичков в работе с Pandas и Matplotlib с базовыми знаниями Python и позволяющая им создать прочную основу для расширенной работы с этими библиотеками — от простых графиков до анимированных трехмерных графиков с интерактивными кнопки.

Он служит подробным руководством, которое научит вас всему, что вам нужно знать о Pandas и Matplotlib, в том числе о том, как создавать типы графиков, которые не встроены в саму библиотеку.

Книга «Визуализация данных в Python» , книга для начинающих и средних разработчиков Python, проведет вас через простые манипуляции с данными с помощью Pandas, охватит основные библиотеки построения графиков, такие как Matplotlib и Seaborn, и покажет, как использовать преимущества декларативных и экспериментальных библиотек, таких как Altair. В частности, на протяжении 11 глав эта книга охватывает 9 библиотек Python: Pandas, Matplotlib, Seaborn, Bokeh, Altair, Plotly, GGPlot, GeoPandas и VisPy.

Он служит уникальным практическим руководством по визуализации данных в виде множества инструментов, которые вы можете использовать в своей карьере.

Licensed under CC BY-NC-SA 4.0

Источник

Как сделать диаграмму рассеяния из фрейма данных Pandas

Есть два способа создать диаграмму рассеяния, используя данные из pandas DataFrame:

1. Используйте pandas.DataFrame.plot.scatter

Один из способов создать диаграмму рассеяния — использовать встроенную функцию Pandas plot.scatter() :

import pandas as pd df.plot.scatter (x = 'x_column_name', y = 'y_columnn_name')

2. Используйте matplotlib.pyplot.scatter

Другой способ создать диаграмму рассеивания — использовать функцию Matplotlib pyplot.scatter() :

import matplotlib.pyplot as plt plt.scatter (df.x, df.y)

В этом руководстве приведены примеры использования каждого из этих методов.

Пример 1: использование панд

В следующем коде показано, как использовать функцию plot.scatter() для создания простой диаграммы рассеяния:

import pandas as pd #create DataFrame df = pd.DataFrame() #create scatterplot df.plot.scatter (x='x', y='y')

Обратите внимание, что вы можете использовать аргументы s и c для изменения размера и цвета точек соответственно:

df.plot.scatter (x='x', y='y', s= 60 , c='green')

Пример 2: Используйте Matplotlib

В следующем коде показано, как использовать функцию pyplot.scatter() для создания диаграммы рассеяния:

import pandas as pd import matplotlib.pyplot as plt #create DataFrame df = pd.DataFrame() #create scatterplot plt.scatter (df.x, df.y)

plt.scatter (df.x, df.y, s= 60 , c='purple')

Вы можете найти больше руководств по Python здесь .

Источник

Как строить красивые графики на Python с Seaborn

Визуализация данных — это метод, который позволяет специалистам по анализу данных преобразовывать сырые данные в диаграммы и графики, которые несут ценную информацию. Диаграммы уменьшают сложность данных и делают более понятными для любого пользователя.

Есть множество инструментов для визуализации данных, таких как Tableau, Power BI, ChartBlocks и других, которые являются no-code инструментами. Они очень мощные, и у каждого своя аудитория. Однако для работы с сырыми данными, требующими обработки, а также в качестве песочницы, Python подойдет лучше всего.

Несмотря на то, что этот путь сложнее и требует умения программировать, Python позволит вам провести любые манипуляции, преобразования и визуализировать ваши данные. Он идеально подходит для специалистов по анализу данных.

Python — лучший инструмент для data science и этому много причин, но самая важная — это его экосистема библиотек. Для работы с данными в Python есть много замечательных библиотек, таких как numpy , pandas , matplotlib , tensorflow .

Matplotlib , вероятно, самая известная библиотека для построения графиков, которая доступна в Python и других языках программирования, таких как R. Именно ее уровень кастомизации и удобства в использовании ставит ее на первое место. Однако с некоторыми действиями и кастомизациями во время ее использования бывает справиться нелегко.

Разработчики создали новую библиотеку на основе matplotlib , которая называется seaborn . Seaborn такая же мощная, как и matplotlib , но в то же время предоставляет большую абстракцию для упрощения графиков и привносит некоторые уникальные функции.

В этой статье мы сосредоточимся на том, как работать с seaborn для создания первоклассных графиков. Если хотите, можете создать новый проект и повторить все шаги или просто обратиться к моему руководству по seaborn на GitHub.

Что такое Seaborn?

Seaborn — это библиотека для создания статистических графиков на Python. Она основывается на matplotlib и тесно взаимодействует со структурами данных pandas.

Архитектура Seaborn позволяет вам быстро изучить и понять свои данные. Seaborn захватывает целые фреймы данных или массивы, в которых содержатся все ваши данные, и выполняет все внутренние функции, нужные для семантического маппинга и статистической агрегации для преобразования данных в информативные графики.

Она абстрагирует сложность, позволяя вам проектировать графики в соответствии с вашими нуждами.

Установка Seaborn

Установить seaborn так же просто, как и любую другую библиотеку, для этого вам понадобится ваш любимый менеджер пакетов Python. Во время установки seaborn библиотека установит все зависимости, включая matplotlib , pandas , numpy и scipy .

Давайте уже установим seaborn и, конечно же, также пакет notebook , чтобы получить доступ к песочнице с данными.

pipenv install seaborn notebook

Помимо этого, перед началом работы давайте импортируем несколько модулей.

import seaborn as sns import pandas as pd import numpy as np import matplotlib

Строим первые графики

Перед тем, как мы начнем строить графики, нам нужны данные. Прелесть seaborn в том, что он работает непосредственно с объектами dataframe из pandas , что делает ее очень удобной. Более того, библиотека поставляется с некоторыми встроенными наборами данных, которые можно использовать прямо из кода, и не загружать файлы вручную.

Давайте посмотрим, как это работает на наборе данных о рейсах самолетов.

flights_data = sns.load_dataset("flights") flights_data.head()

Источник