- 5 ключевых библиотек и пакетов для анализа данных на Python
- NumPy
- pandas
- Matplotlib
- scikit-learn
- SciPy
- Другие библиотеки и пакеты для обработки и анализа данных
- Как начать пользоваться библиотеками pandas, NumPy, Matplotlib, scikit-learn и SciPy
- Как работать с библиотеками NumPy, Pandas и Matplotlib в Python
- NumPy
- Установка и импорт NumPy
- Создание массивов
- Операции с массивами
- Pandas
- Установка и импорт Pandas
- Создание и чтение DataFrame
- Операции с DataFrame
- Matplotlib
- Установка и импорт Matplotlib
- Создание графиков
- Настройка графиков
- Отображение графиков
5 ключевых библиотек и пакетов для анализа данных на Python
Не все знают, что Python не задумывался создателями как язык для анализа данных. Однако сегодня это один из самых лучших языков для статистики, машинного обучения, прогнозной аналитики, а также стандартных задач по обработке данных. Python — язык с открытым кодом, и специалисты по data science стали создавать инструменты, чтобы более эффективно выполнять свои задачи. Сайт DEV.BY со ссылкой на ресурс Data36 опубликовал пять сторонних библиотек и пакетов, не встроенных в Python 3, которые должен знать каждый аналитик.
NumPy
NumPy позволяет очень эффективно обрабатывать многомерные массивы. Многие другие библиотеки построены на NumPy, и без неё было бы невозможно использовать pandas, Matplotlib, SciPy или scikit-learn — именно поэтому она занимает первое место в списке.
Также в ней есть несколько хорошо реализованных методов, например, функция random, которая гораздо качественнее модуля случайных чисел из стандартной библиотеки. Функция polyfit отлично подходит для простых задач по прогнозной аналитике, например, по линейной или полиномиальной регрессии.
pandas
Аналитики данных обычно используют плоские таблицы, такие, как в SQL и Excel. Изначально в Python такой возможности не было. Библиотека pandas позволяет работать с двухмерными таблицами на Python.
Эта высокоуровневая библиотека позволяет строить сводные таблицы, выделять колонки, использовать фильтры по параметрам, выполнять группировку по параметрам, запускать функции (сложение, нахождение медианы, среднего, минимального, максимального значений), объединять таблицы и многое другое. В pandas можно создавать и многомерные таблицы.
Matplotlib
Визуализация данных позволяет представить их в наглядном виде, изучить более подробно, чем это можно сделать в обычном формате, и доступно изложить другим людям. Matplotlib — лучшая и самая популярная Python-библиотека для этой цели. Она не так проста в использовании, но с помощью 4-5 наиболее распространённых блоков кода для простых линейных диаграмм и точечных графиков можно научиться создавать их очень быстро.
scikit-learn
Самыми интересными возможностями Python некоторые считают машинное обучение и прогнозную аналитику, а наиболее подходящая для этого библиотека — scikit-learn. Она содержит ряд методов, охватывающих всё, что может понадобиться в течение первых нескольких лет в карьере аналитика данных: алгоритмы классификации и регрессии, кластеризацию, валидацию и выбор моделей. Также её можно применять для уменьшения размерности данных и выделения признаков.
Машинное обучение в scikit-learn заключается в том, чтобы импортировать правильные модули и запустить метод подбора модели. Сложнее вычистить, отформатировать и подготовить данные, а также подобрать оптимальные входные значения и модели. Поэтому прежде чем взяться за scikit-learn, нужно, во-первых, отработать навыки работы с Python и pandas, чтобы научиться качественно подготавливать данные, а во-вторых, освоить теорию и математическую основу различных моделей прогнозирования и классификации, чтобы понимать, что происходит с данными при их применении.
SciPy
Существует библиотека SciPy и стек SciPy. Большинство описанных в этой статье библиотек и пакетов входят в стек SciPy, предназначенный для научных расчётов на Python. Библиотека SciPy — один из его компонентов, который включает средства для обработки числовых последовательностей, лежащих в основе моделей машинного обучения: интеграции, экстраполяции, оптимизации и других.
Как и в случае с NumPy, чаще всего используется не сама SciPy, а упомянутая выше библиотека scikit-learn, которая во многом опирается на неё. SciPy полезно знать потому, что она содержит ключевые математические методы для выполнения сложных процессов машинного обучения в scikit-learn.
Другие библиотеки и пакеты для обработки и анализа данных
Есть также множество библиотек и пакетов на Python для обработки изображений и естественного языка, глубокого обучения, нейронных сетей и так далее. Однако поначалу лучше освоить пять основных библиотек, и лишь после этого браться за более узконаправленные.
Как начать пользоваться библиотеками pandas, NumPy, Matplotlib, scikit-learn и SciPy
В первую очередь нужно настроить сервер базы данных. Далее нужно дополнительно установить все инструменты:
- Подключиться к серверу
- Установить NumPy, используя команду
sudo -H pip3 install numpy - Установить pandas, используя команду
sudo apt-get install python3-pandas - Обновить дополнительные инструменты pandas с помощью двух команд:
sudo -H pip3 install —upgrade beautifulsoup4 и
sudo -H pip3 install —upgrade html5lib - Установить scikit-learn, используя команду
sudo -H pip3 install scikit-learn
После завершения установки, необходимо импортировать библиотеки (или их отдельные модули) в Jupyter, используя корректные операторы импорта, например:
import numpy as np
import pandas as pd
import matplotlib
matplotlib.use(‘Agg’)
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.linear_model import LinearRegression
После этого можно протестировать pandas и Matplotlib вместе, запустив вот эти строки:
Пошаговое руководство по настройке можно найти в этом видеокурсе.
Как работать с библиотеками NumPy, Pandas и Matplotlib в Python
Освойте основы работы с популярными библиотеками Python NumPy, Pandas и Matplotlib для анализа данных и визуализации результатов!
В этой статье мы рассмотрим основы работы с тремя популярными библиотеками Python: NumPy, Pandas и Matplotlib. Эти библиотеки широко используются для анализа данных, научных вычислений и визуализации результатов.
NumPy
NumPy — это библиотека для работы с многомерными массивами и математическими функциями. Она предоставляет эффективные методы для обработки числовых данных.
Установка и импорт NumPy
Для начала установите NumPy с помощью pip:
Затем импортируйте библиотеку в ваш код:
Создание массивов
Создайте одномерный массив (вектор) или двумерный массив (матрицу) с помощью функции np.array() :
vector = np.array([1, 2, 3, 4]) matrix = np.array([[1, 2], [3, 4]])
Операции с массивами
Выполните различные математические операции с массивами, такие как сложение, вычитание, умножение и деление:
Pandas
Pandas — это библиотека для работы с табличными данными (DataFrame) и временными рядами (Series). Она предоставляет удобные инструменты для анализа и манипуляции данными.
Установка и импорт Pandas
Для установки Pandas используйте pip:
Импортируйте библиотеку в ваш код:
Создание и чтение DataFrame
Создайте DataFrame из словаря или прочитайте данные из файла:
data = df = pd.DataFrame(data) # Чтение из файла CSV df = pd.read_csv('file.csv')
Операции с DataFrame
Выполните различные операции с данными, такие как выбор столбцов, фильтрация строк и группировка:
# Выбор столбца column_A = df['A'] # Фильтрация строк по условию filtered_df = df[df['A'] > 1] # Группировка по столбцу и агрегация grouped_df = df.groupby('A').sum()
Matplotlib
Matplotlib — это библиотека для создания графиков и визуализации данных. Она предоставляет разнообразные типы графиков и настройки стиля.
Установка и импорт Matplotlib
Установите Matplotlib с помощью pip:
Импортируйте библиотеку в ваш код:
import matplotlib.pyplot as plt
Создание графиков
Создайте различные типы графиков, такие как линейный, столбчатый и круговой:
# Линейный график plt.plot([1, 2, 3, 4]) # Столбчатый график plt.bar(['A', 'B', 'C', 'D'], [1, 2, 3, 4]) # Круговая диаграмма plt.pie([1, 2, 3, 4], labels=['A', 'B', 'C', 'D'])
Настройка графиков
Измените стиль, заголовки и легенду графика:
plt.plot([1, 2, 3, 4], label='Line', linestyle='--', color='red') plt.title('Example Plot') plt.xlabel('X-axis') plt.ylabel('Y-axis') plt.legend()
Отображение графиков
После создания графика используйте функцию plt.show() для его отображения:
Теперь вы знаете основы работы с библиотеками NumPy, Pandas и Matplotlib в Python. Продолжайте изучать эти библиотеки и экспериментировать с различными функциями и методами, чтобы улучшить свои навыки анализа данных и визуализации. 😊