Словарь
- Датафрейм — ****проиндексированный многомерный массив значений, где каждому значению соответствует индекс строки и колонки. Или просто — таблица, в которой несколько столбцов.
- Серии (Series) — ****проиндексированный одномерный массив значений. Или просто — таблица с одной колонкой.
- Гомогенность — однотипность. В анализе табличных данных обычно используется, чтобы обозначить, что названия столбцов одной таблицы соответствуют столбцам другой. Предполагается, что данные в столбцах тоже однотипны.
- Стандартное отклонение показывает, как распределены значения относительно среднего в нашей выборке.
Импорт библиотеки Pandas
import pandas as pd #импортируем Pandas
Загрузка данных из внешних источников
.read_csv( )
Загружает табличные данные из файлов формата .csv. Имеет множество аргументов
для настройки полученных данных. Документация.
df = pd.read_csv('doc_in_csv.csv') # загрузит датафрейм из .csv
# назначит в качестве индекса столбец column
df = pd.read_csv('doc_in_csv.csv', index_col = 'column')
.read_excel( )
Загружает данные из документов формата Excel
df = pd.read_excel('doc_in_xls.xlsx') # загрузит датафрейм из .xlsx
Сводная информация о датафрейме
.info( )
Выводит общую информацию о строках и колонках:
- количество строк и колонок