В этой статье мы продолжим изучение основ статистики для науки о данных. В моей последней статье мы обсуждали такие темы, как что такое статистика, описательная статистика и статистика вывода, различные виды методов выборки и т. д. Сегодня мы обсудим, что такое гистограммы, меры центральной тенденции и их практическое применение, а также меры дисперсии.
Перед чтением этой статьи настоятельно рекомендуется прочитать мою предыдущую статью Основы статистики для науки о данных — часть 1.
Гистограмма
Гистограмма — это графическое представление распределения набора данных. Это столбчатая диаграмма, отображающая частоту или пропорцию значений данных в каждом интервале или ячейке. Гистограммы полезны для понимания формы, центра и распространения распределения, а также для выявления выбросов и необычных закономерностей в данных.
Шаги для создания гистограммы
Допустим, у нас есть список возрастов (выборка) людей, такой что
Возраст = [25,30,10,40,35,20]
Шаги для создания гистограммы с использованием вышеизложенного будут следующими:
- Отсортируйте список/номера:
Возраст = [10,20,25,30,35,40]
Здесь минимальный возраст = 10, а максимальный возраст = 40 - Определите количество контейнеров. Допустим, контейнеров = 10.
- Размер ячейки:
Теперь предположим, что у нас есть больше данных, таких что
Возраст = [10,12,14,18,24,26,30,35,36,37,40,41,42,43,50,51,65,68,78,90,95,100]
Здесь мин. = 10, макс. = 100, бины = 10
Размер корзины = 100/10 = 10
- Сглаживание гистограммы создает функцию плотности вероятности.
- Путем сглаживания гистограммы мы получаем распределение данных.
Функция плотности вероятности (PDF) и функция массы вероятности (PMF)
Функция плотности вероятности (PDF) — это фундаментальное понятие в теории вероятностей и статистике. Это математическая функция, описывающая вероятность того, что случайная величина примет определенное значение в заданном диапазоне. Проще говоря, PDF сообщает нам вероятность выбора определенного значения, если бы мы случайным образом выбирали из диапазона возможных значений.
PDF — важный инструмент для понимания распределения данных. Анализируя форму PDF, мы можем выявлять тенденции и делать прогнозы будущих событий. Например, если PDF скошена влево, мы знаем, что значения, как правило, меньше среднего, а если она скошена вправо, мы знаем, что значения имеют тенденцию быть больше среднего.
Функция массы вероятности (PMF) аналогична PDF, но с одним отличием: PDF используется для непрерывных переменных, а PMF — для дискретных.
Меры центральной тенденции
Мера центральной тенденции — это отдельное значение, которое пытается описать набор данных, идентифицирующих центральное положение.
- Среднее значение.Среднее значение – это среднее значение всех чисел, представленных в наборе данных.
Пример: X = [1,2,3,4,5] => Среднее значение = (1+2+ 3+4+5)/5 = 3
Среднее значение должно быть определено на основе двух факторов:
- Среднее значение генеральной совокупности: среднее значение всех точек данных.
- Среднее по выборке: среднее значение всех точек данных в выборке.
Пример:
Возраст населения = [24,23,2,1,28,27]
Здесь N = 6
Среднее значение населения = (24 + 23 + 2 + 1 + 28 + 27)/6 = 17,5
Возраст выборки = [24,2,1,27]
Здесь п = 4
Выборочное среднее = (24 + 2 + 1 + 27)/4 = 13,5
Практическое применение среднего
Допустим, у нас есть набор данных со значениями NaN, как показано в таблице. Теперь, если мы отбросим всю строку со значением NaN, произойдет потеря информации. Итак, мы можем попытаться найти среднее значение каждого столбца и заменить им значения NaN.
Медиана:
Медиана — это среднее значение в наборе данных, когда значения расположены в порядке от наименьшего к наибольшему. Он менее чувствителен к экстремальным значениям, чем среднее, и является лучшим показателем центральной тенденции для асимметричных распределений.
Шаги по поиску медианы:
- Рассортируйте числа.
- Найдите центральное число при двух условиях:
1: Если количество элементов четное, мы находим среднее значение центральных элементов.
2: Если количество элементов нечетное, мы находим центральный элемент.
Данные = [1,2,3,4,5,6,7,8,100,200] => Четные элементы => Медиана = (5+6)/2 = 5,5
Данные = [1,2,3,4,5,6,7,8,100] => Нечетные элементы => Медиана = 5
Здесь, если вы заметили, у нас есть выбросы в нашем наборе данных, такие как 100 и 200. Поскольку медиана — это среднее значение отсортированного набора данных. На него не влияют экстремальные значения, так как он учитывает только положение значений в наборе данных, а не их фактические значения, и считается лучше, чем среднее значение по отношению к выбросам.
Mode: наиболее часто встречающийся элемент.
Данные = [1,2,2,3,3,3,3,4,4,5] => Режим = 3
Практическое применение режима: если у нас есть такие данные, как типы цветов, мы можем использовать значение режима для замены значений NaN.
Пример: [Лилия, Подсолнух, Роза, NaN, Роза, Подсолнух, Роза, NaN] => Здесь мы можем заменить NaN на Rose.
Мера дисперсии
- Дисперсия. Дисперсия — это среднее квадратов отличий каждого значения от среднего. Он измеряет разброс значений данных от среднего. Высокая дисперсия указывает на то, что значения данных сильно разбросаны от среднего значения, а низкая дисперсия указывает на то, что значения данных плотно сгруппированы вокруг среднего значения.
С увеличением дисперсии увеличивается разброс кривой.
- Стандартное отклонение. Стандартное отклонение – это квадратный корень из дисперсии. Это более интуитивно понятная мера изменчивости, чем дисперсия, поскольку она выражается в тех же единицах, что и значения данных. Высокое стандартное отклонение указывает на то, что значения данных сильно разбросаны от среднего значения, а низкое стандартное отклонение указывает на то, что значения данных плотно сгруппированы вокруг среднего значения.
Заключение
В этой статье мы обсудили некоторые основы статистики, включая гистограммы и меры центральной тенденции, то есть среднее значение, медиану, а также моду и меру дисперсии (дисперсия и стандартное отклонение). В моих следующих статьях я затрону еще несколько тем, связанных с основами статистики в науке о данных.
Примечание. После прочтения этой статьи прочитайте следующие статьи в том порядке, в котором я упомянул, и вы сможете охватить статистику по науке о данных:
- Выбросы, как найти выбросы и сводка по 5 числам
- Нормальное и стандартное распространение
- Центральная предельная теорема
Спасибо, что прочитали эту статью! Оставьте комментарий ниже, если у вас есть какие-либо вопросы. Вы можете подписаться на меня в Linkedin и GitHub.