В этой статье мы продолжим изучение основ статистики для науки о данных. В моей последней статье мы обсуждали такие темы, как что такое статистика, описательная статистика и статистика вывода, различные виды методов выборки и т. д. Сегодня мы обсудим, что такое гистограммы, меры центральной тенденции и их практическое применение, а также меры дисперсии.

Перед чтением этой статьи настоятельно рекомендуется прочитать мою предыдущую статью Основы статистики для науки о данных — часть 1.

Гистограмма

Гистограмма — это графическое представление распределения набора данных. Это столбчатая диаграмма, отображающая частоту или пропорцию значений данных в каждом интервале или ячейке. Гистограммы полезны для понимания формы, центра и распространения распределения, а также для выявления выбросов и необычных закономерностей в данных.

Шаги для создания гистограммы

Допустим, у нас есть список возрастов (выборка) людей, такой что

Возраст = [25,30,10,40,35,20]

Шаги для создания гистограммы с использованием вышеизложенного будут следующими:

  • Отсортируйте список/номера:
    Возраст = [10,20,25,30,35,40]
    Здесь минимальный возраст = 10, а максимальный возраст = 40
  • Определите количество контейнеров. Допустим, контейнеров = 10.
  • Размер ячейки:

Теперь предположим, что у нас есть больше данных, таких что

Возраст = [10,12,14,18,24,26,30,35,36,37,40,41,42,43,50,51,65,68,78,90,95,100]

Здесь мин. = 10, макс. = 100, бины = 10

Размер корзины = 100/10 = 10

  • Сглаживание гистограммы создает функцию плотности вероятности.
  • Путем сглаживания гистограммы мы получаем распределение данных.

Функция плотности вероятности (PDF) и функция массы вероятности (PMF)

Функция плотности вероятности (PDF) — это фундаментальное понятие в теории вероятностей и статистике. Это математическая функция, описывающая вероятность того, что случайная величина примет определенное значение в заданном диапазоне. Проще говоря, PDF сообщает нам вероятность выбора определенного значения, если бы мы случайным образом выбирали из диапазона возможных значений.

PDF — важный инструмент для понимания распределения данных. Анализируя форму PDF, мы можем выявлять тенденции и делать прогнозы будущих событий. Например, если PDF скошена влево, мы знаем, что значения, как правило, меньше среднего, а если она скошена вправо, мы знаем, что значения имеют тенденцию быть больше среднего.

Функция массы вероятности (PMF) аналогична PDF, но с одним отличием: PDF используется для непрерывных переменных, а PMF — для дискретных.

Меры центральной тенденции

Мера центральной тенденции — это отдельное значение, которое пытается описать набор данных, идентифицирующих центральное положение.

  • Среднее значение.Среднее значение – это среднее значение всех чисел, представленных в наборе данных.
    Пример: X = [1,2,3,4,5] => Среднее значение = (1+2+ 3+4+5)/5 = 3

Среднее значение должно быть определено на основе двух факторов:

  • Среднее значение генеральной совокупности: среднее значение всех точек данных.

  • Среднее по выборке: среднее значение всех точек данных в выборке.

Пример:

Возраст населения = [24,23,2,1,28,27]

Здесь N = 6

Среднее значение населения = (24 + 23 + 2 + 1 + 28 + 27)/6 = 17,5

Возраст выборки = [24,2,1,27]

Здесь п = 4

Выборочное среднее = (24 + 2 + 1 + 27)/4 = 13,5

Практическое применение среднего

Допустим, у нас есть набор данных со значениями NaN, как показано в таблице. Теперь, если мы отбросим всю строку со значением NaN, произойдет потеря информации. Итак, мы можем попытаться найти среднее значение каждого столбца и заменить им значения NaN.

Медиана:

Медиана — это среднее значение в наборе данных, когда значения расположены в порядке от наименьшего к наибольшему. Он менее чувствителен к экстремальным значениям, чем среднее, и является лучшим показателем центральной тенденции для асимметричных распределений.

Шаги по поиску медианы:

  • Рассортируйте числа.
  • Найдите центральное число при двух условиях:

1: Если количество элементов четное, мы находим среднее значение центральных элементов.
2: Если количество элементов нечетное, мы находим центральный элемент.

Данные = [1,2,3,4,5,6,7,8,100,200] => Четные элементы => Медиана = (5+6)/2 = 5,5

Данные = [1,2,3,4,5,6,7,8,100] => Нечетные элементы => Медиана = 5

Здесь, если вы заметили, у нас есть выбросы в нашем наборе данных, такие как 100 и 200. Поскольку медиана — это среднее значение отсортированного набора данных. На него не влияют экстремальные значения, так как он учитывает только положение значений в наборе данных, а не их фактические значения, и считается лучше, чем среднее значение по отношению к выбросам.

Mode: наиболее часто встречающийся элемент.

Данные = [1,2,2,3,3,3,3,4,4,5] => Режим = 3

Практическое применение режима: если у нас есть такие данные, как типы цветов, мы можем использовать значение режима для замены значений NaN.

Пример: [Лилия, Подсолнух, Роза, NaN, Роза, Подсолнух, Роза, NaN] => Здесь мы можем заменить NaN на Rose.

Мера дисперсии

  • Дисперсия. Дисперсия — это среднее квадратов отличий каждого значения от среднего. Он измеряет разброс значений данных от среднего. Высокая дисперсия указывает на то, что значения данных сильно разбросаны от среднего значения, а низкая дисперсия указывает на то, что значения данных плотно сгруппированы вокруг среднего значения.

С увеличением дисперсии увеличивается разброс кривой.

  • Стандартное отклонение. Стандартное отклонение – это квадратный корень из дисперсии. Это более интуитивно понятная мера изменчивости, чем дисперсия, поскольку она выражается в тех же единицах, что и значения данных. Высокое стандартное отклонение указывает на то, что значения данных сильно разбросаны от среднего значения, а низкое стандартное отклонение указывает на то, что значения данных плотно сгруппированы вокруг среднего значения.

Заключение

В этой статье мы обсудили некоторые основы статистики, включая гистограммы и меры центральной тенденции, то есть среднее значение, медиану, а также моду и меру дисперсии (дисперсия и стандартное отклонение). В моих следующих статьях я затрону еще несколько тем, связанных с основами статистики в науке о данных.

Примечание. После прочтения этой статьи прочитайте следующие статьи в том порядке, в котором я упомянул, и вы сможете охватить статистику по науке о данных:

Спасибо, что прочитали эту статью! Оставьте комментарий ниже, если у вас есть какие-либо вопросы. Вы можете подписаться на меня в Linkedin и GitHub.

СТАНЬТЕ ПИСАТЕЛЕМ на MLearning.ai