Основы статистики для науки о данных — Часть 2

В этой статье мы продолжим изучение основ статистики для науки о данных. В моей последней статье мы обсуждали такие темы, как что такое статистика, описательная статистика и статистика вывода, различные виды методов выборки и т. д. Сегодня мы обсудим, что такое гистограммы, меры центральной тенденции и их практическое применение, а также меры дисперсии.

Перед чтением этой статьи настоятельно рекомендуется прочитать мою предыдущую статью Основы статистики для науки о данных — часть 1.

Гистограмма

Гистограмма — это графическое представление распределения набора данных. Это столбчатая диаграмма, отображающая частоту или пропорцию значений данных в каждом интервале или ячейке. Гистограммы полезны для понимания формы, центра и распространения распределения, а также для выявления выбросов и необычных закономерностей в данных.

Шаги для создания гистограммы

Допустим, у нас есть список возрастов (выборка) людей, такой что

Возраст = [25,30,10,40,35,20]

Шаги для создания гистограммы с использованием вышеизложенного будут следующими:

Отсортируйте список/номера:
Возраст = [10,20,25,30,35,40]
Здесь минимальный возраст = 10, а максимальный возраст = 40
Определите количество контейнеров. Допустим, контейнеров = 10.
Размер ячейки:

Теперь предположим, что у нас есть больше данных, таких что

Возраст = [10,12,14,18,24,26,30,35,36,37,40,41,42,43,50,51,65,68,78,90,95,100]

Здесь мин. = 10, макс. = 100, бины = 10

Размер корзины = 100/10 = 10

Сглаживание гистограммы создает функцию плотности вероятности.
Путем сглаживания гистограммы мы получаем распределение данных.

Функция плотности вероятности (PDF) и функция массы вероятности (PMF)

Функция плотности вероятности (PDF) — это фундаментальное понятие в теории вероятностей и статистике. Это математическая функция, описывающая вероятность того, что случайная величина примет определенное значение в заданном диапазоне. Проще говоря, PDF сообщает нам вероятность выбора определенного значения, если бы мы случайным образом выбирали из диапазона возможных значений.

PDF — важный инструмент для понимания распределения данных. Анализируя форму PDF, мы можем выявлять тенденции и делать прогнозы будущих событий. Например, если PDF скошена влево, мы знаем, что значения, как правило, меньше среднего, а если она скошена вправо, мы знаем, что значения имеют тенденцию быть больше среднего.

Функция массы вероятности (PMF) аналогична PDF, но с одним отличием: PDF используется для непрерывных переменных, а PMF — для дискретных.

Меры центральной тенденции

Мера центральной тенденции — это отдельное значение, которое пытается описать набор данных, идентифицирующих центральное положение.

Среднее значение.Среднее значение – это среднее значение всех чисел, представленных в наборе данных.
Пример: X = [1,2,3,4,5] => Среднее значение = (1+2+ 3+4+5)/5 = 3

Среднее значение должно быть определено на основе двух факторов:

Среднее значение генеральной совокупности: среднее значение всех точек данных.

Среднее по выборке: среднее значение всех точек данных в выборке.

Пример:

Возраст населения = [24,23,2,1,28,27]

Здесь N = 6

Среднее значение населения = (24 + 23 + 2 + 1 + 28 + 27)/6 = 17,5

Возраст выборки = [24,2,1,27]

Здесь п = 4

Выборочное среднее = (24 + 2 + 1 + 27)/4 = 13,5

Практическое применение среднего

Допустим, у нас есть набор данных со значениями NaN, как показано в таблице. Теперь, если мы отбросим всю строку со значением NaN, произойдет потеря информации. Итак, мы можем попытаться найти среднее значение каждого столбца и заменить им значения NaN.

Медиана:

Медиана — это среднее значение в наборе данных, когда значения расположены в порядке от наименьшего к наибольшему. Он менее чувствителен к экстремальным значениям, чем среднее, и является лучшим показателем центральной тенденции для асимметричных распределений.

Шаги по поиску медианы:

Рассортируйте числа.
Найдите центральное число при двух условиях:

1: Если количество элементов четное, мы находим среднее значение центральных элементов.
2: Если количество элементов нечетное, мы находим центральный элемент.

Данные = [1,2,3,4,5,6,7,8,100,200] => Четные элементы => Медиана = (5+6)/2 = 5,5

Данные = [1,2,3,4,5,6,7,8,100] => Нечетные элементы => Медиана = 5

Здесь, если вы заметили, у нас есть выбросы в нашем наборе данных, такие как 100 и 200. Поскольку медиана — это среднее значение отсортированного набора данных. На него не влияют экстремальные значения, так как он учитывает только положение значений в наборе данных, а не их фактические значения, и считается лучше, чем среднее значение по отношению к выбросам.

Mode: наиболее часто встречающийся элемент.

Данные = [1,2,2,3,3,3,3,4,4,5] => Режим = 3

Практическое применение режима: если у нас есть такие данные, как типы цветов, мы можем использовать значение режима для замены значений NaN.

Пример: [Лилия, Подсолнух, Роза, NaN, Роза, Подсолнух, Роза, NaN] => Здесь мы можем заменить NaN на Rose.

Мера дисперсии

Дисперсия. Дисперсия — это среднее квадратов отличий каждого значения от среднего. Он измеряет разброс значений данных от среднего. Высокая дисперсия указывает на то, что значения данных сильно разбросаны от среднего значения, а низкая дисперсия указывает на то, что значения данных плотно сгруппированы вокруг среднего значения.

С увеличением дисперсии увеличивается разброс кривой.

Стандартное отклонение. Стандартное отклонение – это квадратный корень из дисперсии. Это более интуитивно понятная мера изменчивости, чем дисперсия, поскольку она выражается в тех же единицах, что и значения данных. Высокое стандартное отклонение указывает на то, что значения данных сильно разбросаны от среднего значения, а низкое стандартное отклонение указывает на то, что значения данных плотно сгруппированы вокруг среднего значения.

Заключение

В этой статье мы обсудили некоторые основы статистики, включая гистограммы и меры центральной тенденции, то есть среднее значение, медиану, а также моду и меру дисперсии (дисперсия и стандартное отклонение). В моих следующих статьях я затрону еще несколько тем, связанных с основами статистики в науке о данных.

Примечание. После прочтения этой статьи прочитайте следующие статьи в том порядке, в котором я упомянул, и вы сможете охватить статистику по науке о данных:

Спасибо, что прочитали эту статью! Оставьте комментарий ниже, если у вас есть какие-либо вопросы. Вы можете подписаться на меня в Linkedin и GitHub.

СТАНЬТЕ ПИСАТЕЛЕМ на MLearning.ai

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com

смотрите также:

Новые материалы

12 сайтов с искусственным интеллектом, которые поразят вас

Приготовьтесь поразить воображение Сегодня существует несколько веб-сайтов, использующих искусственный интеллект (ИИ). От индивидуальных рекомендаций по новостям до более умных поисковых..

Скрытый технический долг в системах машинного обучения [NeurIPS 2015]

Что такое технический долг? Технический долг — это метафора, введенная Уордом Каннингемом в 1992 году, чтобы объяснить долгосрочные затраты, связанные с быстрым продвижением в разработке..

Алгоритм быстрой сортировки в Python

Всем привет, добро пожаловать на programminginpython.com . Здесь я покажу вам, как реализовать алгоритм быстрой сортировки в Python. В предыдущих статьях я рассмотрел Сортировку вставкой ,..

Как использовать манипулирование объектами в JavaScript

Объекты являются важным строительным блоком JavaScript. Они позволяют группировать свойства и методы вместе. Объект представляет собой набор свойств. Свойства идентифицируются с..

Разработка игр с помощью Godot Engine: мощный инструмент с открытым исходным кодом

Разработка игр — творческий и сложный процесс, требующий множества навыков и инструментов. Одним из наиболее важных инструментов является игровой движок, который представляет собой программную..

От XML к аннотациям: переход к современной конфигурации Spring

Введение Фреймворк Spring претерпел значительную эволюцию с момента своего создания. Одним из заметных изменений стал переход от конфигураций на основе XML к конфигурациям, управляемым..

Я люблю Руби!

Я люблю Руби! Мне это нравится по той же причине, по которой мне нравится программировать на Python. Он настолько интуитивно понятен, а встроенные методы упрощают решение проблем. Если вы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Coding Web Development Deep Learning AI React Nodejs Software Engineering Java Computer Science Front End Development Typescript Development Algorithms Data Programming Languages Reactjs NLP Startup Tech ChatGPT React Native HTML Learning Developer Data Visualization Javascript Tips Computer Vision Statistics Open Source CSS Business Angular