В этом посте мы будем классифицировать, имеет ли кто-либо право на получение кредита, используя набор данных о доме мечты от Kaggle. Мы также создадим потоковое приложение для выполнения классификации и изучения данных.

Наша цель

Немного о данных

Компания Dream Housing Finance занимается всеми видами ипотечных кредитов. Они присутствуют во всех городских, пригородных и сельских районах. Сначала клиент подает заявку на ипотечный кредит, а после этого компания подтверждает право клиента на получение кредита.

Давайте погрузимся в

Во-первых, весь проект находится на моей странице GitHub, посмотрите его.

Первое, что мы делаем, это собираем данные из kaggle и запускаем их в блокнот jupyter, чтобы начать проект. Сначала мы смотрим на наши данные и пытаемся их понять. Вот тут-то и появляется EDA.

Набор данных довольно простой и небольшой, цель состоит в том, чтобы сначала изучить данные как можно больше, чтобы понять, с чем мы работаем, при этом мы выполняем исследовательский анализ данных. мы только что проверили тип данных наших данных.

Затем мы переходим к визуализации данных. «теперь это та часть, которая мне нравится». мы выполняем различные уровни визуализации столько, сколько можем.

Эта диаграмма показывает нам, что больше людей запрашивают кредиты ниже отметки в 200 долларов, чем другие. просмотр этого дает числовую картину того, какие суммы кредита запрашиваются больше, чем другие.

Теперь все ясно, верно?
Мужчины запрашивают больше кредитов, чем женщины. сколько времени потребуется вам или другим людям, не разбирающимся в технологиях, чтобы получить эту информацию, если вы просматриваете необработанные данные в CSV-файле?
«Я бы не хотел пробовать это».

Чтобы увидеть больше визуализации, посетите блокнот здесь.

КЛАССИФИКАЦИЯ

Целью после изучения и понимания данных является попытка заставить нас обучить модель и письмо, классифицирующее, можете ли вы, ваша семья или кто-либо еще получить кредит в финансовой компании Dream House.

Код, относящийся к классификации, хорошо прокомментирован в блокноте, поэтому я не буду тратить слишком много времени, пытаясь объяснить его в этом посте. но я объясню в общих чертах, что мы планируем сделать с конечным результатом.

Если вы собираетесь эффективно обучать модель, вы должны изучить ее, как мы сделали выше, когда мы это сделаем, мы поймем, чего не хватает, что является несоответствием, а что пустым. таким образом, перед обучением нам нужно очистить данные, чтобы в итоге получить эффективную модель, которая обобщает данные.

Очистка данных настолько важна, чтобы иметь модель, которая обобщает непредвиденные данные. «и вы хотите, чтобы эта модель работала правильно»

После очистки данных вы заметите, что у вас есть данные в формате строк, таких как пол, образование и т. д.
Вы не можете обучить модель, используя такие данные. если вы не знали, то теперь знаете».

Кодирование ваших строковых данных в число с плавающей запятой является неотъемлемой частью получения желаемых результатов, после чего вы можете перейти к обучению или, что еще лучше, вы можете выполнить нормализацию данных, которая также хорошо работает в большинстве случаев.

На этом этапе мы обучаем нашу модель, а затем проверяем ее с помощью наших тестовых данных. OHH забыл написать о разделении данных, «воспользуйтесь возможностью посетить блокнот, чтобы увидеть, что я на самом деле делаю».

Предварительное заключение перед фактическим заключением

Мы тренируемся на нескольких разных моделях и выбираем ту, которая, по нашему мнению, является лучшей, «это зависит от вас». и мы сохраняем модель, в данном случае с помощью библиотеки pickle.
Затем мы перезагружаем ее и смотрим, дает ли она нам тот же результат, тем самым убеждаясь, что мы поступили правильно и результат соответствует нашему удовлетворению.

ПОТОК ЗАЖИГАННЫЙ

Да, теперь мы создаем потоковое веб-приложение, чтобы все это имело смысл. Для меня важно реализовать свои модели, когда я трачу время на их обучение и убеждаюсь, что они достигают намеченной цели.

Я не собираюсь подробно описывать реализацию моего кода, освещенного паром, но если вы хотите, я могу это сделать. Я могу написать об этом в блоге». Просто спроси "

Как это выглядит

"Нажмите здесь, чтобы посетить сайт

Этот раздел приложения позволяет нам исследовать данные, которые мы использовали для обучения модели, которая реализуется здесь. «Круто, правда?»

Спасибо, что дочитали до конца…

Следите за следующей статьей, у нас будет классификация изображений и, надеюсь, классное приложение, на этот раз мы перейдем к другому интересному фреймворку.

Ловите меня на:
Портфолио
, Github, Linkedin, Instagram