Проект яндекс практикум определение перспективного тарифа для телеком компании

This is my portfolio

Добрый день!

В этом репозитории находится подборка моих проектов, выполненных в рамках обучения в Яндекс.Практикуме. Проекты расположены в порядке их выполнения. Краткое описание проектов доступно ниже

Большинство проектов выполнено в Jupyter Notebook

Преимущественно использовал следующие библиотеки:

pandas, numpy, matplotlib, seaborn, plotly, scipy

Полный список использованных библиотек можно увидеть в кратком описании проектов


Для быстрого перехода в папку проекта используйте ссылку

Название проекта Ссылка
1 Исследование надежности заемщиков /01_Borrowers_research
2 Исследование объявлений о продаже квартир /02_Research_data_analysis
3 Определение перспективного тарифа для телеком компании /03_Best_tariff
4 Выявление закономерностей, определяющих успешность компьютерной игры /04_Games
5 Аналитика в авиакомпании /05_Avia
6 Аналитика в Яндекс.Афише /06_Yandex.Afisha
7 Приоритизация гипотез, запуск A/B-теста и анализ его результатов для интернет-магазина /07_ABtest
8 Рынок заведений общественного питания Москвы /08_Moscow_rests
9 Изучение поведения пользователей мобильного приложения стартапа продажи продуктов питания /09_Users_behavior
10 Аналитика в Яндекс.Дзен /10_Yandex.Zen
11 Анализ данных фитнес-клуба /11_Predictions
12 Финальный проект:
    A/B-тестирование
    Анализ для книжного стартапа (SQL)
    Поиск клиента с неоптимальными тарифами
/12_Final_project

Краткое описание проектов

1. Исследование надежности заемщиков

На основе данных кредитного отдела банка исследовал влияние семейного положения и количества детей на факт погашения кредита в срок. Была получена информация о данных. Определены и обработаны пропуски. Заменены типы данных на соответствующие хранящимся данным. Удалены дубликаты. Выделены леммы в значениях столбца и категоризированы данные.

В результате пришел к следующим выводам:

  • бездетные клиенты отдают кредиты лишь на 1% чаще клиентов с детьми. Среди клиентов с детьми процент просрочки наиболее высокий у семей с 4 детьми. Наименьший процент просрочки у клиентов с 3 детьми
  • процент просрочки кредита (в зависимости от семейного положения) примерно одинаков, однако выделяются вдовцы — их процент меньшее, чем у неженатых, примерно на 3%. Самые безответственные — неженатые и живущие в гражданском браке. Выборка по женатым заявителям в разы больше остальных категорий
  • наблюдается небольшая зависимость между уровнем дохода и вероятностью просрочки кредита — реже всего допускают просрочку кредита люди с высоким доходом, затем идут люди с низким доходом
  • процент просроченных кредитов заявителей, бравших кредит на ремонт, ниже, чем у берущих кредит на свадьбу или покупку недвижимости. Кредиты на автомобиль и образование возвращаются реже всего

Библиотеки:
pandas, pymystem3

Ключевые слова:
обработка данных, дубликаты, пропуски, категоризация, лемматизация


2. Исследование объявлений о продаже квартир

На основе данных сервиса Яндекс.Недвижимость определена рыночная стоимость объектов недвижимости разного типа, типичные параметры квартир, в зависимости от удаленности от центра. Проведена предобработка данных. Добавлены новые данные. Построены гистограммы, боксплоты, диаграммы рассеивания.

По результатам выяснил, что стоимость квартиры зависит от площади, количества комнат, удаленности от центра города. Расположение квартиры на первом или последнем этаже в целом не влияет на стоимость, однако это может отличаться от района к району.

Библиотеки:
pandas, matplotlib, numpy

Ключевые слова:
обработка данных, histogram, boxplot, scattermatrix, категоризация, scatterplot


3. Определение перспективного тарифа для телеком компании

Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей. Проведена предобработка данных, их анализ. Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов.

Выводы:

  • выручки абонентов двух разных тарифов статистически значимо различаются
  • выручка абонентов из Москвы не имеет статистически значимого отличия от выручки абонентов из других регионо

Библиотеки:
pandas, matplotlib, seaborn numpy, scipy

Ключевые слова:
обработка данных, histogram, boxplot, статистический тест, критерий Стьюдента


4. Выявление закономерностей, определяющих успешность компьютерной игры

Выявлены параметры, определяющие успешность игры в разных регионах мира. На основании этого подготовлен отчет для магазина компьютерных игр для планирования рекламных кампаний. Проведена предобработка данных, анализ. Выбран актуальный период для анализа. Составлены портреты пользователей каждого региона. Проверены гипотезы: средние пользовательские рейтинги платформ Xbox One и PC одинаковые; средние пользовательские рейтинги жанров Action (англ. «действие», экшен-игры) и Sports (англ. «спортивные соревнования») разные. При анализе использовал критерий Стьюдента для независимых выборок.

Выводы:

  • средние пользовательские рейтинги значимо не различаются
  • средние пользовательские рейтинги жанров Action и Sports разные

Библиотеки:
pandas, matplotlib, seaborn numpy, scipy

Ключевые слова:
обработка данных, histogram, boxplot, статистический тест, критерий Стьюдента, piechart


5. Аналитика в авиакомпании

Проведена выгрузка и подготовка предоставленных данных авиакомпании средствами SQL. Проверена гипотеза о различии среднего спроса на билеты во время проведения различных фестивалей и в обычное время​.

По итогам теста сделал следующий вывод: средний спрос на билеты во время фестивалей значимо не отличается от среднего спроса на билеты в обычное время

Библиотеки:
pandas, matplotlib, seaborn numpy, scipy, requests

Ключевые слова:
обработка данных, статистический тест, критерий Стьюдента, barplot, парсинг данных


6. Аналитика в Яндекс.Афише

Проведен анализ данных от Яндекс.Афиши целью оптимизации маркетинговых затрат. Рассчитаны метрики LTV, CAC, Retention rate, DAU, WAU, MAU, ROMI

По результатам даны рекомендации о стратегии финансирования маркетинга.

Библиотеки:
pandas, matplotlib, seaborn numpy, scipy

Ключевые слова:
обработка данных, статистический тест, LTV, CAC, когортный анализ


7. Приоритизация гипотез, запуск A/B-теста и анализ его результатов для интернет-магазина

Проведена приоритизация гипотез по фреймворкам ICE и RICE. Затем провел анализ результатов A/B-теста, построил графики кумулятивной выручки, среднего чека, конверсии по группам, а затем посчитал статистическую значимость различий конверсий и средних чеков по сырым и очищенным данным. На основании анализа мной было принято решение о нецелесообразности дальнейшего проведения теста.

Библиотеки:
pandas, datetime, numpy, matplotlib, scipy, seaborn

Ключевые слова:
A/B-тест, статистический тест, фреймворк, RICE, ICE


8. Рынок заведений общественного питания Москвы

Мною был исследован вопрос — будет ли успешным и популярным на долгое время кафе, в котором гостей обслуживают роботы-официанты. По результатам анализа подготовлена презентация для инвесторов с рекомендациями. В построении графиков я использовали библиотеки seaborn и plotly Также мне потребовалось получить район расположения кафе-конкурентов. Эту задачу я решил, подключившись к API Яндекс.Геокодер библиотекой requests

На основе анализа сделал следующие выводы:

  • преобладающий вид заведения — кафе со средним количеством посадочных мест — 40
  • наибольшее количество заведений — на Пресненской набережной в Пресненском районе. Среднее количество посадочных мест в объектах этого района — 50
  • рекомендуемое расположение кафе — Пресненский район, предполагаемое количество мест — до 50

Библиотеки:
pandas, numpy, matplotlib, plotly, seaborn, re, requests, bs4

Ключевые слова:
API, парсинг, BeautifulSoup, jointplot


9. Изучение поведения пользователей мобильного приложения стартапа продажи продуктов питания

В данном проекте мной были изучены принципы событийной аналитики. Я построил воронку продаж, исследовал путь пользователей до покупки. Проанализировал результаты A/B-теста введения новых шрифтов. Сравнил 2 контрольных группы между собой, убедился в правильном разделении трафика, а затем сравнил с тестовой группой Выявлено, что новый шрифт значительно не повлияет на поведение пользователей.

Библиотеки:
pandas, numpy, matplotlib, plotly, seaborn, scipy, math, datetime

Ключевые слова:
A/A/B-тест, визуализация, статистический тест


10. Аналитика в Яндекс.Дзен

Работу над этим проектом я провел на удаленной машине в сервисе Yandex.Cloud. Мной был установлен PostgreSQL, развернута база данных. Затем я написал скрипт пайплайна, который позволил собирать данные за определенный временной период, и настроил его автономную работу через crontab. Для визуализации собранных данных я написал скрипт дашборда с несколькими фильтрами и также запустил его на удаленной машине. По результатам была подготовлена презентация с полученными графиками

Библиотеки:
sys, getopt, pandas, sqlalchemy, matplotlib, plotly, dash, dash_core_components, dash_html_components, datetime

Ключевые слова:
дашборд, пайплайн, Yandex.Cloud, удаленный сервер, виртуальная машина, cron


11. Анализ данных фитнес-клуба

В данном проекте использовано машинное обучение. Спрогнозировал вероятность оттока (на уровне следующего месяца) для каждого клиента; сформировал типичные портреты пользователей: выделил наиболее яркие группы, охарактеризовал их основные свойства; проанализировал основные признаки, наиболее сильно влияющие на отток.

По итогам исследования выделил 3 группы пользователей — младше 25 лет, 25-30 лет и старше 30 лет

Рекомендовал задуматься над удержанием аудитории 25 лет и младше. Возможно, отток связан с высокой ценой абонемента

Стоит сосредоточиться на увеличении количества клиентов из наиболее лояльной группы — 30 и старше. Так как основной доход (от длительных контрактов и больших трат на сопутствующие услуги) приносят они.

Предложил вести обзвон клиентов либо каким-то другими способами напоминать ему о том, что он давно не ходил в клуб — так у клиента будет вырабатываться привычка к посещению и он будет продлевать свой абонемент дальше.

Библиотеки:
pandas, sklearn, matplotlib, seaborn

Ключевые слова:
KMeans, Machine Learning, дендрограмма, RandomForestClassifier, LogisticRegression


12. Финальный проект

Проект состоит из трех частей:

  • A/B-тестирование
  • Анализ данных с применением SQL
  • Поиск клиента с неоптимальными тарифами

A/B-тестирование

Проанализирована корректность проведения тестирования и полученные результаты. На основании анализа сделал вывод, что тест проведен некорректно и интерпретация результатов приведет к неверным выводам

Библиотеки:
pandas

Ключевые слова:
A/B-тест, сезонность, корректность

Анализ данных с применением SQL

Провел исследовательский анализ данных сервиса по продаже книг, благодаря которому станет возможно сформулировать ценностное предложение для нового продукта. Выполнил анализ на языке SQL

Сделал следующие выводы:

  • в топ-10 самых оцениваемых книг входит преимущественно фэнтези. Наивысшая средняя оценка у автора книги в этом жанре.

  • Стоит предусмотреть систему вознаграждений пользователей за оставленные отзывы о книгах

Библиотеки:
pandas, sqlalchemy

Ключевые слова:
SQL, sqlalchemy, анализ

Поиск клиента с неоптимальными тарифами

Перед выполнением проекта провел декомпозицию задачи.

Провел исследовательский анализ данных.
Нашел переплачивающих на текущих тарифах клиентов. Также нашел клиентов, которые требуют повышения тарифного плана, т.к. им это будет выгоднее. Поиск осуществил только по активным клиентам.
Нашел клиентов, потребление услуг которыми снизилось — для таких клиентов предложил более выгодный тариф.
Проверил статистические гипотезы об уменьшении выручки после перевода клиентов на более выгодные для них тарифы.

По результатам решения задачи подготовил презентацию с выводами и рекомендациями.

Библиотеки:
pandas, numpy, datetime, math, scipy, matplotlib, seaborn, plotly

Ключевые слова:
статистический тест, тарифы, EDA, декомпозиция

training-project-2

Определение перспективного тарифа для телеком компании

Описание проекта

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.

Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

Описание тарифов

Тариф «Смарт»

  1. Ежемесячная плата: 550 рублей
  2. Включено 500 минут разговора, 50 сообщений и 15 Гб интернет-трафика
  3. Стоимость услуг сверх тарифного пакета:
  • минута разговора: 3 рубля
  • сообщение: 3 рубля
  • 1 Гб интернет-трафика: 200 рублей

Тариф «Ультра»

  1. Ежемесячная плата: 1950 рублей
  2. Включено 3000 минут разговора, 1000 сообщений и 30 Гб интернет-трафика
  3. Стоимость услуг сверх тарифного пакета:
  • минута разговора: 1 рубль
  • сообщение: 1 рубль
  • 1 Гб интернет-трафика: 150 рублей

Обратите внимание: «Мегалайн» всегда округляет вверх значения минут и мегабайтов. Если пользователь проговорил всего 1 секунду, в тарифе засчитывается целая минута.

Описание данных

Таблица users (информация о пользователях):

  • user_id — уникальный идентификатор пользователя
  • first_name — имя пользователя
  • last_name — фамилия пользователя
  • age — возраст пользователя (годы)
  • reg_date — дата подключения тарифа (день, месяц, год)
  • churn_date — дата прекращения пользования тарифом (если значение пропущено, то тариф ещё действовал на момент выгрузки данных)
  • city — город проживания пользователя
  • tariff — название тарифного плана

Таблица calls (информация о звонках):

  • id — уникальный номер звонка
  • call_date — дата звонка
  • duration — длительность звонка в минутах
  • user_id — идентификатор пользователя, сделавшего звонок

Таблица messages (информация о сообщениях):

  • id — уникальный номер сообщения
  • message_date — дата сообщения
  • user_id — идентификатор пользователя, отправившего сообщение

Таблица internet (информация об интернет-сессиях):

  • id — уникальный номер сессии
  • mb_used — объём потраченного за сессию интернет-трафика (в мегабайтах)
  • session_date — дата интернет-сессии
  • user_id — идентификатор пользователя

Таблица tariffs (информация о тарифах):

  • tariff_name — название тарифа
  • rub_monthly_fee — ежемесячная абонентская плата в рублях
  • minutes_included — количество минут разговора в месяц, включённых в абонентскую плату
  • messages_included — количество сообщений в месяц, включённых в абонентскую плату
  • mb_per_month_included — объём интернет-трафика, включённого в абонентскую плату (в мегабайтах)
  • rub_per_minute — стоимость минуты разговора сверх тарифного пакета (например, если в тарифе 100 минут разговора в месяц, то со 101 минуты будет взиматься плата)
  • rub_per_message — стоимость отправки сообщения сверх тарифного пакета
  • rub_per_gb — стоимость дополнительного гигабайта интернет-трафика сверх тарифного пакета (1 гигабайт = 1024 мегабайта)

Яндекс.Практикум, курс «Аналитик данных»

В данном репозитории расположены проекты, основанные на реальных данных, которые были в качестве домашнего задания в рамках обучения по курсу «Аналитик данных» на платфоре Яндекс.Практикум.

Всего 12 проектов, 2 из них сборных (содежащие в себе задания по пройденным темам), 1 выпускной проект и 9 тематических.

Каждая папка проекта содержит название пройденной темы обучения, название проекта содержит название исследования/анализа:

п/п Название проекта Задача Навыки и инструменты
1. Исследование надёжности заёмщиков На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок предобработка данных, Python, Pandas, PyMystem3, лемматизация
2. Исследование объявлений о продаже квартир Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир Python, Pandas, Matplotlib, исследовательский анализ данных, визуализация данных, предобработка данных
3. Определение перспективного тарифа для телеком компании На основе данных клиентов оператора сотовой связи проанализировать поведение клиентов и поиск оптимального тарифа Python, Pandas, Matplotlib, NumPy, SciPy, описательная статистика, проверка статистических гипотез
4. Определение закономерностей успешности компьютерных игр Используя исторические данные о продажах компьютерных игр, оценки пользователей и экспертов, жанры и платформы, выявить закономерности, определяющие успешность игры Python, Pandas, NumPy, Matplotlib, предобработка данных, исследовательский анализ данных, описательная статистика, проверка статистических гипотез
5. Аналитика в авиакомпании Произвести выгрузки и подготовку данных авиакомпаний с помощью SQL, проверить гипотезу о различии среднего спроса на билеты во время различных событий SQL, Python, Pandas, Matplotlib, SciPy, проверка статистических гипотез
6. Анализ источников трафика и перераспределение бюджета отдела маркетинговой аналитики Яндекс.Афиши На основе данных о посещениях сайта Яндекс.Афиши изучить, как люди пользуются продуктом, когда они начинают покупать, сколько денег приносит каждый клиент, когда он окупается Python, Pandas, Matplotlib, когортный анализ, юнит-экономика, продуктовые метрики
7. Приоритезация гипотез и анализ A-B теста для увеличения выручки крупного интернет-магазина Используя данные интернет-магазина приоритезировать гипотезы, произвести оценку результатов A/B-тестирования различными методами Python, Pandas, Matplotlib, SciPy, A/B-тестирование, проверка статистических гипотез
8. Исследование рынка заведений общественного питания Москвы Исследование рынка общественного питания на основе открытых данных, подготовка презентации для инвесторов Python, Pandas, Seaborn, визуализация данных
9. Исследование поведения пользователей в мобильном приложении продажи продуктов питания На основе данных использования мобильного приложения для продажи продуктов питания проанализировать воронку продаж, а также оценить результаты A/A/B-тестирования A/B-тестирование, Python, Pandas, Matplotlib, Seaborn, событийная аналитика, продуктовые метрики, проверка статистических гипотез, визуализация данных
10. Анализ взаимодействия пользователей с карточками Яндекс.Дзен Используя данные Яндекс.Дзена построить дашборд с метриками взаимодействия пользователей с карточками статей Python, SQLAlchemy, PostgreSQL, dash, Tableau, продуктовые метрики, построение дашбордов
11. Разработка стратегии взаимодействия с пользователями на основе аналитических данных На основе данных о посетителях сети фитнес-центров спрогнозировать вероятность оттока для каждого клиента в следующем месяце, сформировать с помощью кластеризации портреты пользователей Python, Pandas, Scikit-learn, Matplotlib, Seaborn, машинное обучение, классификация, кластеризация
12. Выпускной проект:
1. Определение неэффективных операторов телеком-компании «Нупозвони» Определить самых неэффективных операторов по определенным признакам низкой эффективности Python, Pandas, Matplotlib, предобработка данных, исследовательский анализ данных, визуализация данных, проверка статистических гипотез, построение дашбордов и презентации
2. Оценка результатов A-B-теста По данным действий пользователей необходимо оценить корректность проведения A/B теста и проанализировать результаты Python, Pandas, Matplotlib, SciPy, A/B-тестирование, проверка статистических гипотез
3. Книжное дело Компанией было приобретен крупный сервис для чтения книг по подписке. Необходимо проанализировать имеющуюся информацию и определить направления развития SQL, Python

Обязанности:

В рамках программы Яндекс.Практикума «Аналитик данных» выполнены следующие проекты:

1. Предобработка данных. Исследование надёжности заёмщиков банка, построение модели кредитного скоринга банка.

2. Исследовательский анализ данных. Исследование объявлений о продаже квартир. Определение ключевых параметров для отслеживания системой аномалий и мошеннической деятельности.

3. Статистический анализ данных. Определение перспективного тарифа для телеком-компании.
• Анализ поведения клиентов.
• Проверка статистических гипотез о равенстве средних.

4. Сборный проект. Изучение рынка компьютерных игр на основе данных о продажах за 30 лет. Анализ закономерностей определяющих коммерческую успешность игр.

5. Исследование данных авиакомпании.
• Выгрузка и подготовка данных с помощью SQL.
• Проверка гипотез.
• Определение интенсивности использования авиапарка.

6. Анализ бизнес-показателей. Оптимизация маркетинговых затрат.
• Определение сценария использования продукта (сайта);
• Расчет бизнес-показателей: выручка, средний чек, LTV, CAC, Retention rate.
• Определение срока окупаемости затрат на клиента, ROI (ROMI).

7. A/B-тест, приоритизация гипотез.
• Приоритизация с помощью алгоритмов ICE, RICE.
• Анализ А/B теста, проверка гипотез
• Непараметрический тест Уилкоксона-Манна-Уитни

8. Анализ и подготовка данных для презентации. Рынок заведений общественного питания Москвы
• Анализ состава сетевых и несетевых структур по типам предприятий, местоположению, количеству посадочных мест.

9. Анализ пользовательского поведения в мобильном приложении
• Оценка результатов A/A/B-эксперимента по изменению шрифтов в приложении.

Применяемый стек технологий: Python, Pandas, Matplotlib, Seaborn, Plotly, PyMystem3 (лемматизация), категоризация данных, NumPy, SciPy, Когортный анализ, SQL,
A/B тестирование, описательная статистика, проверка статистических гипотез, продуктовые метрики, событийная аналитика.

Проекты доступны для просмотра по ссылке https://github.com/petrushkoam/education_praktikum.

Все работы проходят обязательную верификацию код-ревьюверами и должны быть приняты в зачет по правилам обучения.

Навыки полученные в процессе обучения:
• Python (Pandas) и SQL на базовом уровне: умение использовать их для извлечения данных и произведения вычислений над ними.
• Визуализация данных с помощью сторонних библиотек Seaborn, Matplotlib, Plotly.
• Знание основ статистики и теории вероятности, умение работать с гипотезами.
• Понимание потребностей бизнеса в части аналитики.
• Применение А/В тестов в анализе данных.
• Сбор и обработка данных из разных источников, применение SQL запросов и Web Mining.
• Регулярные выражения.
• Использование методов web-аналитики, событийной аналитики.
• Автоматизации процессов сбора и анализа данных. • • Построение пайплайнов и дашбордов, основы работы в Tableau.

Понравилась статья? Поделить с друзьями:

Другие крутые статьи на нашем сайте:

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии