Принятие решений в бизнесе на основе данных github

Permalink

main

Switch branches/tags

Could not load branches
Nothing to show

{{ refName }}
default

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Go to file

  • Go to file

  • Copy path


  • Copy permalink

Cannot retrieve contributors at this time

3386 lines (3386 sloc)

739 KB

Raw
Blame

Open in GitHub Desktop

  • Open with Desktop

  • View raw


  • Copy raw contents

  • View blame

Sorry, something went wrong. Reload?

Sorry, we cannot display this file.

Sorry, this file is invalid so it cannot be displayed.

Проекты курса Яндекс.Практикум «Аналитик данных»

Содержание

Название проекта Описание задачи Навыки и инструменты
01 Музыка больших городов Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в ависимости от времени (утро и вечер) и дня недели (понедельник, среда, пятница) Python, Pandas
02 Исследование надёжности заёмщиков По представленным статистическим данным о платежеспособности клиентов банка провести исследование- влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Pandas, Python, Pymystem3, Counter, предобработка данных
03 Исследование объявлений о продаже квартир По данным сервиса Яндекс.Недвижимость — архиву объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах выяснить какие факторы больше всего влияют на стоимость квартиры. Python, Pandas, Matplotlib, исследовательский анализ, визуализация данных, предобработка данных
04 Исследование тарифных планов федерального оператора сотовой связи Клиентам сотовой связи предлагается два тарифных плана: «Смарт» и «Ультра». По представленным данным провести предварительный анализ тарифов на небольшой выборке клиентов и выяснить, какой тариф приносит больше денег Python, Pandas, Matplotlib, NumPy, SciPy, описательная статистика, проверка статистических гипотез
05 Исследование продаж компьютерных игр Выявить определяющие успешность игры закономерности и спрогнозировать рынок продаж на ближайшую перспективу. Python, Pandas, Matplotlib, NumPy, SciPy, предобработка данных, исследовательский анализ, описательная статистика, проверка статистических гипотез
06 Исследование данных об инвестициях венчурных фондов в компании-стартапы Проанализировать данные о фондах и инвестициях, произвести выгрузки данных и ответить на поставленные вопросы с помощью SQL. PostgreSQL
07 Исследование базы данных вопросов и ответов StackOverflow SQL-запросы согласно поставленным задачам. PostgreSQL
08 Исследование причины плохой окупаемости развлекательного приложения Procrastinate Pro+ По данным лога сервера с данными о посещениях приложения новыми пользователями выявить причины убытков вложений бизнеса Python, Pandas, Matplotlib, Seaborn, Datetime, NumPy, когортный анализ, юнит-экономика, продуктовые метрики
09 Проверка гипотез для увеличения выручки интернет-магазина Приоритизация гипотез, анализ результатов А/В теста Python, Pandas, Matplotlib, Datetime, NumPy, SciPy, А/В-тестирование, проверка статистических гипотез
10 Исследование рынка общественного питания в Москве Исследование текущего положения дел на рынке общественного питания и определение тенденций для успешного вложения в открытие кафе. Создание презентации. Python, Pandas, Matplotlib, Seaborn, Plotly, Datetime, Requests, BytesIO, визуализация данных, создание презентации
11 Исследование поведения пользователей мобильного приложения Стартап, который продаёт продукты питания, планирует разобраться в поведении пользователей мобильного приложения. Анализ данных по логам пользователей, оценка результатов А/А и А/В тестов, воронка событий Python, Pandas, Matplotlib, Seaborn, Plotly, Datetime, Math, NumPy, событийная аналитика, продуктовые метрики, проверка статистических гипотез, визуализация данных
12 Анализ пользовательского взаимодействия с карточками статей в Яндекс.Дзен Анализ взаимодействия пользователей с карточками Яндекс.Дзен и построение дашборда на основании полученного технического задания: Импорт данных из SQL посредством Python и выгрузка в csv-формат для работы в Tableau Python, Pandas, SQLAlchemy, PostrgeSQL, Tableau, продуктовые метрики, построение дашбордов, создание презентации
13 Прогнозирование оттока клиентов сети фитнес-центров Анализ клиентских данных, прогноз оттока, типичные портреты лояльного пользователя и пользователя, готового уйти. Определение оптимальной модели прогнозирования оттока, кластеризация Python, Pandas, Matplotlib, Seaborn, Plotly, Datetime, Math, Scikit-learn, SciPy, машинное обучение, классификация, кластеризация
14 Сегментация пользователей банка по потреблению. 1 часть выпускного проекта На основании данных о клиентах банка необходимо выделить сегменты пользователей в зависимости от потребления, выявить факторы оттока клиентов, сформулировать и проверить гипотезы Python, Pandas, Matplotlib, Seaborn, Datetime, Scikit-learn, SciPy, классификация, кластеризация, визуализация данных, проверка статистических гипотез, построение дашбордов, создание презентации
15 Оценка результатов A/B-теста. 2 часть выпускного проекта Проверка корректности проведения А/Б теста и его оценка на основании датасета с действиями пользователей, технического задания вспомогательных датасетов Python, Pandas, Datetime, Matplotlib, Seaborn, Plotly, SciPy, NumPy, Math, визуализация данных, проверка статистических гипотез, воронка событий
16 SQL-запросы к базе данных сервиса по продаже книг. 3 часть выпускного проекта Анализ данных для формирования ценностного предложения для нового продукта: запросы к базе данных SQL с помощью Python Python, Pandas, SQLAlchemy, PostgreSQL

Permalink

master

Switch branches/tags

Could not load branches
Nothing to show

{{ refName }}
default

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Go to file

  • Go to file

  • Copy path


  • Copy permalink

Cannot retrieve contributors at this time

3.54 MB

Download

  • Open with Desktop

  • Download

  • Delete file

Sorry, something went wrong. Reload?

Sorry, we cannot display this file.

Sorry, this file is invalid so it cannot be displayed.

1 Вводный проект. Музыка больших городов Сравниваем данные пользователей Яндекс.Музыки по городам и дням недели Python Pandas 2 Исследование надежности заемщиков Разбираемся, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Анализируем данные о клиентах банка и определяем долю кредитоспособных предобработка данных Python Pandas 3 Исследование объявлений о продаже квартир Исследуем архив объявлений о продаже объектов недвижимости в Санкт-Петербурге и Ленинградской области (основные свойства данных, поиск закономерностей, распределений и аномалий) Python Pandas Matplotlib предобработка данных исследовательский анализ данных визуализация данных 4 Определение перспективного тарифа для телеком-компании Делаем предварительный анализ тарифов на небольшой выборке клиентов. Анализируем поведение клиентов и делаем вывод, какой тариф лучше Python Pandas Matplotlib NumPy SciPy проверка статистических гипотез описательная статистика 5 Сборный проект 1. Анализ рынка продаж компьютерных игр Ищем закономерности в данных о продаже игры и выявляем те, которые определяют их успешность. Это позволият сделать ставку на потенциально популярный продукт и спланировать рекламные кампании Python Pandas NumPy Matplotlib предобработка данных исследовательский анализ данных описательная статистика проверка статистических гипотез 6 Базовый SQL Пишем ряд запросов разной сложности к базе данных, в которой хранятся данные по венчурным инвесторам, стартапам и инвестициям в них SQL PostgreSQL 7 Анализ бизнес-показателей развлекательного приложения На основе данных изучаем поведение пользователей, а также анализируем доходность клиентов и окупаемость рекламы, чтобы предложить рекомендации для отдела маркетинга Python Pandas Matplotlib когортный анализ юнит-экономика продуктовые метрики Seaborn 8 Продвинутый SQL С помощью Python и SQL подключаемся к базе данных, считаем и визуализируем ключевые метрики сервис-системы вопросов и ответов о программировании SQL PostgreSQL 9 Принятие решений в бизнесе Анализируем результаты A/B-тестирования в крупном интернет-магазине, приоритизируем гипотезы Python Pandas Matplotlib SciPy A/B-тестирование проверка статистических гипотез 10 Сборный проект 2. Анализ поведения пользователей мобильного приложения Исследуем воронку продаж и анализируем результаты A/A/B-тестирования в мобильном приложении Python Pandas Matplotlib SciPy A/B-тестирование проверка статистических гипотез Seaborn событийная аналитика продуктовые метрики Plotly визуализация данных 11 Исследование рынка общественного питания Исследование рынка на основе открытых данных о заведениях общественного питания Москвы Python Pandas Matplotlib Seaborn Plotly визуализация данных 12 Дашборд для Яндекс.Дзена и Презентация Разрабатываем и презентуем дашборд для анализа пользовательского взаимодействия в сервисе Яндекс.Дзен (Tableau Public) Python PostgreSQL Tableau продуктовые метрики построение дашбордов 13 Прогнозирование оттока клиентов сети фитнес-центров Разрабатываем модель машинного обучения для прогнозирования оттока клиентов в фитнес-центре. Наша задача — провести анализ, составить портреты клиентов и подготовить план действий по их удержанию Python Pandas Scikit-learn Matplotlib Seaborn машинное обучение классификация кластеризация 14 Выпускной проект. Банки — cегментация пользователей по потреблению продуктов, Презентация и Дашборд; А/B тестирование, SQL Анализируем заемщиков банка (результат оформляем в виде Презентации), проверяем результаты А/B тестирования и подтверждаем гипотезы, разрабатываем дашборд в Tableau Public. изучаем мобильное приложение посредством SQL-запросов. SQL PostgreSQL Python Pandas Scikit-learn Matplotlib Seaborn машинное обучение классификация кластеризация Tableau продуктовые метрики построение дашбордов A/B-тестирование проверка статистических гипотез

Yandex.Practicum_Data_Science

Certificate : https://drive.google.com/file/d/1Nl63mM8kTpNoc7LFLbsNip1_ivb_DKVv/view?usp=sharing

This repository is mainly for projects I have done under Yandex.Practicum_Data_Science.

Yandex.Practicum_Data_Science online programm helps me to achive new skill and knowledge and prepare me for a career as a data scientist. It helps to learn how to preprocess, organize and clean data, uncover pattern, insights and anomalies, visualize and repsresent the meaningful conclusions, make statistical research on the data, to learn different machine models and neural networks depending on the task and type of given data.

Tips: for data science project with python, I would recommend to install pandas, numpy, scipy, scikit learn, matplotlib, seaborn, tensorflow. These are the most basic libraries.

Part 1 — Data Preprocessing

Subjects covered:

  • different methods of dealing with gaps and anomaly values (artifacts);
  • changing the data type;
  • different methods of determining and dealing with duplicates;
  • data categorization.

Project 1 — Research on the reliability of borrowers

Bank credit department want to analyze how family status, number of kids and other factors. Given data — statitics abour bank clients paying capacity.

Part 2 — Data Analyze

Subjets covered:

  • data visualisation(plots, histogramms, boxplots, subplots and etc.);
  • data slices and filtering (query, logic states, slices);
  • different methods of joining data frames and data within;

Project 2 — Research of apartment sale advertisements in Saint-Petersburg

The goal of this project is to establish the correct parameters of real estate for sale. Clean the data from anomaly values and scammers data. Futher these establishment will help to determine the market values of real estate.

Part 3 — Statistic Analyze

Subjets covered:

  • choose optimal metrics for data statistic description;
  • evaluate discrete and continuous values using different types of histograms;
  • make conclusions about data on statistical indicators;
  • get acquainted with the basics probability theory;
  • determine the type of distribution (normal and binominal);
  • learn how to build and test hypothesis.

Project 3 — Determinition of a promising tariff for a telecom company

The goal is to make a data analyze and make a decision: which tariff is best for clients.

Project 4 — Determinition of a succesfull game for sale

The goal is to make a data analyze and to identify the patterns that determine the success of the game for sale and popularity.

Part 4 — Intro to Machine Learning

Subjects covered:

  • understand the machine learning ideas and theory;
  • mechine learning for regression and classification;
  • scikit-learn library;
  • machine learning metrics;
  • research different machine learning models and determine the best for the task

Project 5 — Machine_Learning_Classification_for_telecom_company_clients

Analyze the data with clients behaivor from project 3. Need to choose the best machine learning model for classification and choose the best model depending on the clients listed in the database. Test the final model with best hyperparameters on the test samples and compare with dummy model for adecvate predictions of the chosen model. For metrics — accuracy score.

Part 5 — Machine Learning

Subjects covered:

  • classification metrics (accuracy, f1, AUC-ROC);
  • classification model with classes disbalance;
  • regression metrics (MAE and R^2);

Project 6 — Prediction the bank client behaivor (stay or leave)

Analyze the client data to predict the behaivor of each client will it stay or leave the bank service. Using F1 and AUC-ROC metrics train and choose the best model for this goal.

Part 6 — Machine Learning in business

Subjects covered:

  • determine the correct metrics for business;
  • lifetime of a data model from scratch to deployment and business usage;
  • real business cases

Project 7 — Predict a location for an oil well

In the region characterisits of different oil wells have been collected (oil quality and oil volume for each well). Depending on this data oil volume and quality is predicted for new wells. It is more efficienty to use a ML to predict then to test each oil well manually. After prediction the region with the maximum total profit is selected according to the oil wells predicted by model.

Project 8 — Predict recovery factor of gold from gold ore.

When the mined ore undergoes primary processing, a crushed mixture is obtained. It is sent to flotation (beneficiation) and two-stage purification. After this technological process the recovery factor of gold must be predicted.

Part 7 — Gradient Boosting

Subjects covered:

  • algorithm of gradient boosting;
  • gradient boosting using python;
  • tunning the gradient boosting;
  • libraries for gradient boosting;

Project 9 — Car cost prediction

Service for the sale of used cars is developing an application to attract new customers. In it, you can quickly find out the market value of your car. Using Historical data: technical characteristics, equipment and prices of cars need to build a model to determine the cost.

Part 8 — Time Rows

Subjects covered:

  • learn to use machine learning with time rows;
  • learn to analyze trends and seasons in time rows;
  • learn to create features from datetime data;

Project 10 — Taxi order prediction

Relying on the past data of taxi orders (datetime data). The goal is to predict the amount of taxi orders.

Part 9 — Machine Learning for text

Subjects covered:

  • text vectorization;
  • TF-IDF;
  • text sentiment analysis;
  • Embeddings, Word2Vec, BERT and etc.

Project 11 — Determine toxic commentaries in a shop-service

The goal is to train a classification model for determining toxic comments in shop service app.

Part 10 — Data Extraction (SQL practice)

Subjects covered:

  • what is data bases (SQL);
  • SQL practice;
  • PySpark;

Project 12 — Data Analyze the SQL database

THe goal is to analyze what are the preferences of airline clients are. Used the given SQL database to collect the needed data.

Part 11 — Neural Networks

Subjects covered:

  • fully connected neural networks
  • convolition neural networks
  • Keras, TensorFlow
  • LeNet, Adam arhitecture
  • Augemntation types

Project 13 — Shop customers age prediction

The goal is to train a neural network with photo set of customers to determine the age of customers in future.

Part 12 — Unsupervised Learning

  • searching anomalies and clusterization
  • k-means, knn-method, isolation forest

Project 14 — Temperature prediction for steel production

The goal is to analyze the data given from different datasets. understand the process of steel production, and train the model which will determine temperature of steel in the end of technological process.

Понравилась статья? Поделить с друзьями:

Другие крутые статьи на нашем сайте:

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии