Permalink
main
{{ refName }}
default
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Go to file
-
Go to file
-
Copy path
-
Copy permalink
Cannot retrieve contributors at this time
3386 lines (3386 sloc)
739 KB
Raw
Blame
Open in GitHub Desktop
-
Open with Desktop
-
View raw
-
Copy raw contents
-
View blame
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Проекты курса Яндекс.Практикум «Аналитик данных»
Содержание
№ | Название проекта | Описание задачи | Навыки и инструменты |
---|---|---|---|
01 | Музыка больших городов | Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в ависимости от времени (утро и вечер) и дня недели (понедельник, среда, пятница) | Python, Pandas |
02 | Исследование надёжности заёмщиков | По представленным статистическим данным о платежеспособности клиентов банка провести исследование- влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. | Pandas, Python, Pymystem3, Counter, предобработка данных |
03 | Исследование объявлений о продаже квартир | По данным сервиса Яндекс.Недвижимость — архиву объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах выяснить какие факторы больше всего влияют на стоимость квартиры. | Python, Pandas, Matplotlib, исследовательский анализ, визуализация данных, предобработка данных |
04 | Исследование тарифных планов федерального оператора сотовой связи | Клиентам сотовой связи предлагается два тарифных плана: «Смарт» и «Ультра». По представленным данным провести предварительный анализ тарифов на небольшой выборке клиентов и выяснить, какой тариф приносит больше денег | Python, Pandas, Matplotlib, NumPy, SciPy, описательная статистика, проверка статистических гипотез |
05 | Исследование продаж компьютерных игр | Выявить определяющие успешность игры закономерности и спрогнозировать рынок продаж на ближайшую перспективу. | Python, Pandas, Matplotlib, NumPy, SciPy, предобработка данных, исследовательский анализ, описательная статистика, проверка статистических гипотез |
06 | Исследование данных об инвестициях венчурных фондов в компании-стартапы | Проанализировать данные о фондах и инвестициях, произвести выгрузки данных и ответить на поставленные вопросы с помощью SQL. | PostgreSQL |
07 | Исследование базы данных вопросов и ответов StackOverflow | SQL-запросы согласно поставленным задачам. | PostgreSQL |
08 | Исследование причины плохой окупаемости развлекательного приложения Procrastinate Pro+ | По данным лога сервера с данными о посещениях приложения новыми пользователями выявить причины убытков вложений бизнеса | Python, Pandas, Matplotlib, Seaborn, Datetime, NumPy, когортный анализ, юнит-экономика, продуктовые метрики |
09 | Проверка гипотез для увеличения выручки интернет-магазина | Приоритизация гипотез, анализ результатов А/В теста | Python, Pandas, Matplotlib, Datetime, NumPy, SciPy, А/В-тестирование, проверка статистических гипотез |
10 | Исследование рынка общественного питания в Москве | Исследование текущего положения дел на рынке общественного питания и определение тенденций для успешного вложения в открытие кафе. Создание презентации. | Python, Pandas, Matplotlib, Seaborn, Plotly, Datetime, Requests, BytesIO, визуализация данных, создание презентации |
11 | Исследование поведения пользователей мобильного приложения | Стартап, который продаёт продукты питания, планирует разобраться в поведении пользователей мобильного приложения. Анализ данных по логам пользователей, оценка результатов А/А и А/В тестов, воронка событий | Python, Pandas, Matplotlib, Seaborn, Plotly, Datetime, Math, NumPy, событийная аналитика, продуктовые метрики, проверка статистических гипотез, визуализация данных |
12 | Анализ пользовательского взаимодействия с карточками статей в Яндекс.Дзен | Анализ взаимодействия пользователей с карточками Яндекс.Дзен и построение дашборда на основании полученного технического задания: Импорт данных из SQL посредством Python и выгрузка в csv-формат для работы в Tableau | Python, Pandas, SQLAlchemy, PostrgeSQL, Tableau, продуктовые метрики, построение дашбордов, создание презентации |
13 | Прогнозирование оттока клиентов сети фитнес-центров | Анализ клиентских данных, прогноз оттока, типичные портреты лояльного пользователя и пользователя, готового уйти. Определение оптимальной модели прогнозирования оттока, кластеризация | Python, Pandas, Matplotlib, Seaborn, Plotly, Datetime, Math, Scikit-learn, SciPy, машинное обучение, классификация, кластеризация |
14 | Сегментация пользователей банка по потреблению. 1 часть выпускного проекта | На основании данных о клиентах банка необходимо выделить сегменты пользователей в зависимости от потребления, выявить факторы оттока клиентов, сформулировать и проверить гипотезы | Python, Pandas, Matplotlib, Seaborn, Datetime, Scikit-learn, SciPy, классификация, кластеризация, визуализация данных, проверка статистических гипотез, построение дашбордов, создание презентации |
15 | Оценка результатов A/B-теста. 2 часть выпускного проекта | Проверка корректности проведения А/Б теста и его оценка на основании датасета с действиями пользователей, технического задания вспомогательных датасетов | Python, Pandas, Datetime, Matplotlib, Seaborn, Plotly, SciPy, NumPy, Math, визуализация данных, проверка статистических гипотез, воронка событий |
16 | SQL-запросы к базе данных сервиса по продаже книг. 3 часть выпускного проекта | Анализ данных для формирования ценностного предложения для нового продукта: запросы к базе данных SQL с помощью Python | Python, Pandas, SQLAlchemy, PostgreSQL |
Permalink
master
{{ refName }}
default
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Go to file
-
Go to file
-
Copy path
-
Copy permalink
Cannot retrieve contributors at this time
3.54 MB
Download
-
Open with Desktop
-
Download
- Delete file
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Python
Pandas
предобработка данных
Python
Pandas
Python
Pandas
Matplotlib
предобработка данных
исследовательский анализ данных
визуализация данных
Python
Pandas
Matplotlib
NumPy
SciPy
проверка статистических гипотез
описательная статистика
Python
Pandas
NumPy
Matplotlib
предобработка данных
исследовательский анализ данных
описательная статистика
проверка статистических гипотез
SQL
PostgreSQL
Python
Pandas
Matplotlib
когортный анализ
юнит-экономика
продуктовые метрики
Seaborn
SQL
PostgreSQL
Python
Pandas
Matplotlib
SciPy
A/B-тестирование
проверка статистических гипотез
Python
Pandas
Matplotlib
SciPy
A/B-тестирование
проверка статистических гипотез
Seaborn
событийная аналитика
продуктовые метрики
Plotly
визуализация данных
Python
Pandas
Matplotlib
Seaborn
Plotly
визуализация данных
Python
PostgreSQL
Tableau
продуктовые метрики
построение дашбордов
Python
Pandas
Scikit-learn
Matplotlib
Seaborn
машинное обучение
классификация
кластеризация
SQL
PostgreSQL
Python
Pandas
Scikit-learn
Matplotlib
Seaborn
машинное обучение
классификация
кластеризация
Tableau
продуктовые метрики
построение дашбордов
A/B-тестирование
проверка статистических гипотез
Yandex.Practicum_Data_Science
Certificate : https://drive.google.com/file/d/1Nl63mM8kTpNoc7LFLbsNip1_ivb_DKVv/view?usp=sharing
This repository is mainly for projects I have done under Yandex.Practicum_Data_Science.
Yandex.Practicum_Data_Science online programm helps me to achive new skill and knowledge and prepare me for a career as a data scientist. It helps to learn how to preprocess, organize and clean data, uncover pattern, insights and anomalies, visualize and repsresent the meaningful conclusions, make statistical research on the data, to learn different machine models and neural networks depending on the task and type of given data.
Tips: for data science project with python, I would recommend to install pandas, numpy, scipy, scikit learn, matplotlib, seaborn, tensorflow. These are the most basic libraries.
Part 1 — Data Preprocessing
Subjects covered:
- different methods of dealing with gaps and anomaly values (artifacts);
- changing the data type;
- different methods of determining and dealing with duplicates;
- data categorization.
Project 1 — Research on the reliability of borrowers
Bank credit department want to analyze how family status, number of kids and other factors. Given data — statitics abour bank clients paying capacity.
Part 2 — Data Analyze
Subjets covered:
- data visualisation(plots, histogramms, boxplots, subplots and etc.);
- data slices and filtering (query, logic states, slices);
- different methods of joining data frames and data within;
Project 2 — Research of apartment sale advertisements in Saint-Petersburg
The goal of this project is to establish the correct parameters of real estate for sale. Clean the data from anomaly values and scammers data. Futher these establishment will help to determine the market values of real estate.
Part 3 — Statistic Analyze
Subjets covered:
- choose optimal metrics for data statistic description;
- evaluate discrete and continuous values using different types of histograms;
- make conclusions about data on statistical indicators;
- get acquainted with the basics probability theory;
- determine the type of distribution (normal and binominal);
- learn how to build and test hypothesis.
Project 3 — Determinition of a promising tariff for a telecom company
The goal is to make a data analyze and make a decision: which tariff is best for clients.
Project 4 — Determinition of a succesfull game for sale
The goal is to make a data analyze and to identify the patterns that determine the success of the game for sale and popularity.
Part 4 — Intro to Machine Learning
Subjects covered:
- understand the machine learning ideas and theory;
- mechine learning for regression and classification;
- scikit-learn library;
- machine learning metrics;
- research different machine learning models and determine the best for the task
Project 5 — Machine_Learning_Classification_for_telecom_company_clients
Analyze the data with clients behaivor from project 3. Need to choose the best machine learning model for classification and choose the best model depending on the clients listed in the database. Test the final model with best hyperparameters on the test samples and compare with dummy model for adecvate predictions of the chosen model. For metrics — accuracy score.
Part 5 — Machine Learning
Subjects covered:
- classification metrics (accuracy, f1, AUC-ROC);
- classification model with classes disbalance;
- regression metrics (MAE and R^2);
Project 6 — Prediction the bank client behaivor (stay or leave)
Analyze the client data to predict the behaivor of each client will it stay or leave the bank service. Using F1 and AUC-ROC metrics train and choose the best model for this goal.
Part 6 — Machine Learning in business
Subjects covered:
- determine the correct metrics for business;
- lifetime of a data model from scratch to deployment and business usage;
- real business cases
Project 7 — Predict a location for an oil well
In the region characterisits of different oil wells have been collected (oil quality and oil volume for each well). Depending on this data oil volume and quality is predicted for new wells. It is more efficienty to use a ML to predict then to test each oil well manually. After prediction the region with the maximum total profit is selected according to the oil wells predicted by model.
Project 8 — Predict recovery factor of gold from gold ore.
When the mined ore undergoes primary processing, a crushed mixture is obtained. It is sent to flotation (beneficiation) and two-stage purification. After this technological process the recovery factor of gold must be predicted.
Part 7 — Gradient Boosting
Subjects covered:
- algorithm of gradient boosting;
- gradient boosting using python;
- tunning the gradient boosting;
- libraries for gradient boosting;
Project 9 — Car cost prediction
Service for the sale of used cars is developing an application to attract new customers. In it, you can quickly find out the market value of your car. Using Historical data: technical characteristics, equipment and prices of cars need to build a model to determine the cost.
Part 8 — Time Rows
Subjects covered:
- learn to use machine learning with time rows;
- learn to analyze trends and seasons in time rows;
- learn to create features from datetime data;
Project 10 — Taxi order prediction
Relying on the past data of taxi orders (datetime data). The goal is to predict the amount of taxi orders.
Part 9 — Machine Learning for text
Subjects covered:
- text vectorization;
- TF-IDF;
- text sentiment analysis;
- Embeddings, Word2Vec, BERT and etc.
Project 11 — Determine toxic commentaries in a shop-service
The goal is to train a classification model for determining toxic comments in shop service app.
Part 10 — Data Extraction (SQL practice)
Subjects covered:
- what is data bases (SQL);
- SQL practice;
- PySpark;
Project 12 — Data Analyze the SQL database
THe goal is to analyze what are the preferences of airline clients are. Used the given SQL database to collect the needed data.
Part 11 — Neural Networks
Subjects covered:
- fully connected neural networks
- convolition neural networks
- Keras, TensorFlow
- LeNet, Adam arhitecture
- Augemntation types
Project 13 — Shop customers age prediction
The goal is to train a neural network with photo set of customers to determine the age of customers in future.
Part 12 — Unsupervised Learning
- searching anomalies and clusterization
- k-means, knn-method, isolation forest
Project 14 — Temperature prediction for steel production
The goal is to analyze the data given from different datasets. understand the process of steel production, and train the model which will determine temperature of steel in the end of technological process.