Допустим вы работаете в добывающей компании главросгоснефть нужно решить где бурить новую скважину - Контакты компаний и предприятий на Atlaso.ru

Требуется определить, где бурить новую скважину.

Описание проекта

В нашем распоряжении имеются пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Построим модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируем возможную прибыль и риски техникой Bootstrap.

Шаги для выбора локации:

В избранном регионе ищут месторождения, для каждого определяют значения признаков;
Строят модель и оценивают объём запасов;
Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
Прибыль равна суммарной прибыли отобранных месторождений.

Инструменты:

Pandas
sklearn
math
numpy
Seaborn
Matplotlib
SciPy
Bootstrap
машинное обучение

Кртакое описание проведённой работы:

Добывающей компании «ГлавРосГосНефть» нужно решить, где бурить новую скважину.
Собраны характеристики пробы нефти для скважин: качество нефти и объём её запасов по трем регионам. Характеристики для каждой скважины в регионе уже известны.
Построена модель для предсказания объёма запасов в новых скважинах.
Выбраны скважины с самыми высокими оценками значений.
Определены регионы с максимальной суммарной прибылью отобранных скважин.
Построена модель для определения региона, где добыча принесёт наибольшую прибыль. Проанализирована возможная прибыль и риски техникой Bootstrap.

Данные и выводы

По результату полученных данных мы определили доверительный интревал получения прибыли в 95%, ограничив вероятность убытка величиной менее 2,5%. И на основе этих данных смогли выбрать более перспективный регион для разработки 200 скважин.

Таким образом не смотря на сравнительно меньшие предсказания запасов сырья в 27.75 млн.баррелей (по сравнению с другими регионами), с величиной вероятного возникновения убытка в 1,1%, но с превышающей средней прибылью в 489.66 млн.рублей мы сдели выбор в сторону разработки 200 скважин во 2 регионе.

Если проект не открывается, его можно просмотреть по ссылке: Determine_where_to_drill_a_new_well

Источник

denis-42ds Github contribution chart

Учебные проекты программы обучения «Специалист по Data Science»

comparing_of_music_preferences_in_moscow_and_st_petersburg_based_on_yandex_music_data

Сравнение Москвы и Петербурга окружено мифами. Например:
- Москва — мегаполис, подчинённый жёсткому ритму рабочей недели;
- Петербург — культурная столица, со своими вкусами.
  На данных Яндекс.Музыки мы сравним поведение пользователей двух столиц.

Использованные инструменты:

Python, pandas

borrowers_reliability_study

Описание проекта:

Заказчик — кредитный отдел банка.
Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы,
которая оценивает способность потенциального заёмщика вернуть кредит банку.

Использованные инструменты:

Python, pandas

study_of_advertisements_for_the_sale_of_apartments

Описание проекта:

В вашем распоряжении данные сервиса Яндекc Недвижимость — архив объявлений о продаже квартир
в Санкт-Петербурге и соседних населённых пунктах за несколько лет.
Нужно научиться определять рыночную стоимость объектов недвижимости.
Ваша задача — установить параметры. Это позволит построить автоматизированную систему:
она отследит аномалии и мошенническую деятельность.
По каждой квартире на продажу доступны два вида данных.
Первые вписаны пользователем, вторые получены автоматически на основе картографических данных.
Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.

Использованные инструменты:

Python, pandas, matplotlib

determination_of_a_prospective_tariff_for_a_telecom_company

Описание проекта:

Проект для компании «Мегалайн» — федерального оператора сотовой связи.
Клиентам предлагают два тарифных плана: «Смарт» и «Ультра».
Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов.
В нашем распоряжении данные 500 пользователей «Мегалайна»:
кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год.
Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

Использованные инструменты:

Python, pandas, numpy, scikit-learn, matplotlib

definition_of_a_promising_product_for_an_online_store

Описание проекта:

Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры.
Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов,
жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности.
Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Перед вами данные до 2016 года. Представим, что сейчас декабрь 2016 г., и вы планируете кампанию на 2017-й.
Нужно отработать принцип работы с данными.
Неважно, прогнозируете ли вы продажи на 2017 год по данным 2016-го или же 2027-й — по данным 2026 года.

Использованные инструменты:

Python, pandas, numpy, scikit-learn, matplotlib, seaborn

tariff_recommendation

Описание проекта:

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами.
Они хотят построить систему, способную проанализировать поведение клиентов и
предложить пользователям новый тариф: «Смарт» или «Ультра».
В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы.
Нужно построить модель для задачи классификации, которая выберет подходящий тариф.

Использованные инструменты:

Python, pandas, scikit-learn, matplotlib

exodus_of_bank_customers

Описание проекта:

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно.
Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.
Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет.
Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.

Использованные инструменты:

Python, pandas, numpy, scikit-learn, matplotlib

well_site_selection

Описание проекта:

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.
Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов.
Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.
Проанализируйте возможную прибыль и риски техникой Bootstrap.

Использованные инструменты:

Python, pandas, numpy, scikit-learn

recovery_of_gold_from_ore

Описание проекта:

Подготовьте прототип модели машинного обучения для «Цифры».
Компания разрабатывает решения для эффективной работы промышленных предприятий.
Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды.
Используйте данные с параметрами добычи и очистки.
Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

Использованные инструменты:

Python, pandas, numpy, scikit-learn

protection_of_personal_data_of_clients_of_the_insurance_company

Описание проекта:

Вам нужно защитить данные клиентов страховой компании «Хоть потоп».
Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
Обоснуйте корректность его работы.
Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.
Подбирать наилучшую модель не требуется.

Использованные инструменты:

Python, pandas, numpy, scikit-learn

determination_of_the_cost_of_cars

Описание проекта:

-Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов.
В нём можно быстро узнать рыночную стоимость своего автомобиля.
В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей.
Вам нужно построить модель для определения стоимости.

Использованные инструменты:

Python, pandas, numpy, matplotlib, seaborn, scikit-learn, catboost, lightgbm, time

taxi_ orders_forecasting

Описание проекта:

Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах.
Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час.
Необходимо построить модель для такого предсказания.

Использованные инструменты: Python, pandas, numpy, matplotlib, statsmodels, time, scikit-learn, catboost

search_for_toxic_comments

Описание проекта:

Интернет-магазин «Викишоп» запускает новый сервис.
Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах.
То есть клиенты предлагают свои правки и комментируют изменения других.
Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Использованные инструменты: Python, pandas, numpy, nltk, time, re, scikit-learn, catboost

determining_the_age_of_buyers

Описание проекта:

Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей.
Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:
- Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
- Контролировать добросовестность кассиров при продаже алкоголя.

Использованные инструменты:

Python, pandas, numpy, matplotlib, tensorflow, keras

forecasting_customer_churn_of_telecom_company

Описание проекта:

Телекомуникационная компания хочет научиться прогнозировать отток клиентов.
Если выяснится, что пользователь планирует уйти, ему будут предложены промокоды и специальные условия.
Команда оператора собрала персональные данные о некоторых клиентах, информацию об их тарифах и договорах.

Использованные инструменты:

Python, pandas, numpy, matplotlib, seaborn, phik, time, scikit-learn, catboost

eduflow_telecom_customer_churn_study_additional_exercise

Описание проекта:

Исследование оттока клиентов Телеком компании:
необходимо выяснить связь величин ежемесячных платежей с отказом от обслуживания

Использованные инструменты:

Python, pandas, numpy, matplotlib, seaborn

Contributors

denis-42ds

Источник

Проекты Яндекс.Практикум специализация DataScience

Проект 1: Выбор региона для разработки новых нефтяных месторождений

Использовались: Catboost, Bootstrap, Pandas, Seaborn

Описание: Добывающей компании «ГлавРосГосНефть» нужно
решить, где бурить новую скважину.

Собраны характеристики пробы нефти для скважин: качество нефти
и объём её запасов по трем регионам. Характеристики для каждой
скважины в регионе уже известны.
Построена модель для предсказания объёма запасов в новых скважинах.
Выбраны скважины с самыми высокими оценками значений.
Определены регионы с максимальной суммарной прибылью отобранных скважин.
Построена модель для определения региона, где добыча принесёт наибольшую прибыль.
Проанализирована возможная прибыль и риски техникой Bootstrap.

Проект 2: Подготовка прототипа модели для металлообрабатывающего предприятия

Использовались: Catboost, Pandas, Sklearn, Numpy, Seaborn, Matplotlib, SciPy

Описание: Компания разрабатывает решения для эффективной работы
золотодобывающей отрасли.

Построена модель, предсказывающая коэффициент восстановления
золота из золотосодержащей руды.
Проанализированы данные с параметрами добычи и очистки.
Построена и обучена модель, помогающая оптимизировать производство, чтобы
не запускать предприятие с убыточными характеристиками.

Проект 3: Определение возраста покупателя по фото (Computer Vision)

Использовались: Keras, CNN, ResNet50

Описание: Сетевой супермаркет внедряет систему компьютерного зрения для
обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет
определять возраст клиентов, чтобы:

Анализировать покупки и предлагать товары, которые могут заинтересовать
покупателей этой возрастной группы;
Контролировать добросовестность кассиров при продаже алкоголя.

Построена модель, которая по фотографии определит приблизительный возраст человека.
Проанализирован набор фотографий людей с указанием возраста при
помощи компьютерного зрения с привлечением готовых нейронных
сетей и библиотеки Keras.

Проект 4 — Прогнозирование заказов такси (Временные ряды)

Использовались: StatsModels, LinearRegression, DecisionTreeRegressor,
RandomForestRegressor, GridSearchCV, TimeSeriesSplit

Описание: Проанализированы исторические данные о заказах такси в аэропортах.

Спрогнозировано количество заказов такси на следующий час, чтобы привлекать больше водителей в период пиковой нагрузки.
Построена модель для такого предсказания.
Значение метрики RMSE на тестовой выборке меньше 48.

Проект 5 — Классификация комментариев (Машинное обучение для текстов)

Описание: Для запуска нового сервиса интернет-магазину нужен инструмент,
который будет искать токсичные комментарии и отправлять их на модерацию.
Пользователи могут редактировать и дополнять описания товаров,
как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других.

Обучена модель классифицировать комментарии на позитивные и негативные.
Проанализирован набор данных с разметкой о токсичности правок.
Построена модель со значением метрики качества F1 не меньше 0.75.
К текстам и временным рядам применена техника feature engineering.
Векторизированы тексты посредством word2vec.

Проект 6 — Предсказание цены автомобиля (Численные методы, Градиентный бустинг)

Использовались: Gradient Boosting, LightGBM, Catboost, MSE

Описание: Сервис по продаже автомобилей с пробегом
разрабатывает приложение для привлечения новых клиентов.
В нём можно быстро узнать рыночную стоимость своего автомобиля.

Проанализированы данные: технические характеристики,
комплектации и цены автомобилей.
Построена модель для определения стоимости автомобиля с пробегом.
Использованы численные методы, приближённые вычисления,
оценка сложности алгоритма, градиентный спуск.

Проект 7 — Отток клиентов банка (Обучение с учителем)

Использовались: One-Hot Encoding, StandardScaler, Upsampling, AUC-ROC,
F1, Precision, Recall, TP, TN, FP, FN, Confusion Matrix, GridSearchCV,
DecisionTreeClassifier, RandomForestClassifier, LogisticRegression

Описание: Из банка стали уходить клиенты каждый месяц.

Спрогнозирована вероятность ухода клиента из банка в ближайшее время.
Построена модель с предельно большим значением F1-меры с
последующей проверкой на тестовой выборке. Доведена метрика до 0.59.
Дополнительно измерен AUC-ROC, соотнесен с F1-мерой.
Обучение с учителем. Работа с несбалансированными данными.

Проект 8 — Определение выгодного тарифа для телеком компании (Описательная статистика)

Использовались: Pandas, Scipy, Stats

Описание: Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами.

Проведен предварительный анализ использования тарифов на выборке клиентов,
проанализировано поведение клиентов при использовании услуг оператора и
рекомендованы оптимальные наборы услуг для пользователей.
Проверены гипотезы о различии выручки абонентов разных тарифов и
различии выручки абонентов из Москвы и других регионов.
Определен выгодный тарифный план для корректировки рекламного бюджета.
Разработана система, способная проанализировать поведение клиентов и предложить
пользователям новый тариф.
Построена модель для задачи классификации, которая выберет подходящий тариф.
Построена модель с максимально большим значением accuracy.
Доля правильных ответов доведена до 0.75. Проверены accuracy на тестовой выборке.

Источник

Выбор региона для разработки новых нефтяных месторождений

Проект в рамках обучения на курсе Яндекс.Практикум — Data Science

В этом репозитории моё решение задания Машинное обучение в бизнесе

Описание проекта

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой Bootstrap.

Шаги для выбора локации:

В избранном регионе ищут месторождения, для каждого определяют значения признаков;
Строят модель и оценивают объём запасов;
Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
Прибыль равна суммарной прибыли отобранных месторождений.

Название проекта	Сферы деятельности	Используемые навыки, инструменты и библиотеки	Задачи проекта
Выбор региона для разработки новых нефтяных месторождений	Услуги для бизнеса [b2b] (аутсорс консалтинг аудит), Отраслевые компании / Индустрия / Промышленность	Python, Pandas, sklearn, math, numpy, Seaborn, Matplotlib, SciPy, Bootstrap, машинное обучение	Решить в каком регионе добывать нефть. Построить модель машинного обучения, которая поможет определить регион, где добыча принесет наибольшую прибыль с наименьшим риском убытков.

Repo owner:

*Mikhail Bedarev

Contacts:
- mikebedarev@gmail.com
- @CmonYeah (telegram)

Источник

Email / Online CV / GitHub / Telegram / LinkedIn / Kaggle

Нацеленный на решение проблем бизнеса руководитель группы разработчиков. Одиннадцать лет опыта в решении комплексных задач, требующих одновременного участия многих квалифицированных специалистов. С азартом берусь за выполнение задач с неочевидным решением. Внедрил в производство ряд инновационных технических решений позволивших снизить издержки, выиграть несколько тендеров и вывести продукцию предприятия на международный рынок. Являюсь автором двух патентов. Занимаюсь анализом сложных технологических проблем и поиском способов принести пользу компании.

Опыт работы

Компания	Должность	Достижения	Период: с	Период: по
Nimbler	Data Scientist	— Разработал каталог категорий для приложения контроля трат. — Организовал сбор и разметку датасета для задачи классификации на платформе toloka.ai с учётом ограничений по бюджету. — Провёл анализ наиболее эффективных моделей категоризации и кластеризации.	08.2022	Н.В.
АО “НПО “КРИПТЕН”	Начальник R&D	— Вместе с командой разработали и внедрили в производство ряд новых средств защиты спец-документов. — Запатентовали несколько уникальных технических решений в области спец. полиграфии. — Ведём постоянный анализ технологических процессов и занимаемся их совершенствованием. — Занимаюсь внедрением систем автоматического контроля качества выпускаемой продукции, сбора статистики и верификации подлинности с применением машинного обучения.	05.2018	Н.В.

Высшее образование

ВУЗ	Направление	Специальность	Форма обучения
МГСУ	Строительство	Промышленное и гражданское строительство	дистанционная
РУДН	Лингвистика	Референт-переводчик с испанского языка (с отл.)	очная
РУДН	Химия	Магистр органической химии (с отл.)	очная

Языки

Русский — родной, English — B2, Spanish — B1

Курсы

Название	Форма обучения	Статус/Сертификат
Яндекс.Практикум DataScience+	Дистанционная	В процессе

Проекты Nimbler app

Название проекта	Описание	Стек
Обзор базовых моделей ML	Осмотр базовых алгоритмов машинного обучения в задаче мультиклассовой классификации. Оценка эффективности данных моделей. Сравнение методов векторизации BoW и TF-IDF.	Jupyter Notebook, Python — pandas, numpy, pandas_profiling, seaborn, matplotlib, nltk, re, sklearn, lightgbm, keras, tensorflow
Обзор моделей кластеризации	Осмотр некоторых алгоритмов машинного обучения в задаче кластеризации. Оценка эффективности данных моделей.	Jupyter Notebook, Python — pandas, numpy, pandas_profiling, seaborn, matplotlib, tqdm, time, nltk, re, sklearn, scipy

Проекты Practicum DS+

Аналитика

Название проекта	Описание	Стек
Яндекс.Музыка	Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в зависимости от времени (утро и вечер) и дня недели (понедельник, среда, пятница)	Jupyter Notebook, Python — pandas
Исследование надёжности заёмщиков	Проведение исследования зависимости риска возникновения задолженности от различных факторов.	Jupyter Notebook, Python — pandas, numpy, seaborn, pymorphy2, os, collections
Исследование объявлений о продаже квартир	В нашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости.	Jupyter Notebook, Python — pandas, numpy, seaborn, os, matplotlib
Исследование данных о российском кинопрокате	Заказчик исследования — Министерство культуры Российской Федерации. Изучим рынок российского кинопроката, уделим внимание фильмам, которые получили государственную поддержку.	Jupyter Notebook, Python — pandas, numpy, seaborn, os, matplotlib

Статистика

Название проекта	Описание	Стек
Определение перспективного тарифа для телеком-компании	Проведём аналитику для компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.	Jupyter Notebook, Python — pandas, numpy, seaborn, os, matplotlib, math, scipy

Классическое машинное обучение

Название проекта	Описание	Стек
Рекомендация тарифов	Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».	Jupyter Notebook, Python — pandas, numpy, seaborn, os, tqdm, sklearn
Отток клиентов	Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет.	Jupyter Notebook, Python — pandas, numpy, seaborn, os, tqdm, matplotlib, sklearn
Выбор локации для скважины	Мы работаем в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.	Jupyter Notebook, Python — pandas, numpy, seaborn, os, tqdm, matplotlib, pandas_profiling, sklearn
Прогнозирование оттока клиентов в сети отелей «Как в гостях»	Заказчик исследования — сеть отелей «Как в гостях». Чтобы привлечь клиентов, сеть отелей добавила на свой сайт возможность забронировать номер без предоплаты. Однако если клиент отменяет бронирование, то компания терпит убытки. Чтобы решить эту проблему, нам нужно разработать систему, которая предсказывает отказ от брони. Если модель покажет, что бронь будет отменена, то клиенту предлагается внести депозит.	Jupyter Notebook, Python — pandas, numpy, seaborn, os, tqdm, matplotlib, pandas_profiling, statsmodels, sklearn
Предсказание стоимости жилья в Калифорнии	В проекте нам нужно обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году используя фреймворк Spark для распределённых вычислений.	Jupyter Notebook, Python — pandas, numpy, pyspark
Защита персональных данных клиентов	Нам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы.	Jupyter Notebook, Python — pandas, numpy, os, pandas_profiling, sklearn
Определение стоимости автомобилей	Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. Нам нужно построить модель для определения стоимости.	Jupyter Notebook, Python — pandas, numpy, os, seaborn, pandas_profiling, sklearn, lightgbm, catboost
Оценка риска ДТП	Нужно создать систему для каршеринговой компании, которая могла бы оценить риск ДТП по совокупности факторов. Как только водитель забронировал автомобиль, сел за руль и выбрал маршрут, система должна оценить уровень риска. Если уровень риска высок, водитель увидит предупреждение и рекомендации по маршруту.	Jupyter Notebook, Python — pandas, numpy, plotly, matplotlib, pandas_profiling, snap, sklearn, sqlalchemy, lightgbm, catboost

Временные ряды

Название проекта	Описание	Стек
Прогнозирование заказов такси	Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час.	Jupyter Notebook, Python — os, pandas, numpy, plotly, matplotlib, sklearn, statsmodels, lightgbm

Нейронные сети

Название проекта	Описание	Стек
Прогнозирование температуры звезды	Нам пришла задача от обсерватории «Небо на ладони»: придумать, как с помощью нейросети определять температуру на поверхности обнаруженных звёзд.	Jupyter Notebook, Python — os, pandas, numpy, plotly, tqdm, pandas_profiling, sklearn, pytorch

NLP

Название проекта	Описание	Стек
Мастерская. KPMI.ru	Тест «Ключи персонального мастерства» предназначен для определения индивидуального поведенческого стиля личности. Является оригинальной отечественной разработкой на базе широко известного типологического опросника Майер-Бриггс. С помощью моделей классического машинного обучения попробуем улучшить качество предсказания сферы деятельности в которой человек сможет максимально самореализоваться.	Jupyter Notebook, Python — os, pandas, numpy, matplotlib, seaborn, pymorphy2, statsmodels, sys, re, nltk, collections, symspellpy, sklearn
Проект для «Викишоп» с BERT	Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Обучим модель классифицировать комментарии на позитивные и негативные.	Jupyter Notebook, Python — os, pandas, pandas_profiling, numpy, matplotlib, seaborn, re, nltk, sklearn, pytorch, transformers, tqdm, pickle

CV

Название проекта	Описание	Стек
Определение возраста покупателей	Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Построим модель, которая по фотографии определит приблизительный возраст человека.	Jupyter Notebook, Python — pandas, numpy, matplotlib, plotly, keras
Поиск фото “Со смыслом”	В фотохостинге для профессиональных фотографов «Со Смыслом» (“With Sense”) пользователи размещают свои фотографии и сопровождают их полным описанием. Разработаем демонстрационную версию поиска изображений по запросу.	Jupyter Notebook, Python — pandas, numpy, matplotlib, pathlib, pickle, re, nltk, PIL, keras, tensorflow, tqdm, sklearn, sentence_transformers, glob

Источник

文库首页开发技术其它ML_Oil_company_predict:ML模型训练和油井收入预测。引导程序

共5个文件

csv：3个

ipynb：1个

md：1个

需积分: 47

254 浏览量
2021-03-06
19:19:45
上传
评论

收藏 11.65MB ZIP 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ML_Oil_company_predict
ML模型训练和油井收入预测。
Описаниепроекта
Допустим，мыработаемвдобывающейкомпании«ГлавРосГосНефть»。 Нужнорешить，гдебуритьновуюскважину。 Вампредоставленыпробынефтивтрёхрегионах：10 000месторождений，гдеизмериликачествонефти。 Постройтемодельмашинногообучения，котораяпоможетопределитьрегион，гдедобычапринесётнаиб。。引导程序。标记文字： Строятмодельиоцениваютобъёмзапасов; Выбираютместорожденияссамымвы

Источник

Решение задачи принятия решениявыполнено на сайте www.matburo.ru Переходите на сайт, смотрите больше примеров или закажите свою работу https://www.matburo.ru/ex_emm.php?p1=emmdr

Пример решения задачи с помощью дерева решений

Компания «Большая
нефть» хочет знать, стоит ли бурить нефтяную скважину на одном из
участков, купленных ранее в перспективном месте. Бурение, проведенное на
множестве соседних участков, показало, что перспективы не так уж хороши.
Вероятность найти нефть на глубине не больше 400 м составляет около 50%. При
этом стоимость бурения составит $1.5 млн., а стоимость нефти, за вычетом всех
расходов, кроме расходов на бурение, составит $6 млн. Если нефть не найдена на
малой глубине, не исключена возможность найти ее при более глубоком бурении.
Расходы на бурение, вероятность найти нефть и приведенная стоимость нефти для
этих случаев даны в таблице.

a.
Постройте дерево решений, показывающее последовательные решения о
разработке скважины, которые должна принять компания «Большая нефть».
На какую среднюю прибыль компания может рассчитывать?

b.
Скважину какой глубины нужно быть готовыми пробурить? (Стоит ли остановиться
при достижении определенной глубины, или бурить до предельной глубины?)

c.
Какова вероятность найти нефть при бурении (при необходимости) до
выбранной вами предельной глубины? Какова полная вероятность найти нефть при
готовности бурить до 1500 м?

Решение задачипринятия решениявыполнено на сайте www.matburo.ru Переходите на сайт, смотрите больше примеров или закажите свою работу https://www.matburo.ru/ex_emm.php?p1=emmdr

Решение. a.
дерево решений

Находим по дереву среднюю прибыль.

Решение задачипринятия решениявыполнено на сайте www.matburo.ru Переходите на сайт, смотрите больше примеров или закажите свою работу https://www.matburo.ru/ex_emm.php?p1=emmdr

Средняя ожидаемая
прибыль = 2,43.

b. Скважину какой
глубины нужно быть готовыми пробурить? (Стоит ли остановиться при достижении
определенной глубины, или бурить до предельной глубины?)

1200 м. – предел.

Бурить дальше не
выгодно.

Так как ожидаемый
прирост прибыли = 3*0,2=0,6, а затраты -0,7.

0,6-0,7 = -0,1.

Лучше выбрать «не
бурить», если на глубине 1200 нет нефти.

До глубины 1200 (если не
нашли на глубине 400 или 800) выгоднее копать дальше.

c. Какова вероятность
найти нефть при бурении (при необходимости) до выбранной вами предельной
глубины? Какова полная вероятность найти нефть при готовности бурить до 1500 м?

Вероятность найти нефть на глубине 1200: 0,5+0,5(0,4+0,6(0,3)) = 0,79
Вероятность найти нефть на глубине 1500:

0,5+0,5(0,4+0,6(0,3+0,7(0,2)))
= 0,832

Источник

Требуется определить, где бурить новую скважину.

Описание проекта

Инструменты:

Кртакое описание проведённой работы:

Данные и выводы

Если проект не открывается, его можно просмотреть по ссылке: Determine_where_to_drill_a_new_well

Учебные проекты программы обучения «Специалист по Data Science»

comparing_of_music_preferences_in_moscow_and_st_petersburg_based_on_yandex_music_data

Использованные инструменты:

borrowers_reliability_study

Описание проекта:

Использованные инструменты:

study_of_advertisements_for_the_sale_of_apartments

Описание проекта:

Использованные инструменты:

determination_of_a_prospective_tariff_for_a_telecom_company

Описание проекта:

Использованные инструменты:

definition_of_a_promising_product_for_an_online_store

Описание проекта:

Использованные инструменты:

tariff_recommendation

Описание проекта:

Использованные инструменты:

exodus_of_bank_customers

Описание проекта:

Использованные инструменты:

well_site_selection

Описание проекта:

Использованные инструменты:

recovery_of_gold_from_ore

Описание проекта:

Использованные инструменты:

protection_of_personal_data_of_clients_of_the_insurance_company

Описание проекта:

Использованные инструменты:

determination_of_the_cost_of_cars

Описание проекта:

Использованные инструменты:

taxi_ orders_forecasting

Описание проекта:

Использованные инструменты: Python, pandas, numpy, matplotlib, statsmodels, time, scikit-learn, catboost

search_for_toxic_comments

Описание проекта:

Использованные инструменты: Python, pandas, numpy, nltk, time, re, scikit-learn, catboost

determining_the_age_of_buyers

Описание проекта:

Использованные инструменты:

forecasting_customer_churn_of_telecom_company

Описание проекта:

Использованные инструменты:

eduflow_telecom_customer_churn_study_additional_exercise

Описание проекта:

Использованные инструменты:

Contributors

Проекты Яндекс.Практикум специализация DataScience

Выбор региона для разработки новых нефтяных месторождений

Проект в рамках обучения на курсе Яндекс.Практикум — Data Science

Описание проекта

Repo owner:

Опыт работы

Высшее образование

Языки

Курсы

Проекты Nimbler app

Проекты Practicum DS+

Аналитика

Статистика

Классическое машинное обучение

Временные ряды

Нейронные сети

NLP

CV

Пример решения задачи с помощью дерева решений

Другие крутые статьи на нашем сайте: