Data scientist: кто это, обязанности, зарплата

Какая нужна математика? Если нет матбазы, я безнадёжен?

Константин башевой

Аналитик-разработчик в Яндексе и преподаватель курса «Python для анализа данных»

Вопрос про математику неоднозначный. Глубокое знание математики не является ни необходимым, ни достаточным условием. Конечно, тому, кто её знает, будет легче. Но все необходимые знания даются либо на занятиях, либо в дополнительных материалах.

Здесь как в спорте. Есть люди, которые могут без подготовки пробежать марафон. Остальным будет тяжелее, но при достаточной подготовке и они пробегут. Математическая база — это круто, но не критически необходимо.

Дарья Мухина

Продуктовый аналитик Skyeng, консультант курсов аналитики Нетологии

Кажется, что сейчас глубокую математическую базу можно заменить умением гуглить. В интернете огромное количество видео и статей, где можно получить доступно изложенную информацию — и не нужно лезть в университетские учебники. Главное знать, что тебе нужно.

Сейчас важнее навык применять знания в реальной задаче, а не просто обладать ими.

Елена Герасимова

Руководитель направления Data Science в Нетологии

Понятие «профильное техническое или математическое образование» уходит в прошлое. Уверенного в своих умениях и доменных знаниях специалиста из «гуманитарного» вуза не будут сравнивать с выпускником МФТИ по знанию математики — сравнивают по полезности бизнесу для решения задач.

Уже известны десятки рабочих алгоритмов и библиотек, которые способны всю математическую часть брать на себя без участия человека.

MVP лучше, чем долгосрочное исследование

Мир технологий конкурентоспособен и изменчив. В большинстве случаев у компаний нет времени ждать идеального решения, которое достигло бы наилучшего уровня производительности. Вместо этого они начинают проект с минимально жизнеспособного продукта (minimum viable product, MVP) и развивают его. MVP должен удовлетворять самым основным потребностям проекта — ни больше, ни меньше.

Перфекционистам и людям, внимательным к деталям (то есть большинству Data Science-энтузиастов), зачастую сложно работать над MVP. Обычно исследователи стремятся тщательно проанализировать данные, опробовать множество различных моделей и найти наилучшее решение. Наука о данных по сути ориентирована именно на такой подход, однако мы не зря говорим о прикладной области Data Science.

Нужно понимать, что в разработке самый важный актив — время. Никто не может предсказать путь, по которому пойдёт продукт. Возможно, со временем проект приостановят или полностью закроют. MVP создаётся, чтобы свести риски к минимуму. Даже если продукт гарантированно будет развиваться, поначалу ему может не хватать необходимых ресурсов. Построение простой модели и её постепенное развитие с появляющимися новыми данными и технологиями даёт более надёжные результаты.

Чем еще я занимаюсь

В нашей индустрии все постоянно занимаются самообразованием. Новые технологии и фреймворки (наборы инструментов для быстрой разработки) проще освоить самому на практике, а вот фундаментальные вещи со временем забываются. Например, недавно я взял курс по теории вероятностей, чтобы освежить знания из института.

К тому же после нескольких лет работы в Data Science нужно выбирать специализацию. На этом этапе ты уже понимаешь основные подходы к данным и углубляешься в какую-то область, например, обработку естественного языка (NLP) или компьютерное зрение.

Также я преподаю сам: уже 2,5 обучаю студентов Python, веду семинары по временным рядам для сотрудников «Сбербанка», помогал с кейсами для курса SkillFactory по Data Science. Мне нравится учить и понимать, как думают другие люди и какими вопросами задаются. К тому же многие приходят в IT после больших успехов в своих профессиональных областях. Мне очень интересно помочь им применить программирование для решения их задач.

Как стать Data Scientist с нуля?

Давайте разберемся, с чего начать обучение профессии, и как можно стать специалистом по анализу данных.

  1. Первый способ – поступить в профильный вуз и параллельно освоить необходимые языки программирования и инструменты визуализации. Есть несколько вузов, выпускники которых особенно ценятся среди работодателей.
  2. Второй способ – пойти на курсы, где вы изучите математическую базу и получите практические навыки. Если у вас уже есть техническое образование, пусть даже не связанное с Data Scientist, это оптимальный вариант. Если технического образования нет, то найти первую работу будет сложнее. Вам могут помочь курсы, где есть программы помощи с трудоустройством.
  3. Часто в профессию переходят аналитики данных и Python-разработчики. Сфера активно растет, поэтому людей привлекают высокие зарплаты и перспективы.

Также освоить профессию Data Scientist можно через интернет. Многие люди, которые ищут, с чего начать карьеру в этой сфере, выбирают данный путь. Есть несколько онлайн-университетов, где можно пройти обучение:

Название курса и ссылка на него

Описание

Профессия Data Scientist в Skillbox

Курс в университете Skillbox. Подходит новичкам и людям без опыта работы в IT. Вы изучите теорию (анализ данных, Machine Learning, статистика, теория вероятностей, функции, работа с производными и многое другое), научитесь программировать на Python и языке R, изучите библиотеки Pandas, NumPy и Matplotlib, работу с базами данных. Сможете создавать рекомендательные системы, применять нейронные сети для решения задач, визуализировать данные. Включает практические задания. На защите диплома присутствуют работодатели.

Обучение Data Scientist в Нетологии (уровень – с нуля)

Курс походит людям, которые хотят сменить текущую профессию на Data Scientist. Включает программу помощи с трудоустройством. Изучают математику для анализа данных, построение моделей, управление data-проектами, Python, базы данных, обработку естественного языка (NLP) и многое другое. Объема полученных знаний хватит для старта в карьере. Преподаватели – сотрудники крупных ИТ и финансовых компаний.

В интернете есть бесплатные курсы по Data Scientist. Если вы думаете, подойдет или нет вам эта профессия, то можете посмотреть данные уроки и получить более полное представление и описание данной работы:

  • Анализ данных на Python в задачах и примерах
  • Курс по библиотеке Pandas
  • Курс по машинному обучению для новичков
  • Бесплатный курс по базам данных MySQL
  • Работа с Google Таблицами для начинающих

Проанализируем данные

Вернемся к нашему примеру. На глаз кажется, что два параметра как-то взаимосвязаны: чем меньше человек спал, тем больше он выпьет кофе на следующий день. При этом у нас есть и выбивающийся из этой тенденции пример – любительница поспать и попить кофе Полина. Тем не менее можно попытаться приблизить полученную закономерность некоторой общей прямой линией так, чтобы она максимально близко подходила ко всем точкам:

Зеленая линия – и есть наша модель машинного обучения, она обобщает данные и ее можно описать математически. Теперь с помощью нее мы можем определять значения для новых объектов: когда мы захотим предсказать, сколько кофе сегодня выпьет вошедший в кабинет Никита, мы поинтересуемся, сколько он спал. Получив в качестве ответа значение в 7,5 часов, подставим его в модель – ему соответствует количество выпитого кофе в объеме чуть менее 300 мл. Красная точка обозначает наше предсказание.

Примерно так и работает машинное обучение, идея которого очень проста: найти закономерность и распространить ее на новые данные. На самом деле, в машинном обучении выделяется еще один класс задач, когда нужно не предсказывать какие-то значения, как в нашем примере, а разбивать данные на некоторые группы. Но об этом мы подробнее поговорим в другой раз.

Как пройти собеседование специалиста Data Science?

Даже если вы начинающий Data Scientist, вы должны показать, что уже умеете работать с данными и участвовали в соревнованиях, делали что-то сами и принимали участие в хакатонах. Так работодатель поймет, что вы увлечены профессией, готовы развиваться, уже умеете работать в команде и применять знания.

Вы должны будете ответить на вопросы про машинное обучение и статистику.

  1. Разработка ПО: массивы, хэш-таблицы, всевозможные алгоритмы, связные списки, бинарный поиск, рекурсия.
  2. Прикладная статистика: теория вероятности, описательная статистика, регрессии, проверка гипотез, байесовский вывод.
  3. Машинное обучение: метрики классификации, регрессии, выбор статистической модели, переобучение, смещение-дисперсия, сэмплирование, проверка гипотез, модели классификации, модели кластеризации, регрессионные модели.
  4. Обработка и визуализация данных: организация, профайлинг, визуализация, обработка, стандартизация, нормализация.
  5. Глубинное обучение.
  6. Языки программирования.

Записывайте, что вы изучали и приходите уверенным в своих знаниях.

Надеемся, что профессия Data Scientist стала вам ближе и интереснее, а наш материал поможет вам стать лучше и ближе к своей цели. Желаем, успехов! А также приглашаем на собеседование в департамент Data & Analytics ISsoft.

Что ему нужно знать?

Дата-сайентист должен хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти в данных закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками (ПО, объединяющее готовые компоненты большого программного проекта) для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач дата-сайентистам нужен язык С или C++.

Результаты анализа данных нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.

Пример визуализации данных с помощью Seaborn — количество спасшихся после крушения «‎Титаника»‎ женщин и мужчин по возрастам. Источник

Что поможет дата-сайентистам и инженерам данных в карьерном росте

Появилось достаточно много новых инструментов по работе с данными. И мало кто одинаково хорошо разбирается во всех.

Многие компании не готовы нанимать сотрудников без опыта работы. Однако кандидаты с минимальной базой и знанием основ популярных инструментов могут получить нужный опыт, если будут обучаться и развиваться самостоятельно.

Полезные качества для дата-инженера и дата-сайентиста

Желание и умение учиться. Необязательно сразу гнаться за опытом или менять работу ради нового инструмента, но нужно быть готовым переключиться на новую область.

Стремление к автоматизации рутинных процессов

Это важно не только для продуктивности, но и для поддержания высокого качества данных и скорости их доставки до потребителя

Внимательность и понимание «что там под капотом» у процессов. Быстрее решит задачу тот специалист, у которого есть насмотренность и доскональное знание процессов.

Кроме отличного знания алгоритмов, структур данных и пайплайнов, нужно научиться мыслить продуктами — видеть архитектуру и бизнес-решение как единую картину.

Например, полезно взять любой известный сервис и придумать для него базу данных

Затем подумать, как разработать ETL и DW, которые наполнят её данными, какие будут потребители и что им важно знать о данных, а также как покупатели взаимодействуют с приложениями: для поиска работы и знакомств, прокат автомобилей, приложение для подкастов, образовательная платформа

Позиции аналитика, Data Scientist и Data Engineer очень близки, поэтому переходить из одного направления в другое можно быстрее, чем из других сфер.

В любом случае, обладателям любого ИТ-бэкграунда будет проще, чем тем, у кого его нет. В среднем взрослые мотивированные люди переучиваются и меняют работу каждые 1,5‒2 года. Легче это даётся тем, кто учится в группе и с наставником, — по сравнению с теми, кто опирается лишь на открытые источники.

Материал изначально опубликован на habr.

А что, если я в 40 лет стану джуниор-сайентистом? Какие у меня перспективы? Куда мне и как двигаться?

Константин башевой

Аналитик-разработчик в Яндексе и преподаватель курса «Python для анализа данных»

У нас были ребята, которые после 30 переходили с промышленных профессий в разработчики: получалось, что в отделе все на 5-8 лет младше — но это мелочи.

Конечно, если человек перейдет в Data Science в 65 лет — то да, наверно, ему будет тяжеловато. А так существует огромное количество кейсов, когда люди переходили в Data Science из совсем отдалённых областей, например, медицины, в возрасте 30-40 лет.

Ещё важный момент — при переходе в новую сферу надо быть готовым к понижению зарплаты. Если у специалиста семья и трое детей, то будет напряжно. Вообще, положительных примеров очень много, а уровень зарплаты растёт параллельно новому опыту.

Елена Герасимова

Руководитель направления Data Science в Нетологии

При переходе в Data Science во взрослом возрасте крайне важен настрой и готовность поступиться какими-то своими наработанными принципами и принять правила игры, которые предусмотрены в этой среде. У нас недавно выпустился с отличием студент с тремя детьми: он на время обучения взял отпуск по уходу, а жена в этот период работала. Он очень хочет быть дата-сайентистом, очень талантливый выпускник, и его мотивация сильнее окружающих обстоятельств.

Что должен знать начинающий Data Scientist?

Data scientist должен уметь писать код. Специалист по данным занимается написанием модели для оценки гипотез, аналитики или оценки данных. Этого никак не сделать без знаний основных языков программирования, применяемых в области Data Science. Вам пригодятся знания:

  • Java, Hive для работы с Hadoop; 
  • Python – его основы и понимание того, как работать с ним в анализе данных. Также познакомьтесь с инструментами Matplotlib, Numpy, Scikit, Skipy;
  • SQL – для извлечения данных;
  • C++ с инструментами BigARTM, Vowpel Wabbit, XGBoost;
  • языка R, который пригодится для расчетов статистики.

Математика.

Аналитик данных должен пройти курсы математического анализа, математической статистики, линейной алгебры, а также знать, что такое теория вероятности. Эти знания пригодятся, для того чтобы составлять прогнозы, работать над поиском закономерностей и построением математических моделей.

В математическом анализе вам понадобятся производные, правило дифференцирования сложной функции и градиенты. Описательная статистика, планирование эксперимента и машинное обучение нужно будет изучить в курсе математической статистики

Линейная алгебра нужна для понимания механизмов машинного обучения, там обратите внимание на векторы и пространства, матричные преобразования. 

Машинное обучение.

Без него в вашей работе никуда. Машинное обучение нужно для создания новых моделей и переобучения существующих. Также оно связано не только с искусственным интеллектом, но и с генетическими, эволюционными алгоритмами, кластерными задачами и так далее. Благодаря машинному обучению работа Data Scientist с большими объемами данных становится эффективной.

Deep Learning.

Чтобы руководить проектами машинного обучения, вам нужно будет разобраться, как устроены нейронные сети и изучить основы глубокого обучения.

Специфику домена.

Для того чтобы понимать, как работает продукт и создавать подходящую модель, необходимы знания о домене, в котором вы работаете. Data Scientists трудятся во всевозможных отраслях, самыми популярными из которых являются маркетинг, здравоохранение и экономика. Если у вас нет нужных профильных знаний заранее, не переживайте, вы точно приобретете их на проекте.

Английский язык.

Обязательный пункт для любой специальности в ИТ. Английский пригодится вам в работе при общении с зарубежными клиентами и коллегами в многонациональной команде. Также вы столкнетесь с английским во время работы с различными фреймворками и технологиями, и в своем развитии: много технической литературы выпускается только на английском языке.

Если вы уже работаете в Data Science, то наверняка знакомы со всеми этими требованиями. Для опытных аналитиков данных они, конечно же, другие.

Требования к опытному специалисту по данным

Некоторые специалисты описывают успешного Data Scientist как хакера, аналитика, коммуникатора или доверенного консультанта. Давайте разберемся, какие скиллы вам пригодятся.

Кроме hard skills, которые мы описывали выше, вам нужно иметь:

  • Опыт разработки моделей машинного и глубинного обучения с фреймворками Hadoop, TensorFlow, Keras, PyTorch, Scikit-Learn, Pytorch, MLLib и другими;
  • Глубокие знания одной из областей обучения по прецедентам Machine Learning;
  • Опыт работы с SQL и инструментами BigData, как Spark/Hive;
  • Опыт работы с инструментами визуализации Pandas, Matplotlib, Seaborne.

Конечно, работа в команде требует развитых гибких навыков для Data Scientist. Давайте рассмотрим, какие навыки вам помогут.

Soft skills для Data Scientist

  1. Ассоциативное мышление.
  2. Способность излагать свои мысли так, чтобы их понял другой человек.
  3. Любопытство для погружения в проблему и дальнейшей работы с гипотезами.
  4. Умение находить эффективные решения проблем.
  5. Внимательность.
  6. Умение работать в команде и находить подход к каждому.
  7. Умение задавать хорошие вопросы.
  8. Дотошность.
  9. Умение визуализировать данные.

С требованиями и навыками разобрались. А теперь давайте узнаем, какие нам пригодятся курсы, видео и материалы, чтобы развиваться в Data Science?

Что изучает Data Science

Каждый день человечество генерирует примерно 2,5 квинтиллиона байт различных данных. Они создаются буквально при каждом клике и пролистывании страницы, не говоря уже о просмотре видео и фотографий в онлайн-сервисах и соцсетях.

Наука о данных появилась задолго до того, как их объемы превысили все мыслимые прогнозы. Отсчет принято вести с 1966 года, когда в мире появился Комитет по данным для науки и техники — CODATA. Его создали в рамках Международного совета по науке, который ставил своей целью сбор, оценку, хранение и поиск важнейших данных для решения научных и технических задач. В составе комитета работают ученые, профессора крупных университетов и представители академий наук из нескольких стран, включая Россию.

Сам термин Data Science вошел в обиход в середине 1970-х с подачи датского ученого-информатика Петера Наура. Согласно его определению, эта дисциплина изучает жизненный цикл цифровых данных от появления до использования в других областях знаний. Однако со временем это определение стало более широким и гибким.

Data Science (DS) — междисциплинарная область на стыке статистики, математики, системного анализа и машинного обучения, которая охватывает все этапы работы с данными. Она предполагает исследование и анализ сверхбольших массивов информации и ориентирована в первую очередь на получение практических результатов.

В 2010-х годах объемы данных по экспоненте. Свою роль сыграл целый ряд факторов — от повсеместного распространения мобильного интернета и популярности соцсетей до всеобщей оцифровки сервисов и процессов. В итоге профессия дата-сайентиста быстро превратилась в одну из самых популярных и востребованных. Еще в 2012 году позицию дата-сайентиста журналисты назвали самой привлекательной работой XXI века (The Sexiest Job of the XXI Century).

Объем данных, созданных, собранных и потребленных во всем мире с 2010 по 2024 год (в зеттабайтах)

(Фото: Statista)

Развитие Data Science шло вместе с внедрением технологий Big Data и анализа данных. И хотя эти области часто пересекаются, их не следует путать между собой. Все они предполагают понимание больших массивов информации. Но если аналитика данных отвечает на вопросы о прошлом (например, об изменениях в поведениях клиентов какого-либо интернет-сервиса за последние несколько лет), то Data Science в буквальном смысле смотрит в будущее. Специалисты по DS на основе больших данных могут создавать модели, которые предсказывают, что случится завтра. В том числе и предсказывать спрос на те или иные товары и услуги.

Добыча данных (Data Mining)

Если вы много читали о Data Science, вероятно, вы познакомились с термином «добыча данных» или Data Mining. Но что в самом деле это значит? Изучив различные источники, я думаю, что лучше всего описать это следующим образом

Глоссарий

В своей практике я столкнулся с некоторыми вопросами в области анализа данных, которые, как мне кажется, важны для понимания. Ниже список легких определений терминов из сферы анализа данных. Имейте в виду, что заметить разницу между ними может быть сложно, поскольку все они очень похожи.

Data Wrangling: это преобразование сырых данных для последующей работы над ними. Обычно состоит из нескольких важных шагов, включая очистку и разбор в предопределенные структуры.

Data Munging: то же самое, что и «Data Wrangling» выше. Почему нужно два термина для одного процесса, я, возможно, никогда не узнаю…

Data Cleaning: важный шаг, который включает в себя обнаружение и исправление (или удаление) поврежденных, неточных или отсутствующих значений из набора данных.

Data Scraping: метод, в котором компьютерная программа считывает данные, поступающие из другой программы или сайта, например, Twitter.

Значимость в Data Science

Каждый хочет делать потрясающие прогностические модели и феерические визуализации. Однако часто забывают, что ничего не выйдет, пока вы не выполните работу «санитара». В недавней статье New York Times было обнаружено, что специалисты в области данных тратят примерно 50−80% рабочего времени на сбор и подготовку данных.

Об этой суровой реальности обязательно надо сообщать будущим специалистам в области данных. За прибыльным базовым окладом и званием «Самая сексуальная работа XXI века» молодые специалисты не видят реальной сути профессии.

Что почитать

Что такое Data Mining? (англ.) — хорошее обсуждение на Quora с различными определениями анализа данных.Что такое Data Wrangling? (англ.) — краткая информация о том, что из себя представляет data wrangling.«Работа санитара» — главный барьер на пути к инсайтам (англ.) — интересная статья, в которой подробно рассматриваются важность различных методов анализа данных в области науки о данных

Почему я пошел в Data Science

Я закончил МФТИ: сначала учился на факультете физической и квантовой электроники. После бакалавриата я попал в научную организацию, которая занимается фотоприемниками, приборами для регистрации оптических сигналов. Там я не видел больших перспектив, поэтому решил сменить направление. Это довольно стандартная история для Data Scientist из российских технических вузов, вроде МФТИ. В российской науке, к сожалению, нет больших перспектив, а работать простым кодером для многих скучно. Поэтому я пошел в Data Science: в этой области есть баланс интереса и перспектив.

В магистратуре я перешел на факультет инноваций и высоких технологий. На этом факультете «Тинькофф» открыл первый набор на кафедру финансовых технологий. После конкурса я попал туда на работу. Я выбирал между разными крупными IT-компаниями: в «Тинькофф» к тому моменту уже была полноценная работа с технологиями.

Как дата-тренды изменили бизнес и образование

Развитие искусственного интеллекта и работы с данными повлияли на бизнес-процессы компаний и рынок образования. 

Появился спрос на сотрудников типа T-shaped.

Согласно исследованию HeadHunter и «Яндекс.Практикум», доля вакансий с опытом работы менее года в Data Science сейчас выше, чем в целом по IT-рынку. А более 60% всех вакансий по работе с данными относятся к кандидатам с опытом до трех лет. Помимо этого, работодатели идут на уступку: если вы в течение года обучались по профессии Data Scientist, ваш учебный опыт могут зачесть за рабочий. 

В целом, сегодня конкуренцию техническим специалистам вполне могут составить «гуманитарии»: сотрудников в Data Science теперь ценят не за знание математики, а за умение принести пользу бизнесу, управлять алгоритмами на основе математической составляющей, для работы с которой появилось множество «умных» библиотек.

Увеличился рост образования в сфере Data Science.

Получить такую специальность в современных вузах пока нельзя: трансформация высших учебных заведений требует гораздо больше времени, чем запуск программы длительностью в полтора года. Поэтому нишу активно занимают проекты дополнительного и онлайн-обучения, которые стараются предлагать актуальные программы и знания, ориентированные на практику. 

Так, за последние пару лет свои программы по Data Science запустили Skillfactory, GeekBrains, Otus, «Яндекс.Практикум». В «Нетологии» направление Data Science существует с 2017 года, и сейчас факультет также расширяется в сторону кроссфункциональности, поэтому его переименовали в «Аналитика и Data Science».

Кто такой Data Scientist?

Давайте начнем наше знакомство с профессией с области, в которой работают Data Scientists. Data Science – это наука о данных, которая занимается изучением данных, их анализом различными методами и последующим преобразованием данных в полезные знания. Раньше обработать данные человек мог вручную, но сейчас их количество стало настолько огромным, что для обработки часто требуется искусственный интеллект. Поэтому наука активно взаимодействует с машинным обучением, математикой, статистикой и анализом данных.

Нас постоянно окружают результаты работы Data Scientists, например, мы ежедневно смотрим прогноз погоды, реклама предлагает нам определенные товары, авиасервисы прогнозируют стоимость билетов, врачи с помощью программ могут предсказать диагнозы, а голосовые помощники выполняют множество наших просьб. Всем этим и многими другими вещами управляет специалист по данным. Data Scientist – это специалист, который занимается поиском закономерностей в больших массивах данных, анализирует и хранит их. Профессия Data Scientist считается одной из самых высокооплачиваемых и сложных в мире ИТ. 

Стоит обратить внимание на то, что Data Science стала неотъемлемой частью будущего. Сейчас ее активно используют в стартапах, IT компаниях, различных бизнесах, чтобы предоставлять наиболее точные данные и прогнозы, быть ближе к пользователю, автоматизировать свои решения и повысить маржинальность бизнеса

Спрос на Data Scientists ежегодно растет. Например, по информации веб-сайта по поиску работы Indeed, за 2019 год вакансий Data Scientists стало на 29% больше. 

Data Scientists постоянно ищут паттерны и тренды в огромных наборах данных, используя многообразные тулы, техники и критическое мышление, чтобы найти практическое решение для реальных data-centric проблем. Давайте подробнее поговорим о том, что входит в обязанности специалистов по данным.

Кто такой дата-сайентист?

Проще всего объяснить на примерах. Возьмем рынок полипропилена. Есть цены на продукцию, которые формируются на основе каких-то факторов, например, стоимости сырья, курса валют, макроэкономических показателей различных стран или ситуации вокруг заводов-производителей полипропилена. Все это влияет на динамику цены полипропилена, но как именно — непонятно. 

Все знают только примерную зависимость, вроде того, что если стоимость нефти растет, то и полипропилен может подорожать, а может и не подорожать, если сыграют еще какие-то факторы. В общем, диванная аналитика на кофейной гуще. Пока не придет дата-сайентист.

Например, в результате расчетов можно рекомендовать заводу заранее закупать побольше сырья, если цена на него низкая, чтобы сэкономить, когда его стоимость поползет вверх. Или предсказать цены на разных рынках, чтобы выбрать, где продать товар выгоднее с учетом остальных факторов, влияющих на прибыль. Вариантов использования прогнозов множество.

Кто такой Data Scientist?

В Data Science несколько разных профессий. Есть, собственно, Data Scientist: те, кто хорошо понимают математику, модели данных и руководят аналитикой. А есть ML-инженеры: их задача — писать код для моделей машинного обучения. ML-инженерами становятся бывшие программисты: им надоедает заниматься каким-нибудь Java и они идут в Data Science. Среди профессионалов есть и те, к кому ML приходит сам. Например, специалисты по биоинформатике начинают учить науку о данных, чтобы решать задачи в своем деле.

Мне повезло попасть на работу в Data Scienсe после специальных кафедр технического вуза. На самом деле наука о данных — еще слишком новая для российского высшего образования область. В профессию попадают люди с самым разным бэкграундом. Есть те, кто переучиваются после технических вузов или работы программистом в других областях.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector