Рынок труда аналитиков и data scientists

Содержание:

Плюсы и минусы профессии

Плюсы

  • Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
  • Высокооплачиваемая профессия.
  • Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.

Минусы

  • Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
  • В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.

Различия в Data Science и Business Science

Data Science – дисциплина, в целом изучающая анализ и обработку цифровых данных. Академический предмет включает множество современных наук, связанных со статистикой, искусственным интеллектом, проектированием баз данных. В данной области используются как структурированные, так и неструктурированные данные. При всей многогранности многие сферы Data Science являются чистой наукой и основой для практических инструментов, необходимых бизнесу.

Business Science – это инструментарий точной аналитической настройки, созданный на основании достижений науки о данных. Работает только со структурированными данными. Изучает тенденции и закономерности, характерные именно для бизнеса. Business Science применим для решения конкретных задач бизнеса в разных областях деятельности, оптимизации путей их достижения и в конечном результате – максимизации прибыли. Использование Business Science с целью анализа и определения трендов уже широко встречаются в таких отраслях, как финансы, медицина, маркетинг, розничная торговля, управление поставками, телекоммуникации и др. По факту, Business Science – это источник операционной эффективности бизнеса.

Востребованные инструменты

Всем специалистам Data Science нужно освоить электронные таблицы и инструменты доступа и обработки данных: СУБД, хранилища данных, SQL, ETL.

BI-аналитику: инструменты BI — например, Power BI, Tableau, инструменты OLAP и майнинга: SAS, R, Weka, Python (ограниченно, под конкретные задачи), Knime, RapidMiner.

Data Scientist и аналитику данных: библиотеки визуализации и анализа внутри Python и R, инструменты майнинга — углублённо, интерактивные оболочки Jupyter, Zeppelin, инструменты автоматизации и развёртывания Docker, Airflow.

Data Engineer: глубокие знания ETL-процессов и выстраивания пайплайна.Обязательно знание SQL и Python, желательно — языки Java/Scala. Нужно иметь опыт работы с облачными платформами, например Amazon Web Services или Google Cloud Platform, а также с технологиями обработки больших данных: Hadoop, Spark, Kafka.

Дерзайте меняться, а Нетология поможет

Что должны знать Data Scientist и Data Engineer

Профильное образование для обоих специалистов — Computer Science.

Любой специалист по данным — дата-сайентист или аналитик — должен уметь доказывать корректность своих выводов. Для этого не обойтись без знания статистики и связанной со статистикой базовой математики.

Машинное обучение и инструменты анализа данных незаменимы в современном мире. Если привычные инструменты недоступны, нужно иметь навыкибыстрого изучения новых инструментов, создания простых скриптов для автоматизации задач.

Важно отметить, что специалист по работе с данными должен эффективно донести результаты анализа. В этом ему поможет визуализация данных или результатов проведённых исследований и проверки гипотез

Специалисты должны уметь создавать диаграммы и графики, использовать инструменты визуализации, понимать и разъяснять данные из дашбордов.

SQL — король данных

Каждый Data Science-проект начинается с данных. И большую часть времени данные, использующиеся для решения проблемы, не очень-то легко достать — их приходится собирать из отдельных датасетов и заносить в несколько таблиц базы данных.

SQL — стандартный язык запросов для баз данных. Он используется для быстрого объединения, агрегирования, извлечения необходимой информации и позволяет удобно работать с наборами данных. Проблема в том, что большинство энтузиастов Data Science не работают с базами данных, так как обучающие датасеты обычно уже созданы кем-то другим. В действительности же 90% времени тратится на сбор и подготовку данных. Да, звучит разочаровывающе, но без данных не было бы науки о данных.

Интенсив «Чат-бот с искусственным интеллектом на Python»

24–26 мая, Онлайн, Беcплатно

tproger.ru

События и курсы на tproger.ru

Следует отметить, что в SQL есть много диалектов, однако они похожи друг на друга — зная один, можно легко адаптироваться к другому. Просто выберите любой диалект и начните изучать его.

Дорожная карта развития навыков Data Science

Итак, чтобы стать специалистом базового уровня, понадобится от 6 до 12 месяцев. Вырасти с базового уровня до среднего можно за 7–18 месяцев. Продвинутый уровень потребует ещё от 18 до 48 месяцев.

Конечно, это приблизительные сроки. Многое зависит от бэкграунда: тем, кто неплохо прокачан в физике, математике, естественных и компьютерных науках, работал инженером или финансистом, будет гораздо проще. Но в первую очередь важны усилия и время, которые вы вкладываете в изучение Data Science, — в общем, никакой магии. Просто берём и делаем.

На курсе «Профессии Data Scientist» мы даём не только базовые знания, но и часть навыков среднего и продвинутого уровней. В итоге у вас появятся портфолио проектов, стаж не менее года, заряженные единомышленники и компетентные наставники. Приходите!

Уровень 2. От джуна к мидлу

Прочно закрепив на практике все те неприличные слова из блока для джуна, можно штурмовать более продвинутые техники и методы: предсказание дискретных переменных в обучении с учителем (supervised learning), оценку и настройку моделей, а также сбор разных алгоритмов в единые ансамбли методов. Вы уже поняли, что сейчас опять начнётся ковровое бомбометание дата-сайентистскими терминами? Не вздумайте употреблять их в публичных местах — а то бабушки начнут креститься, как будто увидели сатаниста или парня с татуировками по всему телу 🙂

Обучение с учителем: предсказание дискретных переменных

Начните с алгоритмов бинарной классификации — вот какие надо знать мидлу:

  • перцептрон;
  • логистическая регрессия;
  • метод опорных векторов;
  • решающие деревья и случайный лес;
  • k-ближайших соседей;
  • наивный байесовский классификатор.

Дополнительно: небольшая статья о том, как создать простую модель машинного обучения. Формируем и делим датасет, обучаем модель Random Forest, предсказываем дискретную переменную и вот это всё.

Мастхэв — на хорошем уровне работать с библиотекой scikit-learn (она уже тут мелькала), которая помогает строить модели. Также придётся решать задачи на нелинейную классификацию с помощью метода опорных векторов, освоить несколько метрик для оценки алгоритмов классификации — точность, погрешность, чувствительность, матрица ошибок, F-мера, ROC-кривая.

Оценка моделей и оптимизация гиперпараметров

Чтобы правильно оценивать и настраивать модели, специалисту нужно:

  • соединять трансформеры (к Оптимусу Прайму и Бамблби они отношения не имеют — пока) и модули оценки (estimators) в конвейеры машинного обучения (machine learning pipelines).
  • использовать кросс-валидацию для оценки модели;
  • устранять ошибки в алгоритмах классификации с помощью кривых обучения и валидации;
  • выявлять проблемы смещения и дисперсии с помощью кривых обучения;
  • работать с переобучением и недообучением, используя кривые валидации;
  • настраивать модель машинного обучения и оптимизировать гиперпараметры с помощью поиска по решётке;
  • читать и правильно интерпретировать матрицу ошибок;
  • строить и правильно толковать ROC-кривую.

Сочетание разных моделей в ансамбле методов

  • использовать ансамбль методов с различными классификаторами;
  • комбинировать разные алгоритмы классификации;
  • знать, как оценить и настроить ансамбль моделей классификации.

Сколько зарабатывает Data Scientist?

Самые высокие зарплаты предлагают банки и финансовые компании, а также ИТ. Например, в Яндексе, Тинькофф, Сбербанке. Доход новичка (Junior) может быть от 100-120 тыс. рублей в месяц. Как правило, для трудоустройства требуется высшее техническое или математическое образование, знание языков программирования (чаще всего Python), владение английским языком.

Специалисты с опытом 1-3 года (Middle) могут получать зарплату от 150-200 тыс. рублей. Максимальный доход может составлять 300-500 тыс. рублей для людей с опытом работы от 3-5 лет и хорошим резюме. Если рассматривать иностранных работодателей, нанимающих специалистов из России, то они могут платить до 7-10 тыс. долларов в месяц.

Относительно невысокие зарплаты предлагают Data Scientist в консалтинге, маркетинге, Call-центрах. Но и требований здесь меньше: обычно не нужно профильное высшее образование и знание английского. Например, в колл-центре можно найти работу с окладом порядка 70-100 тыс. рублей в месяц.

Уровень 3. От мидла к сеньору

На этом уровне дата-сайентист углубляется в конкретную специализацию — и разбег по требованиям может быть очень большим. Однако каждому благородному дону, то есть сеньору, точно придётся работать со сложными датасетами: текстом, изображениями, аудио (голос) и видео. Поэтому к навыкам среднего уровня добавится вот что:

  • алгоритм кластеризации (обучение без учителя);
  • k-средние;
  • глубокое обучение;
  • нейронные сети;
  • библиотеки Keras, TensorFlow, Theano;
  • основы разработки в облачных сервисах: AWS, Azure.

Дополнительно: здесь не повредит понимание различий между искусственным интеллектом, машинным обучением и глубоким обучением. У нас как раз есть статья на эту тему.

Уровень 1. От стажёра к джуну

Главное на этом уровне — научиться работать с датасетами в виде CSV-файлов, обрабатывать и визуализировать данные, понимать, что такое линейная регрессия.

Основы обработки данных

В первую очередь придётся манипулировать данными, чистить, структурировать и приводить их к единой размерности или шкале. От новичка ждут уверенной работы с библиотеками Pandas и NumPy и некоторых специальных навыков:

  • импорт и экспорт данных в CSV-формате;
  • очистка, предварительная подготовка, систематизация данных для анализа или построения модели;
  • работа с пропущенными значениями в датасете;
  • понимание принципов замены недостающих данных (импутации) и их реализация — например, замена средними или медианами;
  • работа с категориальными признаками;
  • разделение датасета на обучающую и тестовую части;
  • нормировка данных с помощью нормализации и стандартизации;
  • уменьшение объёма данных с помощью техник снижения размерности — например, метода главных компонент.

Визуализация данных

Новичок должен знать основные принципы хорошей визуализации и инструменты — в том числе Python-библиотеки matplotlib и seaborn (для R — ggplot2).

Какие компоненты нужны для правильной визуализации данных:

Данные. Прежде чем решить, как именно визуализировать данные, надо понять, к какому типу они относятся: категориальные, численные, дискретные, непрерывные, временной ряд.

Геометрия. То есть какой график вам подойдёт: диаграмма рассеяния, столбиковая диаграмма, линейный график, гистограмма, диаграмма плотности, «ящик с усами», тепловая карта.

Координаты. Нужно определить, какая из переменных будет отражена на оси x, а какая — на оси y

Это важно, особенно если у вас многомерный датасет с несколькими признаками.

Шкала. Решите, какую шкалу будете использовать: линейную, логарифмическую или другие.

Текст

Всё, что касается подписей, надписей, легенд, размера шрифта и так далее.

Этика. Убедитесь, что ваша визуализация излагает данные правдиво. Иными словами, что вы не вводите в заблуждение свою аудиторию, когда очищаете, обобщаете, преобразовываете и визуализируете данные.

Обучение с учителем: предсказание непрерывных переменных

Главное: стажёру придётся изучить методы регрессии, стать почти на ты с библиотеками scikit-learn и caret, чтобы строить модели линейной регрессии

Но чтобы стать полноценным джуниором, стажёр должен знать и уметь ещё кучу всего (осторожно — там сложные слова, но есть подсказки):

  • проводить простой регрессионный анализ с помощью NumPy или Pylab;
  • использовать библиотеку scikit-learn, чтобы решать задачи с множественной регрессией;
  • понимать методы регуляризации: метод LASSO, метод упругой сети, метод регуляризации Тихонова;
  • знать непараметрические методы регрессии: метод k-ближайших соседей и метод опорных векторов;
  • понимать метрики оценок моделей регрессии: среднеквадратичная ошибка, средняя абсолютная ошибка и коэффициент детерминации R-квадрат;
  • сравнивать разные модели регрессии.

Кто такой аналитик-разработчик?

Я работаю аналитиком-разработчиком, занимаюсь системой автоматического мониторинга данных компании «Тинькофф» с помощью машинного обучения. Банковские продукты компании генерируют много данных: они помогают отслеживать эффективность бизнес-процессов, например изменения доходности по вкладам или продаж страховок. Обычно за каждым из процессов следят аналитики. Моя задача — помочь им автоматизировать этот процесс, чтобы они могли получать своевременные оповещения, если в их данных что-то пошло не так. Так аналитики могут увидеть нестандартное поведение своих параметров и изменить свои процессы.

Моя специализация — временные ряды. По сути, это зависимости разных величин во времени. Эти данные можно анализировать с помощью математических моделей, чтобы спрогнозировать будущие значения. Например, так прогнозируют спрос на товары в супермаркетах. Если знать статистику продаж творога в прошлые годы, этой весной можно выложить на полки нужное покупателям количество пачек с высокой точностью. В «Тинькофф» по тому же принципу мы предсказываем продажи продуктов экосистемы.

Сколько получает Data Scientist

Эта должность высоко оплачивается. Даже для новичков в этой сфере заработная плата может доходить до 70 000 руб. Data Scientist, который работает на своем месте более 3 лет, вполне реально может зарабатывать от 200 000 руб. и больше.

Уровень дохода зависит от навыков, опыта работы, объема задач и функций, выполняемых специалистом. Если же говорить о средних цифрах по России, то они колеблются в районе 50 000–200 000 руб.

В Москве зарплаты Data Scientist начинаются от 60 000 руб. Можно найти вакансии с заработной платой 500 000 руб.

В Санкт-Петербурге цифры скромнее: от 50 до 300 тыс. руб.

В регионах заработная плата находится на уровне 50 000–200 000 руб., но иногда попадаются предложения с оплатой в 300 000–400 000 руб.

Ссылки на интересные материалы

Ссылки на интересные материалы, касающиеся профессии дата-сайентиста:

  • “Кто такой Data Scientist глазами работодателя” — интервью с Авито и Spice IT;
  • Интересная статья “Как стать датасайнтистом, если тебе за 40 и ты не программист”;
  • Статья “Дорога в Data Science глазами новичка” на Пикабу;
  • Авторская статья “Как стать Data Scientist в 2019 году”;
  • Интересный материал “Рутина да­та-сай­ен­тистов. Про их рабочий день и нужные навыки”;
  • Занимательная глава из книги “Наука данных. Базовый курс”, посвященная истории профессии;
  • Ретроспектива автора на Хабре о том, каково это было — изучать дата сайнс в 2019 году;
  • Статья “Один день из жизни дата-сайентиста”, написанная в 2018 году;
  • История дата-сайентиста Саши, написанная простым языком;
  • Несколько историй о том, как гуманитарии стали специалистами в работе с данными.

Эта профессия как минимум входит в число самых перспективных, поэтому в последние годы многие с удовольствием изучают data science. Конечно, как и в других отраслях, здесь есть свои недостатки и трудности, которые особенно заметны в начале обучения, но при должном старании любой сможет пополнить ряды ученого по данным. Так что дерзайте!

Средняя зарплата Data Scientist’а в РФ

Вот мы и подошли к отечественному рынку труда в сфере Data Science. Здесь, как и везде, многое тоже зависит от опыта. Но, как это часто бывает, в ИТ-сфере даже джуниор получает больше, чем среднестатистический россиянин. В декабре 2019 года эти цифры были следующими (по данным hh.ru):
• Москва: 120 000 — 230 000 руб.;
• Санкт-Петербург: 70 000 — 180 000 руб.;
• Регионы: 40 000 — 120 000 руб.

При официальном трудоустройстве вас ждут белая ЗП и полный соцпакет. Если речь идёт об ИТ-компаниях, то тут можно упомянуть всевозможные «плюшки», характерные для этой сферы. Но вы не ограничены «айти», т. к. многие специалисты этого профиля требуются сегодня и в банковскую область.

Кроме того, есть вариант и удалённой работы, ведь самое главное — быть хорошим и востребованным специалистом. А вот чтобы им стать, придётся попотеть. Один из вариантов — специализированные курсы в OTUS.

При подготовке статьи использовались следующие материалы:

  • https://ru.bitdegree.org/rukovodstvo/data-scientist-zarplata/;
  • https://www.yandex.by/turbo?text=https%3A%2F%2Fcheckroi.ru%2Fblog%2Fprofessiya-data-scientist%2F.

От бизнес-метрик до sticky sessions

В силу этого разнообразия вопросы на интервью тоже иногда удивляют. Я не могу похвастаться большим количеством пройденных интервью, но дисперсия вопросов успела впечатлить. Спрашивают всякое: аксиоматику Колмогорова, как написать LRU-cache на салфетке, способы реализации sticky-сессий в распределенных приложениях, методы оценки экономического эффекта от внедрения ML модели в продукт, задачи про гномов и шапки… 

Если позиция предполагает какой-то deep learning, то обязательно спросят, как устроен Adam и зачем нужен Batch Normalization. Тестовые задания, которые я видел, в основном двух типов: «выжми из этого датасета метрику получше» (здесь могут оценивать и саму метрику, и способ подачи результатов) и «напиши эту несложную функцию» (в этом случае обязательно будут смотреть на чистоту кода, тесты и прочие хорошие практики). 

В целом, все те же проблемы, которые часто обсуждаются касательно найма разработчиков, касаются и DS с поправкой на общую незрелости роли (т.е. в среднем все еще хуже). Ситуации, в которых интервьюер что-то недавно узнал/опробовал, и теперь ожидает от кандидата ответ, совпадающий с его собственным опытом — не редкость даже в крупных компаниях. 

Впрочем, все это дикое разнообразие в чем-то и хорошо: практически любой набор скиллов, от умения болтать и рисовать графики до опыта тренировки GAN-ов в итоге будет высоко оценен хоть кем-то из нанимателей. Как следствие, ответ на вопрос «так и что мне учить, чтобы легко найти работу в DS» очень расплывчатый — «зависит от твоих личных склонностей».

23 популярных курса по Data Science от Coursera
По теме
23 популярных курса по Data Science от Coursera

Зачем Data Science бизнесу

Компании используют Data Science вне зависимости от размера бизнеса, показывает статистика Kaggle (профессиональная соцсеть специалистов по работе с данными). А по подсчетам IDC и Hitachi, 78% предприятий подтверждают, что количество анализируемой и используемой информации в последнее время значительно возросло. Бизнес понимает, что неструктурированная информация содержит очень важные для компании знания, способные повлиять на результаты бизнеса, отмечают авторы исследования.

Индустрия 4.0

Роман Нестер — РБК: «Коммерческие данные — это кровь интернета»

Причем это касается самых разных сфер экономики. Вот лишь несколько примеров отраслей, которые используют Data Science для решения своих задач:

  • онлайн-торговля и развлекательные сервисы: рекомендательные системы для пользователей;
  • здравоохранение: прогнозирование заболеваний и рекомендации по сохранению здоровья;
  • логистика: планирование и оптимизация маршрутов доставки;
  • digital-реклама: автоматизированное размещение контента и таргетирование;
  • финансы: скоринг, обнаружение и предотвращение мошенничества;
  • промышленность: предиктивная аналитика для планирования ремонтов и производства;
  • недвижимость: поиск и предложение наиболее подходящих покупателю объектов;
  • госуправление: прогнозирование занятости и экономической ситуации, борьба с преступностью;
  • спорт: отбор перспективных игроков и разработка стратегий игры.

И это лишь самый краткий и поверхностный список использования Data Science. Количество различных кейсов с использованием «науки о данных» увеличивается с каждым годом в геометрической прогрессии.

Каждый интернет-пользователь и просто потребитель ежедневно десятки раз сталкивается с продуктами и решениями, в которых применяются инструменты Data Science. К примеру, аудио-сервис Spotify использует их, чтобы лучше подбирать треки для пользователей в соответствии с их предпочтениями. То же самое можно сказать о предложении фильмов и сериалах на видео-стримингах, таких как Netflix. А в Uber науку о данных рассматривают как инструмент для предиктивной аналитики, прогнозирования спроса, улучшения и автоматизации всех продуктов и клиентского опыта.

Экономика инноваций

Что такое Big Data и почему их называют «новой нефтью»

Конечно, дата-сайентисты не могут в точности предсказать будущее компании и учесть абсолютно все возможные риски. «Все модели неправильные, но некоторые из них полезны», — иронизировал по этому поводу британский статистик Джордж Бокс. Тем не менее, инструменты Data Science служат хорошей поддержкой для компаний, которые хотят принимать более информированные и обоснованные решения о своем будущем.

Машинное обучение

Во-первых, машинное обучение — часть более обширной области искусственного интеллекта. Искусственный интеллект — это термин, придуманный Джоном МакКарти в 1956 году, определяемый как «наука и технология создания интеллектуальных машин». Со временем машинное обучение в этой области становится все более значимым.

Машинное обучение можно разбить на две формы обучения: обучение с учителем (supervised) и без учителя (unsupervised).

Обучение с учителем (supervised). Большая часть прикладного машинного обучения сегодня осуществляется с помощью контролируемого обучения — обучения с учителем. Контролируемое обучение — это обучение алгоритма на данных с получением ожидаемых результатов и их последующей корректировкой пользователем, чтобы алгоритм совершенствовал точность при следующем запуске. Представьте алгоритм компьютера в роли студента, а себя в роли учителя, который корректирует его и направляет, когда это необходимо.

Обучение без учителя (unsupervised). Хотя этот тип машинного обучения имеет сейчас менее практическое применение, эта отрасль, возможно, интереснее. В неконтролируемом обучении алгоритмы оставлены сами себе, они самостоятельно обнаруживают и идентифицируют базовые структуры в данных.

Значимость в Data Science

Машинное обучение, несомненно, имеет большое значение в сегодняшней технологической картине. Тони Тейтер и Джон Хеннесси уже назвали это «следующим интернетом» и «горячей новинкой». Билл Гейтс также упомянул эту тему, заявив, что «прорыв в компьютерном обучении будет стоить десяти Microsoft».

Офлайн-курс: «Data Scientist»

Области применения вроде разработки беспилотных автомобилей, классификации изображений и распознавания речи, легко объясняют шумиху вокруг машинного обучения. Сфера растет, и растет быстро, так что прыгайте на подножку сейчас или останетесь позади.

Что почитать

7 шагов к пониманию машинного обучения — пошаговое объяснение процесса машинного обучения.Что такое машинное обучение? (англ.) — интересное обсуждение на Quora с несколькими немного отличающимися ответами, цель которых — определить машинное обучение. (англ.) — немного о том, как возникло машинное обучение.Контролируемые и неконтролируемые алгоритмы машинного обучения (англ.) — четкие, краткие объяснения типов алгоритмов машинного обучения.Визуализация машинного обучения (англ.) — мой любимый ресурс по этому вопросу. Отличная визуализация, которая позволяет вам точно понять, как используется машинное обучение.

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.

Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка. 

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков

Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.
Следите за Big Data Conference в Telegram, на и .

Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.

Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.

Найдем исключения

Конечно, наш пример максимально упрощен. В реальности можно было бы построить более сложную модель, которая учитывала бы какие-то другие факторы, например, любит ли человек кофе в принципе. Или модель могла бы находить более сложные, чем представляемые прямой линией, взаимосвязи.

Можно было бы сперва найти в наших данных выбросы – объекты, которые, как Полина, сильно непохожи на большинство других. Дело в том, что при реальной работе такие примеры могут плохо повлиять на процесс построения модели и ее качество, и их имеет смысл обрабатывать как-то иначе. А иногда такие объекты представляют первостепенный интерес, например, в задаче обнаружения аномальных банковских транзакций с целью предотвращения мошенничества.

Кроме того, Полина демонстрирует нам еще одну важную идею – несовершенство алгоритмов машинного обучения. Наша модель прогнозирует всего 100 мл кофе для человека, который спал 10 часов, в то время как на самом деле Полина выпила аж целых 500. В это никогда не поверят заказчики data science-решений, но пока еще невозможно научить машину идеально предсказывать все на свете: как бы хорошо мы ни выделяли закономерности в данных, всегда найдутся непредсказуемые элементы.

Заключение

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьезные теоретические знания и практический опыт нескольких профессий сразу. В любой компании такой специалист на вес золота. Чтобы достичь желаемых целей и постичь эту науку нужно упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

А еще бытует мнение, что лет через 10–20 любому менеджеру в продвинутой компании будет просто необходимо владеть хотя бы базовыми навыками Data Science. Как однажды рекрутер Линда Берч сказала в своем интервью Mashable: «Если вы не помешаны на данных, то через десять лет вам просто не найдется места в рядах начальников». Что ж, как говорится, поживем – увидим!

Материалы по теме:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector