Зачем дата-сайентисту SQL и где его можно изучить

>

Камон, 2022-й на дворе, какой ещё SQL?!

Легенды гласят, что первые поколения программистов были универсалами: они могли заправить принтер, поднять сервер, настроить АТС, а установку 1С и Офиса с пиратских дисков делали не просыпаясь. 

Изображение: х/ф «Матрица: Воскрешение»

Сейчас схожая ситуация наблюдается среди дата-сайентистов. Многие из них умеют завести виртуалку в облаке, раскатать контейнер в Docker, поднять базу из бэкапа, а иногда и сварганить небольшой лэндинг в качестве презентации проекта. 

И если от задач типа веб-страницы на Heroku или презентации в Powerpoint можно отвертеться без больших потерь, то с SQL дело обстоит иначе. Он хоть и не нужен для разработки моделей машинного обучения, однако дата-сайентисту его лучше знать.

Почему — читайте далее.  

Что такое SQL и для кого он

SQL — это язык структурированных запросов. С его помощью можно обращаться к базам данных и получать от них нужную информацию в виде таблиц, формируемых сервером «на лету». Его преимущества — скорость работы, переносимость между различными СУБД, сравнительная простота для изучения. 

Изображение: м/ф «Новое обличье императора»

SQL — лингва франка для аналитиков, дата-инженеров и владельцев данных. Именно с этими специалистами  больше всего общается дата-сайентист: они ставят ему задачи, поставляют данные и запускают его модели в продакшн. Если хотите эффективно работать и расти в команде, SQL неизбежен. 

Junior

Чем младше вы как специалист, тем вероятнее вам придётся добывать данные самому. Без SQL, в том или ином виде, это очень трудно: семь из десяти наиболее популярных систем управления базами данных, включая весь топ-4, используют язык SQL

Наиболее популярные системы управления базами данных. Изображение: Statista.com

Первые месяцы своей работы в качестве дата-сайентиста автор писал исключительно на SQL, формируя выборки для тестирования моделей. Кстати, 

Также младшему DS-специалисту не повредит и знание Excel, желательно на продвинутом уровне. 

Изображение: м/ф «Гадкий Я»

Middle, Senior и далее

Когда ваше рабочее время станет дороже, данные для вас, скорее всего, будут готовить специально обученные люди: администраторы БД, менеджеры данных и дата-инженеры. 

Ведущие и старшие специалисты Data Science крайне редко сами пишут запросы в базу. Это просто не их уровень: они заняты тем, что превращают проблемы бизнеса в DS-задачи, которые решают их подчиненные. 

Но что, если задача получится слишком заковыристой? Ведь чем выше квалификация дата-сайентиста, тем сложнее его проблемы. Это означает, что и данные для её решения должны будут отвечать сложным критериям.

Придётся тратить время на то, чтобы объяснить коллегам, что именно нужно — а если они не дотягивают по квалификации? А если включится испорченный телефон? Процесс может затянуться на многие итерации, спринты и созвоны, особенно с этой нашей удалёнкой.

Короче, уметь быстро добыть и дополнить данные самому — не только экономия времени, но и вопрос профессионального престижа. Вы же не хотите, чтобы про нас, дата-сайентистов, травили байки типа: «Я что-то нажал и данные исчезли»?  

Где и как изучить SQL

Начинайте с бесплатных ресурсов, а по мере роста знаний и требований ищите курсы, которые подходят вам по бюджету и содержанию учебной программы. Постарайтесь не тратить сразу свои деньги, а попробуйте сначала уговорить работодателя купить курс или книги для вас. Даже если в итоге платить придется самому, стоимость, скорее всего, будет ощутимо ниже. 

sql-ex / sql-tutorial

В 2022 году проекту Сергея Моисеенко и его команды исполняется двадцать лет. Пожалуй, это главный ресурс по SQL в русскоязычном сегменте интернета, на котором выросли несколько поколений айтишников СНГ. 

Преимущества:

  • понятные объяснения на русском языке;
  • сертификаты;
  • бесплатен;
  • дизайн 😊

Ссылки: тренажёр, учебник. Также можно поддержать проект.

freeCodeCamp

Бывшему директору школы Куинси Ларсону, основавшему freeCodeCamp, программисты всего мира, без сомнения, рано или поздно поставят памятник, а возможно, и не один. Вам уже наверняка попадались ссылки на длинные, в несколько часов, видеоуроки на YouTube, без рекламы и интеграций. 

Основные достоинства:

  • бесплатное обучение;
  • сертификаты;
  • большое сообщество;
  • вход в международную IT-тусовку.

Ссылки: страница курса, курс на YouTube, статья о проекте в Википедии (на английском).  

Coursera

Начните с курса Databases and SQL for Data Science with Python, входящего в сертификационную программу IBM Data Science Professional Certificate. Если понравится, можно взять и другие курсы сертификации — автор в своё время так и сделал. 

Преимущества:

К слову, IBM являются одним из родоначальников языка SQL. 

Ссылки: страница курса, страница сертификации

Stepik

Пакет из трёх курсов по SQL от Никиты Шультайса обойдется не слишком дорого, особенно если угадаете под акцию или скидку. Хороший вариант, если вы хотите разобраться в SQL «для себя» и у вас есть несколько тысяч рублей на самообразование. 

Преимущества:

  • русский язык
  • оперативные ответы преподавателей
  • сертификат Stepik
  • различные варианты покупки (отдельно или вместе)

Ссылки: курс «Основы SQL», пакет курсов по SQL. 

SkillFactory

Курс по SQL для анализа данных от Skillfactory — из тех, что имеет смысл проходить за счёт работодателя. Ресурс позиционирует себя как ориентированный на Data Science и Data Analysis, поэтому рекомендуем присмотреться к программе курса внимательно, а возможно и задать пару вопросов менеджерам. 

Преимущества:

  • привязка к DS (DA); 
  • сертификат;
  • чат студентов в Slack;
  • разделение по уровням подготовки (basic и pro).

Ссылка: курс по SQL для анализа данных

Блоги и книги 

Если вам удобнее читать текст, а не смотреть видеоуроки, то серия статей на сайте data-flair раскроет основные аспекты применения SQL в Data Science. Начните со статьи о роли SQL в DS, а дальше идите по ссылкам в тексте или в меню слева. Покупать их платные курсы не обязательно. 

Преимущества:

  • привязка к Data Science;
  • описание текстом;
  • подробные объяснения;
  • много тем.

Основные концепции SQL на понятных примерах и задачах изложены в культовой книге Томаса Нилда «Getting Started with SQL: A Hands-On Approach for Beginners». Книга на Амазоне, репозиторий на Github

Списки других книг по SQL можно найти здесь и здесь.

TL;DR

Если вы не знаете SQL или не хотите его изучать, то вакансию в Data Science вам придется искать дольше, — а возможно, и существенно дольше. 

На данный момент далеко не все работодатели видят принципиальную разницу между дата-сайентистом и, например, дата-инженером, поэтому без проблем нагружают первых обязанностями вторых.

Также вам придётся многое делать самому, особенно на первых порах, и без SQL здесь не обойтись, даже если он не был упомянут в описании вакансии. Чем работодатели тоже нередко грешат, полагая его само собой разумеющимся.

Конечно, когда-нибудь наступят времена, когда дата-сайентисты будут заниматься исключительно моделями, как сейчас программисты всё чаще пишут только код, а не деплоят его в продакшен. Но пока что…

— Ты ж дата-сайентист, дёрни выборку сам селектом! 

Реклама на Bubble

Читайте по теме

Скидки и специальные условия
Курсы со скидками для пользователей Bubble
Выбрать курс
Освоить за выходные
Экспресс-курсы программирования
Выбрать курс
Баг пофиксил
Курсы для QA-инженеров
Выбрать курс
Аналитик сотого левела
Курсы по аналитике данных
Выбрать курс
Подписывайся на Bubble в соцсетях
Подписывайся на BUBBLE в соцсетях