Один из нюансов вакансий в этой сфере заключается в том, что разные слова могут означать одно и то же. В машинном обучении и статистике это встречается довольно часто. В одной компании требуется опыт регрессионного анализа или классификации, в другой — опыт контролируемого обучения, но в целом эти термины эквивалентны. То же самое касается A/B-тестирования, онлайн-экспериментов и рандомизированных контрольных испытаний. Если вы не знаете термин, загуглите его; вы можете обнаружить, что уже делали такое, просто оно по-другому называлось! Если вы не работали с какой-то технологией, заявленной в вакансии, вспомните, сталкивались ли вы в принципе с чем-то подобным
В описаниях вакансий есть клише, на которые также стоит обратить внимание. Фраза: «Хорошо поработал — хорошо отдохнул» означает, что вам придется много работать, но зато вы сможете посещать неформальные корпоративные мероприятия (например, поход в бар). Или, например, если ищут «инициативного и независимого» сотрудника, значит, вам будут мало помогать. Умение читать между строк поможет найти подходящую работу.
Когда вы начинаете читать описания вакансий, может показаться, что вся работа в Data Science попадает в одну из двух категорий:
• Бизнес-аналитик. На этой должности вы будете использовать инструменты бизнес-аналитики, такие как Excel и Tableau, и, возможно, немного SQL, но, как правило, вы не будете писать код. Если вы хотите улучшить навыки программирования, знания в области статистики и инженерии данных или расширить набор инструментов для машинного обучения, эти вакансии вам не подходят.
• Единорог. С другой стороны, есть целый ряд вакансий с такими требованиями: наличие кандидатской степени в области компьютерных наук, опыт работы дата-сайентистом более пяти лет; эксперт в области передовой статистики, глубокого обучения и общения с деловыми партнерами; имеет опыт выполнения широкого круга обязанностей, от машинного обучения на производственном уровне до создания информационных панелей и проведения A/B-тестов. Такие описания обычно означают, что компания сама не знает, кого ищет, и ожидает, что специалист по данным решит все ее проблемы самостоятельно.
Но не спешите расстраиваться: даем слово, что бывает и другая работа. Лучше думать о вакансии с точки зрения квалификации.
Начните с сайтов вакансий, таких как LinkedIn, Indeed и Glassdoor. Стоит выбрать несколько веб-сайтов, потому что не все компании публикуют свои вакансии на каждом. Если вы относитесь к группе недостаточно представленного меньшинства в сфере технологий, поищите специальные сайты, такие как POCIT и Tech Ladies, которые предназначены для цветных людей и женщин в этой области соответственно. Место поиска зависит от вида работы, на которую вы претендуете, например бывают сайты объявлений для определенных типов компаний, таких как AngelList для стартапов или Dice для технологических организаций.
Проект показал, что я могу сделать что-то, с чем другие пользователи смогут взаимодействовать, а не ограничиваться статическим анализом, который хранится у меня на ноутбуке. Этот проект нашел свое применение в реальной жизни: благодаря ему фрилансеры могли найти работу. Наконец, я прошла через полный цикл DS-проекта: сбор данных, их очистку, выполнение эксплораторного анализа и получение результата.
Но где же размещать статьи? У вас есть два основных варианта:
• Создание собственного сайта. Если вы работаете в R, мы предлагаем использовать пакет blogdown, который позволяет создать веб-сайт для блога с разметкой на R (круто, правда?). Если вы используете Python, то Hugo и Jekyll — это два варианта для создания статических
а в блоге вы сможете попрактиковаться в переводе с технического на деловой язык.
Никого не заинтересует pet_name_analysis.R, зато никто не пройдет мимо заголовка «Я использовал R, чтобы найти самые глупые клички питомцев!»
Минимальное требование для полезного репозитория GitHub — заполнение файла README. Вам нужно ответить на несколько вопросов:
• Что это за проект? Какие данные в нем используются? На какой вопрос он отвечает? Что получилось: модель, система машинного обучения, информационная панель или отчет?
• Как организован репозиторий? Этот вопрос, конечно, подразумевает, что репозиторий действительно каким-то образом организован! Есть множество различных систем, но основная заключается в разделении вашего скрипта на части: получение (если необходимо) данных, их очистка, изучение и окончательный анализ. Таким образом, люди будут знать, как найти то, что им интересно.
Также неплохо поразмыслить над направлениями Data Science, которые мы рассмотрели в главе 1. Хотите специализироваться на визуализации? Сделайте интерактивный график с помощью D3. Хотите обрабатывать естественный язык? Используйте текстовые данные. Машинное обучение? Спрогнозируйте что-нибудь.