Четыре навыка науки о данных, которым я не научился в аспирантуре (и как их научиться!)

1656680770 chetyre navyka nauki o dannyh kotorym ya ne nauchilsya v

Рэйчел Тэтман

vh0dRg6tHkNAyrW2TQbx0mK71uVJGvbvjnco
Фото Element5 Digital на Unsplash

Прежде чем перейти к существу этой публикации, я хочу прояснить одну вещь: вы так нет нужна ученая степень, чтобы стать ученым данных. Если вы не занимаетесь передовыми исследованиями машинного обучения (что, будьте честными, не касается 99,9% ученых по обработке данных — включая меня!), диплом в области исследования просто не нужен. Кто-нибудь, кто говорит вам иначе, пытается что-то вам продать — вероятно, диплом о науке о данных.

Тем не менее, я приобрел много ценных навыков в высшей школе. Я научился работать с беспорядочным данным, задавать хорошие вопросы, определять, какой статистический инструмент использовать в конкретной ситуации, писать код для статистических вычислений и машинного обучения и, что не менее важно, четко передавать технические концепции.

Все эти навыки необходимы каждому специалисту по обработке данных. То, чем они не являются, есть только навыки, необходимые специалисту по обработке данных. Двумя сложными этапами перехода от аспирантуры к промышленности для меня были 1) определение недостающих недостатков навыков и 2) определение наилучшего способа для меня ускорить их.

К счастью, если вы находитесь в том же месте, где я был, я вас поддержу. Без лишних слов, вот четыре навыка науки о данных, которым я не научился в аспирантуре, а также несколько практических советов по поводу того, как их можно научиться.

SQL

Я обнаружил, что большинство аспирантов, изучающих науку о данных как карьеру, уже знакомы с R или Python (или обоими!). Кроме того, гораздо меньше людей на этом посту знают SQL. И это может стать проблемой, когда вы готовы выйти на рынок работы с научными данными: после Python и R SQL является третьим наиболее широко используемым инструментом в исследованиях данных.

SQL (обычно произносится как «сиквел») – это язык программирования, специально предназначенный для взаимодействия с базами данных. Его достаточно редко можно увидеть в академическом контексте, но он повсеместно распространён в отрасли. К счастью, основы относительно легко освоены, и существует много образовательных ресурсов, которые помогут вам начать.

Как выучить SQL:

  • Пройти курс. Есть много онлайн-вариантов, в том числе курсы Khan Academy, DataCamp, Stanford и Udemy. Очные курсы найти немного труднее, но если вы проверите местный университет, общественный колледж или программный лагерь, вам может повезти.
  • Разработайте портфолио SQL. Наличие примеров вашего умения писать запросы к реальным базам данных является хорошим доказательством того, что вы знакомы с языком. Одним из вариантов является написание ядер (т.е. размещенных блокнотов R или Python) на наборах данных BigQuery на Kaggle. Я написал краткую инструкцию, которая поможет вам начать. (Полное раскрытие: я работаю на Kaggle. 🙂 HackerRank и SQLZOO также имеют немало упражнений SQL.

Будучи специалистом общего профиля

Аспирантура – ​​это супер! Ваша повседневная работа расширяет границы человеческих знаний, что очень радостно. Прорабатывая свой диплом, вы действительно углубляетесь в одну конкретную тему, задавая все более точные вопросы во все более узкой и более узкой сфере. В конце концов, вы наиболее знающий человек на планете относительно своей маленькой суб-ниши. В этом нет ничего плохого: просто так работает научное исследование.

это есть нет как работает наука о данных. Если вам не повезет и вы закончите работать именно над тем, о чем написали свою диссертацию или диссертацию, от вас ожидается, что вы сразу поработаете над проблемами вне вашей сферы. И не только вещи, не относящиеся к вашей сфере: проблемы из тех сфер, которых вы никогда не имели услышал с. Вам придется очень быстро свыкнуться с тем, в чем вы не эксперт.

Вот несколько способов стать лучшими специалистами широкого профиля:

  • Читайте вне вашей дисциплины. Обучающие дисциплины, как правило, используют специализированный набор статистических инструментов. В социолингвистике, например, мы много работаем с регрессией со смешанным эффектом, но существует множество других статистических подходов. Чтение работы по разным дисциплинам познакомит вас с широким спектром разнообразных техник и проблем и поможет вам научиться комфортно прыгать ногами вперед в новую тему.
  • Практикуйте анализ новых типов данных. Ученые должны работать со всеми видами данных. Возможно, у вас уже есть глубокий опыт работы с одним типом данных, но подумайте о разветвлении. Вы работали с временными рядами? Текст? Изображение? видео? Аудио? Предварительно обученные модели? Реляционные базы данных? Выясните, какие пробелы существуют в ваших знаниях, и попробуйте работать с новыми и разными источниками. (Обязательная подставка: Kaggle имеет более 10 тысяч общедоступных наборов данных из множества источников. Вы также можете проверить Zenodo или проект Dataverse.)
  • Обсуждайте технические концепции с людьми вне вашей сферы. Вы не только узнаете много нового, но и сможете попрактиковаться в объяснении технических концепций людям, которые не разделяют вашего специального академического образования.

Управление источником/версией

Это для меня немного обман: на самом деле я сделала научиться управлять источниками в аспирантуре благодаря семинару Столярного программного обеспечения. Но это да, да, так ценно, и я знаю, что многие мои сверстники в аспирантуре не сталкивались с этим.

Контроль источника, также называемый контролем версий, — это способ управления внесением изменений в единый централизованный документ или кодовую базу. Основная идея заключается в том, что вы выполняете свою работу на копии того, над чем вы работаете, и время от времени используете эту копию для обновления оригинала. Это полезно для отдельных проектов (позволяет вернуться к той версии, которая действительно работала, и выяснить, что вы сломали) и почти обязательно для технического сотрудничества.

Как научиться использовать контроль версий:

  • Теперь используйте контроль версий для каждого отдельного исследовательского проекта и статьи. Я на 100% серьезно. Вся моя диссертация контролировалась версиями, и это спасало меня столько раз, что сбивался со счета.
  • Используйте GitHub для личных проектов (если у вас есть) или исследований, которыми вы можете поделиться. Это необязательно, но полезно, если вы присоединитесь к команде, использующей GitHub. Кроме того, активный профиль GitHub является одним из способов продемонстрировать свой рабочий процесс потенциальным работодателям.

Остановка на «Довольно хорошо»

Когда вы работаете в академической среде, вам действительно нужно убедиться, что все хорошо, насколько это возможно. Ваша работа будет тщательно оценена экспертами и, если она пройдет проверку, будет навсегда добавлена ​​в научную литературу. С другой стороны, когда вы работаете в индустрии, гораздо лучше иметь что-нибудь полезное сейчас чем-то очень изысканное.

Одним из первых новых терминов, которые я изучил, работая в индустрии, был MVP или «минимально жизнеспособный продукт». Идея состоит в том, что вы делитесь чем-нибудь, когда это достаточно хорошо, чтобы удовлетворить часть людей, которые будут с этим взаимодействовать. В научных условиях это означает, что вы не можете ответить на каждый вопрос, используя данные или иметь менее точную модель, чем она могла бы быть при дополнительной настройке. У вас может быть время для более глубокого анализа или дополнительной настройки позже, но вы должны быть готовы поделиться проектами, когда они станут «достаточно хорошими».

Как лучше видеть то, что достаточно хорошо:

  • Работа над определением «пока сделано». В следующий раз, когда вы будете работать над проектом, время от времени останавливайтесь, возможно, перед тем, как завершать каждый день, и подумайте, создали ли вы уже что-то ценное (вы, наверное, создали!). Выделите минуту, чтобы потренироваться в том, как вы могли бы описать то, что полезно или интересно в том, что вы уже сделали.
  • Рассмотрите промежуточные этапы вашего исследования. Если вы можете, подумайте о том, чтобы поделиться промежуточными этапами следующего исследовательского проекта, возможно, в блоге или с коллегой по лаборатории. Возможно, он еще не готов к сведению, но является ли этот фрагмент вашего анализа новым? Узнали ли вы что-то, чем следует поделиться во время сбора данных? Что вы сделали, что уже достаточно хорошим, чтобы кто-то другой мог считать это ценным?

И вот у вас есть четыре ключевых навыка, которыми я пользуюсь более-менее каждый день, которым меня не научила магистратура. Другие специалисты по данным: не стесняйтесь поделиться необходимыми навыками, полученными после получения диплома!

Добавить комментарий

Ваш адрес email не будет опубликован.