Практическая наука о данных: мастерить, портной, солдат, шпион

1656663376 prakticheskaya nauka o dannyh masterit portnoj soldat shpion

Мишель Джонс

qtzVR0NFhbDV6LkQTt7OQxph-A6UMaHKRKZK

Я пришел к науке о данных и статистиках как провале. Получив степень магистра психологии, я безуспешно подавался на около 30 вакансий, связанных с психологией. Я даже не дошел до этапа собеседования. Затем я увидел объявление о работе исследователя, и это положило начало 21-летней карьере прикладного статистика в правительстве. Попутно я получил аспирантуру по статистике.

Моя история кодирования

Мой первый код был у SPSS PC версии 5.0 для моей магистерской работы. Еще в 1995 году, когда я писал диссертацию, пользовательский интерфейс для статистического программного обеспечения был очень простым. Я использовал систему меню для создания первого набора кода, который мне нужен. Далее я скопировал этот код для следующей серии анализов других переменных только изменив части, касающиеся названий переменных.

g8klZsrmqlbBjDEAGQPpzpfl6WiNVNO2estK
По крайней мере, это были не перфокарты. Автор изображения.

Непосредственная работа с кодом дала мне понять, как работает код: команды, параметры команд и маркеры конца строки. Это заставило меня хорошо подумать, какие параметры мне нужны для анализа, поскольку я их ввел. Это способ, которым я познакомился с кодировкой. Это было быстрее, чем использование системы меню.

Приблизительно в то же время я немного познакомился с SAS, версия 6, чтобы помочь профессору с анализом данных. Код был написан, и я только изменял его, чтобы обновить анализ. В этой версии SAS был редактор программ, и я прочитал много печатных копий руководства пользователя SAS. Это было мое вступление в кодировку без системы меню, и я сделал много ошибок, начиная. Мое особое мастерство заключалось в том, что я не мог закрыть кавычки для строк.

Отсюда я провел следующий 21 год, используя статистическое программное обеспечение на разных должностях в правительстве. Я использовал SPSS, SAS, R и Stata. Я изучил VBA, который в основном использовал для Excel и Access. Для получения докторской диссертации, на которой сейчас я сосредоточен, я использую R, VBA, Java и Latex.

Тинкер

Основная роль специалиста по обработке данных – это мастерить вещи. Около 90% моего времени я тратил на преобразование данных в подходящий формат для анализа. Иногда это простая, но трудоемкая задача, например, сопоставление данных между несколькими экстрактами хранилищ данных, поскольку четвертая обычная форма не полезна для анализа данных. Иногда преобразования могут быть простыми и быстрыми. Одним из примеров является изменение данных из широкого формата на длинный формат или наоборот из-за предположения о структуре данных в программном обеспечении.

Более сложная работа включает перекодирование детальных данных в менее подробный формат, который полезен для анализа. Например, существует много способов, которыми люди отвечают на варианты ответа «Другое» в опросах, но все они должны быть закодированы для анализа.

De8REfoHLkzHG7MMwwtj9dyBs-xOc75An1O0
Иногда важно сравнить яблоки и апельсины, а иногда мы просто хотим знать о фруктах. Автор изображения.

Портнуть

Культура больше всего влияет на то, как вы будете кодироваться в организации. Культура контролирует, какое программное обеспечение используется, какое программное обеспечение можно использовать и как ваш код будет взаимодействовать с другими сотрудниками. Иногда ваши коллеги хотят отчеты. Иногда ваши коллеги являются экспертами по данной теме и помогут вам перекодировать. Иногда вам нужно создать кодовое решение для использования коллегами. Вы можете быть одним из многих сотрудников, использующих программное обеспечение для анализа.

Вы должны адаптировать свои решения в соответствии с этими потребностями. Анализ данных для отчетов – это стандартная задача специалиста по обработке данных, которую можно выполнять с помощью любого статистического программного обеспечения. Вы единственное лицо, использующее программное обеспечение, и усложнение кодировки видите только вы. Вашим ограничением является программное обеспечение, доступное для использования.

Работать с коллегами по адаптации данных также легко. Одним из примеров является перекодирование открытых ответов в сводные категории для анализа. Я, как правило, использую для этого Excel, поскольку большинство организаций имеют это программное обеспечение, и все сотрудники могут получить к нему доступ, но любое программное обеспечение, которое может обрабатывать строки данных, полезно. После обсуждения проблемы и решения с коллегами я сбрасываю данные в один столбец в Excel с заголовком и передаю его.

Иногда потребность в адаптации данных становится неочевидной, пока не будет выполнен первый анализ. Одна переменная может быть собрана с помощью небольшого количества подкатегорий. Например, статус связи, и вы обнаружите, что результаты одной подкатегории будут в пределах погрешности. Вы можете перекодировать свои данные, чтобы эта подкатегория была объединена с другой, логической, подкатегорией. Эта новая объединенная подкатегория будет переименована в соответствующую, что отображает новое содержимое.

Настройка кода для коллег может быть легко. Если ваши коллеги используют то же статистическое программное обеспечение, достаточно предоставить код для этого программного обеспечения с комментариями и инструкциями. Часто сотрудники не имеют статистического программного обеспечения, и им просто нужно решение в используемом ими программном обеспечении. Этой программой, вероятно, будет Excel. Ваша задача может варьироваться от проверки формул до предоставления макроса VBA в книге Excel с поддержкой макросов.

Солдат

Большинство сотрудников не понимают, что вы делаете. Они видят, что вы производите, но не знают и не интересуются тем, как вы это делаете. Как я уже говорил ранее, около 90% вашей роли – это грубая работа, поскольку данные редко поступают в форме, подходящей для анализа. Если да, другой специалист по обработке данных сделал за вас огромную работу.

Другая грубая работа пытается заставить код работать и, возможно, реализует другое решение. Например, однажды я совершил ошибку, попытавшись использовать цикл for-next в R для нескольких миллионов записей. Это было до того, как я обнаружил, что R использует векторизацию, что сделало решение однострочным.

AYhLKyuSxS27hish2bD4UhlqPhYg-wEF7b3C
Фея данных, которая действительно выполняет всю тяжелую работу за меня. Автор изображения.

Шпион

Убедитесь, что вы знаете, чего хочет ваш коллега-клиент, прежде чем начать что-нибудь, особенно то, что займет много времени. Люди могут быть неконкретными, например, просто сказать, что им нужен отчет.

Вы используете приёмы шпиона. Как использовать отчет? Им нужны детальные анализы или только высокого уровня? Например, анализируете ли вы отдельно по полу и возрасту, а не по полу и возрасту вместе? Хотят ли люди разбивку данных? Используйте таблицу. Хотят ли люди широкую картинку? Используйте график. Если отчет велик, на чем следует сосредоточить внимание в каждом разделе? Какие анализы лучше всего подходят для отчета? Какие виды выводов хочет подчеркнуть коллега?

Советы

Сохраните промежуточные наборы данных, не перезаписывайте их. Если я читаю файлы другого типа, например .csv, я всегда храню только импортируемый набор данных. Я делаю свои данные из этого набора данных, но я храню в другом наборе данных. Таким образом, когда манипуляции пойдут не так (а они будут), вам не нужно снова вводить данные с нуля. Если в результатах анализа есть что-то странное, например, пустая категория, вы можете увидеть, связана ли проблема с исходными данными или с чем-то, что вы сделали.

Не забывайте комментировать код, а также код для ясности и не всегда эффективности. Много раз мне приходилось возвращаться к коду, написанному 6 месяцев, 1 год, 2 года назад и понять, что я сделал и почему я сделал это именно так.

Имея дело со многими строками кода, я использую блоки заголовков комментариев к разделу кода. Это полезно, когда вам нужно повторно запустить только часть кода и вы пытаетесь найти код, который нужно повторно запустить.

Работая с большим количеством кода, используемого для написания разделов в отчете, я разделяю анализ каждого раздела на разные кодовые файлы. Каждый файл кода имеет соответствующий номер раздела в названии файла.

Предположите, что никто не будет рецензировать вашу работу. Перед анализом проверьте данные, чтобы убедиться, что они обоснованы. Для этого я использую частотные таблицы. Это быстрый способ увидеть, есть ли неожиданные категории или категории, которые содержат слишком мало данных для точной отчетности.

Наконец

Как специалист по обработке данных вы являетесь экспертом по программному обеспечению. Вы можете посоветовать, какое программное обеспечение следует использовать с учетом организационных потребностей и средств. Возможно, вам понадобится провести официальное обучение персонала или помочь с ним. Вероятно, именно вам звонят и посылают электронные письма, когда у людей возникают проблемы с использованием программного обеспечения. У вас будет много взаимодействия с отделом ИКТ.

Некоторые примеры моих работ

Глава четвертая этого отчета о полицейских преследованиях. Я использовал SAS.

Рабочий документ о гендерном разрыве в оплате труда на государственной службе Новой Зеландии, одна из моих наиболее цитируемых публикаций. Данные были проанализированы посредством SPSS.

Моя единственная опубликованная статья единоличного автора (по оплате), и в ней использовались данные других людей. Я использовал только Excel.

Опубликованная статья (не по платному доступу), где я развлекся с графиками, они были сделаны в R. Я набросал их на бумаге перед кодировкой.

Это исследование и отчет длились более 2 лет. Большая часть анализа была выполнена в Stata, дополненном R для анализа дерева решений. Графики сделаны в Excel с внедрением результатов Stata.

Добавить комментарий

Ваш адрес email не будет опубликован.