
Содержание статьи
от Джоша МакМенеми
Как ученые редактируют геномы с помощью компьютеров

CRISPR (произносится как «crisper») является частью бактериальной иммунной системы, разработанной для «запоминания» и удаления вторжения вирусной ДНК.
Его название является сокращением от «Clustered Regularly Interspaced Short Palindromic Repeats». Но, несмотря на полную аббревиатуру и сложное биологическое происхождение, его инженерное применение просто. Чтобы начать, вам нужно понять только один белок – Cas9.
Cas9 ищет определенную последовательность ДНК и разрезает ее, разрывая обе цепи молекулы ДНК. Этот белок полезен исследователям, поскольку они могут «запрограммировать» его на любую последовательность ДНК. Молекула sgRNA («единственная направляющая» РНК) определяет последовательность, с которой связывается Cas9. РНК – это биологическая молекула, подобная ДНК, которая может связываться с белками и ДНК.
sgRNA представляет собой короткие последовательности с константной областью и вариабельной областью. Константная область присоединяет sgRNA к белку Cas9. Вариабельная область заставляет Cas9 связываться с последовательностью дополняющей его ДНК (см. схему ниже).

Создание sgRNA дешевое и быстрое. Это позволяет исследователям быстро настроить эксперимент Cas9, разрезающий любую последовательность ДНК. Ну, не на самом деле любой последовательность. Существует небольшое ограничение: целевая последовательность должна быть окружена правильным PAM (protospacer adjacent motiv) – короткой последовательностью ДНК.
Streptococcus pyogenes Является инфекционным видом бактерий. В версии Cas9, которую он производит, мотивом PAM является NGG, где N — любой нуклеотид (буквы, из которых состоит ДНК).
К счастью, мотив «NGG» встречается примерно один раз в каждые 42 пары оснований в геноме человека. Это означает, что исследователи могут найти целевой сайт почти у каждой интересной последовательности.
В зависимости от экспериментальной установки эти разрезы в ДНК могут или вызвать a случайное изменение или a точное изменение к последовательности ДНК (подробнее об этом позже).
Прежде чем начать писать это приложение, я рекомендую изучить приведенную ниже диаграмму Cas9.

Обратите внимание, что ДНК и РНК обладают направленностью на основе их химической структуры. Один конец молекулы называется концом 5` («пять простых»), а другой — концом 3` («три простых»). Это важно, поскольку последовательность 5’— AGG — 3′ не то же, что 3′ — AGG — 5′.
По договоренности предполагается, что последовательности ДНК и РНК записываются буквами от 5` до 3`, если не указано иное. Последовательности, считываемые в направлении 5` — 3`, называются «прямыми» последовательностями. Последовательности, считанные в другую сторону (3` — 5`), называются «обратными» последовательностями. Это произвольная договоренность.
На диаграмме выше показан пример связывания Cas9, когда PAM находится на обратной (нижней) цепи.
Ваша первая программа CRISPR
Сценарий
Ученый имеет интересную последовательность ДНК и хочет получить список всех мишеней CRISPR, содержащихся в этой последовательности. Находить каждую цель вручную утомительно и часто ошибаться.
Ученый хочет иметь простую программу, посредством которой они могли бы ввести последовательность ДНК и вернуть все возможные целевые сайты Cas9. Ученый также хотел бы получить информацию о позиции разреза и последовательности PAM для каждого целевого места.
EXAMPLE INPUT (from Figure 1): 'CCACGGTTTCTGTAGCCCCATACTTTGGATG'
EXAMPLE OUTPUT: [{ 'cut_pos': 6, 'pam_seq': 'TGG', 'target_seq': 'GTATGGGGCTACAGAAACCG', 'strand': 'reverse' }, { 'cut_pos': 22, 'pam_seq': 'TGG', 'target_seq': 'GTTTCTGTAGCCCCATACTT', 'strand': 'forward' }]
Во-первых, как мы находим цели CRISPR в последовательности? Помните, что белок Cas9 может связываться где угодно, где есть мотив «NGG».
Первый шаг – прокрутить последовательность в поисках совпадений. Когда программа находит совпадение NGG, мы хотим отнять три позиции от начала сайта PAM, поскольку именно там Cas9 разрезает ДНК.
Затем мы хотим записать двадцать пар оснований перед PAM как целевую последовательность. Звучит хорошо?
Что ж, алгоритм, описанный выше, фактически пропустил бы примерно половину всех сайтов CRISPR – потому что ДНК двухцепная. Это означает, что если CCN является последовательностью на прямой цепи, то NGG является последовательностью на обратной цепи.
Программа также должна искать CCN, используя аналогичную логику для обратной цепи.
Пример программы
Не все цели CRISPR одинаковы
Когда CRISPR только приобрел популярность, исследователи часто извлекали последовательность на своем компьютере и выбирали цели вручную. Проектирование оптимальной sgRNA теперь стало гораздо сложнее. Ниже приведено короткое вступление в эту сложность.
Вне целей
Вскоре исследователи поняли, что Cas9 иногда связывался и разрезал локусы, не совсем соответствующие целевой последовательности. Эти нецелевые сокращения повлекут за собой непреднамеренные изменения в исследовательском эксперименте (или, возможно, в геноме пациента в случае терапии!)
Чтобы разработать хорошее руководство, программа должна рассмотреть весь геном (а это примерно 3 миллиарда нуклеотидов для человека), чтобы вычислить нецелевой балл. Исследователи также недавно разработали белок Cas9, чтобы обладать меньшей нецелевой активностью.
Нокаут
Когда Cas9 связывается, он создает разрез, производя двухцепочечный разрыв молекулы ДНК. В большинстве случаев клетка может восстановить этот разрыв с помощью биохимического пути (так называемого негомологического соединения концов или NHEJ).
Этот путь не всегда идеален, и иногда, когда Cas9 прерывается, процесс восстановления производит небольшую вставку или удаление в последовательности ДНК. В области ДНК, кодирующей белок, эти небольшие вставки и делеции вызывают мутацию сдвига рамки, которая часто нарушает функцию белка.
Исследователи часто нокаутируют ген, чтобы узнать, как белок влияет на определенную функцию или фенотип клетки. Создание нокаутного редактирования добавляет дополнительные ограничения к дизайну sgRNA, так как теперь направляющая должна приземляться в области кодирования гена.
Редактирование
Вместо удаления гена учёный часто хочет внести точные изменения. Это особенно полезно при попытке исправить болезнь, повлекшую мутацию. Лучший способ сделать это все еще исследуется. Большинство методов предполагает добавление дополнительного донорского фрагмента ДНК.
Целевой результат
Некоторые последовательности sgRNA заставят Cas9 разрезать лучше других. Исследователи сравнили эффективность резки между тысячами мишеней Cas9, чтобы создать прогнозные модели эффективности резки sgRNA.
Microsoft даже поддерживает репозиторий с открытым исходным кодом для «Прогнозного моделирования на основе машинного обучения эффективности руководства CRISPR/Cas9».
Другие системы CRISPR-Cas
Исследователи обнаружили системы CRISPR-Cas в других бактериях. Эти другие системы имеют разные PAM.
Заключительные примечания
Надеюсь, вы узнали что-нибудь новое! Если вы хотите узнать больше о биологии, медицинском применении, коммерческом применении или этических последствиях геномной инженерии CRISPR-Cas, тогда я рекомендую прочитать Трещину в создании Дженнифер Дудна и Сэмюэла Стернберга. Дженнифер Дудна является одним из первых открытий основания CRISPR.
Об авторе
Раньше я был исследователем в лаборатории Герсбаха в Университете Дюка, а сейчас работаю инженером-программистом в Synthego.