Программирование генома с помощью CRISPR

1656675012 programmirovanie genoma s pomoshhyu crispr

от Джоша МакМенеми

Как ученые редактируют геномы с помощью компьютеров

1*jEBmdQVQvOeQba3Msz5f5g

CRISPR (произносится как «crisper») является частью бактериальной иммунной системы, разработанной для «запоминания» и удаления вторжения вирусной ДНК.

Его название является сокращением от «Clustered Regularly Interspaced Short Palindromic Repeats». Но, несмотря на полную аббревиатуру и сложное биологическое происхождение, его инженерное применение просто. Чтобы начать, вам нужно понять только один белок – Cas9.

Cas9 ищет определенную последовательность ДНК и разрезает ее, разрывая обе цепи молекулы ДНК. Этот белок полезен исследователям, поскольку они могут «запрограммировать» его на любую последовательность ДНК. Молекула sgRNA («единственная направляющая» РНК) определяет последовательность, с которой связывается Cas9. РНК – это биологическая молекула, подобная ДНК, которая может связываться с белками и ДНК.

sgRNA представляет собой короткие последовательности с константной областью и вариабельной областью. Константная область присоединяет sgRNA к белку Cas9. Вариабельная область заставляет Cas9 связываться с последовательностью дополняющей его ДНК (см. схему ниже).

1*HatelyoaNAjVo1jR4KWQtw
Белок Cas9 связывается с ДНК, когда последовательность PAM находится на передней (верхней) цепи. Последовательность, выделенная жирным шрифтом, обозначает целевую последовательность, зеленую последовательность — sgRNA, а три синих символа — PAM. Треугольники показывают, где Cas9 будет разрезать ДНК.

Создание sgRNA дешевое и быстрое. Это позволяет исследователям быстро настроить эксперимент Cas9, разрезающий любую последовательность ДНК. Ну, не на самом деле любой последовательность. Существует небольшое ограничение: целевая последовательность должна быть окружена правильным PAM (protospacer adjacent motiv) – короткой последовательностью ДНК.

Streptococcus pyogenes Является инфекционным видом бактерий. В версии Cas9, которую он производит, мотивом PAM является NGG, где N — любой нуклеотид (буквы, из которых состоит ДНК).

К счастью, мотив «NGG» встречается примерно один раз в каждые 42 пары оснований в геноме человека. Это означает, что исследователи могут найти целевой сайт почти у каждой интересной последовательности.

В зависимости от экспериментальной установки эти разрезы в ДНК могут или вызвать a случайное изменение или a точное изменение к последовательности ДНК (подробнее об этом позже).

Прежде чем начать писать это приложение, я рекомендую изучить приведенную ниже диаграмму Cas9.

1*Bkb6hf7coqumUDNdxJ3CsQ
Белок Cas9 связывается с последовательностью ДНК, когда последовательность PAM находится на обратной (нижней) цепи.

Обратите внимание, что ДНК и РНК обладают направленностью на основе их химической структуры. Один конец молекулы называется концом 5` («пять простых»), а другой — концом 3` («три простых»). Это важно, поскольку последовательность 5’— AGG — 3′ не то же, что 3′ — AGG — 5′.

По договоренности предполагается, что последовательности ДНК и РНК записываются буквами от 5` до 3`, если не указано иное. Последовательности, считываемые в направлении 5` — 3`, называются «прямыми» последовательностями. Последовательности, считанные в другую сторону (3` — 5`), называются «обратными» последовательностями. Это произвольная договоренность.

На диаграмме выше показан пример связывания Cas9, когда PAM находится на обратной (нижней) цепи.

Ваша первая программа CRISPR

Сценарий

Ученый имеет интересную последовательность ДНК и хочет получить список всех мишеней CRISPR, содержащихся в этой последовательности. Находить каждую цель вручную утомительно и часто ошибаться.

Ученый хочет иметь простую программу, посредством которой они могли бы ввести последовательность ДНК и вернуть все возможные целевые сайты Cas9. Ученый также хотел бы получить информацию о позиции разреза и последовательности PAM для каждого целевого места.

EXAMPLE INPUT (from Figure 1): 'CCACGGTTTCTGTAGCCCCATACTTTGGATG'
EXAMPLE OUTPUT: [{    'cut_pos': 6,    'pam_seq': 'TGG',    'target_seq': 'GTATGGGGCTACAGAAACCG',    'strand': 'reverse'  }, {    'cut_pos': 22,    'pam_seq': 'TGG',    'target_seq': 'GTTTCTGTAGCCCCATACTT',    'strand': 'forward'  }]

Во-первых, как мы находим цели CRISPR в последовательности? Помните, что белок Cas9 может связываться где угодно, где есть мотив «NGG».

Первый шаг – прокрутить последовательность в поисках совпадений. Когда программа находит совпадение NGG, мы хотим отнять три позиции от начала сайта PAM, поскольку именно там Cas9 разрезает ДНК.

Затем мы хотим записать двадцать пар оснований перед PAM как целевую последовательность. Звучит хорошо?

Что ж, алгоритм, описанный выше, фактически пропустил бы примерно половину всех сайтов CRISPR – потому что ДНК двухцепная. Это означает, что если CCN является последовательностью на прямой цепи, то NGG является последовательностью на обратной цепи.

Программа также должна искать CCN, используя аналогичную логику для обратной цепи.

Пример программы

Не все цели CRISPR одинаковы

Когда CRISPR только приобрел популярность, исследователи часто извлекали последовательность на своем компьютере и выбирали цели вручную. Проектирование оптимальной sgRNA теперь стало гораздо сложнее. Ниже приведено короткое вступление в эту сложность.

Вне целей

Вскоре исследователи поняли, что Cas9 иногда связывался и разрезал локусы, не совсем соответствующие целевой последовательности. Эти нецелевые сокращения повлекут за собой непреднамеренные изменения в исследовательском эксперименте (или, возможно, в геноме пациента в случае терапии!)

Чтобы разработать хорошее руководство, программа должна рассмотреть весь геном (а это примерно 3 миллиарда нуклеотидов для человека), чтобы вычислить нецелевой балл. Исследователи также недавно разработали белок Cas9, чтобы обладать меньшей нецелевой активностью.

Нокаут

Когда Cas9 связывается, он создает разрез, производя двухцепочечный разрыв молекулы ДНК. В большинстве случаев клетка может восстановить этот разрыв с помощью биохимического пути (так называемого негомологического соединения концов или NHEJ).

Этот путь не всегда идеален, и иногда, когда Cas9 прерывается, процесс восстановления производит небольшую вставку или удаление в последовательности ДНК. В области ДНК, кодирующей белок, эти небольшие вставки и делеции вызывают мутацию сдвига рамки, которая часто нарушает функцию белка.

Исследователи часто нокаутируют ген, чтобы узнать, как белок влияет на определенную функцию или фенотип клетки. Создание нокаутного редактирования добавляет дополнительные ограничения к дизайну sgRNA, так как теперь направляющая должна приземляться в области кодирования гена.

Редактирование

Вместо удаления гена учёный часто хочет внести точные изменения. Это особенно полезно при попытке исправить болезнь, повлекшую мутацию. Лучший способ сделать это все еще исследуется. Большинство методов предполагает добавление дополнительного донорского фрагмента ДНК.

Целевой результат

Некоторые последовательности sgRNA заставят Cas9 разрезать лучше других. Исследователи сравнили эффективность резки между тысячами мишеней Cas9, чтобы создать прогнозные модели эффективности резки sgRNA.

Microsoft даже поддерживает репозиторий с открытым исходным кодом для «Прогнозного моделирования на основе машинного обучения эффективности руководства CRISPR/Cas9».

Другие системы CRISPR-Cas

Исследователи обнаружили системы CRISPR-Cas в других бактериях. Эти другие системы имеют разные PAM.

Заключительные примечания

Надеюсь, вы узнали что-нибудь новое! Если вы хотите узнать больше о биологии, медицинском применении, коммерческом применении или этических последствиях геномной инженерии CRISPR-Cas, тогда я рекомендую прочитать Трещину в создании Дженнифер Дудна и Сэмюэла Стернберга. Дженнифер Дудна является одним из первых открытий основания CRISPR.

Об авторе

Раньше я был исследователем в лаборатории Герсбаха в Университете Дюка, а сейчас работаю инженером-программистом в Synthego.

Добавить комментарий

Ваш адрес email не будет опубликован.