Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Рекомендации по выполнению задания 2

Этап 1: получение списка сайтов

Рекомендую использовать для этого команды cut (чтобы вырезать нужный столбец) и sort, чтобы избавиться от дубликатов. Не возбраняется после этого отредактировать список вручную в каком-нибудь текстовом редакторе, например, nano, чтобы удалить лишние строки, например, заголовок, если не удалили его раньше, неизвестный сайт -, какие-то подозрительные сайты. Но не стоит бояться разрывных сайтов (вроде CGNNNTA) или сайтов, содержащих вырожденные буквы (вроде CCWGG). А вот слишком короткие сайты (1-2 буквы) можно исключить, только нужно это как-то прокомментировать.

Этап 2: отбор недопредставленных сайтов

Где получить последовательность полного генома своей бактерии/археи, Вы уже должны знать. Оценивать "представленность" сайтов рестрикции рекомендуется с помощью контраста, вычисленного методов С.Карлина и соавторов. Вы, конечно, можете самостоятельно реализовать этот метод) Но на kodomo установлена программа CBcalc, написанная в нашей группе, которая, в том числе, умеет вычислять контрасты требуемым методом. Команда для вызова – cbcalc, краткое описание опций можно получить с помощью опции -h/-help/--help/-?. Вам требуется опция -K/--burge, Burge – фамилия первого соавтора в статье, где впервые был применен требуемый Вам метод оценки представленности слов в геноме (Карлин – последний соавтор). Если возникнут вопросы по запуску программы, пишите письма, или можете изучить примеры запуска в описании репозитория на GitHub.

Результат работы программы – tsv файл. Требуемая Вам колонка с контрастом сайта по методу Карлина и соавторов называется "O/E ratio (BCK)". В колонке "Observed" содержится наблюдаемое количество сайтов в геноме, а в "Expected (BCK)" – ожидаемое количество сайтов.

Чтобы отобрать наиболее недопредставленные сайты, можно действовать двумя способами. Первый вариант – установить порог на контраст и отобрать сайты со значением контраста меньше порога. Довольно осмысленным является порог 0,8. Хотя Вы можете выбрать другое значение, на свое усмотрение. Желательно свой выбор как-нибудь прокомментировать. Второй вариант – отсортировать все сайты по возрастанию контраста, и отобрать некоторое количество самых недопредставленных. Опять же, следует обосновать, почему именно такое количество сайтов отобрано.

Для отбора сайтов можете использовать любой инструмент: sort + head, электронные таблицы, скрипт на любимом языке. Итоговый список обязательно нужно привести в отчете.

Стоит отметить, что sort умеет сортировать текстовые таблицы по конкретной колонке или набору колонок. Правда, задается это не самым очевидным образом:

   1 sort -k3,3g tmp.tsv # отсортировать строки по значениям в колонке 3, считая их числами
   2 

Запись 3,3 означает, что ключ строки для сортировки надо начать с 3 столбца и закончить 3 столбцом. Если ",3" не указать, то в качестве ключа будет использован фрагмент строки, начиная с 3 столбца и до конца. При этом пробельные символы в строке обычно игнорируются. Поэтому, скорее всего, правильной сортировке столбца 3 помешают значения из столбца 4.

Этап 3: отбор экспериментально проверенных эндонуклеаз

На этом этапе Вам нужно отобрать из таблицы TypeII_REs.tsv только те эндонуклеазы, которые содержат "no" в столбце "Predicted", и узнают сайт из вашего набора недопредставленных сайтов. Как делать – решайте сами. Кроме очевидных вариантов (скрипт на условном питоне, электронные таблицы), можно использовать awk, или сочинять пайплайны из базовых утилит linux (cut, paste, grep). Нужно указать свой метод решения в отчете.

Пример довольно грязного, но эффективного, метода отбора строк, содержащих "yes" или "no" в пятом столбце файла tmp.tsv:

   1 cut -f 5 tmp.tsv | paste - tmp.tsv | grep -E "^(yes|no)\>" | cut -f 2-
   2 # Если grep поменять на sed, то можно еще и заголовок сохранить
   3 cut -f 5 tmp.tsv | paste - tmp.tsv | sed -nE '/^(yes|no)\t/p;1p' | cut -f 2-
   4 # А ещё grep и sed умеют читать содержимое опции -e построчно из файла.
   5 

Этап 4(*): поиск гомологов отобранных эндонуклеаз

Вырезать из fasta файла только нужные записи можно с помощью seqret. Для этого удобнее всего использовать @list со списком названий эндонуклеаз.

Какую версию blast выбрать для поиска белков в нуклеотидной последовательности, Вы уже должны и сами знать. Прошу внимательно проанализировать находки. Какая часть белка нашлась, не попадают ли разные находки в одну область и т.д.

При желании, можно сравнить свои результаты с тем, что известно в REBASE. Предполагается, что Вы сами разберетесь с устройством этой далеко не самой продуманной и последовательной базы данных. Могу порекомендовать только обратить внимание на ссылку "Genomes". В этом списке сравнительно удобно найти свою бактерию/архею. Будьте внимательны, в списке полные геномы отсортированы отдельно от частичных. Рекомендуется использовать информацию из полных геномов, если она доступна.