Учебная страница курса биоинформатики,
год поступления 2018
Рекомендации по выполнению задания 2
Этап 1: получение списка сайтов
Рекомендую использовать для этого команды cut (чтобы вырезать нужный столбец) и sort, чтобы избавиться от дубликатов. Не возбраняется после этого отредактировать список вручную в каком-нибудь текстовом редакторе, например, nano, чтобы удалить лишние строки, например, заголовок, если не удалили его раньше, неизвестный сайт -, какие-то подозрительные сайты. Но не стоит бояться разрывных сайтов (вроде CGNNNTA) или сайтов, содержащих вырожденные буквы (вроде CCWGG). А вот слишком короткие сайты (1-2 буквы) можно исключить, только нужно это как-то прокомментировать.
Этап 2: отбор недопредставленных сайтов
Где получить последовательность полного генома своей бактерии/археи, Вы уже должны знать. Оценивать "представленность" сайтов рестрикции рекомендуется с помощью контраста, вычисленного методов С.Карлина и соавторов. Вы, конечно, можете самостоятельно реализовать этот метод) Но на kodomo установлена программа CBcalc, написанная в нашей группе, которая, в том числе, умеет вычислять контрасты требуемым методом. Команда для вызова – cbcalc, краткое описание опций можно получить с помощью опции -h/-help/--help/-?. Вам требуется опция -K/--burge, Burge – фамилия первого соавтора в статье, где впервые был применен требуемый Вам метод оценки представленности слов в геноме (Карлин – последний соавтор). Если возникнут вопросы по запуску программы, пишите письма, или можете изучить примеры запуска в описании репозитория на GitHub.
Результат работы программы – tsv файл. Требуемая Вам колонка с контрастом сайта по методу Карлина и соавторов называется "O/E ratio (BCK)". В колонке "Observed" содержится наблюдаемое количество сайтов в геноме, а в "Expected (BCK)" – ожидаемое количество сайтов.
Чтобы отобрать наиболее недопредставленные сайты, можно действовать двумя способами. Первый вариант – установить порог на контраст и отобрать сайты со значением контраста меньше порога. Довольно осмысленным является порог 0,8. Хотя Вы можете выбрать другое значение, на свое усмотрение. Желательно свой выбор как-нибудь прокомментировать. Второй вариант – отсортировать все сайты по возрастанию контраста, и отобрать некоторое количество самых недопредставленных. Опять же, следует обосновать, почему именно такое количество сайтов отобрано.
Для отбора сайтов можете использовать любой инструмент: sort + head, электронные таблицы, скрипт на любимом языке. Итоговый список обязательно нужно привести в отчете.
Стоит отметить, что sort умеет сортировать текстовые таблицы по конкретной колонке или набору колонок. Правда, задается это не самым очевидным образом:
Запись 3,3 означает, что ключ строки для сортировки надо начать с 3 столбца и закончить 3 столбцом. Если ",3" не указать, то в качестве ключа будет использован фрагмент строки, начиная с 3 столбца и до конца. При этом пробельные символы в строке обычно игнорируются. Поэтому, скорее всего, правильной сортировке столбца 3 помешают значения из столбца 4.
Этап 3: отбор экспериментально проверенных эндонуклеаз
На этом этапе Вам нужно отобрать из таблицы TypeII_REs.tsv только те эндонуклеазы, которые содержат "no" в столбце "Predicted", и узнают сайт из вашего набора недопредставленных сайтов. Как делать – решайте сами. Кроме очевидных вариантов (скрипт на условном питоне, электронные таблицы), можно использовать awk, или сочинять пайплайны из базовых утилит linux (cut, paste, grep). Нужно указать свой метод решения в отчете.
Пример довольно грязного, но эффективного, метода отбора строк, содержащих "yes" или "no" в пятом столбце файла tmp.tsv:
Этап 4(*): поиск гомологов отобранных эндонуклеаз
Вырезать из fasta файла только нужные записи можно с помощью seqret. Для этого удобнее всего использовать @list со списком названий эндонуклеаз.
Какую версию blast выбрать для поиска белков в нуклеотидной последовательности, Вы уже должны и сами знать. Прошу внимательно проанализировать находки. Какая часть белка нашлась, не попадают ли разные находки в одну область и т.д.
При желании, можно сравнить свои результаты с тем, что известно в REBASE. Предполагается, что Вы сами разберетесь с устройством этой далеко не самой продуманной и последовательной базы данных. Могу порекомендовать только обратить внимание на ссылку "Genomes". В этом списке сравнительно удобно найти свою бактерию/архею. Будьте внимательны, в списке полные геномы отсортированы отдельно от частичных. Рекомендуется использовать информацию из полных геномов, если она доступна.