Учебная страница курса биоинформатики,
год поступления 2020
Under construction
Рекомендации по выполнению задания 1
Выбор генома
Выбрав бактерию на странице Genomes REBASE, пройдите по ссылке circular (схема генов всех систем РМ в хромосоме/плазмиде бактерии), далее - по ссылке summary или report - та же информация о генах плюс specificity (или recognition sequence) = узнаваемая последовательность или паттерн.
На странице circular имена генов кликабельны, выводят на страницы соответствующих генов.
Получение списка сайтов
Поля файла c таблицей эндонуклеаз:
- REBASE name
- имя эндонуклеазы в базе REBASE
- System type
- тип системы Р-М, т.е. всегда Type II
- Protein type
- тип компонента системы, т.е. всегда R
- Recognition site
- последовательность сайта узнавания, если известна
- Putative
- no, если была хоть какая-то экспериментальная проверка активности белка
Не стоит бояться разрывных сайтов (вроде CGNNNTA) или сайтов, содержащих вырожденные буквы (вроде CCWGG). А вот слишком короткие сайты (1-2 буквы) лучше исключить.
Отбор недопредставленных сайтов
Где получить последовательность полного генома своей бактерии/археи, Вы уже должны знать. Оценивать "представленность" сайтов рестрикции рекомендуется с помощью контраста, вычисленного методом С.Карлина и соавторов. Вы, конечно, можете самостоятельно реализовать этот метод) Но на kodomo установлена программа CBcalc, написанная в нашей группе, которая, в том числе, умеет вычислять контрасты требуемым методом,и другими. Команда для вызова – cbcalc, краткое описание опций можно получить с помощью опции -h/-help/--help/-?. Вам требуется опция -K/--burge, Burge – фамилия первого соавтора в статье, где впервые был применен требуемый Вам метод оценки представленности слов в геноме (Карлин – последний соавтор). Если возникнут вопросы по запуску программы, пишите письма, или можете изучить примеры запуска в описании репозитория на GitHub.
Результат работы программы – tsv файл. Требуемая Вам колонка с контрастом сайта по методу Карлина и соавторов называется "O/E ratio (BCK)". В колонке "Observed" содержится наблюдаемое количество сайтов в геноме, а в "Expected (BCK)" – ожидаемое количество сайтов.
Чтобы отобрать наиболее недопредставленные сайты, можно действовать двумя способами. Первый вариант – установить порог на контраст и отобрать сайты со значением контраста меньше порога. Довольно осмысленным является порог 0,8. Хотя Вы можете выбрать другое значение, на свое усмотрение. Желательно свой выбор как-нибудь прокомментировать. Второй вариант – отсортировать все сайты по возрастанию контраста, и отобрать некоторое количество самых недопредставленных. Опять же, следует обосновать, почему именно такое количество сайтов отобрано.
Для отбора сайтов можете использовать любой инструмент: sort + head, электронные таблицы, скрипт на любимом языке. Итоговый список обязательно нужно привести в отчете.
Стоит отметить, что sort умеет сортировать текстовые таблицы по конкретной колонке или набору колонок. Правда, задается это не самым очевидным образом:
Запись 3,3 означает, что ключ строки для сортировки надо начать с 3 столбца и закончить 3 столбцом. Если ",3" не указать, то в качестве ключа будет использован фрагмент строки, начиная с 3 столбца и до конца. При этом пробельные символы в строке обычно игнорируются. Поэтому, скорее всего, правильной сортировке столбца 3 помешают значения из столбца 4.
отбор экспериментально проверенных эндонуклеаз
На этом этапе Вам нужно отобрать из таблицы TypeII_REs.tsv только те эндонуклеазы, которые содержат "no" в столбце "Predicted", и узнают сайт из вашего набора недопредставленных сайтов. Как делать – решайте сами. Кроме очевидных вариантов (скрипт на условном питоне, электронные таблицы), можно использовать awk, или сочинять пайплайны из базовых утилит linux (cut, paste, grep). Нужно указать свой метод решения в отчете.
Пример довольно грязного, но эффективного, метода отбора строк, содержащих "yes" или "no" в пятом столбце файла tmp.tsv:
Поиск гомологов отобранных эндонуклеаз
Вырезать из fasta файла только нужные записи можно с помощью seqret. Для этого удобнее всего использовать @list со списком названий эндонуклеаз.
Какую версию blast выбрать для поиска белков в нуклеотидной последовательности, Вы уже должны и сами знать. Прошу внимательно проанализировать находки. Какая часть белка нашлась, не попадают ли разные находки в одну область и т.д.
При желании, можно сравнить свои результаты с тем, что известно в REBASE. Предполагается, что Вы сами разберетесь с устройством этой далеко не самой продуманной и последовательной базы данных. Могу порекомендовать только обратить внимание на ссылку "Genomes". В этом списке сравнительно удобно найти свою бактерию/архею. Будьте внимательны, в списке полные геномы отсортированы отдельно от частичных. Рекомендуется использовать информацию из полных геномов, если она доступна.
ИР