Недопредставленность сайтов рестрикции в геноме бактерии или археи
В этом задании нам нужно было показать недопредставленность некоторых сайтов рестрикции в геноме бактерии.
Для изучения мы выбрали бактерию Nostoc piscinale CENA21. С сайта был взят её полный геном
(7 094 556 bp).
Посмотрим на её запись в системе REBASE.
Из аннотации на REBASE нашли сайт рестрикции-модификации II типа: GGATCC. Запишем последовательность в файл site.txt. Далее
воспользуемся командой cbcalc: cbcalc -s site.txt -K nostoc.fasta -o output.tsv - файл
Мы получили tsv файл с информацией о представленности сайта в геноме. Отношение наблюдаемой представленности к ожидаемой составило 0,039
(10 из 259), что говорит о том, что сайт представлен очень слабо. Также у нас есть таблица со всеми экспериментально проверенными
сайтами рестрикции II типа. Поищем их представленность с помощью всё той же команды: cbcalc -s TypeII_REs.tsv -K nostoc.fasta -o output_all.tsv - файл
Чтобы отобрать наиболее недопредставленные сайты мы установили порог 0.8 на контраст и
отобрали сайты со значением контраста меньше порога. Сделаем это с помощью моей любимой команды awk: awk '{if ($5 < 0.8) print}' output_all.tsv | sort | uniq > output_all_sorted.tsv - файл
После фильтрации, сортировки и отбора уникальных из 39521 записей осталось 70.
Теперь отберём из таблицы экспериментально проверенных эндонуклеаз только те, которые содержат "no" в столбце "Predicted". awk '{if ($12 ~ /no/) print}' TypeII_REs.tsv > endonucl_no.tsv - файл
Чтобы отобрать из полученных нами последовательностей те, которые экспериментально подтверждены, выпишем последовательности в отдельный файл и подадим это
на вход grep. awk '{print $2}' output_all_sorted.tsv > sequences.txt - файл grep -f sequences.txt endonucl_no.tsv > final.txt - файл
В файле endonucl_no.tsv было 389 записей, а в финальной версии их стало 175.
PSI-BLAST
В этом задании нам нужно было для выданной нам последовательности белка составить семейство гомологов с помощью PSI-BLAST (Position-Specific Iterative BLAST).
Алгоритм работает следующим образом: сначала запускается классический blastp, на основании находок с e-value < 0,005 строится множественное выравнивание,
из которого строится профиль PSSM. В следующей итерации вместо матрицы замен аминокислот BLOSUM62 используется полученный нами профиль.
Новые последовательности с e-value < 0,005 добавляются в выравнивание, по которому строится новая PSSM и так до тех пор, пока не перестанут появляться новые последовательности.
Работать будем с последовательностью, которая имеет SwissProt-ID
B2V8C0. Это белок MinC из бактерии рода Sulfurihydrogenibium sp.,
ингибитор деления клеток, блокирующий образование полярных Z-кольцевых перегородок.
Запускаем PSI-BLAST с выбранной базой данных UniProt. Уже на второй итерации результат сошёлся, так как сильно возросла разница между e-value худшей вошедшей
находки и лучшей невошедшей. На всякий случай мы запустили еще две итерации, но число находок зафиксировалось на 188.
Краткая информация об итерациях представлена в таблице. На основании всего этого можно сделать вывод о том, что
семейство белков хорошее.