Сигналы и мотивы. PSI-BLAST


Недопредставленность сайтов рестрикции в геноме бактерии или археи

В этом задании нам нужно было показать недопредставленность некоторых сайтов рестрикции в геноме бактерии. Для изучения мы выбрали бактерию Nostoc piscinale CENA21. С сайта был взят её полный геном (7 094 556 bp). Посмотрим на её запись в системе REBASE. Из аннотации на REBASE нашли сайт рестрикции-модификации II типа: GGATCC. Запишем последовательность в файл site.txt. Далее воспользуемся командой cbcalc:
cbcalc -s site.txt -K nostoc.fasta -o output.tsv - файл
Мы получили tsv файл с информацией о представленности сайта в геноме. Отношение наблюдаемой представленности к ожидаемой составило 0,039 (10 из 259), что говорит о том, что сайт представлен очень слабо. Также у нас есть таблица со всеми экспериментально проверенными сайтами рестрикции II типа. Поищем их представленность с помощью всё той же команды:
cbcalc -s TypeII_REs.tsv -K nostoc.fasta -o output_all.tsv - файл
Чтобы отобрать наиболее недопредставленные сайты мы установили порог 0.8 на контраст и отобрали сайты со значением контраста меньше порога. Сделаем это с помощью моей любимой команды awk:
awk '{if ($5 < 0.8) print}' output_all.tsv | sort | uniq > output_all_sorted.tsv - файл
После фильтрации, сортировки и отбора уникальных из 39521 записей осталось 70.
Теперь отберём из таблицы экспериментально проверенных эндонуклеаз только те, которые содержат "no" в столбце "Predicted".
awk '{if ($12 ~ /no/) print}' TypeII_REs.tsv > endonucl_no.tsv - файл
Чтобы отобрать из полученных нами последовательностей те, которые экспериментально подтверждены, выпишем последовательности в отдельный файл и подадим это на вход grep.
awk '{print $2}' output_all_sorted.tsv > sequences.txt - файл
grep -f sequences.txt endonucl_no.tsv > final.txt - файл
В файле endonucl_no.tsv было 389 записей, а в финальной версии их стало 175.

PSI-BLAST

В этом задании нам нужно было для выданной нам последовательности белка составить семейство гомологов с помощью PSI-BLAST (Position-Specific Iterative BLAST). Алгоритм работает следующим образом: сначала запускается классический blastp, на основании находок с e-value < 0,005 строится множественное выравнивание, из которого строится профиль PSSM. В следующей итерации вместо матрицы замен аминокислот BLOSUM62 используется полученный нами профиль. Новые последовательности с e-value < 0,005 добавляются в выравнивание, по которому строится новая PSSM и так до тех пор, пока не перестанут появляться новые последовательности. Работать будем с последовательностью, которая имеет SwissProt-ID B2V8C0. Это белок MinC из бактерии рода Sulfurihydrogenibium sp., ингибитор деления клеток, блокирующий образование полярных Z-кольцевых перегородок. Запускаем PSI-BLAST с выбранной базой данных UniProt. Уже на второй итерации результат сошёлся, так как сильно возросла разница между e-value худшей вошедшей находки и лучшей невошедшей. На всякий случай мы запустили еще две итерации, но число находок зафиксировалось на 188. Краткая информация об итерациях представлена в таблице. На основании всего этого можно сделать вывод о том, что семейство белков хорошее.