PSI-BLAST

Для выполнения задания был выбран индефикатор C4Z088, соответствующий белку, вероятно, определяющему локализацию септы из семейства MinC (Probable septum site-determining protein MinC) из [Eubacterium] eligens ATCC 27750. Белок MinC, входящий в систему локализации центра для образования Z-кольца MinCDE,- ингибитор образования FtsZполимеров, из котоый состоит Z-кольцо. Его концентрация больше на полюсах и меньше - в центре. [1],[2]
При поиске в psi-blast список находок стабилизировался после 2ой итерации (те количество находок во втором и третьем цикле не отличался). После четвертой дальнейший поиск, с моей точки зрения, поятерял смысл, так как список оставлся стабильным, а различие в e-value между худшей из хороших (с e-value меньше 0.005) находок и лучшей их плохих - значительным.

Ссылка на таблицу

Поиск сайтов рестрикции в геноме бактерии Enterococcus hirae ATCC 9790

Известно, что в геноме идет отрицательный отбор сайтов рестрикции, так как при ошибке их метилировать эндонуклеазы рестрикции могут гидролизовать клеточную ДНК. Это означает, что те сайты рестрикции, которых будет мало в геноме соответствуют эндонуклеазам рестрикции, которые специфичны для данного генома. Идея практикума заключается в том, чтобы по недопредставленным сайтам рестрикции в геноме получить список эндонуклеаз рестрикции.

Для полученя всех возможных сайтов рестрикции, которые следовадо найти в геноме данной бактерии, использовалась команда:
cut -f5 TypeII_REs.tsv| sort -u > sorted.txt
После этого вручную из него были исключены неизвестный сайт(-) и С, так как он однобуквенный. Все остальные сайти по длине были больше или равны 4 нуклеотидам. Для дальнейшей работы с сайта NCBI был скачен геном бактерии. Оценка представлености в геноме была получена с помощью программы cbcalc на сервере kodomo:
cbcalc -s sorted.txt -o out.tsv --burge Enterococcus_hirae_ATCC_9790.fasta
Полученный список был отсортирован по колонке с контрастами, она в данном файле выходит пятой:
sort -k5,5g out.tsv -o oe_ratio.txt
Из данного списка были выбраны только сайты с значениями контраста меньше 0.8, как и было предложено в условиях практикума. Таких оказалось 11. Далее был написан скрип на python, который отобрал соответствующие сайтам эндонуклеазы рестрикции, убедившись, что в столбце "Putative" в сводном файле стоит 'no'. Таких оказалось 38.
Файлы, использованнные и полученные во время работы:

  • TypeII_REs.tsv
  • Enterococcus_hirae_ATCC_9790.fasta
  • Недопредставленные сайты, подаваемые на вход программе restriction.py
  • Скрипт restriction.py
  • Результат работы