"...он с грустью подумал, что Россия, в сущности, тоже страна восходящего солнца – хотя бы потому, что оно над ней так ни разу по-настоящему и не взошло до конца."

Виктор Пелевин, Чапаев и Пустота.

Добро пожаловать!

PSI-BLAST

Скачать табличку с итерациями PSI-Blast.

Для практикума был выбран белок с идентификатором P47908 — фактор остановки трансляции, который приводит к димеризации рибосом в неактивные 100S рибосомы (конвертирует частицы 90S, сформированные RMF). Белок был взят из Synechococcus sp.

В ходе выполнения итераций находки сошлись уже на 4, а число находок выше порога стабилизировалось уже после второй итерации. Также стоит отметить очень большую разницу в e-value между лучшей находкой ниже порога и худшей выше. Можно сделать вывод, что выбранное семейство белков "хорошее".

Поиск сайтов рестрикции в геноме бактерии

Целью данного практикума было нахождение сайтов рестрикции в геноме Actinoplanes missouriensis 431 DNA.

Получение списка сайтов рестрикции

Для того, чтобы найти сайты рестрикции, необходимо сначала получить их список, поэтому я вырезала сайты из tsv-файла со списком рестриктаз с помощью команд bash.

Использованные команды bash:

cut -f5 TypeII_REs.tsv | sort -r -o restriction_sites.txt

uniq restriction_sites.txt uniq.txt

Поиск недопредставленных сайтов в геноме

Так как против сайтов рестрикции в геноме ведется отрицательный отбор, так как ошибки при метилировании этих сайтов приведут к разрезанию генома бактерии и ее последующей смерти. Поэтому недопредставленные сайты представляют наибольший интерес. Их поиск осуществлялся с помощью программы cbcalc, которая считает ожидаемое число сайтов, а потом находит фактическое число и считает отношение наблюдаемого числа сайтов к ожидаемому.

Программа была запущена с помощью команды: cbcalc -s uniq.txt -o out.tsv --burge sequence.fasta

Полученные сайты были отсортированы по отношению наблюдаемой частоты к ожидаемой командой sort -k5,5g out.tsv -o sites_ratio.txt

Потом полученный файл был визуально отсмотрен, чтобы определить число строк с частотой меньше 0.8, строки были выделены с помощью команды head -n 6 sites_ratio.txt > sites_final.txt

Порог в 0.8 был рекомендован преподавателями, и на мой взгляд является достаточно правильным, так как позволяет четко отделить недопредставленные сайты от сайтов, которые могут реже встречаться в геноме, например из-за определенного GC-составаю

Получение списка рестриктаз

Итоговой список рестриктаз был найден с помощью скрипта на питоне. Запуск скрипта и скрипт:

Скачать скрипт

python script.py [входной файл со списком рестриктаз, формат tsv] [файл со списком сайтов без заголовка, формат tsv] [выходной файл]

Итоговый список рестриктаз:

  • AbrI
  • BfaIA
  • BfaIB
  • BstVI
  • BsuMIA
  • BsuMIB
  • BsuMIC
  • CchI
  • MjaI
  • MthZI
  • PaeR7I
  • R1.BsuMI
  • R2.BsuMI
  • R3.BsuMI
  • TliI
  • XhoI