PSI-BLAST
Скачать табличку с итерациями PSI-Blast.
Для практикума был выбран белок с идентификатором P47908 — фактор остановки трансляции, который приводит к димеризации рибосом в неактивные 100S рибосомы (конвертирует частицы 90S, сформированные RMF). Белок был взят из Synechococcus sp.
В ходе выполнения итераций находки сошлись уже на 4, а число находок выше порога стабилизировалось уже после второй итерации. Также стоит отметить очень большую разницу в e-value между лучшей находкой ниже порога и худшей выше. Можно сделать вывод, что выбранное семейство белков "хорошее".
Поиск сайтов рестрикции в геноме бактерии
Целью данного практикума было нахождение сайтов рестрикции в геноме Actinoplanes missouriensis 431 DNA.
Получение списка сайтов рестрикции
Для того, чтобы найти сайты рестрикции, необходимо сначала получить их список, поэтому я вырезала сайты из tsv-файла со списком рестриктаз с помощью команд bash.
Использованные команды bash:
cut -f5 TypeII_REs.tsv | sort -r -o restriction_sites.txt
uniq restriction_sites.txt uniq.txt
Поиск недопредставленных сайтов в геноме
Так как против сайтов рестрикции в геноме ведется отрицательный отбор, так как ошибки при метилировании этих сайтов приведут к разрезанию генома бактерии и ее последующей смерти. Поэтому недопредставленные сайты представляют наибольший интерес. Их поиск осуществлялся с помощью программы cbcalc, которая считает ожидаемое число сайтов, а потом находит фактическое число и считает отношение наблюдаемого числа сайтов к ожидаемому.
Программа была запущена с помощью команды: cbcalc -s uniq.txt -o out.tsv --burge sequence.fasta
Полученные сайты были отсортированы по отношению наблюдаемой частоты к ожидаемой командой sort -k5,5g out.tsv -o sites_ratio.txt
Потом полученный файл был визуально отсмотрен, чтобы определить число строк с частотой меньше 0.8, строки были выделены с помощью команды head -n 6 sites_ratio.txt > sites_final.txt
Порог в 0.8 был рекомендован преподавателями, и на мой взгляд является достаточно правильным, так как позволяет четко отделить недопредставленные сайты от сайтов, которые могут реже встречаться в геноме, например из-за определенного GC-составаю
Получение списка рестриктаз
Итоговой список рестриктаз был найден с помощью скрипта на питоне. Запуск скрипта и скрипт:
Скачать скриптpython script.py [входной файл со списком рестриктаз, формат tsv] [файл со списком сайтов без заголовка, формат tsv] [выходной файл]
Итоговый список рестриктаз:
- AbrI
- BfaIA
- BfaIB
- BstVI
- BsuMIA
- BsuMIB
- BsuMIC
- CchI
- MjaI
- MthZI
- PaeR7I
- R1.BsuMI
- R2.BsuMI
- R3.BsuMI
- TliI
- XhoI