Ход работы:
1.Создать локальную базу данных. В ней дальше буду искать программой tblastn. Команда:
makeblastdb -in X5.fasta -dbtype nucl
2.Выбрать интересующие три белка Saccharomyces cerevisiae (Baker's yeast) [559292] для поиска гомологов Amoeboaphelidium protococcarum. Я выбрала: Hexokinase
Дальнейший ход работы рассмотрим на примере работы с Hexokinase.
3. Осуществить запросы в Uniprot командой, чтобы получить AC интерсующих белков:
taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" Hexokinase
AC - P04807
4.Получение последовательности белка командой:
seqret 'sw:P04807' Hexokinase.fasta
Результат - файл с последовательностью.
5. Поиск гомологов белка. Команда:
tblastn -query "Hexokinase.fasta" -db "X5.fasta" -out "Hexokinase_tblastn.txt"
e-value достаточно низкий для обеих находок (4e-98 и 3e-96). Процент идентичности всего 40%, но процент позитивных замен 60% и число гэп низкое. Поэтому предполагаю, что последовательности гексокиназы A. protococcarum и S. cerevisiae гомологичны.
Проделаем работу для Убиквитина-40s рибосомального белка S31.
Это белок, который активирует протеинкиназы, участвует в клеточном сигналинге. AC - P05759
seqret 'sw:P05759' Ubiquitin.fasta
Получен файл с последовательностями.
tblastn -query "Ubiquitin.fasta" -db "X5.fasta" -out "Ubiquitin_tblastn.txt"
Первые две находки показывают низкий e-value (7e-62 и 8e-62 ). Следующая уже сильно больший имеет e-value (2e-40), к тому же покрытие у них тоже падает. Поэтому рассмотрим первые две. Вероятно, это гомологи нашего белка. У обеих этих находок высокий процент идентичности и нет гэпов. Это очень похоже на гомологичные белки. Было обнаружено также несколько других скэффолдов, их e-value поменьше, выше число гэпов. Наверное, это могут быть паралоги.
Проделаем работу, начиная с пункта 3 для Хитин синтазы 1.
Полимеризует хитин, структурный полимер клеточной стенки и перегородки.
seqret 'sw:P08004' Chitin_synthase_1.fasta
tblastn -query "Chitin_synthase_1.fasta" -db "X5.fasta" -out "Chitin_synthase_1.txt"
Получен файл с последовательностями.
Нашлось несколько скэффолдов. Первые два с низким e-value (4e-156 и 2e-154) имеют процент идентичности 37% и 36%. Это, кажется, низкий процент идентичности. Могу предположить, что белки исследуемых организмов гомологичны, но разошлись в эволюции очень давно, так как процент схожих замен равен 54% и низкое число гэпов.