Задание 1.Поиск гомологов белков в неаннотированном геноме

Ход работы:

1.Создать локальную базу данных. В ней дальше буду искать программой tblastn. Команда:

makeblastdb -in X5.fasta -dbtype nucl

2.Выбрать интересующие три белка Saccharomyces cerevisiae (Baker's yeast) [559292] для поиска гомологов Amoeboaphelidium protococcarum. Я выбрала: Hexokinase

Дальнейший ход работы рассмотрим на примере работы с Hexokinase.

3. Осуществить запросы в Uniprot командой, чтобы получить AC интерсующих белков:

taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) 
      (Baker's yeast) [559292]" Hexokinase

AC - P04807

4.Получение последовательности белка командой:

seqret 'sw:P04807' Hexokinase.fasta

Результат - файл с последовательностью.

5. Поиск гомологов белка. Команда:

tblastn -query "Hexokinase.fasta" -db "X5.fasta" -out "Hexokinase_tblastn.txt"

e-value достаточно низкий для обеих находок (4e-98 и 3e-96). Процент идентичности всего 40%, но процент позитивных замен 60% и число гэп низкое. Поэтому предполагаю, что последовательности гексокиназы A. protococcarum и S. cerevisiae гомологичны.

Проделаем работу для Убиквитина-40s рибосомального белка S31.

Это белок, который активирует протеинкиназы, участвует в клеточном сигналинге. AC - P05759

seqret 'sw:P05759' Ubiquitin.fasta

Получен файл с последовательностями.

tblastn -query "Ubiquitin.fasta" -db "X5.fasta" -out "Ubiquitin_tblastn.txt"

Поиск гомологов.

Первые две находки показывают низкий e-value (7e-62 и 8e-62 ). Следующая уже сильно больший имеет e-value (2e-40), к тому же покрытие у них тоже падает. Поэтому рассмотрим первые две. Вероятно, это гомологи нашего белка. У обеих этих находок высокий процент идентичности и нет гэпов. Это очень похоже на гомологичные белки. Было обнаружено также несколько других скэффолдов, их e-value поменьше, выше число гэпов. Наверное, это могут быть паралоги.

Проделаем работу, начиная с пункта 3 для Хитин синтазы 1.

Полимеризует хитин, структурный полимер клеточной стенки и перегородки.

seqret 'sw:P08004' Chitin_synthase_1.fasta

tblastn -query "Chitin_synthase_1.fasta" -db "X5.fasta" -out "Chitin_synthase_1.txt"

Получен файл с последовательностями.

Поиск гомологов.

Нашлось несколько скэффолдов. Первые два с низким e-value (4e-156 и 2e-154) имеют процент идентичности 37% и 36%. Это, кажется, низкий процент идентичности. Могу предположить, что белки исследуемых организмов гомологичны, но разошлись в эволюции очень давно, так как процент схожих замен равен 54% и низкое число гэпов.