Entrez Direct, BLAST+, EMBOSS

Поиск гомологов белков в неаннотированном геноме

Для поиска белков в сборке генома Amoeboaphelidium protococcarum использовался BLAST+, установленнный на домашний компьютер. В качестве источника референсных последовательностей был выбран, хорошо аннотированный, представитель, близкого к Aphelida, таксона Microsporidia — Encephalitozoon cuniculi (Поисковой запрос: taxonomy:"encephalitozoon cuniculi" AND reviewed:yes). Последовательности 3 его белков использовались для запросов:

Последовательности для BLAST были загружены непосредственно с сайта Uniprot (Basket→Download→Go) и переименованны в файлы вида [protein key].fasta, файл X5.fasta, скопирван на домашний компьютер.

Для дальнейшей работы с BLAST была создана локальная база данных из сборки:
makeblastdb -in X5.fasta -dbtype nucl

Запросы к полученной базе данных осуществлялись с помощью tblastn по следующей команде
tblastn -query [protein key].fasta -db fungi.fasta -out [protein key].txt -evalue 0.1

Результаты

Убиквитин

Выдача: UBIQ.txt
Среди прочих хороших находок была одна с идентичностью 97%, без гэпов длинной 76 (при длине исходного белка 77). Эти данные однозначно говорят о гомологии последовательностей.

Фактор инициации транскрипции IIB

Выдача: TF2B.txt
Есть 2 находки с e-value порядка 1e-32, которые почти полностью покрывают исходный белок, с процентом инентичности 30. Вероятно найденные последовательности гомологичны искомой.

40S рибосомальный белок S4

Выдача: RS4.txt
На scaffold-157 есть 2 находки с e-value меньшим 1e-21, которые покрывают 2 слегка перекрывающиеся части исходного белка 1..92 и 88..256, при этом по данным Pfam участок 88-92 примерно соответствует началу домена Ribosomal_S4e. Вероятно найденные последовательности гомологичны искомой, и предствавляют собой 2 домена.