Для поиска гомологичных белков кинурениназы Thermovirga lienii был выбран blastp, так как tblastn используется в случае, если нуклеотидная последовательность белка была получена недавно и рамки считывания не до конца аннотированы. Аминокислотная последовательность взята из базы данных UniProt (ID G7V5Y6). Были установлены следующие параметры поиска:
В результате поиска было найдено 78 последовательностей, выдача blast. Для множественного выравнивания выбраны:
Для множественного выравнивания использовалась команда:
muscle -align seq.fasta -output res.muscle.
Все 6 последовательностей, выбранных из выдачи BLAST-поиска, являются гомологами исходного белка, так как у всех белков в выравнивании присутствуют значительные периодичные консервативные участики, проект Jalview.
В результате поиска в UniProt по запросу (taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true) было найдено 1214 записей. Был выбран полипротеин pp62 African swine fever virus (strain Badajoz 1971 Vero-adapted) (Ba71V) (ASFV), ID=Q65179, AC=PP62_ASFB7.
Данный полипротеин разрезается на 4 белка с ID PRO_0000373445, PRO_0000373446, PRO_0000373447, PRO_0000373448. Из них выбран белок p15
(PRO_0000373446) с координатами 2-158. Его последовательность была получена с скачана и оформлена в виде fasta-формата с помощью команды:
seqret sw:PP62_ASFB7[2:158] FASTA::virus.fasta -auto; descseq -sequence virus.fasta -outseq output.fasta -name 'p15_ASFB7 Q65179'
-description 'p15 African swine fever virus (strain Badajoz 1971 Vero-adapted)', последовательность зрелого
белка
.
В результате поиска в blastp получено 4 последовательности, принадлежащие разным изолятам African swine fever virus,
выдача blast.
Параметры поиска:
Изменение длины слова (параметра word) на 3 и 2 не повлияло на выдаваемые результаты. Результатами поиска в tblastn в Core nucleotide database (core_nt) также являются последовательности разных штаммов и изолятов African swine fever virus. Найдено 100 последовательностей, выдача blast. Параметры поиска:
Для множественного выравнивания были использованы все 4 найденные при первом поиске в blastp последовательности.
Для множественного выравнивания использовалась команда: muscle -align seq.fasta -output align.muscle.
Выбранные белки гомологичны по всей длине, так их последовательности идентичны за исключением единичных позиций (87, 106, 121, 165, 187 и др.), проект Jalview.
В результате запуска поиска в blastp с указанием группы организмов (Viruses), количество выдаваемых последовательностей не изменилось (4), выдача blast. Однако E-value значительно вырос для всех белков, например, при поиске без указания организмов E-value African swine fever virus (isolate Warthog/Namibia/Wart80/1980) составил 3e-111, а с указанием - 1e-112.
Причина этого напрямую следует из формулы расчёта E-value, так как от размеро базы данных зависит только один параметр (n), то отношение E-value будет пропорционально отношению размеров баз данных. Уменьшение E-value в 30 раз при указании организма указывает на то, что доля вирусных белков составляет примерно 3.3% от всех белков Swiss-Prot.
Параметры поиска в blastp: