Практикум 10. BLAST

Поиск гомологичных белков кинурениназы Thermovirga lienii в BLAST

Для поиска гомологичных белков кинурениназы Thermovirga lienii был выбран blastp, так как tblastn используется в случае, если нуклеотидная последовательность белка была получена недавно и рамки считывания не до конца аннотированы. Аминокислотная последовательность взята из базы данных UniProt (ID G7V5Y6). Были установлены следующие параметры поиска:

  1. Для поиска белков только в Swiss-Prot в разеделе Choose Search Set в графе Database было выбрано UniProtKB/Swiss-Prot(swissprot).
  2. В качестве алгоритма поиска в разделе Program Selection в графе Algorithm выбран установленный по умолчанию blastp.
  3. В параметрах алгоритма Expect threshold (граничный E-value=0.05), Word size (5), Matrix (BLOSUM62), Gap Costs (Existence: 11 Extension: 1) установлены по умолчанию. В разделе Filters and Masking никакие параметры установлены не были.

В результате поиска было найдено 78 последовательностей, выдача blast. Для множественного выравнивания выбраны:

  1. A4IT57 Geobacillus thermodenitrificans
  2. Q5WKB5 Shouchella clausii
  3. A1CHT0 Aspergillus clavatus
  4. Q5DGJ1 Schistosoma japonicum
  5. Q63AJ0 Bacillus cereus
  6. A6H1P7 Flavobacterium psychrophilum
  7. A9VHP9 Bacillus mycoides
  8. G7V5Y6 Thermovirga lienii

Для множественного выравнивания использовалась команда: muscle -align seq.fasta -output res.muscle.

Все 6 последовательностей, выбранных из выдачи BLAST-поиска, являются гомологами исходного белка, так как у всех белков в выравнивании присутствуют значительные периодичные консервативные участики, проект Jalview.

Гомологи зрелого вирусного белка, вырезанного из полипротеина

В результате поиска в UniProt по запросу (taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true) было найдено 1214 записей. Был выбран полипротеин pp62 African swine fever virus (strain Badajoz 1971 Vero-adapted) (Ba71V) (ASFV), ID=Q65179, AC=PP62_ASFB7.

Данный полипротеин разрезается на 4 белка с ID PRO_0000373445, PRO_0000373446, PRO_0000373447, PRO_0000373448. Из них выбран белок p15 (PRO_0000373446) с координатами 2-158. Его последовательность была получена с скачана и оформлена в виде fasta-формата с помощью команды: seqret sw:PP62_ASFB7[2:158] FASTA::virus.fasta -auto; descseq -sequence virus.fasta -outseq output.fasta -name 'p15_ASFB7 Q65179' -description 'p15 African swine fever virus (strain Badajoz 1971 Vero-adapted)', последовательность зрелого белка .

В результате поиска в blastp получено 4 последовательности, принадлежащие разным изолятам African swine fever virus, выдача blast.
Параметры поиска:

  1. Для поиска белков только в Swiss-Prot в разеделе Choose Search Set в графе Database было выбрано UniProtKB/Swiss-Prot(swissprot).
  2. В качестве алгоритма поиска в разделе Program Selection в графе Algorithm выбран установленный по умолчанию blastp.
  3. В параметрах алгоритма Expect threshold (граничный E-value=0.05), Word size (5), Matrix (BLOSUM62), Gap Costs (Existence: 11 Extension: 1) установлены по умолчанию. В разделе Filters and Masking в графе Filter установлен фильтр по участкам низкой сложности (Low complexity regions).

Изменение длины слова (параметра word) на 3 и 2 не повлияло на выдаваемые результаты. Результатами поиска в tblastn в Core nucleotide database (core_nt) также являются последовательности разных штаммов и изолятов African swine fever virus. Найдено 100 последовательностей, выдача blast. Параметры поиска:

  1. В разделе Choose Search Set в графе Database была выбрана Core nucleotide database (core_nt).
  2. В параметрах алгоритма Expect threshold (граничный E-value=0.05), Word size (5), Matrix (BLOSUM62), Gap Costs (Existence: 11 Extension: 1) установлены по умолчанию. В разделе Filters and Masking никакие параметры установлены не были.

Для множественного выравнивания были использованы все 4 найденные при первом поиске в blastp последовательности.

  1. P0CA08.1 African swine fever virus (isolate Warthog/Namibia/Wart80/1980)
  2. P0CA07.1 African swine fever virus (isolate Tick/South Africa/Pretoriuskop Pr4/1996)
  3. P0CA06.1 African swine fever virus (isolate Malawi LIL 20/1)
  4. P0CA05.1 African swine fever virus (isolate Pig/Kenya/KEN-50/1950)

Для множественного выравнивания использовалась команда: muscle -align seq.fasta -output align.muscle.

Выбранные белки гомологичны по всей длине, так их последовательности идентичны за исключением единичных позиций (87, 106, 121, 165, 187 и др.), проект Jalview.

Исследование зависимости E-value от объёма банка

В результате запуска поиска в blastp с указанием группы организмов (Viruses), количество выдаваемых последовательностей не изменилось (4), выдача blast. Однако E-value значительно вырос для всех белков, например, при поиске без указания организмов E-value African swine fever virus (isolate Warthog/Namibia/Wart80/1980) составил 3e-111, а с указанием - 1e-112.

Причина этого напрямую следует из формулы расчёта E-value, так как от размеро базы данных зависит только один параметр (n), то отношение E-value будет пропорционально отношению размеров баз данных. Уменьшение E-value в 30 раз при указании организма указывает на то, что доля вирусных белков составляет примерно 3.3% от всех белков Swiss-Prot.

Параметры поиска в blastp:

  1. Для поиска только вирусных белков в Swiss-Prot в разеделе Choose Search Set в графе Database было выбрано UniProtKB/Swiss-Prot(swissprot), а в графе Organism - Viruses (taxid:10239).
  2. В качестве алгоритма поиска в разделе Program Selection в графе Algorithm выбран установленный по умолчанию blastp.
  3. В параметрах алгоритма Expect threshold (граничный E-value=0.05), Word size (5), Matrix (BLOSUM62), Gap Costs (Existence: 11 Extension: 1) установлены по умолчанию. В разделе Filters and Masking в графе Filter установлен фильтр по участкам низкой сложности (Low complexity regions).