Практикум 13. Программа BLAST

1. Поиск гомологов белка в Swissprot

Параметры BLAST:

  1. Program: BLASTP
  2. Database: swissprot
  3. Query ID: ABX16799.1
  4. Max target sequences: 100
  5. Expected treshold: 0.05
  6. Word size: 6
  7. Max matches in a query range: 0
  8. Matrix: BLOSUM62
  9. Gap counts: Existence: 11 Extension: 1
  10. Conditional adjustments: Conditional compositional score matrix adjustment

Ссылка на текстовую выдачу BLAST

Для выравнивания были выбраны белки с id: Q9A3P3.1, Q7VVJ8.1, Q89SC0.1, P73667.1, Q7V9H9.1. Из итогового файла были удалены белки с id: Q7VVJ8.1, P73667.1, так как они выровнялись значительно хуже остальных. У остальных идентичность выше 20%, поэтому их можно считать гомологичными.

Ссылка на файл jvp с выравниванием

2. Поиск гомологов вирусного белка, вырезанного из полипротеина

Поисковый запрос в UniProt: name:polyprotein taxonomy:"Viruses [10239]". Был выбран полипротеин P1234 длиной 2513 аминокислот из вируса Sindbis virus (SINV) с ID: POLN_SINDV, AC: P03317; Q87644. Для дальнейшего анализа был выбран белок Protease nsP2 (протеаза nsP2), с координатами: 1348 - 1903. Файл в формате fasta был создан командой:

seqret sw:POLN_SINDV[1348:1903]
Ссылка на файл с последовательностью белка

Параметры BLAST:

  1. Program: BLASTP
  2. Database: swissprot
  3. Query ID: lcl|Query_20957
  4. Max target sequences: 100
  5. Expected treshold: 0.05
  6. Word size: 6
  7. Max matches in a query range: 0
  8. Matrix: BLOSUM62
  9. Gap counts: Existence: 11 Extension: 1
  10. Conditional adjustments: Conditional compositional score matrix adjustment

Ссылка на текстовую выдачу BLAST

Для выравнивания были выбраны белки с id: P27283.2, Q8JUX6.1, P13886.2, Q9JGL0.3, P33424.2. Выравнивания были обрезаны по номерам а.к. на которые выровнялись крайние буквы исходного белка. Из итогового файла был удален белок с id: QP33424.2, так как он выровнялся значительно хуже остальных. У остальных идентичность выше 20%, поэтому их можно считать гомологичными. При этом большая часть идентичных участков находится в первой половине последовательностей белков.

Ссылка на файл jvp с выравниванием

3. Исследование зависимости E-value от объёма банка

Поиском без фильтра по организмам было найдено 77 результатов, поиском с фильтром по значению viruses было найдено 46 результатов. Среди результатов работы программы BLASTP без фильтра по организмам и с фильтром по значению viruses был выбран белок Non-structural polyprotein pORF вируса птичьего гепатита E. Его E-value в первом случае равно 10-6, а во втором 5*10-8. При наличии фильтра E-value уменьшилось в 20 раз. E-value прямо пропорционально размеру базы данных, при этом эти запросы не отличаются по другим параметрам, из чего можно сделать вывод, о том, что вирусные белки составляют примерно одну двадцатую часть базы Swissprot.