Программа BLAST


Гомологи транстиретина

Для нахождения гомологов человеческого транстиретина был запущен BLAST со следующими параметрами:

  • accession number: Q549C7
  • Database: UniProtKB/Swiss-Prot(swissprot)
  • Organism: без ограничений
  • Algorithm: blastp (protein-protein BLAST)
  • Max target sequences: 100
  • Short queries: yes
  • Expect threshold: 10
  • Word size: 6
  • Max matches in a query range: 0
  • Matrix: BLOSUM62
  • Gap Costs: Existence: 11 Extention: 1
  • Compositional adjustments: Conditional compositional score matrix adjustment
Результат выдачи

Выравнивание можно скачать как проект Jalview, или рассмотреть на изображении ниже:

Первые шесть находок проявляют большое сходство и являются гомологичными. Сомнения возникают только по поводу последнего (Q06S87, HIU hydrolase из Danio rerio). Возможно, в его случае гомологичным является только фрагмент начиная с 36 столбца в выравнивании, а совпадения в начале последовательности могут оказаться случайными. Его отличие от остальных объясняется тем, что это уже не транстиретин, а белок с другой функцией.

Гомологи белка вируса SARS

Параметры при запуске BLAST'а аналогичны таковым в предыдущем пункте. В качестве запроса использовалась fasta-последовательность хеликазы из полипротеина 1ab вируса SARS (координаты в полипротеине 5302:5902)

Результат выдачи

Выравнивание можно скачать как проект Jalview, или рассмотреть на изображении ниже:

Сходство высокое, много послностью консервативных позиций, сомнений в гомологии не возникает.

Исследование зависимости E-value от объёма банка

Если произвести тот же запрос, добавив ограничение на организмы - Viruses (результат выдачи), то топ выдачи (первые 29, характеризуются резко отличающимися высоким Score, больше 700 - в то время как у следующих меньше 60, - и машинным нулём в качестве E-value) совпадает полностью, оставшиеся же находки, обладающие меньшим сходством, уже не так похожи. Для пары значений E-value (для белков с кодом P0C6V7.1) для этих двух запросов равны, соответственно, 7e-5 и 0.002. E-value прямо пропорционально объёму базы, поэтому, ожно посчитать, что вирусные белки в Swiss-prot составляют примерно 3,5%.

Простой поиск по базе Uniprot ("reviewed:yes" и "taxonomy:"Viruses [10239]" AND reviewed:yes") даёт, соответственно, 562 253 и 17 007 белков, т.е. вирусные белки составляют примерно 3% , так что оценка достаточно достоверна.