Пракикум 10: Программа BLAST

Поиск гомологов белка

Так как у гомологов белка Lysylphosphatidylglycerol biosynthesis bifunctional protein LysX (из практикума 7) значения E-value только 0.00 пришлось выбрать белок со значениями гомологов похуже… Выбранный белок - Pup--protein ligase.

Исходя из выравнивания можно сделать вывод, что белки гомологичными в равной степени: все крупные консервативные блоки совпадают.

Таблица 1. Поисковой запрос
Accession number/sequene D0LDT3
Database Swiss-Prot
Organism
Max target sequences 500
Short queries Yes
Expect threshold 10
Word size 3
Max matches in a query range 0
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Compositional adjustments Conditional composition score matrix adjustment
Filter low complexity regions No
Mask for lookup table only No
Mask lower case letters No

Гомологи зрелого вирусного белка

По запросу (protein_name:polyprotein) AND (taxonomy_id:11118) в Uniprot выбран белок Replicase polyprotein 1ab, принадлежащий Severe acute respiratory syndrome coronavirus (SARS-CoV).

С помощью команд EMBOSS последовательность зрелого белка была вырезана в отдельный файл с измененным названием и описанием.

descseq -seq 'sw:R1AB_SARS[819:2740]' -out fragment.fasta -name "Replicase polyprotein 1ab (Papain-like protease nsp3)" -desc "OS=Severe acute respiratory syndrome coronavirus (SARS-CoV)"

Из результатов выравнивания можно сделать вывод, что все последовательности белков гомологичны. В выравнивании присутсвует несколько консервативных блоков.

Таблица 2. Параметры вирусного белка
ID R1AB_SARS
AC P0C6X7
OS Severe acute respiratory syndrome coronavirus (SARS-CoV)
CHAIN Papain-like protease nsp3
CHAIN coordinates 819..2740

Исследование зависимости E-value от объёма банка

При изменении поиска сузилось число находок: при указании таксона (Viruses (txid:10239)) число находок уменьшилось со 158 до 121.

Если сравнить E-value одних и тех же гомологов при разных запросах, то можно заметить, что при уменьшении выборки значение E-value уменьшается. Это логично, так как E-value - это величина, зависящая от размера выборки. По теореме Карлина E-value = Kmn·e-λS, где n - размер базы данных, следовательно значения E-value и размер базы данных прямо пропорциональны, что позволяет оценить долю вирусных белков в Swiss-Prot: 4%.

Таблица 3. Некоторые значения E-value с неограниченной и ограниченной по выбору организма выборкой
Accession Без определенного OS Viruses (txid:10239)
Q8QL53.1 8.1 0.34
P13896.3 0.010 4e-04
P0C6W8.1 9e-150 4e-151

Placeholder

Практикум 9

Выравнивание как отражение эволюции. Программы парного выравнивания. Jalview

Тык

Placeholder

Практикум 11

Множественное выравнивание как отражение эволюции белков

Тык

Placeholder

Практикум 12

Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов

Тык