Пракикум 10: Программа BLAST
Поиск гомологов белка
Так как у гомологов белка Lysylphosphatidylglycerol biosynthesis bifunctional protein LysX (из практикума 7) значения E-value только 0.00 пришлось выбрать белок со значениями гомологов похуже… Выбранный белок - Pup--protein ligase.
Исходя из выравнивания можно сделать вывод, что белки гомологичными в равной степени: все крупные консервативные блоки совпадают.
Accession number/sequene | D0LDT3 |
---|---|
Database | Swiss-Prot |
Organism | |
Max target sequences | 500 |
Short queries | Yes |
Expect threshold | 10 |
Word size | 3 |
Max matches in a query range | 0 |
Matrix | BLOSUM62 |
Gap Costs | Existence: 11 Extension: 1 |
Compositional adjustments | Conditional composition score matrix adjustment |
Filter low complexity regions | No |
Mask for lookup table only | No |
Mask lower case letters | No |
Гомологи зрелого вирусного белка
По запросу (protein_name:polyprotein) AND (taxonomy_id:11118) в Uniprot выбран белок Replicase polyprotein 1ab, принадлежащий Severe acute respiratory syndrome coronavirus (SARS-CoV).
С помощью команд EMBOSS последовательность зрелого белка была вырезана в отдельный файл с измененным названием и описанием.
descseq -seq 'sw:R1AB_SARS[819:2740]' -out fragment.fasta -name "Replicase polyprotein 1ab (Papain-like protease nsp3)" -desc "OS=Severe acute respiratory syndrome coronavirus (SARS-CoV)"
Из результатов выравнивания можно сделать вывод, что все последовательности белков гомологичны. В выравнивании присутсвует несколько консервативных блоков.
ID | R1AB_SARS |
---|---|
AC | P0C6X7 |
OS | Severe acute respiratory syndrome coronavirus (SARS-CoV) |
CHAIN | Papain-like protease nsp3 |
CHAIN coordinates | 819..2740 |
Исследование зависимости E-value от объёма банка
При изменении поиска сузилось число находок: при указании таксона (Viruses (txid:10239)) число находок уменьшилось со 158 до 121.
Если сравнить E-value одних и тех же гомологов при разных запросах, то можно заметить, что при уменьшении выборки значение E-value уменьшается. Это логично, так как E-value - это величина, зависящая от размера выборки. По теореме Карлина E-value = Kmn·e-λS, где n - размер базы данных, следовательно значения E-value и размер базы данных прямо пропорциональны, что позволяет оценить долю вирусных белков в Swiss-Prot: 4%.
Accession | Без определенного OS | Viruses (txid:10239) |
---|---|---|
Q8QL53.1 | 8.1 | 0.34 |
P13896.3 | 0.010 | 4e-04 |
P0C6W8.1 | 9e-150 | 4e-151 |