Параметры поиска | |
---|---|
Database | Non-redundant protein sequences (nr) |
Organism | нет ограничений |
Algorithm | blastp (protein-protein BLAST) |
Max target sequences | 100 |
Expect threshold | 10 |
Word size | 6 |
Matrix | BLOSUM62 |
Gap Costs | Existence 11 Extension 1 |
Текстовый документ с результатами поиска: 9ZYC5FBN01N-Alignment.txt
Для выравнивания были выбраны триптофан-2,3-диоксигеназы видов рода Cupriavidus: C. metallidurans, C. pauculus, C. necator, C. numazuensis, C. taiwanensis, C. alkaliphilus, C. lacunae. Данные белки безусловно гомологичны, т.к. большонство позиций в множестенном выравнивании полностью идентичны.
Ссылка на проект Jalview: tdo1.jvp
Protein Name | ID | AC | Название вируса |
---|---|---|---|
Gag polyprotein   | GAG_MLVAV   | P03336  | AKV murine leukemia virus (AKR (endogenous) murine leukemia virus) |
Для дальнейших действий был выбран зрелый белок — RNA-binding phosphoprotein p12, с координатами: 130..214.
Ссылка на последовательность в формате fasta: segment.fasta
Параметры поиска | |
---|---|
Database | Non-redundant protein sequences (nr) |
Organism | нет ограничений |
Algorithm | blastp (protein-protein BLAST) |
Max target sequences | 100 |
Expect threshold | 10 |
Word size | 6 |
Matrix | BLOSUM62 |
Gap Costs | Existence 11 Extension 1 |
Текстовый документ с результатами поиска: 9ZZHZ73501N-Alignment.txt
Для выравнивания были выбраны putative gag protein (Murine leukemia virus), glyco-gag polyprotein (Mus musculus), gag polyprotein (Ecotropic murine leukemia virus), Gag polyprotein(Finkel-Biskis-Jinkins murine sarcoma virus), gag-fos fusion protein (Finkel-Biskis-Jinkins murine sarcoma virus), Gag polyprotein (Radiation murine leukemia virus), gag (Murine AIDS virus-related provirus).
Все белки практически идентичны.
Ссылка на проект Jalview: virus.jvp
Если провести поиск с параметрами из предыдущего пункта, но с ограничением по вирусами (Viruses), то список находок уменьшится со 100 до 94, также изменятся значения E-value. Так для putative gag polyprotein (Murine leukemia virus) E-value увеличилось с 2E-048 до 9E-047. Значение E-value зависит от размера базы данных линейно, поэтому мы можем примерно оценить долю вирусных белков среди non-redundant protein sequences: 2E-048/9E-047=0.02.