Практикум 10
Гомологи dITP/XTP Borrelia garinii
Описание параметров при запуске BLAST
Файл с последовательностью: Q662B8.fasta
Database: UniProtKB/Swiss-prot(swissprot)
Organism: Bacteria (taxid:2)
Max target sequences: 250
Expect threshold: 0.05
Выдача программы BLAST
Entry name гомологов: IXTPA_BORAP, IXTPA_BORBZ, IXTPA_BORDL, IXTPA_BORRA, IXTPA_LEPIC. Percentage Identity IXTPA_LEPIC составляет 39.39%, поэтому он был удалён из выравнивания.
Выравнивание
Гомологи зрелого вирусного белка
Поисковый запрос: (protein_name:polyprotein) AND (taxonomy_id:Tick-borne encephalitis virus [11084]) AND (reviewed:true). Было найдено 3 записи.
ID: POLG_TBEVH
AC: Q01299
Название вируса: Tick-borne encephalitis virus (strain Hypr) (TBEV)
Название зрелого белка: Capsid protein C. Координаты: 1..96
Описание параметров при запуске BLAST:
Файл с последовательностью Database: UniProtKB/Swiss-prot(swissprot)
Max target sequences: 250
Expect threshold: 0.05
Выдача программы BLAST
Выравнивание
Исследование зависимости E-value от объёма банка
При поиске с применением фильтра по организмам, ограничив поиск вирусами (Viruses), список находок не изменился (11 записей). Однако поменялись значения E-value.
Сравним значения E-value поисковых запросов для находки с Accession: P07720.3. При первом запросе значение составило: 7e-50, при втором: 3e-51. E-value отличаются незначительно, поэтому белок скорее всего вирусный. Доля вирусных белков в Swiss-Prot: (3e-51/7e-50)*100% = 4.3%
Сравнение интерфейсов BLAST на сайте NCBI и Uniprot
Интерфейс на Uniprot выглядит более минималистично и наглядно; BLAST только для белков; базы данных из списка относятся именно к Uniprot (UniRef100/90/50, UniParc, UniprotKB); алгоритмов BLAST два: blastp, blastx; Max target sequences максимальное заначение 1000; фиксированные значения Expect threshold; 5 вариантов матриц.
В NCBI отдельные страницы BLAST для белков и для ДНК/РНК; выбор баз данных больше (RefSeq, PDB, SwissProt, Metagenomic protein); также можно дополнительно исключать выбранные таксоны и Uncultured/environmental sample sequences, non-redundant RefSeq proteins, models; алгоритмов BLAST значительно больше (Quick BLASTP, blastp, PSI-BLAST, PHI-BLAST, DELTA-BLAST); Max target sequences максимальное заначение 5000; можно самим задать значения Expect threshold; есть фильтр по Word size; выбор матриц больше (8 вариантов) и можно самим назначить штрафы за гэпы.
Таким образом, на сайте NCBI выбор парметров для BLAST гораздо шире, чем на Uniprot. NCBI можно использовать, если нужно найти гомологи не только в аннотированных белках, но и в неотсеквенированных геномах, транскриптомах или метагеномах, также он лучше подходит для поиска по ДНК/РНК. Ещё одно преимущество - это наличие специальных баз данных (например, nr, которая включает много вирусных геномов).
Uniprot удобно использовать для изучения изоформ, поиска по аннотированным белкам и анализа белков с известной структурой или функцией.