Нуклеотидный blast

Задание 1.
Был запущен нуклеотидный BLAST последовательности Ae6_18SII_F_H05_WSBS-Seq-1-08-15.fa с алгоритмом blastn (Somewhat similar sequences) против базы данных Nucleotide collection (nr/nt). Параметры алгоритма - по дефолту.

Рис1. Выдача BLAST'а.


Последовательность, скорее всего, является частью 18S рРНК. Видно, что Е-value, Query cover, Ident и Score находок очень хорошие, а первые четыре последовательности совпадают по данным показателям.
Биологические источники этих последовательностей - полихеты трех видов. Две из них имеют такую таксономию:
Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Orbiniidae; Leodamas.
Третья - следующую:
Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Orbiniidae; Leitoscoloplos.
Выравнивание лежит в проекте JalView.

Задание 2.
Поиск по роду дал лишь 4 находки, поэтому область поиска расширена до семейства (Orbiniidae (taxid:46603)). Максимальное количество находок увеличено до 1000. Остальные параметры - по дефолту.
Алгоритм Число находок E-value худшей находки Ident худшей находки Query cover худшей находки Уникальные для алгоритма находки
megablast 48 5e-42 89% 39% -
discontiguous megablast 51 4e-44 89% 39% -
blastn 51 4e-44 89% 39% -

Из следующих трех рисунков видно, что лучшие записи выдач всех трех алгоритмов одинаковы. Это понятно, ведь последовательность query достоверно является частью 18S рРНК организма из семейства Orbiniidae, поэтому все алгоритмы выдают одинаковые находки.

Рис2. Выдача megablast.



Рис3. Выдача discontiguous megablast.



Рис4. Выдача blastn.


Задание 3.1.
Был выполнен поиск гомологов перечисленных ниже белков у организма Sus scrofa при помощи алгоритма tblastn.
Название Функция Число находок Лучшая находка Ident лучшей Query cover лучшей
Heat shock cognate 71 kDa protein (HSP7C_HUMAN) Участие в фолдинге белков 72 Sus scrofa heat shock 70kDa protein 8 (HSPA8), mRNA 94% 94%
Telomerase reverse transcriptase (TERT_HUMAN) Удлинение теломер 6 Sus scrofa telomerase reverse transcriptase (TERT), mRNA 66% 100%
Citrate synthase, mitochondrial (CISY_HUMAN) Участие в цикле Кребса, синтез цитрата 20 Porcine citrate synthase mRNA, complete cds 96% 97%
DNA-directed RNA polymerase II subunit RPB1 (RPB1_HUMAN) Входит в транскрибирующий комплекс 8 PREDICTED: Sus scrofa polymerase (RNA) II (DNA directed) polypeptide A, 220kDa (POLR2A), mRNA 98% 54%
Polyadenylate-binding protein 2 (PABP2_HUMAN) Регуляция стабильности и трансляции мРНК 75 Sus scrofa poly(A) binding protein, nuclear 1 (PABPN1), mRNA 86% 63%

Параметры всех находок очень неплохие, что довольно понятно, ведь свинья и человек не так уж далеки друг от друга на древе жизни.


Задание 4.

Для выполнения этого задания были выбраны следующие вирусы из рода Begomovirus:

Геномы были скачаны в один fasta-файл:
  • tomatovir.fasta

  • Была создана база данных:
  • makeblastdb -in tomatovir.fasta -dbtype nucl

  • Далее получена таблица результатов применения алгоритма tblastx:
  • tblastx -query tomatovir.fasta -db tomatovir.fasta -out tomavir.out -outfmt 7

  • При помощи скрипта из нее были удалены несущественные находки:
  • python revise_blast_7.py --infile tomatovir.out --identity 50 --max_exp 1 -o vt.xls

  • Как видно из следующих рисунков, наиболее близкими являются Tomato leaf curl Malaysia virus и Tomato leaf curl Hainan virus (NC_004648.1 и NC_013102.1).

    Рис5. Таблица результатов, сортированная по identity.



    Рис6. Таблица результатов, сортированная по evalue.




    Назад к странице третьего семестра.


    © Aleksei Efremov, 2015