Онлайн BLAST

Поиск организма по фрагменту нуклеотидной последовательности

Для того что бы определить, к какому организму относится данная последовательность будем использовать blastn. Заходим на сайт ncbi, выбираем nucleotide blast , вводим данный фрагмент последовательности:

			>14
			ttaagagatttattgcgcgcacagcaacaaacaattggcatccctaatatccaaaagatt
			gtagctgattattatggtttacagatcaaagatttactttcaaaacgccgtactcgttca
			ttagcacgaccaagacaattggcaatggcattagctaaagagctgactgaacatagcttg
			cctgaaattggagacgcttttgctggtcgagatcatacaacagtgttacatgcttgccgt
			caaatcaagttattgatggaaactgaaacgaaattgagagaagactgggataaactaatg
		

Выбираем базу данных RefSeq и ищем по алгоритму "megablast". Данная последовательность принадлежит организму - Xylella fastidiosa. AC записи RefSeq - NC_002488.3. Координаты данного фрагмента в записи 1145-1444. Он входит в

143..1462
                     /locus_tag="XF_0001"
                     /old_locus_tag="XF0001"
     CDS             143..1462
                     /locus_tag="XF_0001"
                     /old_locus_tag="XF0001"
                     /note="similar to SP|P35891 (percent identity: 53 %/query
                     alignment coverage: 105.0 %/subject alignment coverage:
                     98.9 %); identified by sequence similarity; putative; ORF
                     located using Glimmer/RBSfinder"
                     /codon_start=1
                     /transl_table=11
                     /product="chromosomal replication initiator"
                     /protein_id="AAF82814.1"
                     /db_xref="GI:9104761"
		

Поиск гомолога белка человека в слоне

Выберем любой белок человека, идентификатор которого в Swiss-Prot начинается с буквы "N". Чтобы получить полный список белков человека, идентификаторы которых начинаются с определенной буквы, используем следующую команду EMBOSS:

infoseq sw:x*_human -only -name -desc -out file_name.txt , где X – нужная буква. 

Файл с последовательностью белка с идентификатором XXXX_HUMAN можно получить командой :

seqret sw:xxxx_human -auto

Мы выберем белок NINJ2_HUMAN : Ninjurin-2 (Nerve injury-induced protein 2).

>NINJ2_HUMAN Q9NZG7 Ninjurin-2 (Nerve injury-induced protein 2)
MESARENIDLQPGSSDPRSQPINLNHYATKKSVAESMLDVALFMSNAMRLKAVLEQGPSS
HYYTTLVTLISLSLLLQVVIGVLLVVIARLNLNEVEKQWRLNQLNNAATILVFFTVVINV
FITAFGAHKTGFLAARASRNPL

На сайте ENA проведем поиск гомолога этого белка в геноме африканского слона (выбираем Loxodonta_africana в строке collection). При поиске на сайте ENA выбираем чекбокс "spliced translated nucleotide search" – это позволит искать не отдельные экзоны, а белок полностью. Найдено 2 хита.

E-value лучшей находки - 1E-52, длина выравнивания - 133, а identity полученного выравнивания - 77%, координаты найденного гена в геноме слона 46204747->46206340. В данном гене слона - 1 интрон.

Поиск некодирующих последовательностей программой BLAST

Найдем и вырежем в отдельный файл последовательность любой тРНК из генома бактерии Eggerthella lenta (AC EMBL - CP001726) из порядка Coriobacteriales. Пусть это будет tRNA-Ile.

Ниже представлена последовательность тРНК в fasta-формате

>CP001726 CP001726.1 Eggerthella lenta DSM 2243, tRNA-Ile 14020..14096.
gggcccgtagctcagttggttagagcgcacgcctgataagcgtgaggtcgctggttcaaa
tccattcgggcccacca

Таблица 1. Поиск гомологов поледоваетльности tRNA-Ile по всем бактериям из порядка Coriobacteriales

Алгоритмом megablast

Алгоритмом blastn
(параметры по умолчанию)

Алгоритмом blastn
(длина слова = 7, match/mismatch = 1/-1)

Количество находок
(не включая исходную откуда взяли тРНК)

5

8

8

AC находок

AP013105.1
AP012211.1
FP929047.1
CP001684.1
CP001682.1

AP013105.1
AP012211.1
FP929047.1
CP001684.1
CP001682.1
CP002106.1
CP001721.1
CP002628.1

AP013105.1
AP012211.1
FP929047.1
CP001684.1
CP001682.1
CP002106.1
CP001721.1
CP002628.1

Комментарии

У всех находок identity - 100% и e-value 8e-35

У 5 находок identity - 100%, e-value 9e-34

У 5 находок identity - 100%, e-value 7e-29

© Nuzhdina Ekaterina, 2013