Программы пакета BLAST

Главная

Занятие 6. Программы пакета BLAST для работы с нуклеотидными последовательностями

1. Поиск в геноме участков, кодирующих белки, похожие на заданный


Создала в своей рабочей директории индексные файлы пакета BLAST+:
makeblastdb -in bl_genome.fasta -out bl -dbtype nucl

bl_genome.fasta включает последовательности из EMBL, составляющие полный геном термофильной бактерии Bacillus licheniformis;
lm_genome.fasta– полный геном возбудителя листериоза Listeria monocytogenes;
gt_genome.fasta– полный геном бактерии Geobacillus thermodenitrificans;
sa_genome.fasta– полный геном бактерии Streptococcus agalactiae.
Выбрала подходящую для решения данной задачи программу из пакета BLAST+(TBLASTN) и провела с ее помощью поиск с порогом на E-value 0,001:
tblastn -query dacc_bacsu.fasta -db bl -out dacc_bl.txt -evalue 0.001
По результатам поиска заполнила таблицу.

Поиск гомологов белка DACC_BACSU в геноме Listeria monocytogenes

Число находок с E-value < 0,001
1
E-value лучшей находки
3e-144
Название последовательности с лучшей находкой AE017333 Bacillus licheniformis DSM 13, complete genome
Координаты лучшей находки (от-до)
2080593-2081981
Доля последовательности DACC_BACSU, вошедшая в выравнивание с лучшей находкой
0,94

2. Нахождение записи EMBL по последовательности программой BLASTN


Для последовательности eliseeva.fasta, пользуясь интерфейсом к программе BLASTN на сайте EBI осуществила поиск.

Данная последовательность присутствует в записи:
EM_PRO:U14003 U14003.1 Escherichia coli K-12 chromosomal region from 92.8 to 00.1 minutes.
Координаты заданной последовательности в записи:90380-90559; соответствует направлению записи.
В поле FT
описан участок, включающий данную последовательность(ген miaA); его направление так же прямое и совпадает с направлением заданной последовательности.
FT   gene            90080..91030
FT                   /gene="miaA"
FT   CDS             90080..91030
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="miaA"
FT                   /product="tRNA delta-2-isopentenylpyrophosphate (IPP)
FT                   transferase"
FT                   /note="CG Site No. 18160; alternate gene name trpX"
FT                   /db_xref="GOA:P16384"
FT                   /db_xref="InterPro:IPR002627"
FT                   /db_xref="InterPro:IPR018022"
FT                   /db_xref="PDB:2ZM5"
FT                   /db_xref="PDB:2ZXU"
FT                   /db_xref="PDB:3FOZ"
FT                   /db_xref="UniProtKB/Swiss-Prot:P16384"
FT                   /protein_id="AAA97067.1"
FT                   /translation="MSDISKASLPKAIFLMGPTASGKTALAIELRKILPVELISVDSAL
FT                   IYKGMDIGTAKPNAEELLAAPHRLLDIRDPSQAYSAADFRRDALAEMADITAAGRIPLL
FT                   VGGTMLYFKALLEGLSPLPSADPEVRARIEQQAAEQGWESLHRQLQEVDPVAAARIHPN
FT                   DPQRLSRALEVFFISGKTLTELTQTSGDALPYQVHQFAIAPASRELLHQRIEQRFHQML
FT                   ASGFEAEVRALFARGDLHTDLPSIRCVGYRQMWSYLEGEISYDEMVYRGVCATRQLAKR
FT                   QITWLRGWEGVHWLDSEKPEQARDEVLQVVGAIAG"
FT   misc_feature    90378..95221
FT                   /note="corresponds to GenBank Accession Number U00005
FT                   (ECOHFLA)"
FT   misc_feature    90378..91667
FT                   /note="corresponds to GenBank Accession Number D00743
FT                   (ECOHFQ)"
FT   promoter        91027..91054
FT                   /note="promoter matrix score of 55; putative"

3. Поиск гомологов гена программой BLASTN


Создадим в своей рабочей директории fasta-файл с нуклеотидной последовательностью, кодирующей мой белок(DACC_BACSU).
Для этого надо взять одну из записей EMBL(например,AL009126), на которую ссылается запись Swiss-Prot;
найти в ней координаты соответствующей CDS:
FT   gene            complement(1998340..1999815)
FT                   /gene="dacC"
FT                   /locus_tag="BSU18350"
FT   CDS             complement(1998340..1999815)
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="dacC"
FT                   /locus_tag="BSU18350"
FT                   /product="D-alanyl-D-alanine carboxypeptidase"
FT                   /function="16.13: Shape"
FT                   /EC_number="3.4.16.4"
FT                   /note="Evidence 1a: Function experimentally demonstrated in
FT                   the studied strain; PubMedId: 11160090, 14731276, 9733705,
FT                   9864321; Product type e: enzyme"
FT                   /db_xref="GOA:P39844"
FT                   /db_xref="InterPro:IPR000667"
FT                   /db_xref="InterPro:IPR012338"
FT                   /db_xref="PDB:1W5D"
FT                   /db_xref="PDB:2J9P"
FT                   /db_xref="SubtiList:BG10969"
FT                   /db_xref="UniProtKB/Swiss-Prot:P39844"
FT                   /inference="ab initio prediction:AMIGene:2.0"
FT                   /protein_id="CAB13718.1"
FT                   /translation="MKKSIKLYVAVLLLFVVASVPYMHQAALAAEKQDALSGQIDKILA
FT                   DHPALEGAMAGITVRSAETGAVLYEHSGDTRMRPASSLKLLTAAAALSVLGENYSFTTE
FT                   VRTDGTLKGKKLNGNLYLKGKGDPTLLPSDFDKMAEILKHSGVKVIKGNLIGDDTWHDD
FT                   MRLSPDMPWSDEYTYYGAPISALTASPNEDYDAGTVIVEVTPNQKEGEEPAVSVSPKTD
FT                   YITIKNDAKTTAAGSEKDLTIEREHGTNTITIEGSVPVDANKTKEWISVWEPAGYALDL
FT                   FKQSLKKQGITVKGDIKTGEAPSSSDVLLSHRSMPLSKLFVPFMKLSNNGHAEVLVKEM
FT                   GKVKKGEGSWEKGLEVLNSTLPEFGVDSKSLVLRDGSGISHIDAVSSDQLSQLLYDIQD
FT                   QSWFSAYLNSLPVAGNPDRMVGGTLRNRMKGTPAQGKVRAKTGSLSTVSSLSGYAETKS
FT                   GKKLVFSILLNGLIDEEDGKDIEDQIAVILANQ"

и вырезать последнюю программой seqret в отдельный файл:
seqret -sask
input (gapped) sequence: AL009126.txt
Begin at position [start]:1998340
End at position [end]:1999815
Reverse strand:n
output sequence(s) [al009126.fasta]: dacc.fasta

dacc.fasta
Затем выполним поиск гомологов этого гена в геноме бактерии Bacillus licheniformis с помощью программы blastn:
blastn -query dacc.fasta -db sa -out dacc_bl_blastn.txt -evalue 0.001 -task blastn
dacc_bl_blastn.txt

Поиск гомологов белка DACC_BACSU в геноме бактерии Bacillus licheniformis


Число находок с E-value < 0,001
1
E-value лучшей находки
2e-62
Название последовательности с лучшей находкой AE017333 Bacillus licheniformis DSM 13, complete genome
Координаты лучшей находки (от-до)
2080610-2081911

Количество находок не изменилось, при этом найденная запись одинакова в обоих случаях.
©Eliseeva Julia