назад

Поиск гомологов белка p33221 (PURT_ECOLI) в геноме Xanthomonas campestris :

Индексные файлы пакета BLAST получены программой formatdb: formatdb -i xc_genome.fasta -p F -n xc

Для поиска использовался TBLASTN: blastall -p tblastn -d xc -i p33221.fasta -o p33221_in_xc, в результате получен файл p33221_in_xc

Число находок с Е-value<0,001 2
Характеристика лучшей находки:  
   E-value находки e-136
Название геномной последовательности AE012212
Координаты выравнивания(-ий) в найденной последовательности 5528-6718

Последовательность лучшей находки в fasta-формате .

Нахождение записи EMBL по последовательности с помощью программы BLASTN:

В банке EMBL standard prokaryote была найдена запись, содержащая последовательность гена Xanthomonas campestris гомолога белка p33221 E.coli: запись AE008922 (лучшая находка, процент совпадения - 100%)

Согласно выравниванию, ген занимает позиции с 1323492 до 1324682

В поле FT записи AE008922 на этих позициях есть ген белка purt - фосфорибозилглицинамидформилтрансферазы 2 (phosphoribosylglycinamide formyltransferase 2) - гомолог белка purt_ecoli

Поиск гомологов с помощью программы BLASTN:

Найдем гомолог белка p33221 в геноме Xanthomonas campestris, используя в качестве запроса не аминокислотную последовательность, а нуклеотидную (последовательность гена белка p33221 возьмем из EMBL записи AP009048, файл с последовательностью p3322_nuc.fasta )

Для поиска используем программу BLASTN: blastall -p blastn -d xc -i p33221_nuc.fasta -o p33221_nuc_in_xc, в результате получен файл p33221_nuc_in_xc

Число находок с Е-value<0,001 0
Характеристика лучшей находки:  
   E-value находки 0.005
Название геномной последовательности AE012212
Координаты выравнивания(-ий) в найденной последовательности 5762-5781, 6207-6222, 5870-5892

Найдено больше гомологов, однако выранивания не очень хорошие, высоко e-value даже лучшей находки (0.005 в отличии от e-136 для той же находки при поиске по аминокислотной последовательности), невелик вес лучшего выравнивания, его длина. Такой результат связан с тем, что аминокислоты могут быть закодированы не одним триплетом, при поиске по аминокислотной последовательности рассматриваются разные триплеты, при поиске же по нуклеотидной последовательности триплеты заданы однозначно, программа BLASTN плоха для поиска сколько-нибудь удаленных гомологов.

Работа с программой getorf пакета EMBOSS:

Программа getorf запущена на последовательность из записи банка EMBL D89965 , получен файл d89965.orf с набором трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода командой: getorf -minsize 30 -table 11 -find 1:

   >D89965_1 [66 - 155] Rattus norvegicus mRNA for RSS, complete cds.
   MQFHPRLPAVLQVCAACDRYASLLPAQRRL
   >D89965_2 [8 - 169] Rattus norvegicus mRNA for RSS, complete cds.
   MAIRSFSGCTTSPLPVMISDAVSSATASSASSLRSMRSVRQSFASSTAALTRWP
   >D89965_3 [176 - 316] Rattus norvegicus mRNA for RSS, complete cds.
   MSSLRSNSSNSVKASAVPPAKPAMTLSLYRRRTFFTLPFITVLPNVA
   >D89965_4 [332 - 379] Rattus norvegicus mRNA for RSS, complete cds.
   MTTWPLRRTLTIVVTS
   >D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.
   MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
   FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
   LTPWLRIQSTNPVQKYGA
   >D89965_6 [369 - 443] Rattus norvegicus mRNA for RSS, complete cds.
   MSRADPLVTNTEYKPRTKVRGIMQL
   >D89965_7 [444 - 394] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
   MIALCPVLLYGVCTLYS
   >D89965_8 [440 - 375] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
   MHYAPYFCTGFVLCIRNQGVSS
   >D89965_9 [448 - 350] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
   MYNCIMPRTFVRGLYSVFVTKGSARDNYSKRTP
   >D89965_10 [341 - 297] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
   MWSSLVMVRPRWAIP
   >D89965_11 [130 - 101] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
   MAYRSHAAQT
   >D89965_12 [236 - 3] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
   MRAVLRMLLRCSNCLNVNWKCIRAIWSKPPLSWQKTGVPIACCANLKHCWQSRMKLHRLS
   SPVTVTWCSQKTILLLSA
   >D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
   MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
   FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
   IAIGS
   

5 открытая рамка соответсвует CDS в записи ( 163..435 нуклеотиды ) - на основании выравнивания tblastn

13 открытая рамка соответсвует записи Swiss-Prot P0A7B8 - на основании выравнивания программой blastp

Поиск некодирующих последовательностей программой BLASTN:

Найдем гомологи тРНК E.coli (используем проаннотированные последовательности тРНК ) в геноме Xanthomonas campestris : в результате поиска по отформатированному геному Xanthomonas campestris программой blastn получен файл (без ограничений на E-value)

Для полсчета числа находк для данной последовательности тРНК E.coli используем команду вида: grep -c '^asnT' result_table_2.txt > count_asnT.txt - направляет в файл count_asnT.txt число находок для тРНК asnT

С помощью скрипта был получен файл с колчиством находок BLASTN для каждой последовательности транспортной РНК (находки представлены в последовательности ).

Если запустить программу BLASTN с ограничением E-value 0.001, число находок резко падает (т.к. требования к кандидатам в гомологи становятся более жесткими) (если без ограничений было найдено 1428 гомологов, то с ограничением - всего 192), файл с результатами

Результат - столбцы BLASTN и BLASTN (E-value <= 0.001) в файле trna.xls

Поиск некодирующих последовательностей программой megablast:

Повторим тот же поиск, только программой megablast:

программа megablast запускается строкой: megablast -d xc -i trna_ecoli.fasta -o result_megablast.txt -m 8, получен файл с результатами выравнивания

discontigous megablast (разрывный) запускается строкой: megablast -d xc -i trna_ecoli.fasta -o result_table_2_md.txt -D 3 -t 21 -W 11 -N 1
пармаемтр D определяет формат выдачи результата (выбран 3, в выдаче содержится информация как при -m 8 для blastn)
t - определяет длину слова, по которому ведется поиск, с длиной разрыва (выбран 21, может принимать значения 16, 18, 21)
W - определяет длину без учета разрыва (выбран 11, может принимать значения 11, 12)
N - определяет тип поиска (выбран 1, т.к. поиск ведется по некодирующей последовательности)
W = 11, t = 21, non-coding: 111010010100010010111 - матрица поисковых слов

в результате получен файл

megablast находит меньше последовательностьей, чем blastn, возможно потому что megablast использует слово с большей длиной (28, blastn использует же слово длиной 11).

Результат - столбцы Megablast и Discontigous megablast в файле trna.xls

Анализ результатов:

Для анализа результатов рассмотрим пару тРНК-гомолог, найденную программой blastn, но не найденной megablast: proM-AE012331 (AE012331 имеет координаты 3158-3189 в записи EMBL), выравниавние blastn имеет e-value = 3e-04<0.001, процент идентичности последовательностей = 90,62%, длина выравнивания 32, выравнивание достаточно хорошее

>AE012331 AE008922 Xanthomonas campestris pv. campestris str. ATCC
            33913,  section 239 of 460 of the complete genome.
          Length = 11445

 Score = 40.1 bits (20), Expect = 3e-04
 Identities = 29/32 (90%)
 Strand = Plus / Plus

                                            
Query: 46   ggtcggaggttcgaatcctctctcgccgacca 77
            ||||| ||||||||||||| |||| |||||||
Sbjct: 3158 ggtcgcaggttcgaatcctgtctccccgacca 3189
        

Выравняем программой needle последовательность тРНК proM и гомологичную последовательность из генома Xanthomonas campestris:

########################################
# Program: needle
# Rundate: Thu 19 Nov 2009 01:18:23
# Commandline: needle
#    [-asequence] proM.fasta
#    [-bsequence] xc_proM_gom.fasta
#    [-outfile] aln.needle
#    -auto
# Align_format: srspair
# Report_file: aln.needle
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: proM
# 2: AE012093
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      29/77 (37.7%)
# Similarity:    29/77 (37.7%)
# Gaps:          45/77 (58.4%)
# Score: 133.0
# 
#
#=======================================

proM               1 cggcgagtagcgcagcttggtagcgcaactggtttgggaccagtgggtcg     50
                                                                  |||||
AE012093           1 ---------------------------------------------ggtcg      5

proM              51 gaggttcgaatcctctctcgccgacca     77
                     .|||||||||||||.||||.|||||||
AE012093           6 caggttcgaatcctgtctccccgacca     32


#---------------------------------------
#---------------------------------------
       

выравнивание плоучено командой needle proM.fasta xc_proM_gom.fasta aln.needle -auto

выравнивание было получено программой blastn и не было получено megablast, т.к. blastn использует слово длиной 11, а megablast - 28, в выравнивании же не было 28 совпавших нуклеотидов в подряд, но было 11

в записи EMBL AE008922 найденная гомологичная последовательность имеет координаты 2632862...2632893 (на основании выравнивания blastn), на этом месте в поле FT:

FT   gene            2632817..2632893
FT                   /locus_tag="XCC2235"
FT   tRNA            2632817..2632893
FT                   /locus_tag="XCC2235"
FT                   /product="tRNA-Pro"
FT                   /note="Found by tRNAscan"
       

Как видно из аннотации, этот участок генома Xanthomonas campestris кодрует тРНК, несущую аминокислоту pro, длина тРНК - 77 нуклеотидов, странно, что выравнивание blastn имело длину 32 (на этой длине выской процент совпадения и низкий e-value), ведь соответсвующая тРНК E.coli также имеет длину 77, почему blastn не "поймал" последовательность гомолога с 2632817 до 2632861, а только конец гена с 2632862 по 2632893???

Поэтому выделим этот ген из генома Xanthomonas campestris и выравняем его с последовательностью proM E.coli с помощью программы needle:

########################################
# Program: needle
# Rundate: Thu 19 Nov 2009 02:27:46
# Commandline: needle
#    [-asequence] proM.fasta
#    [-bsequence] xc_trna_gene.fasta
#    [-outfile] trna_pro_gom.needle
#    -auto
# Align_format: srspair
# Report_file: trna_pro_gom.needle
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: proM
# 2: AE008922
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 81
# Identity:      62/81 (76.5%)
# Similarity:    62/81 (76.5%)
# Gaps:           8/81 ( 9.9%)
# Score: 224.0
# 
#
#=======================================

proM               1 cggcgagtagcgcagcttggt--agcgcaactggtttgggaccagt--gg     46
                     |||.|.|||||.|||..||||  |||||.||  |||.|||||  ||  .|
AE008922           1 cggggtgtagctcagtctggtagagcgctac--gttcgggac--gtagag     46

proM              47 gtcggaggttcgaatcctctctcgccgacca     77
                     ||||.|||||||||||||.||||.||||||| 
AE008922          47 gtcgcaggttcgaatcctgtctccccgacca      77


#---------------------------------------
#---------------------------------------
   

Полученное выравнивание имеет высокий процент идентичности (76,5 %), появились гэпы, содержащиеся в начале выравнивания (до 46 нуклеотида гомологичной последовательности), возможно из-за них blastn не "поймал" начало гомологичного гена. Из выравнивания видно, что эти тРНК имеют достаточно консервативную последовательность, небольшое число гэпов може соответсвовать мутациям - вставкам/потерям нуклеотдов. Скорее всего в этом месте генома бактерии Xanthomonas campestris действительно закодирована транспортная рнк pro.

Поиск некодирующих последовательностей программой Fasta: