Поиск гомологов белка p33221 (PURT_ECOLI) в геноме Xanthomonas campestris :
Индексные файлы пакета BLAST получены программой formatdb: formatdb -i xc_genome.fasta -p F -n xc
Для поиска использовался TBLASTN: blastall -p tblastn -d xc -i p33221.fasta -o p33221_in_xc, в результате получен файл p33221_in_xc
Число находок с Е-value<0,001 | 2 | |
Характеристика лучшей находки: | ||
E-value находки | e-136 | |
Название геномной последовательности | AE012212 | |
Координаты выравнивания(-ий) в найденной последовательности | 5528-6718 |
Последовательность лучшей находки в fasta-формате .
Нахождение записи EMBL по последовательности с помощью программы BLASTN:
В банке EMBL standard prokaryote была найдена запись, содержащая последовательность гена Xanthomonas campestris гомолога белка p33221 E.coli: запись AE008922 (лучшая находка, процент совпадения - 100%)
Согласно выравниванию, ген занимает позиции с 1323492 до 1324682
В поле FT записи AE008922 на этих позициях есть ген белка purt - фосфорибозилглицинамидформилтрансферазы 2 (phosphoribosylglycinamide formyltransferase 2) - гомолог белка purt_ecoli
Поиск гомологов с помощью программы BLASTN:
Найдем гомолог белка p33221 в геноме Xanthomonas campestris, используя в качестве запроса не аминокислотную последовательность, а нуклеотидную (последовательность гена белка p33221 возьмем из EMBL записи AP009048, файл с последовательностью p3322_nuc.fasta )
Для поиска используем программу BLASTN: blastall -p blastn -d xc -i p33221_nuc.fasta -o p33221_nuc_in_xc, в результате получен файл p33221_nuc_in_xc
Число находок с Е-value<0,001 | 0 | |
Характеристика лучшей находки: | ||
E-value находки | 0.005 | |
Название геномной последовательности | AE012212 | |
Координаты выравнивания(-ий) в найденной последовательности | 5762-5781, 6207-6222, 5870-5892 |
Найдено больше гомологов, однако выранивания не очень хорошие, высоко e-value даже лучшей находки (0.005 в отличии от e-136 для той же находки при поиске по аминокислотной последовательности), невелик вес лучшего выравнивания, его длина. Такой результат связан с тем, что аминокислоты могут быть закодированы не одним триплетом, при поиске по аминокислотной последовательности рассматриваются разные триплеты, при поиске же по нуклеотидной последовательности триплеты заданы однозначно, программа BLASTN плоха для поиска сколько-нибудь удаленных гомологов.
Работа с программой getorf пакета EMBOSS:
Программа getorf запущена на последовательность из записи банка EMBL D89965 , получен файл d89965.orf с набором трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода командой: getorf -minsize 30 -table 11 -find 1:
>D89965_1 [66 - 155] Rattus norvegicus mRNA for RSS, complete cds. MQFHPRLPAVLQVCAACDRYASLLPAQRRL >D89965_2 [8 - 169] Rattus norvegicus mRNA for RSS, complete cds. MAIRSFSGCTTSPLPVMISDAVSSATASSASSLRSMRSVRQSFASSTAALTRWP >D89965_3 [176 - 316] Rattus norvegicus mRNA for RSS, complete cds. MSSLRSNSSNSVKASAVPPAKPAMTLSLYRRRTFFTLPFITVLPNVA >D89965_4 [332 - 379] Rattus norvegicus mRNA for RSS, complete cds. MTTWPLRRTLTIVVTS >D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds. MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE LTPWLRIQSTNPVQKYGA >D89965_6 [369 - 443] Rattus norvegicus mRNA for RSS, complete cds. MSRADPLVTNTEYKPRTKVRGIMQL >D89965_7 [444 - 394] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MIALCPVLLYGVCTLYS >D89965_8 [440 - 375] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MHYAPYFCTGFVLCIRNQGVSS >D89965_9 [448 - 350] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MYNCIMPRTFVRGLYSVFVTKGSARDNYSKRTP >D89965_10 [341 - 297] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MWSSLVMVRPRWAIP >D89965_11 [130 - 101] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MAYRSHAAQT >D89965_12 [236 - 3] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MRAVLRMLLRCSNCLNVNWKCIRAIWSKPPLSWQKTGVPIACCANLKHCWQSRMKLHRLS SPVTVTWCSQKTILLLSA >D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL IAIGS
5 открытая рамка соответсвует CDS в записи ( 163..435 нуклеотиды ) - на основании выравнивания tblastn
13 открытая рамка соответсвует записи Swiss-Prot P0A7B8 - на основании выравнивания программой blastp
Поиск некодирующих последовательностей программой BLASTN:
Найдем гомологи тРНК E.coli (используем проаннотированные последовательности тРНК ) в геноме Xanthomonas campestris : в результате поиска по отформатированному геному Xanthomonas campestris программой blastn получен файл (без ограничений на E-value)
Для полсчета числа находк для данной последовательности тРНК E.coli используем команду вида: grep -c '^asnT' result_table_2.txt > count_asnT.txt - направляет в файл count_asnT.txt число находок для тРНК asnT
С помощью скрипта был получен файл с колчиством находок BLASTN для каждой последовательности транспортной РНК (находки представлены в последовательности ).
Если запустить программу BLASTN с ограничением E-value 0.001, число находок резко падает (т.к. требования к кандидатам в гомологи становятся более жесткими) (если без ограничений было найдено 1428 гомологов, то с ограничением - всего 192), файл с результатами
Результат - столбцы BLASTN и BLASTN (E-value <= 0.001) в файле trna.xls
Поиск некодирующих последовательностей программой megablast:
Повторим тот же поиск, только программой megablast:
программа megablast запускается строкой: megablast -d xc -i trna_ecoli.fasta -o result_megablast.txt -m 8, получен файл с результатами выравнивания
discontigous megablast (разрывный) запускается строкой: megablast -d xc -i trna_ecoli.fasta -o result_table_2_md.txt -D 3 -t 21 -W 11 -N 1
пармаемтр D определяет формат выдачи результата (выбран 3, в выдаче содержится информация как при -m 8 для blastn)
t - определяет длину слова, по которому ведется поиск, с длиной разрыва (выбран 21, может принимать значения 16, 18, 21)
W - определяет длину без учета разрыва (выбран 11, может принимать значения 11, 12)
N - определяет тип поиска (выбран 1, т.к. поиск ведется по некодирующей последовательности)
W = 11, t = 21, non-coding: 111010010100010010111 - матрица поисковых слов
в результате получен файл
megablast находит меньше последовательностьей, чем blastn, возможно потому что megablast использует слово с большей длиной (28, blastn использует же слово длиной 11).
Результат - столбцы Megablast и Discontigous megablast в файле trna.xls
Анализ результатов:
Для анализа результатов рассмотрим пару тРНК-гомолог, найденную программой blastn, но не найденной megablast: proM-AE012331 (AE012331 имеет координаты 3158-3189 в записи EMBL), выравниавние blastn имеет e-value = 3e-04<0.001, процент идентичности последовательностей = 90,62%, длина выравнивания 32, выравнивание достаточно хорошее
>AE012331 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 239 of 460 of the complete genome. Length = 11445 Score = 40.1 bits (20), Expect = 3e-04 Identities = 29/32 (90%) Strand = Plus / Plus Query: 46 ggtcggaggttcgaatcctctctcgccgacca 77 ||||| ||||||||||||| |||| ||||||| Sbjct: 3158 ggtcgcaggttcgaatcctgtctccccgacca 3189
Выравняем программой needle последовательность тРНК proM и гомологичную последовательность из генома Xanthomonas campestris:
######################################## # Program: needle # Rundate: Thu 19 Nov 2009 01:18:23 # Commandline: needle # [-asequence] proM.fasta # [-bsequence] xc_proM_gom.fasta # [-outfile] aln.needle # -auto # Align_format: srspair # Report_file: aln.needle ######################################## #======================================= # # Aligned_sequences: 2 # 1: proM # 2: AE012093 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 77 # Identity: 29/77 (37.7%) # Similarity: 29/77 (37.7%) # Gaps: 45/77 (58.4%) # Score: 133.0 # # #======================================= proM 1 cggcgagtagcgcagcttggtagcgcaactggtttgggaccagtgggtcg 50 ||||| AE012093 1 ---------------------------------------------ggtcg 5 proM 51 gaggttcgaatcctctctcgccgacca 77 .|||||||||||||.||||.||||||| AE012093 6 caggttcgaatcctgtctccccgacca 32 #--------------------------------------- #---------------------------------------
выравнивание плоучено командой needle proM.fasta xc_proM_gom.fasta aln.needle -auto
выравнивание было получено программой blastn и не было получено megablast, т.к. blastn использует слово длиной 11, а megablast - 28, в выравнивании же не было 28 совпавших нуклеотидов в подряд, но было 11
в записи EMBL AE008922 найденная гомологичная последовательность имеет координаты 2632862...2632893 (на основании выравнивания blastn), на этом месте в поле FT:
FT gene 2632817..2632893 FT /locus_tag="XCC2235" FT tRNA 2632817..2632893 FT /locus_tag="XCC2235" FT /product="tRNA-Pro" FT /note="Found by tRNAscan"
Как видно из аннотации, этот участок генома Xanthomonas campestris кодрует тРНК, несущую аминокислоту pro, длина тРНК - 77 нуклеотидов, странно, что выравнивание blastn имело длину 32 (на этой длине выской процент совпадения и низкий e-value), ведь соответсвующая тРНК E.coli также имеет длину 77, почему blastn не "поймал" последовательность гомолога с 2632817 до 2632861, а только конец гена с 2632862 по 2632893???
Поэтому выделим этот ген из генома Xanthomonas campestris и выравняем его с последовательностью proM E.coli с помощью программы needle:
######################################## # Program: needle # Rundate: Thu 19 Nov 2009 02:27:46 # Commandline: needle # [-asequence] proM.fasta # [-bsequence] xc_trna_gene.fasta # [-outfile] trna_pro_gom.needle # -auto # Align_format: srspair # Report_file: trna_pro_gom.needle ######################################## #======================================= # # Aligned_sequences: 2 # 1: proM # 2: AE008922 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 81 # Identity: 62/81 (76.5%) # Similarity: 62/81 (76.5%) # Gaps: 8/81 ( 9.9%) # Score: 224.0 # # #======================================= proM 1 cggcgagtagcgcagcttggt--agcgcaactggtttgggaccagt--gg 46 |||.|.|||||.|||..|||| |||||.|| |||.||||| || .| AE008922 1 cggggtgtagctcagtctggtagagcgctac--gttcgggac--gtagag 46 proM 47 gtcggaggttcgaatcctctctcgccgacca 77 ||||.|||||||||||||.||||.||||||| AE008922 47 gtcgcaggttcgaatcctgtctccccgacca 77 #--------------------------------------- #---------------------------------------
Полученное выравнивание имеет высокий процент идентичности (76,5 %), появились гэпы, содержащиеся в начале выравнивания (до 46 нуклеотида гомологичной последовательности), возможно из-за них blastn не "поймал" начало гомологичного гена. Из выравнивания видно, что эти тРНК имеют достаточно консервативную последовательность, небольшое число гэпов може соответсвовать мутациям - вставкам/потерям нуклеотдов. Скорее всего в этом месте генома бактерии Xanthomonas campestris действительно закодирована транспортная рнк pro.
Поиск некодирующих последовательностей программой Fasta: