Запущены следующие команды:
formatdb -i xc_genome.fasta -n xc -p F blastall -p tblastn -d xc -i p0a6y1.fasta -e 0.001 > p0a6y1.outВыходной файл: p0a6y1.out
Число находок с Е-value<0,001 | 3 | |
Характеристика лучшей находки: | ||
E-value находки | 9e-32 | |
Название геномной последовательности | >AE012326 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 234 of 460 of the complete genome. | |
Координаты выравнивания(-ий) в найденной последовательности | 7801-7529 |
seqret -sask Reads and writes (returns) sequences Input (gapped) sequence(s): xc_genome.fasta:AE012326 Begin at position [start]: 7529 End at position [end]: 7801 Reverse strand [N]: Y output sequence(s) [ae012537.fasta]:Выходной файл: ae012326.fasta
На сайте EBI (http://www.ebi.ac.uk/Tools/) запустим поиск этой последовательности в банке "EMBL standard prokaryote".
Необходимо: На страничке "Bioinformatic tools" пойдите по гиперссылке "BLAST" и выберите "NCBI-BLAST2 Nucleotide". Нужные параметры стоят на странице сервиса по умолчанию. Выберите нужный банк в меню "Database". Последовательность можно скопировать из файла в окошко, но можно и не делать этого, а взамен воспользоваться функцией "Upload a file". На странице с результатом поставьте галочку в checkbox против первой находки (убедитесь, что Identity=100%) и нажмите кнопку "Show alignments".
AC записи EMBL CP000050 и координаты находки в этой записи 2324921-2325133.У первой находки (CP000050) был выбран режим "Show Alignments". Была выдана следующая информация:
>EM_PRO:CP000050; CP000050 Xanthomonas campestris pv. campestris str. 8004, complete genome. Length = 5,148,708 Plus Strand HSPs: Score = 1365 (210.9 bits), Expect = 1.5e-52, P = 1.5e-52 Identities = 273/273 (100%), Positives = 273/273 (100%), Strand = Plus / Plus Query: 1 ATGACCAAGTCCGAATTGATCGAAATCCTGGCGCGACGCCAAGCGCATCTGAAGTCGGAC 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 2324861 ATGACCAAGTCCGAATTGATCGAAATCCTGGCGCGACGCCAAGCGCATCTGAAGTCGGAC 2324920 Query: 61 GATGTGGATCTGGCGGTCAAATCGCTGCTTGAAATGATGGGGCAGGCCTTGTCCGATGGT 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 2324921 GATGTGGATCTGGCGGTCAAATCGCTGCTTGAAATGATGGGGCAGGCCTTGTCCGATGGT 2324980 Query: 121 GATCGGATCGAAATCCGTGGGTTTGGCAGCTTCTCGCTGCATTACCGCCCGCCACGCCTG 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 2324981 GATCGGATCGAAATCCGTGGGTTTGGCAGCTTCTCGCTGCATTACCGCCCGCCACGCCTG 2325040 Query: 181 GGCCGCAACCCGAAGACCGGTGAATCGGTCGCGCTGCCTGGCAAGCATGTTCCGCATTTC 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 2325041 GGCCGCAACCCGAAGACCGGTGAATCGGTCGCGCTGCCTGGCAAGCATGTTCCGCATTTC 2325100 Query: 241 AAACCCGGCAAGGAGCTGCGCGAGCGCGTGAGC 273 ||||||||||||||||||||||||||||||||| Sbjct: 2325101 AAACCCGGCAAGGAGCTGCGCGAGCGCGTGAGC 2325133
Полная запись EMBL получена с помощью команды: entret embl:CP000050 -auto
Информация о поле FT в полной записи:FT CDS 2324861..2325172 FT /codon_start=1 FT /transl_table=11 FT /locus_tag="XC_1925" FT /product="integration host factor beta subunit" FT /db_xref="GOA:Q4UVD5" FT /db_xref="HSSP:1B8Z" FT /db_xref="InterPro:IPR000119" FT /db_xref="InterPro:IPR005685" FT /db_xref="InterPro:IPR010992" FT /db_xref="InterPro:IPR020816" FT /db_xref="UniProtKB/Swiss-Prot:Q4UVD5" FT /protein_id="AAY48988.1" FT /translation="MTKSELIEILARRQAHLKSDDVDLAVKSLLEMMGQALSDGDRIEI FT RGFGSFSLHYRPPRLGRNPKTGESVALPGKHVPHFKPGKELRERVSSVVPVDMVDAAD"Координаты CDS: 2324861..2325172
Запись сохранена с помощью команды:
entret embl:X04864 -autoКоординаты в записи CDS: 1..600
Кодирующая последавательность была вырезана в файл:
seqret "embl:X04864[1:600]" X04864.fastaФайл: X04864.fasta
Поиск гомологов гена в геноме Xanthomonas campestris программой BLASTN
Запущены следующие команды:
blastall -p blastn -d xc -i X04864.fasta -e 10 > X04864.outE-value вводил 10, т.к при 0.001 гомологов не находил. Выходной файл: X04864.out
Характеристика лучшей находки:E-value <10 | ||
E-value находки | 0.010 | |
Название геномной последовательности | >AE012243 AE008922 Xanthomonas campestris pv. campestris str. | |
Координаты выравнивания(-ий) в найденной последовательности | 8754-8772 |
entret embl:d89965Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок (длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода)
getorf -minsize 30 -find 1 -table 11 Finds and extracts open reading frames (ORFs) Input nucleotide sequence(s): d89965.entert protein output sequence(s) [d89965.orf]:Получил файл: d89965.orf
>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS complete cds. MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE LTPWLRIQSTNPVQKYGA
>sp|P0A7B8.2|HSLV_ECOLI RecName: Full=ATP-dependent protease hslV; AltName: Full=Heat Length=176 Score = 254 bits (648), Expect = 1e-67, Method: Compositional matrix adjust. Identities = 125/125 (100%), Positives = 125/125 (100%), Gaps = 0/125 (0%) Query 2 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL 61 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL Sbjct 1 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL 60 Query 62 FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL 121 FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL Sbjct 61 FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL 120 Query 122 IAIGS 126 IAIGS Sbjct 121 IAIGS 125
Задача- определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии Xanthomonas campestris
1 Я запустил blastn и в качестве последовательности для поиска указал trna_ecoli.fasta , а в качестве банка- геном бактерии проиндексированныйblastall -p blastn -d xc -i trna_ecoli.fasta -m 8 > trna_ecoli.txt2 Создал колонку из названий входных последовательностей командой
grep ">" trna_ecoli.fasta3 Создал скрипт из команд, выдающих число находок для каждой последовательности
(чтобы сделать файл со скриптом исполняемым:chmod +x script.scr и можно его запускать: ./script.scr)
Сделала тоже самое для E-value<0.001
megablast -D 2 -m 9 -o trna_ecoliM.txt -d xc -i trna_ecoli.fasta megablast -D 2 -m 9 -W 11 -t 16 -N 1 -o trna_ecolidm.txt -d xc -i trna_ecoli.fastaПараметры:
-D - вид выходного файла. значение 2 - стандартная выдача -t - длина поискового слова, с учетом "разрывов". Может принимать значения 16, 18, 21. Выбрано 16 -W - длина поискового слова, без учета "разрывов" Может принимать значения 11 или 12 Выбрано 11 -N - тип поисковых слов. 0 - для поиска по кодирующим последовательностям. 1 - для поиска по некодирующим последовательностям. 2 - и по тем, и по другим. Выбрано значение 1, так как поиск ведется по некодирующим последовательностям.
Отчётный Excel-файл trna.xlsx
Выравнивание в BLASTN:
>AE012363 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 271 of 460 of the complete genome. Length = 8145 Score = 95.6 bits (48), Expect = 5e-21 Identities = 69/76 (90%) Strand = Plus / Minus Query: 2 gcggggtggagcagcctggtagctcgtcgggctcataacccgaagatcgtcggttcaaat 61 |||||||||||||| |||| ||||||||||||||||||||||||| ||| ||||||||| Sbjct: 205 gcggggtggagcagtctggcagctcgtcgggctcataacccgaaggtcgcaggttcaaat 146 Query: 62 ccggcccccgcaacca 77 || |||||||| |||| Sbjct: 145 cctgcccccgctacca 130Гомологичный участок AE012363 был вырезан в отдельный файл с помощью команды:
seqret -sask Reads and writes (returns) sequences Input (gapped) sequence(s): xc_genome.fasta:AE012363 Begin at position [start]: 130 End at position [end]: 205 Reverse strand [N]: Y output sequence(s) [ae012363.fasta]: metY.fastaВыходной файл: matY.fasta
# Aligned_sequences: 2 # 1: AE012363 # 2: metY # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 77 # Identity: 69/77 (89.6%) # Similarity: 69/77 (89.6%) # Gaps: 1/77 ( 1.3%) # Score: 317.0 # # #======================================= AE012363 1 -gcggggtggagcagtctggcagctcgtcgggctcataacccgaaggtcg 49 ||||||||||||||.||||.|||||||||||||||||||||||||.||| metY 1 cgcggggtggagcagcctggtagctcgtcgggctcataacccgaagatcg 50 AE012363 50 caggttcaaatcctgcccccgctacca 76 ..|||||||||||.||||||||.|||| metY 51 tcggttcaaatccggcccccgcaacca 77Запись AE012363 EMBL:
FT tRNA complement(130..206) FT /gene="XCC2514" FT /product="tRNA-Met" FT /note="Found by tRNAscan"