Программы пакета BLAST для работы с нуклеотидными последовательностями
formatdb -i xc_genome.fasta -p F -n xcПосле проведем поиск гомологов в программе TBLASTN с порогом E-value, равным 0,001:
blastall -p tblastn -d xc -i dps.fasta -o homol.txt -e 0.001На основе полученного файла составим таблицу:
Число находок с Е-value<0,001 | 1 | |
Характеристика лучшей находки: | ||
E-value находки | 6 . 10 -10 | |
Название геномной последовательности | AE012409 | |
Координаты выравнивания в найденной последовательности | 7268-7714 |
FT gene 3506674..3507225 FT /locus_tag="XCC2946" FT CDS 3506674..3507225 FT /codon_start=1 FT /transl_table=11 FT /locus_tag="XCC2946" FT /product="DNA-binding related protein" FT /note="identified by sequence similarity; putative; ORF FT located using Blastx/Glimmer/Genemark" FT /db_xref="GOA:Q8P6M1" FT /db_xref="HSSP:1JI5" FT /db_xref="InterPro:IPR012347" FT /db_xref="UniProtKB/TrEMBL:Q8P6M1" FT /protein_id="AAM42218.1" FT /translation="MSKKKNAANKPAAPTDALPVAAPSAPHIDIGIKDADRKQISDGLA FT RYMADAFTLYLKTHNFHWNVTGSMFNSLHTMFETQYTEQWGALDEVAERIRALGYNAPG FT SYREFVALTSIPEEPGLSDSADWREMVRQLVSGNEAVCRTARKVLGTADDAGDDPTVDL FT LTQRLQTHEKYAWMLRSLLQ"Как видно, кодирующая последовательность имеет координаты 3506674-3507225 и соответствует записи Q8P6M1 банка UniProt. Этот белок так же, как и DPS_ECOLI, принадлежит к семейству dps и без сомнений является его гомологом. Таким образом, BLASTN дал положительный результат и справился с поставленной задачей.
blastall -p blastn -d xc -i parta.fasta -o homolog.txtВ полученном файле содержится информация о выравниваниях последовательностей. Лучшая находка имеет E-value 0.032, причем это уже не та находка, что в первом упражнении. Длина выравнивания составляет всего 18 нуклеотидов. Остальные находки имеют E-value больше 2, что является совсем плохим результатом. В результате, можно предположить, что в геноме бактерии Xanthomonas campestris не имеется белков, гомологичных DPS_ECOLI. Находка, найденная в первом упражнении, не нашлась в этом, скорее всего, потому, что в первом задании имеющаяся аминокислотная последовательность может иметь очень много соответствующих нуклеотидных последовательностей (вследствие вырожденности генетического кода), поэтому одна находка случайным образом нашлась (не будучи гомологом). В третьем же задании условия были более жесткие (так как имелись две нуклеотидные последовательности), поэтому ни одной достоверной находки не нашлось.
getorf -table 11 -minsize 30 -find 1 -sequence d89965.entretПолучен файл с открытыми рамками, удовлетворяющими данным условиям. Согласно этому файлу 5-я рамка соответствует приведенной в записи CDS, а 13-я - записи Swiss-Prot (P0A7B8).
blastall -p blastn -d xc -i trna_ecoli.fasta -m 8 -o trnahom.txtБыл получен файл trnahom.txt со списком находок в виде таблицы. Для того, чтобы узнать теперь количество находок для каждой последовательности, в Excel был импортирован список названий входных последовательностей. А далее был создан скрипт, подсчитывающий количество находок для каждой последовательности. С помощью скрипта был получен файл blastn.txt. Результат был оформлен в таблице Excel (на странице names - имена последовательностей и число находок для каждой, на странице Лист1 - строчки скрипта для каждой последовательности).
blastall -p blastn -d xc -i trna_ecoli.fasta -m 8 -e 0.001 -o trnahom2.txtВ результате команды был получен файл с находками (в виде таблицы). Далее были проведены те же операции, что и при поиске находок без порога на E-value (соответствующий скрипт был сохранен в файле blastn2.scr, а число находок для каждой последовательности - в файле blastn2.txt). Результат - в той же таблице Excel (на тех же листах, что и при предыдущем поиске).
megablast -d xc -i trna_ecoli.fasta -m 8 -o mega.txtПолученный файл - mega.txt. Проведем те же операции. Скрипт сохранен в файле blastn3.scr, количество находок - в файле blastn3.txt.
megablast -d xc -i trna_ecoli.fasta -m 8 -D 2 -t 18 -W 11 -N 1 -o mega2.txtВ этой команде параметр -D задает тип выдачи (значение "2" задает стандартную выдачу blast), параметр -t задает длину слов из тРНК, которые будут искаться в геноме бактерии (может принимать значения "16", "18", "21"), параметр -W задает длину слов из генома бактерий, по которым ведется поиск последовательности (может принимать значения "11" и "12"), параметр -N задает тип разрывов в матрице (может принимать значения "0", "1" и "2"). Был получен файл mega2.txt. Скрипт для подсчета находок сохранен в файле blastn4.scr, файл с числом находок - в файле blastn4.txt.
>AE012195 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 103 of 460 of the complete genome. Length = 10083 Score = 89.7 bits (45), Expect = 3e-19 Identities = 69/77 (89%) Strand = Plus / Plus Query: 1 ggagcggtagttcagtcggttagaatacctgcctgtcacgcagggggtcgcgggttcgag 60 ||||||||||||||| ||||||||| | ||||||||||| || ||||||||||||||| Sbjct: 9722 ggagcggtagttcagctggttagaatgctggcctgtcacgccggaggtcgcgggttcgag 9781 Query: 61 tcccgtccgttccgcca 77 ||||||||| ||||||| Sbjct: 9782 tcccgtccgctccgcca 9798Теперь выравним две последовательности программой needle. Для этого вначале вырежем соответствующие фрагменты командой seqret. Получаем файлы aspV.fasta и aspVxc.fasta. Теперь направим их программе needle командой:
needle aspV.fasta aspVxc.fasta aspV.needleПолученное выравнивание сохранено в файле aspV.needle. Выравнивание выглядит так:
# Aligned_sequences: 2 # 1: aspV # 2: AE012195 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 77 # Identity: 69/77 (89.6%) # Similarity: 69/77 (89.6%) # Gaps: 0/77 ( 0.0%) # Score: 313.0 # # #======================================= aspV 1 ggagcggtagttcagtcggttagaatacctgcctgtcacgcagggggtcg 50 |||||||||||||||..|||||||||.|..|||||||||||.||.||||| AE012195 1 ggagcggtagttcagctggttagaatgctggcctgtcacgccggaggtcg 50 aspV 51 cgggttcgagtcccgtccgttccgcca 77 |||||||||||||||||||.||||||| AE012195 51 cgggttcgagtcccgtccgctccgcca 77Как видно из выравнивания, процент идентичности составляет 89,6%, что является очень высоким процентом. Процент гэпов, естественно, равен нулю. Такой высокий процент идентичности связан с консервативностью тРНК, так как она выполняет в клетках одни и те же незаменимые функции (для которых очень важна консервативность последовательности).
FT gene 1135403..1135479 FT /locus_tag="XCC0980" FT tRNA 1135403..1135479 FT /locus_tag="XCC0980" FT /product="tRNA-Asp" FT /note="Found by tRNAscan"Чтобы найти этот участок, пришлось зайти на сайт EBI и найти запись последовательности AE012195 (удаленную 27-го февраля 2009 года), а в ней следующие значения поля FT:
FT tRNA 9722..9798 FT /gene="XCC0980" FT /product="tRNA-Asp" FT /note="Found by tRNAscan"Как видно, номера нуклеотидов в последовательности в точности совпадают с номерами в выравнивании. Ну а дальше по AC гена (XCC0980) была найдена эта последовательность в полной записи генома бактерии Xanthomonas campestris. Как и следовало ожидать, эта последовательность в ней соответствует той же самой тРНК (аспарагиновой), что и исходная тРНК из E. coli.
fasta35 trna_ecoli.fasta xc_genome.fasta 6 < fas.txtНа выходе имеем файлы с набором гомологов для каждой тРНК.
Назад