 |
Поиск сходных нуклеотидных последовательностей, не кодирующих белки
|
Задание 1.Определить, какая тРНК была использована рибосомой при присоединении 4-ого аминокислотного остатка к растущей цепи белка DKGA_ECOLI
Аминокислотный остаток в 4-ой позиции белка
DKGA_ECOLI |
P(Пролин) |
Соответствующий кодон в гене dkgA |
5'-CCA-3' |
Идеальный антикодон |
5'-UGG-3' |
Сколько можно было бы ожидать разных тРНК
для остатка P, если опираться на генетический код? |
4 |
Сколько разных тРНК для остатка P аннотировано
в геноме кишечной палочки? |
3 |
Характеристика выбранной для дальнейшего изучения
тРНК: |
имя гена |
proM |
локализация гена в геноме |
3980758..3980834 |
распознаваемый кодон |
CCD(т.е. 3 кодона CCA(как в моем белке), CCG,CCT) |
антикодон |
UGG |
Результат поиска всех пролиновых
тРНК у Escherichia coli K-12
51786:FT /note="codons recognized: CCY; anticodon: GGG proline
83553:FT /note="codon recognized: CCG; proline tRNA1; go_component:
89821:FT /note="codons recognized: CCD; anticodon: UGG proline
|
Поиск в файле ecoli.embl проводился с помощью программы grep:
grep -n "codon.*proline" ecoli.embl>res.txt
Потом была выбрана нужная тРНК и ее последовательность получена из полного генома
(тот же ecoli.embl) c помощью программы seqret с опцией -sask (она спросила имя входного файла,
номера нуклеотидов начала и конца, имя выходного файла):
seqret -sask
Задание 2.Поиск гомологичных тРНК в родственном геноме Bacillus subtilis
Программа |
FASTA |
BLASTN |
MegaBLAST |
discontiguous MegaBLAST |
Длина якоря |
6 |
11 |
28 |
11 |
Результаты поиска |
здесь |
здесь |
здесь |
здесь |
Число находок с E-value < 0,01 |
1 |
1 |
0 |
1 |
Характеристика лучшей находки: |
E-value
|
1.4e-07 |
2e-11 |
|
1e-11 |
длина выравнивания
|
77 |
72 |
|
75 |
вес выравнивания
|
43.5 |
63.9 |
|
63.9 |
координаты в геноме
|
11463-11538 |
3172093-3172164 комплементарная цепь |
|
166172-166243 |
Аннотация лучшей находки по записи EMBL: |
имя гена
|
trnO-Ile |
trnB-Pro |
|
trnI-Pro |
это тРНК?
|
да |
да |
|
да |
это тоже
пролиновая
тРНК?
|
нет, она изолейциновая |
да |
|
да |
Примечание.Программа BLASTN нашла 3 гена (их последовательности полностью совпадают)
- trnJ(96062-96122), trnI(166172-166232), trnB(3172093-3172164) - и я выбрала trnB
потому, что он был первый в списке. Но в принципе у них одинаковые E-value и веса
выравниваний.
Сначала я получила индексные файлы для поиска по геному Bacillus subtilis :
formatdb -i bs_genome.fasta -p F -n bs
Поиск с помощью BLASTN:
blastall -p blastn -i tRNA_proline.fasta -d bs -o resultsearch.txt
Поиск с помощью MegaBLAST:
megablast -d bs -i tRNA_proline.fasta -o resmegablast.txt -D 2
Поиск с помощью discontiguous MegaBLAST( та же программа, но добавили некоторые опции
-W (стала меньше длина слова), -t (длина паттерна), -N( тип паттерна - я выбрала оптимальный)):
megablast -d bs -i tRNA_proline.fasta -o resmega.txt -D 2 -W 11 -t 21 -N 1
Поиск с помощью FASTA:
fasta34
Эта программа запросила следующие данные: имя файла с последовательностью для поиска,
имя файла-библиотеки, имя файла-результата, количество последовательностей для записи,
количество выравниваний.
Сравнение эффективности работы этих программ
Из этих 4-х программ хуже всего в данном случае сработала MegaBLAST: она не нашла ничего.
Проблема в том, что особенность этой программы - скорость(что в данном случае не актуально,т.к. "банк" очень маленький - всего один геном)
в ущерб чувствительности. Из-за большой длины якоря эта программа не смогла найти
короткую последовательность тРНК.Следующая в списке с конца - программа FASTA.
Она нашла тРНК, но для другой аминокислоты(изолейцин вместо пролина). Возможно это произошло
из-за того, что эта программа работает без индексных файлов и потому большой размер генома стал
для нее препятствием (найденная тРНК находится "с краю" генома). Но я не могу точно сказать,
почему так получилось (ведь E-value находки всего 1.4е-07 - это много по сравнению
2е-11). Программы BLASTN и discontiguous MegaBLAST дали хорошие результаты, но
BLASTN нашла 3 гена, кодирующих одну и ту же тРНК, а discontiguous MegaBLAST - 1 ген.
Ввиду того, что эти гены имеют абсолютно одинаковую последовательность, мне кажется, что результат
BLASTN немногим лучше(но все-таки лучше - эта программа оказалась более чувствительной).
На страницу 3-го семестра
© Моросанова Мария