8 (926) 907 94 08 Здесь должен быть мальчик с мензуркой!
Всё на свете является чудом!

 

Программы пакета BLAST для работы с нуклеотидными последовательностями

Задание 1. Поиск в геноме участков, кодирующих белки, похожие на заданный

Имея аминокислотную последовательность белка THIS_BACSU из Bacillus subtilis, мы хотим узнать, закодированы ли похожие белки в геноме другого организма (в нашем случае Geobacillus thermodenitrificans). Для этого воспользуемся программами пакета BLAST.

Вначале создадим индексные файлы пакета BLAST+ для поиска по геному бактерии Geobacillus thermodenitrificans при помощи команды с необходимыми параметрами:


makeblastdb -in gt_genome.fasta -out gt -dbtype nucl

Теперь, чтобы найти гомологи белка THIS_BACSU по геному бактерии Geobacillus thermodenitrificans, воспользуемся программой TBLASTN.
Для этого выполним соответствующую команду с необходимыми параметрами:

tblastn -query this_bacsu.fasta -db gt -out this_gt.txt -evalue 0.001

По результатам поиска, сохранённым в файле this_gt.txt, заполним таблицу:

Число находок с E-value < 0,001

1

E-value лучшей находки

2e-10

Название последовательности с лучшей находкой

CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome

Координаты лучшей находки

599768 - 599962

Доля последовательности белка THIS_BACSU, вошедшая в выравнивание с лучшей находкой

65/66 ≈ 0.98


Задание 2. Нахождение записи EMBL по последовательности программой BLASTN

Используя сайт
EBI, где представлен сервис программы BLASTN, сделаем поиск в разделе EMBL Standard Prokaryote, задав при этом нуклеотидную последовательность.
Для поиска необходимо выполнить несколько шагов:

Step 1 - отмечаем нужную базу данных






Step 2 - загружаем файл с последовательностью




Step 3 - выбираем интересующую программу




Step 4 - выполняем поиск записей



В результате нашлось очень много записей, но лишь 2 из них имеют процент совпадения 100% и E-value = 4.0E-96.
Их идентификаторы - CP003686 и AB000631.
Рассмотрим вторую находку, где длина последовательности не
~2 млн, а лишь 4177.



○ находка соответствует записи AB000631 в банке
EMBL
○ координаты заданной нуклеотидной последовательности в записи: 1101 - 1280, причём последовательность соответствует направлению записи
○ в поле
FT записи описан только один участок, пересекающийся с заданной нуклеотидной последовательностью:



Координаты всего участка: 741 - 1846
Координаты пересекающегося участка:  741 - 1280
Направление участка - прямое относительно заданной последовательности


Задание 3. Поиск гомологов гена программой BLASTN


1) Прежде чем осуществлять поиск, нужно создать fasta-файл с нуклеотидной последовательностью, кодирующей белок THIS_BACSU.

Для этого:
 
1.
в записи Swiss-Prot этого белка выберем одну из записей EMBL (например, AL009126), на которые в файле приведены ссылки →

DR   EMBL; AL009126; CAB13025.1; -; Genomic_DNA.

2. используя поиск по странице (Ctrl+F), находим CDS, соответствующую нашему белку THIS_BACSU
3. с помощью команды вырежем из файла AL009126.embl участок с координатами 1244844 - 1245044 по прямой цепи:

seqret  "embl:AL009126[1244844:1245044]"

В итоге получим файл al009126.fasta.

2) Затем выполним поиск гомологов этого гена в геноме бактерии Geobacillus thermodenitrificans с помощью команды программы blastn:

blastall -p blastn -d gt -i al009126.fasta -o this_gt_blastn.txt

По результатам поиска, сохранённым в файле this_gt_blastn.txt, заполним таблицу, аналогичную таблице из Задания 1:

 

BlastN

TblastN

Число находок с E-value < 0,001

1

1

E-value лучшей находки

0.034

2e-10

Название последовательности с лучшей находкой

CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome

CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome

Координаты лучшей находки

1888250 - 1888266

599768 - 599962

Доля последовательности белка THIS_BACSU, вошедшая в выравнивание с лучшей находкой

Нельзя подсчитать, так как в полученном файле нет длины последовательности гена, но в любом случае доля будет меньше, чем у TblastN

65/66 ≈ 0.98


3) Наблюдения (различия в поиске при помощи tblastn и blastn):

○ в обоих случаях находка единственная и одинаковая
E-value меньше у tblastn, чем у blastn, причём намного => tblastn даёт более точные результаты
○ доля при поиске с помощью
tblastn выше, чем у blastn

Выходит, что
blastN находит практически идентичные, но очень короткие участки последовательностей. Сходства между более-менее удаленными друг от друга гомологами эта программа не видит. В отличие от TblastN, здесь выравниваются не аминокислотные, а нуклеотидные последовательности, и не учитывается то, что разные триплеты могут кодировать одну и ту же аминокислоту. Кроме того, при выравнивании аминокислотных последовательностей учитывается также сходство аминокислот в случае неидентичности, а здесь выравниваются только одинаковые нуклеотиды.
Главная
Об авторе
Учебные семестры
Проекты автора
Друзья
Ссылки партнеров
Extra
Контакты


Главная Об авторе Учебные семестры Проекты автора Друзья Ссылки партнеров Extra Контакты

Mneff © 2011-2012