Лого сайта
EMBOSS

Программа getorf пакета EMBOSS

При помощи программы enthret получена записть из банка embl с идентификатором D89965. Процесс получения записи и сама запись из базы данных представлена в Таблице 1.

Получение записи embl:D89965

enthret embl:D89965 task_1_embl_D89965.txt

Таблица 1. Получение записи из бд embl с идентификатором D89965 и её содержание.

Далее были найдены и транслированы ORF. Трансляция проведена по стандартной таблице, подобраны только ORF длины 30 аминокислотных остатков и больше, а также начинающиеся со старт-кодона (или начала последовательности) и заканчивающиеся стоп-кодоном (или концом последовательности). Процесс и результат поиска представлен в Таблице 2.

Получение записи embl:D89965

getorf task_1_embl_D89965.txt -table 0 -minsize 90 -find 1 -outseq task_1_orfs.fasta

task_1_orfs.fasta

Таблица 2. Процесс получения и сами транслированные по стандартной таблице ORF из записи embl:D89965.

Для определения, какая из найденных ORF полностью и частично соответствует записи FT из embl:D89965 была запущена последовательность команд представленая в Таблице 3. В Таблице 3 так же представлены файлы полученные в результате работы данных команд.

Получение ORF и её белковой последовательности, поиск её среди полученных командой getorf.


extractfeat task_1_embl_D89965.txt -type CDS -join -outseq task_1_CDS_nucl.fasta


coderet task_1_embl_D89965.txt -nocds -mrna -norest -translationoutseq task_1_CDS_translated.fasta


blastp -query task_1_CDS_translated.fasta -subject task_1_orfs.fasta -outfmt 6 -evalue 1e-7 -out task_1_blastp.txt

task_1_CDS_nucl.fasta

task_1_CDS_translated.fasta

task_1_blastp.txt

Таблица 3. Процесс идентификации какой именно из найденных ORF соответствует CDS указанная в записи embl:D89965.

Как видно из Таблицы 2 CDS указанной в embl:D89965 соответствует 3-я найденная ORF (в task_1_orfs.fasta обозначается D89965_3 )

Для определения какой из полученных ORF соответствует запись в Swiss-Prot проведем последовательность команд представленную в Таблице 3. Так же в Таблице 3 представлен результат выполнения этих команд.

Для определения, какая из найденных ORF полностью и частично соответствует записи FT из embl:D89965 была запущена последовательность команд представленая в Таблице 3. В Таблице 3 так же представлены файлы полученные в результате работы данных команд.

Получение белковой последовательности из Swiss-Prot. Поиск соответствующей ей ORF.


seqret sw:P0A7B8 task_1_sw_prot.fasta


blastp -query task_1_sw_prot.fasta -subject task_1_orfs.fasta -outfmt 6 -evalue 1e-7 -out task_1_blastp_sw_orf.txt

task_1_sw_prot.fasta

task_1_blastp_sw_orf.txt

Таблица 4. Процесс идендификации ORF которой соответствует белок в Swiss-prot, на который ссылается embl:D89965

Как видно из результатов Таблицы 4 ORF которой частично соответствует белок в Swiss-prot, на который ссылается embl:D89965 является 5-я найденная ORF (в task_1_orfs.fasta обозначается D89965_5 ). При этом найденный белок отностся к E.coli, в то время как данные ORF относятся к Rattus norvegicus.

Это можно объяснить тем, что в процессе пробоподготовки к секвенированию скорее всего произошло загрязнеие образца посторонними мРНК (т.к. секвенировались мРНК эпителия желудка, то очень вероятно, что там встретилась кишечная палочка.) После чего в автоматическом режиме, скорее всего путем blast'a по базе, была проведена аннотация записи embl:D89965.

Файлы-списки

Для получения fasta-файла с последовательностями алкогольдегидрогеназ организмов: CLOBE,DROTE,ARATH,CERCO,KLUMA,DROMU,METM5,DROLE,RAT,RABIT,NEUCR,MAIZE,MAIZE,STAAN,STAES,CLOAB,DROME,MAIZE,HUMAN,DROHY

была выполнена определенная последовательность команд, представленная в Таблице 5.

Получение всех алкогольдегидрогеназ из Swiss-Prot


seqret sw:adh*_* adh.fasta

Организмы для фильтрации

Фильтрация usa по организмам


infoseq adh.fasta -only -usa -out stdout|grep -f organisms.txt > task_2_usa_list.txt

task_2_usa_list.txt

Получение всех последовательностей алкогольдегидрогеназ принадлежащих огранизмам из списка


seqret @task_2_usa_list.txt org_filtered_adh.fasta

Таблица 5. Процесс получения fasta-файла, содержащего алкогольдегидрогеназы определенных организмов.

В результате последовательности действий описанных в Таблице 5 получен fasta-файл содеражащий искомые последовательности алкогольдегидрогеназ.

EnsEMBL

При помощи сервиса SRS, что быстро и надежно, выяснили, что белку sw:GUSP1_HUMAN соответствует mRNA из EMBL:BT006760. Далее программой seqret получена последовательность кодирующая данный белок , которая представлена в Таблице 6.

Получение последовательности, кодирующей GUSP1_HUMAN


seqret embl:BT006760 GUSP1_HUMAN_cds.fasta

GUSP1_HUMAN_cds.fasta

Таблица 6. Процесс получения последовательности, кодирующей GUSP1_HUMAN.

Далее при помощи сервиса EnsEMBL посредством BLAT определено местоположение гена. Судя по данным кариотипа представленным на Рисунке 1 он скорее всего локализован в 5-й хромосоме человека

Рис. 1 Кариотип человека, на котором отмечены локусы к которых довольно большое количество хитов поиска последовательности, кодирующей белок GUSP1_HUMAN. Наиболее вероятная локализация показана прямоугольником (5-я хромосома).

Рис. 2 Выравнивание хитов против последовательности кодирующей GUSP1_HUMAN.

При нажатии на [C] около какого-либо хита мы перейдем в режим Contig View. В этом режиме (полностью интерактивном) мы можем рассмотреть детальное расположение хита в хромосоме (Рис. 3), в контиге (Рис. 4) и детальное окружение хита (Рис. 5).

Рис. 3 Расположение лучшего хита на 5-й хромосоме человека.

Рис. 4 Выравнивание хитов против последовательности кодирующей GUSP1_HUMAN.

Рис. 5 Детальное окружение хита.

Сервис EnsEMBL довольно сильно информативен, как и другие биоинформатические сервисы он является как аггрератором биологических данных, так и весьма серьезным инструментом для работы с ними.

Отдельно следует упомянуть сервис EnsEMBL просмотра поорганизменной информации о кариотипе.

Кроме этого в данный сервис включено довльно большое колличество средств для сравнительной геномики (поиск по геномам, получение данных о вариативности и т.д.)

Так же даный сервис содержит другие различные средства: сравнение экспресии генов по тканям, анализ фенотипических данных / данных о генетических заболеваниях.