Главная страница Первый семестр Второй семестр

Третий семестр

Зачетное задание.


Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii

Задача: определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии (кишечной палочки).

1. С помощью программы seqret был получен заданный фрагмент генома Yersinia mollaretii длины 7000 нуклеотидов. Команда:

seqret -sask
Input (gapped) sequence(s): aald01000002.embl
Begin at position [start]: 140001
End at position [end]: 147000
Reverse strand [N]: n
output sequence(s) [aald01000002.fasta]: aald01000002.fasta

Полный протеом E. coli получен с помощью команды:

sw:*_ecoli > ecoli.fasta

Были созданы индексные файлы для поиска программами пакета BLAST. Команда:

formatdb -i ecoli.fasta -p t -n ecoli

2. Из данного фрагмента трансляции были извлечены все открытые рамки считывания длиной не менее 240 нуклеотидов. При этом использовался стандартный для бактерий (bacterial) генетический код, открытой рамкой считалась последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном. Команда:
getorf aald01000002.fasta ym.orf -table 11 -minsize 240 -find 1
Всего нашлось 27 рамок.
Запустили программу пакета BLAST. Команда:
blastall -p blastp -d ecoli -i ym.orf -o ecoli.txt -e 0.001 -m 9
Получили файл с числом сходных последовательностей, найденных у E. coli при условии E-value<0,001. (Используем бласт с опцией "-p blastp", так как надо найти белковые последовательности по банку с протеомом).

3. Была создана книга Excel, включающая информацию обо всех открытых рамках считывания в моем фрагменте генома. Результат в файле ym.xls. Для подсчета гомологов был написан скрипт (файл).

4. Приведена таблица, содержащая эту информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность, кроме того, в отчётной таблице присутствуют два дополнительных столбца, в которых приведены: идентификатор самого близкого из найденных белков E. coli и E-value находки. Всего 10 рамок. Результат в том же файле, на следующем листе.

5. Таблица, иллюстрирующая предполагаемые гены. (Открытые рамки, для которых нашелся сходный участок в E. coli):

Рамка	        Начало	Конец	Направление	Число посл-й	ID в ecoli	E-value
AALD01000002_1	17	964	прямое	        25		YHAJ_ECOLI	1,00E-146
AALD01000002_12	6994	6551	обратное	1		EXUT_ECOLI	1,00E-52
AALD01000002_13	6371	5499	обратное	16		EXUR_ECOLI	6,00E-112
AALD01000002_16	4452	3763	обратное	5		YQJA_ECOLI	2,00E-95
AALD01000002_18	3763	3377	обратное	1		YQJB_ECOLI	5,00E-14
AALD01000002_19	3296	2799	обратное	1		YQJC_ECOLI	1,00E-23
AALD01000002_20	2706	2368	обратное	3		YQJD_ECOLI	4,00E-25
AALD01000002_21	2431	1970	обратное	1		YQJE_ECOLI	1,00E-34
AALD01000002_22	1988	1689	обратное	1		YQJK_ECOLI	2,00E-19
AALD01000002_24	1473	1048	обратное	2		YQJF_ECOLI	9,00E-47


Схематическое положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.
Гипотетические гены во фрагменте 140001-147000 записи AALD01000002

3'------------------------[<=yqlf, 1048-1473]---[<=yqlk, 1689-1988]---[<=yqle, 1970-2431]---[<=yqld, 2368-2706]---[<=yqlc, 2799-3296]--[<=yqlb, 3377-3763]---[<=yqja, 3763-4452]----[<=exur, 5499-6371]---[<=exut, 6551-6994]--------5'

5'--[=>yhaj, 17-964]-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3'


Таким образом, из 10 рамок 1имеет прямое, а 9 - обратное направление. Рамки, лежащие в обратном направлении лежат довольно близко друг к другу. Если считать их по порядку представления, то 3,4,5 - перекрываются, а 7 и 8 идут как одно целое, не прерываясь. Такое близкое расположение и перекрывание может быть связано с одинаковыми\схожими биологическими функциями.

6. Сравнение взаимного расположения предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки.

Гены Yersinia mollaretii:


3'------------------------[<=yqlf, 1048-1473]---------[<=yqlk, 1689-1988]--------[<=yqle, 1970-2431]--------[<=yqld, 2368-2706]--------[<=yqlc, 2799-3296]-------[<=yqlb, 3377-3763]--------[<=yqja, 3763-4452]----------[<=exur, 5499-6371]--------[<=exut, 6551-6994]-----------5'

5'--[=>yhaj, 17-964]-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3'

Гены E.coli:
3'------------------------[<=yqlf,3248584-3248979]---[<=yqlk, 3248099-3248398]---[<=yqle,3247705-3248109]---[<=yqld,3247397-3247702]---[<=yqlc,3246991-3247359]--[<=yqlb,3246461-3246844]---[<=yqja,3245795-3246457]----[<=exur,3244674-3245450]---[<=exut,3243126-3244544]--------5'

5'--[=>yhaj,3251340-3252236]-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3'


Итак, группа генов yql (a,b,c,d,e,k,f) в ecoli имеет перекрывание по yqlс и yqld - 38 нуклеотидов и по yqle и yqlk - 10 нуклетидов, это меньше чем в Yersinia mollaretii (по YQJE и YQJK - 18, YQJA и YQJB по 1,YQJE и YQJD по 64). Но перекрывание есть, причем в обоих организмах в генах yqle и yqlk. Расположение генов в 2-х последовательностях схоже, направление одинаковое. Есть небольшие сдвиги генов друг относительно друга, перекрывание в геноме только одной бактерии (гены YQJA и YQJB; YQJE и YQJD в Yersinia mollaretii перекрываются, а в геноме E. coli не перекрываются).
Но несмотря на это, я думаю,что эта группа генов достаточно консервативна.

©MARIA KUZNETSOVA,2008