Главная страница
Первый семестр
Второй семестр
Третий семестр
Зачетное задание.
Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii
Задача: определить, закодированы ли данном фрагменте какие-либо белки,
похожие на известные белки родственной бактерии (кишечной палочки).
1. С помощью программы seqret был получен заданный фрагмент генома Yersinia mollaretii
длины 7000 нуклеотидов. Команда:
seqret -sask
Input (gapped) sequence(s): aald01000002.embl
Begin at position [start]: 140001
End at position [end]: 147000
Reverse strand [N]: n
output sequence(s) [aald01000002.fasta]: aald01000002.fasta
Полный протеом E. coli получен с помощью команды:
sw:*_ecoli > ecoli.fasta
Были созданы индексные файлы для поиска программами пакета BLAST.
Команда:
formatdb -i ecoli.fasta -p t -n ecoli
2. Из данного фрагмента трансляции были извлечены все открытые рамки считывания
длиной не менее 240 нуклеотидов. При этом использовался стандартный для бактерий (bacterial) генетический
код, открытой рамкой считалась последовательность, начинающуюся со старт-кодона
и заканчивающуюся стоп-кодоном. Команда:
getorf aald01000002.fasta ym.orf -table 11 -minsize 240 -find 1
Всего нашлось 27 рамок.
Запустили программу пакета BLAST. Команда:
blastall -p blastp -d ecoli -i ym.orf -o ecoli.txt -e 0.001 -m 9
Получили файл с числом сходных последовательностей, найденных у E. coli при
условии E-value<0,001. (Используем бласт с опцией "-p blastp", так как надо
найти белковые последовательности по банку с протеомом).
3. Была создана книга Excel, включающая информацию обо всех открытых рамках
считывания в моем фрагменте генома. Результат в файле ym.xls.
Для подсчета гомологов был написан скрипт (файл).
4. Приведена таблица, содержащая эту информацию только для тех
открытых рамок, для которых нашлась хотя бы одна сходная последовательность,
кроме того, в отчётной таблице присутствуют два дополнительных столбца,
в которых приведены: идентификатор самого близкого из найденных белков E. coli
и E-value находки. Всего 10 рамок. Результат в том же файле, на следующем листе.
5. Таблица, иллюстрирующая предполагаемые гены. (Открытые рамки, для которых
нашелся сходный участок в E. coli):
Рамка Начало Конец Направление Число посл-й ID в ecoli E-value
AALD01000002_1 17 964 прямое 25 YHAJ_ECOLI 1,00E-146
AALD01000002_12 6994 6551 обратное 1 EXUT_ECOLI 1,00E-52
AALD01000002_13 6371 5499 обратное 16 EXUR_ECOLI 6,00E-112
AALD01000002_16 4452 3763 обратное 5 YQJA_ECOLI 2,00E-95
AALD01000002_18 3763 3377 обратное 1 YQJB_ECOLI 5,00E-14
AALD01000002_19 3296 2799 обратное 1 YQJC_ECOLI 1,00E-23
AALD01000002_20 2706 2368 обратное 3 YQJD_ECOLI 4,00E-25
AALD01000002_21 2431 1970 обратное 1 YQJE_ECOLI 1,00E-34
AALD01000002_22 1988 1689 обратное 1 YQJK_ECOLI 2,00E-19
AALD01000002_24 1473 1048 обратное 2 YQJF_ECOLI 9,00E-47
Схематическое положение на фрагменте тех открытых рамок, для
которых нашлись сходные последовательности в E. coli.
Гипотетические гены во фрагменте 140001-147000 записи AALD01000002
3'------------------------[<=yqlf, 1048-1473]---[<=yqlk, 1689-1988]---[<=yqle, 1970-2431]---[<=yqld, 2368-2706]---[<=yqlc, 2799-3296]--[<=yqlb, 3377-3763]---[<=yqja, 3763-4452]----[<=exur, 5499-6371]---[<=exut, 6551-6994]--------5'
5'--[=>yhaj, 17-964]-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3'
Таким образом, из 10 рамок 1имеет прямое, а 9 - обратное направление.
Рамки, лежащие в обратном направлении лежат довольно близко друг к другу.
Если считать их по порядку представления, то 3,4,5 - перекрываются, а 7 и 8 идут как
одно целое, не прерываясь. Такое близкое расположение и перекрывание может быть
связано с одинаковыми\схожими биологическими функциями.
6. Сравнение взаимного расположения предполагаемых генов данного фрагмента и
гомологичных им генов в геноме кишечной палочки.
Гены Yersinia mollaretii:
3'------------------------[<=yqlf, 1048-1473]---------[<=yqlk, 1689-1988]--------[<=yqle, 1970-2431]--------[<=yqld, 2368-2706]--------[<=yqlc, 2799-3296]-------[<=yqlb, 3377-3763]--------[<=yqja, 3763-4452]----------[<=exur, 5499-6371]--------[<=exut, 6551-6994]-----------5'
5'--[=>yhaj, 17-964]-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3'
Гены E.coli:
3'------------------------[<=yqlf,3248584-3248979]---[<=yqlk, 3248099-3248398]---[<=yqle,3247705-3248109]---[<=yqld,3247397-3247702]---[<=yqlc,3246991-3247359]--[<=yqlb,3246461-3246844]---[<=yqja,3245795-3246457]----[<=exur,3244674-3245450]---[<=exut,3243126-3244544]--------5'
5'--[=>yhaj,3251340-3252236]-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3'
Итак, группа генов yql (a,b,c,d,e,k,f) в ecoli имеет перекрывание по yqlс и yqld - 38 нуклеотидов
и по yqle и yqlk - 10 нуклетидов, это меньше чем в Yersinia mollaretii
(по YQJE и YQJK - 18, YQJA и YQJB по 1,YQJE и YQJD по 64). Но
перекрывание есть, причем в обоих организмах в генах yqle и yqlk. Расположение
генов в 2-х последовательностях схоже, направление одинаковое. Есть небольшие
сдвиги генов друг относительно друга, перекрывание в геноме только одной
бактерии (гены YQJA и YQJB; YQJE и YQJD в Yersinia mollaretii перекрываются, а в
геноме E. coli не перекрываются).
Но несмотря на это, я думаю,что
эта группа генов достаточно консервативна.
©MARIA KUZNETSOVA,2008