Зачетное задание
Мне был дан неаннотированный фрагмент генома бактерии Regiella insecticola с 7001 по 14000 нуклеотид. Получен он был с помощью программы seqret. Теперь определим, где в данном фрагменте закодированы белки, похожие на известные белки E. coli.seqret sw:*_ECOLIТаким образом был получен файл с последовательностью всех описанных белков кишечной палочки. После этого были созданы индексные файлы для поиска программами пакета Blast с помощью следующей команды:
formatdb -i 3mg1_ecoli.fasta -p T -n ec
getorf -table 11 -minsize 240 -find 1 -sequence AC200764.fastaПолучаем файл с 6 открытыми рамками, из которых только одна (шестая) соответствует обратному направлению фрагмента.
blastall -p blastp -d ec -i ac200764.orf -m 8 -e 0.001 -o hom.txtНа выходе получаем файл со списком находок, представленным в виде таблицы. Каждая строчка таблицы начинается названием рамки считывания, полученной в результате трансляции фрагмента генома (см. пункт 2). Далее каждая строчка содержит информацию о найденной сходной последовательности в протеоме E. coli, среди которой и E-value находки. Для подсчета числа находок для каждой рамки считывания был создан скрипт (впрочем, в моем случае посчитать это число можно легко в уме). В результате работы скрипта был получен файл со столбцом чисел (каждое число - количество находок для соответствующей рамки считывания).
Рамка считывания | № начала во фрагменте | № конца во фрагменте | Направление | Число сходных последовательностей в протеоме E. coli с E-value < 0.001 | Идентификатор самого близкого из найденных белков E. coli | E-value находки |
AC200764_1 | 26 | 280 | прямое | 1 | ZITB_ECOLI | 1.10-17 |
AC200764_2 | 259 | 720 | прямое | 1 | ZITB_ECOLI | 4.10-42 |
AC200764_3 | 1078 | 3978 | прямое | 1 | RAPA_ECOLI | 0 |
AC200764_4 | 3994 | 4629 | прямое | 4 | RLUA_ECOLI | 4.10-86 |
AC200764_5 | 6527 | 7000 | прямое | 4 | DAPA_ECOLI | 1.10-49 |
AC200764_6 | 5980 | 4658 | обратное | 0 |
3'--------------------------------------------------------------------------------------------------------------5' 5'----[=> zitb, 26-280]-- 5'----[=> zitb, 259-720]-----[=> rapa, 1078-2978]-----[=> rlua, 3994-4629]----[=> dapa, 6527-7000]---3'Как видно из рисунка, в одном участке нуклеотидной последовательности наблюдается перекрывание генов (с координатами 26-280 и 259-720). Гены эти соответствуют первой и второй открытым рамкам считывания. Причем, обе рамки схожи с одним и тем же белком в E. coli - ZITB_ECOLI. Скорее всего, это связано с тем, что в процессе сиквенирования произошла ошибка - встраивание или делеция нуклеотида, что сдвинуло рамку считывания и привело к разделению двух рамок считывания. Тем более, в поддержку этой гипотезы говорит то, что конец первой открытой рамки и начало второй довольно близко расположены в последовательности. Тогда схема приобретет следующий вид:
3'---------------------------------------------------------------------------------------------------5' 5'----[=> zitb, 26-720]-----[=> rapa, 1078-2978]-----[=> rlua, 3994-4629]----[=> dapa, 6527-7000]---3'Кроме того, видно, что последняя рамка считывания (пятая) заканчивается ровно 7000-м нуклеотидом (и соответствующая находка имеет достаточно низкий E-value), а значит, вполне вероятно, что в геноме бактерии Regiella insecticola вся открытая рамка считывания этого белка будет еще длиннее, еще более схожа с находкой в E. coli (DAPA_ECOLI) (и соответственно иметь еще меньший E-value).
3'----[<= rlua, 59687-60346]-[<= rapa, 60358-63264]----[<= zitb, 784304-785245]------[<= dapa, 2597538-2598416]--------5' 5'---------------------------------------------------------------------------------------------------------------------3'Забавно, что в геноме E. coli все эти 4 белка закодированы в комплементарной цепи ДНК, в то время как в геноме Regiella insecticola эти белки закодированы в прямой цепи. Как видно из схемы, гены rluA и rapA расположены чрезвычайно близко. Но, как ни странно, траслируемые ферменты выполняют разные свойства в клетке. Белок RAPA_ECOLI является фактором транскрипции, связываясь с РНК-полимеразой, а RLUA_ECOLI - синтетазой большой субъединицы рибосомы. Остальные два белка расположены очень далеко в последовательности и консервативными явно не являются.
Назад