Банк EMBL |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Задание 1. Знакомство со структурой банка EMBL посредством поисковой системы SRS.
c)Cписок разделов ("Divisions") банка EMBL
d*-дополнительное Я выбрала три раздела банка EMBL (PRO, VRT, VRL) и определила, сколько стандартных (класса STD) записей появилось в каждом из этих разделов за период с 26 февраля 2010 года по 27 мая 2010 и за тот же период 2011 года. В этом случае я использовала статистику релизов, которую нашла, пройдя по ссылке EMBL data notes на странице EMBL release. Результаты представлены ниже, в виде столбчатой диаграммы. Если же сделать запрос обычным способом, через Query Form, (с 1-го января по 31-е марта включительно) то результаты получаются следующие: Из диаграмм видно, что скорость поступления записей в разделы прокариот и позвоночных растет, а для вирусов она снизилась. Задание 2. Описание гена DDR в записи банка EMBL Ген находится в комплементарной цепи, следовательно его направление - обратное. Число кодирующих участков: 17 Длина первого кодирующего участка: 141 Длина последнего кодирующего участка: 85 Длина первого интрона: 118 Длина последнего интрона: 93 Задание 3. Нахождение белка по фрагменту гена. Самый длинный кодирующий участок (1049547..1049793) был выделен в отдельный файл с помощью kodomo-count. Я запустила команду seqret -sask. После этого в ответ на запросы программы ввела имя входного файла (BA000025.embl), стартовую позицию вырезаемого участка, его конечную позицию. Далее нужно ввести "n", если цепь, на которой лежит участок, прямая, и "y", если обратная, а также название выходного файла. Затем перейти по ссылке http://blast.ncbi.nlm.nih.gov/, выбрать пограмму blastх, которая по заданной нуклеотидной последовательности ищет последовательность белка; в поле "Enter Query Sequence" ввести вырезанную последовательность (или, например, загрузить fasta-файл с локального компьютера); в поле "database" выбрать банк SwissProt и нажать "BLAST". Результаты поиска: Были получены последовательности с процентами идентичности 90%,91%, а также два результата с процентом идентичности 100%, и одинаковыми низкими значениями E-value=1e-52. При этом второй из этих двух белков оказался именно тем, что описан в файле BA000025.embl - Q08345 (Домен-содержащий рецептор 1 дисковидного эпителия) (/db_xref="UniProtKB/Swiss-Prot:Q08345"). Участок этого белка с 285 по 366 остаток соответствует моему экзону. Задание 4. Ссылки из записи банка Swiss-Prot на записи банка EMBL.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||