Учебная страница курса биоинформатики,
год поступления 2013
Указания
- Задания могут оказаться не простыми.
- Некоторые трудности демонстрируются в образце таблицы.
- Запросы должны гарантировать результат. Так, в первой строке таблицы-образца можно было бы составить запрос Thermodesulfovibrio yellowstonii DSM 11347 без кавычек и указания полей и получить, казалось бы, правильный результат - 1985 белков в геноме. Но ответ неверный потому, что поисковая системы интерпретирует запрос так:
Thermodesulfovibrio AND yellowstonii AND DSM AND 11347
и каждое слово ищется по всем полям. Сравните 1985 с правильным ответом, и увидите, что реально есть ошибки! (Почему?)
Рекомендую писать запрос самостоятельно, не используя Advanced search. логические опреации и названия полей см. в Uniprot help. Впрочем, можно все выяснить, сначала пользуясь Advanced search.
- Колонки выходной таблицы регулируются кнопкой Customize
- Для сохранения результата в формате Excel, последовательностей в формате fasta и др. служит желтая кнопка Dowload.
- Предлагаю считать два гена ко-локализованными, если между ними не более 10 "посторонних" генов. 10 не является мировой константой :). В колонке "Gene" указаны locus_tags, для прокариот они соответствуют генам, и их номера идут подряд в геноме.
Кнопки "reviewed" и "unreviewed" соответствуют Swissprot и TrEMBL
- Для поиска генома родственного организма поиск Search in: Taxonomy по organism identity (можно прямо перейти по ссылке). Поднимаетесь на уровень по таксономии и переходите по ссылке NCBI. Это удобно тем, что в NCBI указаны полные геномы (строка Genomes в табличке).