Учебная страница курса биоинформатики,
год поступления 2017
Подсказки к заданию по банкам нуклеотидных последовательностей
1. Как найти информацию о сборке генома
- На головной странице NCBI выберите БД Assembly и перейдите на нее. Составьте запрос. Пример:
"brucella abortus"[organism] AND 10000:1000000[contig N50] AND 20:100[coverage]
- Можете воспользоваться Advanced search. Но всегда проверяйте, какой запрос составился, а то этот поиск может сам придумать, что вы хотите, и добавить в запрос.
Другой вариант выбора сборки — через Browse by organism на странице базы данных Genome на сайте NCBI. Открывается таблица со списком организмов. Используйте фильтры или поиск, чтобы выбрать интересный вам организм.
- В таблице для каждого организма есть две ссылки, одна в названии, вторая в столбце "Assemblies". Если сборок несколько, то выберите самую полную (колонка Level) из списка по второй ссылке.
- Перейдите по ссылке в описание сборки (Assembly), там найдете нужные цифры.
- Список контигов можно получить в таблице сборок по ссылке в столбце WGS, или со страницы сборки по ссылке "WGS Project", а далее по ссылке в поле WGS.
- Если у вас нет каких-то из описанных ссылок, то попробуйте найти обходные пути сами.
2. Ключи (Feature Keys) таблиц особенностей (FT или Feature table)
Если возникают трудности, можете начать с поиска описания базы данных GenBank (можно даже просто попробовать ввести GenBank в окошко поиска на NCBI) или EMBL.
- Лучше зайдите на сайт INSDC, там все действительно просто найти.
- Выбирайте такие ключи, смысл которых вам понятен или вы можете его понять, используя интернет и литературу.
4. Как найти описание митохондриального генома и составить таблицу закодированных там белков
Главное в задании — составить правильный запрос. Здесь написано, как составить запрос на сайте ENA. Если захотите работать на сайте NCBI, то разбирайтесь сами (или смотрите подсказки прошлого года).
- С головной страницы ENA пройдите на Advanced search в разделе Text search.
- Отметьте Sequence.
- В поле Taxon name начните набирать латинское название таксона. В какой-то момент система подскажет возможные продолжения, выберите одно из них.
- Поставьте галочку в чекбокс "Include subordinate taxa" (иначе может ничего не найтись).
- Теперь нужно ограничить запрос так, чтобы были выданы только полные митохондриальные геномы. Один из вариантов:
- в поле Molecule type выбираете genomic DNA;
- в поле Topology выбираете CIRCULAR (большинство митохондриальных геномов кольцевые, таким образом этот выбор сразу отбросит фрагменты);
- ищете поле Organelle и в меню выбираете mitochondrion.
- Нажимаете кнопку Search. Появляется запрос, затем результат: сколько находок в Update и в Release. Чтобы увидеть список находок, щёлкните по View all results.
- Щёлкнув по AC, попадаете на страницу отдельной записи, с неё по ссылке Text получаете текст полной записи. Оттуда можно добыть координаты белок-кодирующих участков (CDS) и информацию о соответствующих белках.