Учебная страница курса биоинформатики,
год поступления 2022
UNDER CONSTRUCTION
1. Описание сигнал
Варианты выбора из лекции.
- Ориджин репликации OriC
Обязательно использовать сервис Ori-Finder 2022 ( ) для одной хромосомы бактерии с известным полным геномом и описать его результат
- Rho независимая терминация транскрипции у бактерий.
Кроме литературы, обязательно использование сервиса Arnold Terminator (адрес)и описание его предсказания для хотя бы одного гена
- Rho-зависимая терминация транскрипции у бактерий.
Обязательно описание алгоритма предсказания сайта rut по статье di Salvo 2019. Найти последовательность rut-сайта в мРНК одного гене. Либо проверить самостоятельно алгоритм, либо использовать программу, указанную в статье с адресом на git-hub.
- Если нашли название интересного сигнала, то подтверждением вашего текста об этом сигнале должна быть ссылка на статью в реферируемом журнале. Используйте поиск в Pubmed
- Для поиска интересного сигнала используйте Pubmed
Некоторые возможности поиска в PubMed
- Replication[ti] - поиск по заголовкам
- Koonin E[au] - статьи в которых E(Евгений) Konin cреди авторов
- Gelfand MS[1au] - статьи в которых Михаил Гельфанд первый автор
- Nature[jn] - статьи в журнале Nature
- 2020:2023[dp] - статьи после 2020 года
- Фильтры и сортировки
- По умолчанию сортировка Most recent сверху. Привычно и удобно. Можно менять.
- Фильтры перечислены слева от находок. Полезные фильтры:
- Free full text
- Review
- Publication date
пробел между условиями равносилен И. Например: Gelfand[au] Mironov[au] - статьи в которых среди авторов есть и Гельфанд, и Миронов.
НЕТ пишется так NOT(DNA)
ПРИМЕРЫ
- Nature[jn] signals[ti] Gelfand[au]
- 2020:2023[dp] sygnal[ti] new[ti]
2. Kozak
- Список генов человека см. ниже. Можно выбирать гены со смыслом.
- Размер окрестности ATG выбирайте самостоятельно (см. размер посл. Козак в лекции. Но брать не обязательно такой)
- Для тест(-) берите ATG НЕ ЯВЛЯЮЩИЕСЯ ИНИЦИАТОРНЫМИ
- Как скачать окрестность ATG: ....
2. SD
- Скачайте геном и хромосомную таблицу
- Берите участки, перед инициаторным кодоном порядка 10 - 20 п.н.
- Найти в них SD поможет aSD в 16S рРНК
- Тест(-) придумайте сами
Список генов человека
[ nr таблица генов белков человека, tsv формат ] [ та же таблица в формате Excel .xlsx ]
В таблице координаты начала первого кодона ATG указаны как Thickstart если на прямой цепи, и ThickEnd – если на обратной.
Ниже не мой подсказки, а Марии Самохиной
1a Таблицы генов для выбора https://genome.ucsc.edu/cgi-bin/hgTables Предлагается скачанная табл с генами белков, отфильтрованная, но всё равно генов многовато. В таблице координаты начала первого кодона ATG указаны как Thickstart если на прямой цепи, и ThickEnd – если на обратной. 1b python
- Если библиотека Request не входит в вашу установку python, для упрощения кода запросов командой инсталлируйте эту библиотеку. python -m pip install requests
[Requests is an elegant and simple HTTP library for Python, built for human beings. https://docs.python-requests.org/en/latest/]
- Вот код для скачивания одного фрагмента генома человека по заданным координатам:
Чтобы найти нужный нукл. участок из базы данных необходимо ввести следующую команду: "https://rest.ensembl.org/sequence/region/human/{номер хромосомы}:{thickStart}..{thickEnd}:{ прямая или обратная цепь : 1, -1}?expand_3prime={кол-во нуклеотидов после стоп -кодона};expand_5prime={кол-во нуклеотидов перед ATG}" Например, для гена из таблицы найдем последовательность гена + 10 букв от старт-кодона: "https://rest.ensembl.org/sequence/region/human/1:450739..451678:-1?expand_3prime=0;expand_5prime=10" Внизу приведен пример кода, для автоматического скачивания фрагмента генома:
import requests, sys server = “https://rest.ensembl.org” ext = "/sequence/region/human/X:1000000..1000100:1?expand_3prime=60;expand_5prime=60" r = requests.get(server+ext, headers={ "Content-Type" : "text/x-fasta"}) if not r.ok: r.raise_for_status() sys.exit() print(r.text)
Координаты описываются в переменной ext. В примере геном человека, хромосома X, 1 = + цепочка (бывает -1) расширить координаты на 60 нукл с 3' и 5’ концов.
- У меня python 3.8.1 всё получилось
Мария Волобуева (MV) проверила, что скрипт работает корректно, если задать корректные входные данные. Адрес, можно вопросы задавать (mashila6799@gmail.com). Она старшекурсница.
1b На странице https://rest.ensembl.org/documentation/info/sequence_region найдёте как тот же пример выполнить с помощью bash команд curl или wget. Проверил – тоже работает. Там же есть описание параметров для скачивания. 2. Тестовая выборка
- (1) такие же фрагменты для других генов человека (2) 11 генов SARS-CoV-2 + не действующие ATG
Для проверки напишите программу, которая на вход получает PWM и набор последовательностей, в данном случае, фрагментов 7+3+3, на выходе – веса каждого из фрагментов относительно PWM. В этом задании я не программирование проверяю. Поэтому можно использовать программу написанную другим студентом, конечно с указанием автора.