Учебная страница курса биоинформатики,
год поступления 2020
3 апреля 2022
Уменьшаю объём данных, достаточных для выполнения заданий 6.2:
- не менее 10 генов для построения PWM и не менее 5и генов для проверки
и 6.3:
- информационной содержание считать но всем использованным данным (как и было)
Выполнение задания на большем объёме будет учтено в оценке.
ААл
Указания
Задание 1
- Свобода выбора сигнала. Ищите в источниках, доступных в интернет или печатных, если есть. Можно использовать wiki для поиска интересного сигнала. Но просто копировать текст из википедии - плохая идея. Плагиат наказывается. По ключевым словам в поисковике. Можно в запрос для google chrome добавить filetype:ppt - тогда будут выдаваться презентации формата .ppt
Или в базе данных pubmed. После введения запроса и Enter можно задавать фильтры. Есть такие фильтры: искать только обзоры (Review); или только (Free full text). И др.
Например, мой запрос signal[ti] bacterial genome с этими двумя фильтрами дал 22 находки.
[ti] значит искать предыдущее слово в заголовке статьи.
[au] - искать среди списка авторов
В задании указано что оценивается. Описание следует делать коротким - "краткость сестра таланта". И понятным. Ссылки на источники обязательны.
Задание 2
1a Таблицы генов для выбора https://genome.ucsc.edu/cgi-bin/hgTables
Предлагается скачанная мной табл. с генами белков человека .tsv формат, она же в формате .xlsx, отфильтрованная, но всё равно генов многовато.
В таблице координаты начала первого кодона ATG указаны как Thickstart если на прямой цепи, и ThickEnd – если на обратной.
1b python
- Если библиотека Request не входит в вашу установку python, для упрощения кода запросов командой инсталлируйте эту библиотеку.
python -m pip install requests [Requests is an elegant and simple HTTP library for Python, built for human beings. https://docs.python-requests.org/en/latest/]
- Вот код для скачивания одного фрагмента генома человека по заданным координатам:
Чтобы найти нужный нукл. участок из базы данных необходимо ввести следующую команду:
https://rest.ensembl.org/sequence/region/human/{номер хромосомы}:{thickStart}..{thickEnd}:{ прямая или обратная цепь : 1, -1}?expand_3prime={кол-во нуклеотидов после стоп -кодона};expand_5prime={кол-во нуклеотидов перед ATG}
Например, для гена из таблицы найдем последовательность гена + 10 букв от старт-кодона:
https://rest.ensembl.org/sequence/region/human/1:450739..451678:-1?expand_3prime=0;expand_5prime=10
Внизу приведен пример кода, для автоматического скачивания фрагмента генома:
import requests, sys server = “https://rest.ensembl.org” ext = "/sequence/region/human/X:1000000..1000100:1?expand_3prime=60;expand_5prime=60" r = requests.get(server+ext, headers={ "Content-Type" : "text/x-fasta"}) if not r.ok: r.raise_for_status() sys.exit() print(r.text)
Координаты описываются в переменной ext. В примере геном человека, хромосома X, 1 = + цепочка (бывает -1) расширить координаты на 60 нукл с 3' и 5’ концов.
- У меня python 3.8.1 всё получилось
- Мария Волобуева (MV) проверила, что скрипт работает корректно, если задать корректные входные данные. Её адрес (mashila6799 жемэил), можно вопросы задавать. Она старшекурсница.
1b На странице
найдёте как тот же пример выполнить с помощью bash команд curl или wget. Проверил – тоже работает. Там же есть описание параметров для скачивания.
- Тестовая выборка
- (1) такие же фрагменты для других генов человека (2) 11 генов SARS-CoV-2 + не действующие ATG
Для проверки напишите программу, которая на вход получает PWM и набор последовательностей, в данном случае, фрагментов 7+3+3, на выходе – веса каждого из фрагментов относительно PWM. В этом задании я не программирование проверяю. Поэтому можно использовать программу написанную другим студентом (или ещё кем-то), конечно с указанием автора.
Хотел найти в интернет, там полно программ и сервисов для этого, но все они делают много ещё чего. Ещё познакомитесь с ними:)
Задание 3
Нужна ссылка на файл с результатом: матрицей с информационными содержаниями отдельных букв и колонок; итоговое информационное содержание сигнала; картинка LOGO; одну фразу, характеризующую силу сигнала. Из представленных данных проверяющий должен иметь возможность проверить примененную форму!
Сервис для LOGO: Web LOGO 3