Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

1. Как найти литературу о сигнале в ДНК или РНК

  1. Если нашли название интересного сигнала, то подтверждением вашего текста об этом сигнале должна быть ссылка на статью в реферируемом журнале. Используйте поиск в Pubmed
  2. Для поиска интересного сигнала используйте Pubmed
  3. Некоторые возможности поиска в PubMed

    • Replication[ti] - поиск по заголовкам
    • Koonin E[au] - статьи в которых E(Евгений) Konin cреди авторов
    • Gelfand MS[1au] - статьи в которых Михаил Гельфанд первый автор
    • Nature[jn] - статьи в журнале Nature
    • 2020:2023[dp] - статьи после 2020 года
  4. Фильтры и сортировки
    • По умолчанию сортировка Most recent сверху. Привычно и удобно. Можно менять.
    • Фильтры перечислены слева от находок. Полезные фильтры:
      • Free full text
      • Review
      • Publication date

пробел между условиями равносилен И. Например: Gelfand[au] Mironov[au] - статьи в которых среди авторов есть и Гельфанд, и Миронов.

НЕТ пишется так NOT(DNA)

ПРИМЕРЫ

2. Kozak

2. SD


Список генов человека

[ nr таблица генов белков человека, tsv формат ] [ та же таблица в формате Excel .xlsx ]

В таблице координаты начала первого кодона ATG указаны как Thickstart если на прямой цепи, и ThickEnd – если на обратной.


Ниже не мой подсказки, а Марии Самохиной (Волобуевой) - 6 курс

1a Таблицы генов для выбора https://genome.ucsc.edu/cgi-bin/hgTables Предлагается скачанная табл с генами белков, отфильтрованная, но всё равно генов многовато. В таблице координаты начала первого кодона ATG указаны как Thickstart если на прямой цепи, и ThickEnd – если на обратной. 1b python

Чтобы найти нужный нукл. участок из базы данных необходимо ввести следующую команду: "https://rest.ensembl.org/sequence/region/human/{номер хромосомы}:{thickStart}..{thickEnd}:{ прямая или обратная цепь : 1, -1}?expand_3prime={кол-во нуклеотидов после стоп -кодона};expand_5prime={кол-во нуклеотидов перед ATG}" Например, для гена из таблицы найдем последовательность гена + 10 букв от старт-кодона: "https://rest.ensembl.org/sequence/region/human/1:450739..451678:-1?expand_3prime=0;expand_5prime=10" Внизу приведен пример кода, для автоматического скачивания фрагмента генома:

import requests, sys
server = “https://rest.ensembl.org”
ext = "/sequence/region/human/X:1000000..1000100:1?expand_3prime=60;expand_5prime=60"
r = requests.get(server+ext, headers={ "Content-Type" : "text/x-fasta"})
if not r.ok:
    r.raise_for_status()
    sys.exit()
print(r.text)

Координаты описываются в переменной ext. В примере геном человека, хромосома X, 1 = + цепочка (бывает -1) расширить координаты на 60 нукл с 3' и 5’ концов.

1b На странице https://rest.ensembl.org/documentation/info/sequence_region найдёте как тот же пример выполнить с помощью bash команд curl или wget. Проверил – тоже работает. Там же есть описание параметров для скачивания. 2. Тестовая выборка

Для проверки напишите программу, которая на вход получает PWM и набор последовательностей, в данном случае, фрагментов 7+3+3, на выходе – веса каждого из фрагментов относительно PWM. В этом задании я не программирование проверяю. Поэтому можно использовать программу написанную другим студентом, конечно с указанием автора.

2021/4/hints6 (последним исправлял пользователь is_rusinov 2023-04-20 11:14:55)