Ressources locales

Outils du NCBI et banques de données

Les outils de recherche d’alignements du NCBI sont accessibles sur le réseau bioc, via la partition /bioinfo.

Pour les utiliser, vous pouvez exécuter une des deux commandes suivantes, selon votre shell:

source /bioinfo/bioinfo.shrc

source /bioinfo/bioinfo.cshrc

Vous disposez alors, des programmes suivants (version octobre 2007):

bl2seq

blast2

blastall

blastall_old

blastcl3

blastpgp

impala

formatdb

megablast

rpsblast

seedtop.

Et vous pouvez travailler avec les banques de données suivantes (version mai 2010, installées dans /bioinfo/blast/bank) :

nr, pdbaa, swissprot, yeast.aa.

exemples de commandes:

-1- Construire sa propre banque à partir d’un fichier fasta:

formatdb -i my_bank.fasta -p T -o T

-2- Utiliser sa propre banque :

blastpgp -F T -d my_bank -b 2500 -v 2500 -i request.file -o output.file
-3- Une recherche itérée dans swissprot, à partir d’une séquence et d’un alignement :

blastpgp -j 2 -i my_seq.file-B my_align.file -d swissprot -C seq.pssm -J T -o output.file

Pour plus informations :

www.ncbi.nlm.nih.gov/staff/tao/

Analyse de séquences

A mathematica script to draw sequence logos: the code and auxiliary files are bundled into an archive.

Compilateurs Intel

Les compilateurs Intel sont accessibles sur le réseau bioc, via la partition /bioinfo.

Pour les utiliser, vous pouvez exécuter une des deux commandes suivantes, selon votre shell :

source /bioinfo/bioinfo.shrc

source /bioinfo/bioinfo.cshrc

Vous disposez alors des compilateurs icc, ifort, icpc, du debugger idb, plus des outils d’optimisation.

exemples de commandes :

-1- Compilation classique d’un programme C. (optimisation non-agressive par défaut) :

icc my_prog.c -o my_prog

-2- Compilation d’un programme C++, avec link des librairies C++ :

icpc my_prog.cpp -o my_prog

-3- Compilation avec optimisation d’un programme fortran :

ifort -fast my_prog.f -o my_prog

Pour plus d’info :

man icc ; man ifort

Outils HMMER

Les programmes HMMER sont des outils d’analyse de séquences basés sur des modèles de Markov cachés.

Ces outils sont accessibles sur le réseau bioc, via la partition /bioinfo.

Pour les utiliser, vous pouvez exécuter une des deux commandes suivantes, selon votre shell :

source /bioinfo/bioinfo.shrc

source /bioinfo/bioinfo.cshrc

Vous disposez alors, des programmes suivants (en version 2.3.2) :

hmmalign
hmmbuild
hmmcalibrate

hmmconvert
hmmemit
hmmfetch
hmmindex
hmmpfam
hmmsearch

Exemples de commandes :

-1- Création d’un profile HMM à partir d’un fichier de séquences au format FASTA

hmmbuild my_prof.hmm my_prof.fasta
-2- Calibrer le modèle
hmmcalibrate my_prof.hmm
-3- Rechercher dans une banque de séquences avec comme requête un modèle :
hmmsearch my_prof.hmm bank.fasta
-4- Rechercher dans une banque de modèles HMM avec comme requête un fichier de séquences :
hmmpfam hmm_database my_seq.fasta
!!Notez que deux banques de profiles HMM sont installées :

/bioinfo/pfam/Pfam_ls (profils pour des recherches globales sur un domaine)

/bioinfo/pfam/Pfam_fs (profils pour des recherches sur des fragments de domaines)

Pour plus d’informations:

/bioinfo/hmm-2.3.2/Userguide.pdf

hmmer.janelia.org/

SAM: Sequence Alignment and Modeling

SAM est une collection d’outils basés sur les modèles linéaires de Markov cachés pour l’analyse des séquences biologiques.

Ces outils sont accessibles sur le réseau bioc, via la partition /bioinfo.

Pour les utiliser, vous pouvez exécuter une des deux commandes suivantes, selon votre shell :

source /bioinfo/bioinfo.shrc

source /bioinfo/bioinfo.cshrc

Vous disposez alors, notamment des programmes suivants (en version 3.5) :

addfims
align2model
buildmodel
build-weighted-model
checkmodel
checkseq
convertmodel.pl
dbletters
drawmodel
fragfinder
genseq
get_fisher_scores
grabdp
hmmconvert
hmmer2sam
hmmscore
listalphabets
makehist
makelogo
makeroc
makeroc2
makeroc3
makeroc4
make_template
model2model
modelfromalign
modifymodel
multi_roc2.pl
ncbi-blast-prefilter
pathprobs
permuteseq
pick-key-residues
predict_track
prettyalign
prot2cod
psi2sam
randseq
readseq
readseqsam
sam2hmmer
sam2psi
sampleseqs

Exemples de commandes :

-1- Création d’un modèle à partir d’un ensemble de séquences :

buildmodel new_model -train my_seq.file

-2- Générer un alignement à partir d’un modèle et d’un fichier de séquences :

align2model new_align -i my_HMM.mod -db my_seq.file
prettyalign mew_align.a2m -l90 > new_align.pretty

-3- Evaluer des séquences contre un modèle :

hmmscore test -i HMM.mod -db my_file.seq -sw 2

Pour plus d’informations :

/bioinfo/SAM//sam3.5.x86_64-linux/doc/sam/sam_doc.pdf

compbio.soe.ucsc.edu/sam.html

SUPERFAMILY

SUPERFAMILY contient l’ensemble des familles des domaines SCOP, au format HMM de SAM, HMM de HMMER, et au format des profils psi-blast.

SUPERFAMILY contient également quelques scripts PERL qui permettent d’interfacer les outils de recherche de SAM et de HMMER, et d’assigner des séquences à un domaine SCOP.

Les banques de modèles et les scripts (version d’octobre 2008) sont accessibles sur le réseau bioc, via la partition /bioinfo.

Pour les utiliser, vous pouvez exécuter une des deux commandes suivantes, selon votre shell :

source /bioinfo/bioinfo.shrc

source /bioinfo/bioinfo.cshrc

Vous disposez alors, des scripts suivants :

a2m2selex.pl
assignment.pl
familyassignment.pl
fasta_checker.pl
superfamily.pl

Exemple de commandes (recherche avec les paramètres par défaut):

superfamily.pl my-seq.fasta

Le script superfamily.pl est à modifier pour changer la valeur par défaut des paramètres.

MATRAS

MATRAS (Markovian TRAnsition of protein Structure) est un ensemble de programmes pour comparer les structures 3D des protéines.

La version d’avril 2009 est installée sur la partition réseau /bioinfo.

Pour utiliser MATRAS, vous pouvez exécuter une des deux commandes suivantes, selon votre shell :

source /bioinfo/bioinfo.shrc

source /bioinfo/bioinfo.cshrc

Matras ne lit que les fichiers au format BSSP. Pour obtenir un fichier BSSP à partir d’un fichier PDB il faut utiliser les commandes suivantes :

dsspcmbi -c my_file.pdb new_file.dssp

puis,

bssp.pl newfile.dssp my_file.pdb > my_new_file.bssp

Pour une alignement basique d’une paire de structures 3D :

Matras P -A file_A.bssp -B file_B.bssp

Matras crée alors trois fichiers en sortie :

1.pdb, qui contient les deux structures "superposées".

1.ras, un script Rasmol avec les residus alignés dans 1.pdb.

1.mat, la matrice des valeurs de translation et de rotation de la superposition.

Pour visualiser le résultat :

rasmol 1.pdb

Rasmol> script "1.ras"

Pour plus d’infos :

/bioinfo/matras/doc/matras12man07Apr15.pdf