Em sistemas operacionais como o Linux, o diretório raiz (/):
No sistema operacional Linux, a interface shell permite tanto executar programas distribuídos com o sistema ope- racional como desenvolver programas customizados. O comando shell, que permite iterar todos os arquivos fastq no diretório atual e mapeá-los no banco de dados denomi- nado “referencia”, o qual contém o genoma de referência indexado, também no diretório atual, produzindo arquivos .sam como saída, é:
Expressões regulares compreendem uma ferramenta de extrema importância para o processamento de arquivos de texto visando a detecção de padrões. Na bioinformática, expressões regulares são comumente utilizadas para detectar padrões de texto. A linguagem de programação python contém suas funcionalidades de expressão regular implementadas no módulo re. Considerando um arquivo texto contendo as sete linhas abaixo, a opção com o número de linhas distintas, que seriam selecionadas pela expressão regular ‘^ID\d+\.\d+$’, é:
No aprendizado de máquina, a etapa de validação cruzada (cross-validation ) tem como objetivo principal:
O número de tipos de variáveis distintos representados no banco de dados apresentado na questão anterior é:
A abordagem de sequenciamento NGS comumente utilizada para avaliar interações proteína-DNA, tais como fatores de transcrição, é denominada:
A tecnologia de sequenciamento de DNA conhecida pela sua capacidade de detectar modifi cações de nucleotídeos, tais como citosinas metiladas, durante o processo de sequenciamento é denominada:
Algoritmos de alinhamento heurísticos como o BLAST visam:
O marcador mais adequado para estudos fi logeográfi cos que visem inferir as relações evolutivas entre populações de uma mesma espécie compreende:
A propriedade genômica compartilhada entre os patógenos eucarióticos da espécie humana Trypanosoma cruzi, Giardia lamblia e Plasmodium vivax compreende:
Um desafi o comumente encontrado na montagem de genomas complexos de eucariotos, utilizando tecnologias de leituras curtas ( short reads ), quando comparadas às tecnologias de leituras longas ( long reads ), é a:
O processo de scaff olding na montagem de genoma é importante porque:
O propósito primário da normalização em dados de RNA-Seq visa:
Os resultados de expressão gênica diferencial resul- tam em listas que muitas vezes compreendem centenas de genes. A metodologia comumente utilizada para inter- pretar estas listas gênicas através da busca por funções biológicas e vias bioquímicas comuns aos genes da lista é denominada:
Usualmente, resultados de GWAS são reportados na forma de gráfi cos do tipo Manhattan (vide abaixo). O valor estatístico do eixo Y, comumente utilizado para evidenciar associações interessantes, compreende:
O formato de confi guração que corresponde ao comu- mente utilizado para defi nir parâmetros e confi gurações em linguagem de fl uxo computacional como Snakemake e Nextfl ow é:
A análise topológica de redes de interação proteína- proteína permite:
A função de pontuação ( scoring function ), comumente utilizada em simulações de ancoragem molecular ( molecular docking) para avaliar a afi nidade de ligação entre um ligante e uma proteína, é denominada:
Os algoritmos de alinhamento de sequências são es- senciais para a análise de sequências biológicas. Esses algoritmos são utilizados em diversas tarefas na Bioinfor- mática, tais como montagem de genomas, análise fi logené- tica e busca por similaridade. Com relação aos algoritmos de alinhamentos, analise as assertivas abaixo. I. O algoritmo de alinhamento global Needleman-Wunsch consome tempo O(nm), onde n e m são os comprimen- tos das sequências que serão alinhadas. II. A matriz de programação dinâmica que o algoritmo Smith-Waterman calcula tem entradas negativas ao alinhar duas sequências de nucleotídeos no sistema de escore que fornece uma penalidade de -5 de abertura de lacuna. III. O e-value é o valor de probabilidade de encontrar, ao acaso, um hit com um escore maior que o escore cal- culado do alinhamento. IV. Dependendo do sistema de pontuação utilizado, o problema de alinhamento múltiplo é NP-hard. V. O algoritmo de alinhamento semi-global pode ser uti- lizado para ajudar na montagem de genomas. Das assertivas acima, apenas:
O Bash é um interpretador de comandos do UNIX. Uma ferramenta disponível no Bash é o pipe, simbolizado por ‘|’. O pipe é utilizado para passar a saída de um comando como entrada para outro comando. Arquivos no formato FASTA são amplamente utilizados na bioinformática. Considerando o uso do pipe, a linha de comando que imprime apenas um único número , indicando quantas sequências o “arquivo. fasta” possui, é:
Python é uma linguagem de programação amplamente utilizada na Bioinformática. Através do lambda é possível criar funções anônimas. O código que está sintaticamente correto, de acordo com a versão da linguagem Python superior a 3.10, é:
Snakemake é um gerenciador de workfl ows baseado no paradigma do GNU Make. Neste paradigma, defi ne-se um conjunto de regras; cada regra especifi ca como criar um arquivo de saída a partir de arquivos de entrada. O conjunto dessas regras e as dependências entre elas estabelecem um grafo de dependências entre as tarefas. É correto afi r- mar que o grafo é:
Os clusteres de alto desempenho focam em maximizar o desempenho para tarefas computacionais intensivas. Contudo, para se fazer um bom uso dos recursos de um cluster é necessário o conhecimento de modelos de pro- gramação paralela como o MPI (Message Passing Interface) e o OpenMP. Nesse contexto, é correto afi rmar que:
O Biopython é amplamente utlizado para realizar análises na área da Bioinformática. A interface Bio.SeqIO é utlizada para realizar a entrada e saída de arquivos su- portando muitos formatos distintos. Considerando o código abaixo, é correto afi rmar que:
A escolha entre usar um teste de hipótese paramétrico ou não paramétrico depende das características dos dados e dos objetivos da análise. Por exemplo, se as suposições para um teste paramétrico são atendidas, prefere-se usar esses testes devido ao seu maior poder estatístico. Em rela- ção aos testes de hipóteses, é INCORRETO afi rmar que:
A seleção de características (feature selection) é uma etapa importante no contexto de aprendizado de máquina, principalmente quando há diversas dimensões que podem ser exploradas. O conjunto de características (features) selecionadas pode ser efetivamente utilizado para construir modelos preditivos ou realizar outras análises estatísticas. Dentro deste contexto, é correto afi rmar que a seleção de característica:
Para avaliar o erro de generalização de um classifi cador, são empregadas várias técnicas de validação. Uma delas divide o conjunto de teste em k segmentos, utilizando, em cada iteração, um segmento diferente para validação e os demais para treinamento. Outra técnica consiste em treinar o modelo com o conjunto completo, excluindo apenas um elemento, que é então usado para teste, e repetindo este processo para cada um dos elementos. Essas metodolo- gias são reconhecidas na comunidade científi ca por nomes específi cos. Neste contexto, são métodos de validação os abaixo relacionados, EXCETO:
A normalização é um processo crucial no design de bancos de dados, visando organizar tabelas e suas inter- relações para reduzir redundâncias e dependências entre os dados. Este processo previne problemas comuns como anomalias de inserção, atualização e exclusão, ao mesmo tempo em que reforça a integridade e consistência dos dados. A normalização se concretiza pela adoção de um conjunto de regras denominadas formas normais, cada uma destinada a resolver questões específi cas que podem resultar em inefi ciências no armazenamento de dados e na realização de consultas. Neste contexto, é INCORRETO afi rmar que:
O Sequenciamento de Nova Geração (NGS, do inglês “Next-Generation Sequencing”) refere-se a uma família de tecnologias de sequenciamento de DNA e RNA que permitiram avanços signifi cativos na genômica e em áreas relacionadas, como a biologia molecular, a medicina per- sonalizada e a microbiologia. Comparado às técnicas de sequenciamento de primeira geração, como o método de Sanger, o NGS é capaz de sequenciar bilhões de frag- mentos de DNA simultaneamente, tornando-o mais rápido e mais barato. Essa capacidade revolucionou a pesquisa genética, possibilitando uma ampla gama de aplicações que vão desde o sequenciamento do genoma completo até a análise de expressão gênica, metagenômica e epi- genômica. Em relação a este contexto, a alternativa que possui um conjunto de programas, todos específi cos para análise de dados de NGS é:
Uma forma de identifi car genes que são signifi cati- vamente regulados em diferentes condições, como em tecidos saudáveis versus patológicos, é através da análise diferencial de expressão gênica. A técnica RNA-Seq é a mais utilizada atualmente, sendo capaz de gerar dados de sequenciamento de alta vazão. Após o sequenciamento é importante aplicar métodos estatísticos para discriminar quais genes apresentam mudanças signifi cativas na ex- pressão. Um passo importante que deve ser realizado antes de qualquer análise diferencial de expressão é:
Um princípio importante para se realizar a reconstrução fi logenética é o princípio da máxima parcimônia. Neste princípio, a árvore fi logenética que minimiza a quantidade de mudanças evolutivas é preferida. É correto afi rmar que a máxima parcimônia:
Um componente importante na anotação de um ge- noma é a identifi cação precisa dos genes e sua estrutura no genoma. Os preditores de genes ab initio possuem um papel fundamental nesta etapa. Muitos desses programas utilizam modelos ocultos generalizados de Markov (GHMM – Generalized Hidden Markov Model ). Neste contexto, para se utilizar um preditor de genes ab initio é importante:
Em estudos de associação genômica ampla (GWAS), é importante identifi car polimorfi smos de nucleotídeo único (SNPs) associados a fenótipos patológicos ou traços bi-ológicos. PLINK é uma ferramenta de referência para o pro- cessamento e análise de dados de genética neste contexto. Dentro do pipeline do PLINK, uma etapa é o procedimento de controle de qualidade, que visa a remoção de SNPs que não atende a determinados parâmetros bioestatísticos. As alternativas abaixo são critérios ou medidas para fi ltragem de qualidade de SNP em análise GWAS, EXCETO:
No contexto de biologia sistêmica, as redes de interação proteína-proteína são ferramentas importantes para o en- tendimento do funcionamento celular. Essas redes podem ser consideradas “redes complexas” e, assim, ser anali- sadas utilizando ferramentas da teoria de grafos. Nesse contexto, a métrica que é mais relevante para identifi car proteínas essenciais para a estabilidade ou a funcionalidade de uma rede de interação é:
No contexto da análise de docking molecular, é correto afi rmar que a caixa de docking ( grid):
Em sistemas operacionais, as condições descritas por Coff man são necessárias para que ocorra:
A montagem de genomas complexos representa ainda um dos desafi os mais intricados da Bioinformática. As se- quências repetidas, em particular, fornecem uma difi culdade notável, pois essas podem confundir algoritmos de mon- tagem, resultando em diversas e múltiplas possibilidades. Para mitigar esse problema e alcançar a montagem correta, a estratégia mais efi caz seria:
Considerando o genoma de bactérias e o genoma de eucariotos, a diferença típica entre os dois é que bactérias:































