Apache Hadoop é o principal framework utilizado no processamento e armazenamento de grandes conjuntos de dados (Big Data). No ecossistema Apache Hadoop, além dos componentes básicos, diversas ferramentas e serviços suprem necessidades de negócios, aplicações e arquitetura de dados. O sistema de agendamento de WorkFlow para gerenciar os jobs de computação distribuída do MapReduce é o:
O aprendizado de máquina (do inglês, machine learning) é um conjunto de técnicas da ciência de dados que permite que os computadores usem os dados existentes para prever comportamentos, resultados e tendências. Uma das formas de classificar o aprendizado é em razão da natureza do sinal de entrada ou feedback do processo. As árvores de decisão, agrupamento e regras de associação são, respectivamente, técnicas de aprendizado de máquina:
Naive Bayes é um método probabilístico de aprendizado de máquina que utiliza as frequências das ocorrências em uma base de dados para prever uma variável de interesse. O algoritmo a ser implementado depende da natureza dos dados manipulados. O tipo de algoritmo Naive Bayes para processar um conjunto de dados que possui apenas atributos categóricos codificados em one-hot é:
O ecossistema Hadoop se refere aos vários componentes da biblioteca de software Apache Hadoop, incluindo projetos de código aberto e ferramentas complementares para armazenar e processar Big Data. Algumas das ferramentas mais conhecidas incluem HDFS, Pig, YARN, MapReduce, Spark, HBase Oozie, Sqoop e Kafka, cada uma com função específica no ecossistema Hadoop. São funções dos componentes do ecossistema Hadoop:
Para classificar os processos tramitados no TJ-AC em duas categorias (deferidos e indeferidos), um analista escolheu um algoritmo que divide os dados de entrada em duas regiões separadas por uma linha e resulta em uma simetria na classificação, de forma que o ponto mais próximo de cada classe está a uma distância d do ponto médio entre os dois grupos de classe (hiperplano). O algoritmo descrito é denominado:
Uma das métricas mais comumente utilizadas para comparar resultados de algoritmos de clusterização é obtida por meio da fórmula (b -a)/ max(a,b), em que : a é a distância média entre os pontos dentro de cada cluster (distância média intra-cluster) e b é a distância média para o cluster mais próximo (distância média para os pontos do cluster mais próximo). A métrica descrita recebe o nome de:
Uma rede neural foi implementada a partir da arquitetura Multilayer Perceptron (MLP) e o conjunto de dados foi dividido em holdout com 50% para conjunto de treinamento, 30% para conjunto de validação e 20% para conjunto de teste. Se, durante o treinamento e a validação da referida rede ocorreu underfitting, dois fatores que podem ter condicionado tal fenômeno são:
A camada de uma rede convolucional que tem como função primária reduzir progressivamente o tamanho espacial do volume de dados de entrada por meio do mapeamento de seções de features e diminuição dos pesos de treinamento é denominada camada de:
Random Forest são algoritmos de aprendizado de máquina utilizados para classificação ou regressão, sendo vantajoso em relação às árvores de decisão no caso de:
O pré-processamento é um conjunto de atividades que envolvem preparação, organização e estruturação de dados, sendo fundamental no desempenho do modelo de aprendizagem de máquina. Tais atividades contemplam métodos e técnicas de limpeza, transformação, integração e redução de dimensionalidade. Os métodos que podem ser utilizados para o tratamento de dados faltantes são:
A árvore de decisão ilustrada a seguir foi modelada com base nos dados de registros de ocorrência da dengue no estado do Acre nos últimos cinco (5) anos e será utilizada para tomada de decisão acerca da priorização na disponibilização de vacinas. Qual é a evidência de que esse modelo foi construído usando o algoritmo C4.5 ou suas variantes, e não usando o ID3?
Para reduzir a dimensionalidade de um conjunto de dados bidimensionais, foi executado o algoritmo PCA (do inglês, Principal Component Analysis). Se o PCA produzir como resultado dois autovalores de mesmo valor, significa que:
PV-DM (do inglês, Paragraph Vector Distributed Memory) é um método de aprendizado de máquina utilizado no processamento de dados textuais. A ideia central é prever uma palavra (de contexto) a partir de um conjunto de palavras amostrado aleatoriamente – palavras de contexto e ID de parágrafo. Quando aplicado sobre um conjunto de documentos textuais (por exemplo, os processos deferidos arquivados no TJ-AC), qual a vantagem desse método em relação ao método BOW, baseado em contagem de palavras?
Considere a sentença a seguir. s: “O acesso ao auditório também pode ser feito através de uma rampa”. Aplicando a função f à sentença, obtém-se o seguinte resultado: f(s) = “acesso auditório pode ser feito através rampa”. A tarefa de tratamento de dados textuais realizada pela função f é:
No processo de otimização de redes neurais artificiais, diferentes métodos e técnicas são utilizados para determinar os melhores parâmetros do aprendizado. Para reduzir o overfitting, uma das técnicas amplamente utilizadas é a regularização, que apresenta como características:
As características inerentes ao Big Data implicam a necessidade de um sistema de armazenamento, gerenciamento e análise que seja flexível, de forma a se adaptar facilmente aos dados sem comprometer o desempenho. Dentre as soluções, o Data Warehouse (DW) tem como características:
A ferramenta de projeto utilizada para apoiar a implementação incremental de modelos dimensionais de áreas de negócio distintos compartilhando dimensões padronizadas em um Data Warehouse Corporativo é:
Para implementar inovações no processo de decisão de sentenças judiciais, um analista do TJ-AC decidiu pelo uso da Tradução Automática Neural (do inglês, Neural Machine Translation - NMT) após comparar diferentes técnicas de Processamento de Linguagem Natural (PLN). As vantagens dessa técnica em relação à Tradução Automática Estatística (do inglês, Statistic Machine Translation - SMT) são:
Redes neurais recorrentes (RNNs) são modelos de aprendizado profundo treinados para reconhecer padrões em dados sequenciais (texto, imagens, genomas, caligrafia, palavra falada ou dados de séries numéricas), em que componentes se inter-relacionam com base em regras complexas de semântica e sintaxe. São características das redes neurais recorrentes:
A multicolinearidade ocorre quando duas ou mais variáveis independentes encontram-se altamente correlacionadas, causando instabilidade na estimação dos parâmetros e pode comprometer a interpretação dos modelos de regressão. Uma técnica alternativa para lidar com a multicolinearidade é a:
Os algoritmos de agrupamento buscam identificar padrões existentes em conjuntos de dados, podendo ser do tipo particionais, hierárquicos ou baseados na otimização da função custo. É um exemplo de agrupamento hierárquico:
O Processamento de Linguagem Natural (PLN) é a área da inteligência artificial que analisa, reconhece e/ou gera textos em linguagens humanas (ou natural). Para processar dados textuais, é necessário primeiramente transformá-los em valores numéricos, sendo utilizados algoritmos do tipo word embeddings, tais como glove, tf-idf, word2vector e bag of words (BOW). São características do algoritmo word2vector:
O LDA (do inglês, Latent Dirichlet Allocation) é um modelo de aprendizado não supervisionado e estatístico utilizado no Processamento de Linguagem Natural (PLN). No processo de treinamento, o modelo LDA gera tópicos, sendo que cada tópico incorpora uma quantidade de palavras. Sob a mesma lógica, o resultado da aplicação do LDA sobre um conjunto de documentos textuais pode ser resumido como:
Uma Rede Neural Convolucional (do inglês, Convolutional Neural Network - CNN) é um algoritmo de aprendizado de máquina profundo que pode, a partir dos dados de entrada, atribuir importância (pesos e vieses que podem ser aprendidos) a vários aspectos dos dados e, portanto, obter maior diferenciação. São características da arquitetura das redes neurais convolucionais:
Máquinas de vetores de suporte (do inglês, Support Vector Machine - SVM) são algoritmos de aprendizado de máquina que possibilitam a implementação de classificadores. Os modelos implementados a partir desses algoritmos utilizam funções kernel, conferindo como vantagem:
Ao construir um classificador usando aprendizado de máquina, um analista deve verificar o quão efetivo ele é para a predição, ou seja, estimar sua precisão preditiva, uma vez que o erro é inerente ao processo – deseja-se aprender sobre uma população, mas se tem acesso a uma amostra dela. No caso da classificação, o conjunto de treinamento é utilizado para aprender e um conjunto de testes é utilizado para estimar o erro. Para estimar a precisão preditiva de um classificador a partir de uma amostra de dados não utilizada anteriormente ou não conhecida, podem ser empregadas as seguintes estratégias:
À medida que as organizações começaram a utilizar múltiplos repositórios ou bancos de dados para armazenar diferentes tipos de informações de negócios, a necessidade de integrar os dados cresceu rapidamente e ETL tornou-se o método padrão utilizado na construção de Data Warehouse (DW). As ferramentas ETL em um Data Warehouse (DW) possuem a função de:

























