Organizando dados e métricas nas operações de TI
Grandes quantidades de dados fluindo dos sistemas podem ajudar os administradores de TI, bem como outras áreas, a se manterem atualizados sobre o desempenho e a experiência geral do usuário final. Os departamentos de TI hoje em dia, operam no estilo ‘’panela de pressão’’, são muitos dados processados a cada minuto. Suas infraestruturas altamente distribuídas estão espalhadas por datacenters legados e múltiplas nuvens híbridas e públicas. Agora, a Internet das Coisas coloca mais pimenta nesse molho.
Como podemos organizar os dados?
Grandes quantidades de dados estão circulando por esses ambientes multidisciplinares, e cabe à TI dar sentido a tudo isso, garantindo que questões do dia-dia não se tornem problemas maiores e que seja viável produzir resultados mensuráveis para os negócios. Os Dashboards são instrumentos importantes para visualizar e compreender rapidamente esses dados. Na verdade, é um instrumento chave para gestão dos dados e tomada de decisão.
Métricas - representações numéricas de dados medidos ao longo do tempo - fornecem para a operação de TI e engenheiros de confiabilidade do site (SREs - Site Reliability Engineering) a visão de como um sistema se comportou historicamente. Esses dados fornecem insights sobre como o(s) sistema(s) deve(m) funcionar no futuro e auxiliam nas investigações quando algo dá errado. As ferramentas de monitoramento de TI agem como ‘’data lakes’’ gigantes que armazenam dados de séries temporais, enquanto os painéis (dashboards) fornecem a todos, desde administradores de TI até executivos C-level, maneiras de digerir e entender os dados facilmente.
O mercado de visualização de dados está evoluindo em todo mundo. Estamos vendo diferentes tipos de bancos de dados, como o Prometheus, que trazem consigo novas ferramentas para alavancar tais dados. O Prometheus (PromQL) está crescendo no espaço DevOps e se tornando o padrão para monitorar contêineres e microsserviços porque torna mais fácil gerenciar dados de série temporal. O PromQL também vem com ''client libraries'' que incluem quatro tipos principais de métricas:
- Contador: representa um único contador que aumenta monotonicamente, em que o valor só pode aumentar ou ser zerado na reinicialização.
- Medidor: representa um único valor numérico que pode aumentar e diminuir arbitrariamente, como a utilização da CPU.
- Histograma: faz uma amostragem das observações e as contabiliza em depósitos configuráveis. Ele também pode fornecer uma soma de todos os valores observados.
- Resumo: observa por amostragem e fornece uma contagem total de observações e uma soma de todos os valores observados. Os quantitativos configuráveis são calculados em uma janela de tempo variável.
Selecionando gráficos de visualização
Selecionar o painel de visualização (dashboard) apropriado para cada usuário é importante para maximizar o valor dos dados. Existem gráficos de linhas e barras tradicionais, blocos de valor único - que exibem um único ponto de dados em um ponto específico no tempo - e listas ou medidores, que oferecem um único valor em um ponto específico no tempo.
Novos tipos de visualização estão se tornando comuns para abordar os vários casos de uso em ITOps e DevOps. Vamos examinar alguns:
1) Honeycombs oferecem visões gerais da infraestrutura de TI, mas também exibem detalhes. A exibição hexagonal do ‘’favo de mel’’ ajuda os profissionais de DevOps a dividir em muitas partes os dados com base em atributos ou tags. Cada hexágono representa um host ou recurso específico e pode ser organizado em grupos lógicos de elementos. As cores mudam quando os limites são atingidos e os hexágonos podem ser dimensionados de forma diferente com base no valor da métrica.
Considere o caso de muitas instâncias do AWS EC2 espalhadas pelo mundo. Cada hexágono (ou favo de mel) pode representar uma instância individual e eles podem ser agrupados com base no atributo "região". Este gráfico honeycomb permite que os administradores vejam o desempenho da infraestrutura de cada site ou localidade.
2) As métricas e indicadores do “medidor’’ usam uma linguagem como PromQL para definir o teto e o piso. Se o usuário criar condições de alerta com base em limites específicos, o dashboard indicará se um determinado recurso atingiu seu limite, alterando a cor. Um medidor que fica vermelho pode indicar um problema crítico. Os provedores de serviços gerenciados têm SLAs com os clientes para manter o tempo de atividade. Se surgir um problema, um indicador vermelho em um bloco medidor permite ao administrador de TI saber imediatamente que o contrato de SLA foi violado e que um problema precisa ser resolvido.
3) Os mapas de calor fornecem uma representação gráfica do volume de pontos de dados dentro de intervalos agrupados. A cor de cada célula de um mapa de calor reflete diretamente a densidade de certos intervalos de valores métricos. Os mapas de calor são usados para exibir tendências de grupo e detectar valores discrepantes, o que os torna úteis ao visualizar métricas com uma ampla distribuição de valores.
Requisitos baseados em funções
A escolha do gráfico certo depende em parte das pessoas que visualizam os dados. CXOs (Chief Experience Officer), Gerentes de TI, administradores de sistemas, SREs, engenheiros de rede e monitoramento (NOC) terão requisitos diferentes, embora sobrepostos.
Por exemplo:
- Os SREs (engenheiros de confiabilidade do site) desejam garantir a confiabilidade e resiliência da infraestrutura, portanto, por meio de seus painéis (dashboards), eles examinam tudo, desde disponibilidade e latência até desempenho, eficiência e planejamento de capacidade. Eles podem detectar rapidamente discrepâncias, como períodos de inatividade do servidor ou problemas de memória, e imediatamente começar a solucionar os problemas.
- Os CXOs, por outro lado, não precisam entrar nos detalhes das operações de infraestrutura. Eles usam painéis para obter uma visão macro das métricas de desempenho ao longo do tempo em sites (localidades) e redes. Eles precisam entender a correlação entre as métricas de TI e os serviços e aplicativos de negócios. Os painéis devem ser capazes de conectar esses pontos para que tenha eficácia ao decisor.
Outras considerações
Encontrar a opção de visualização certa no dashboard é importante, mas depois de fazer isso, há algumas outras etapas a serem executadas para garantir que você obtenha os insights de que precisa do seu dashboard (painel):
- Posicionamento e ordem: os blocos do dashboard devem ser colocados em uma ordem lógica, com estatísticas importantes de alto nível na parte superior, e ao mover-se progressivamente para baixo, precisa trazer os detalhes das métricas, que são cruciais para fornecer aos usuários uma compreensão rápida do desempenho do sistema.
- Design: um dashboard bem projetado levando em consideração os esquemas de cores e temas, também tornará mais fácil para as partes interessadas digerir e compreender os dados.
O desempenho da infraestrutura de TI é crucial para a saúde de uma empresa. Grandes quantidades de dados fluindo dos sistemas podem ajudar os administradores de TI e outros profissionais a se manterem atualizados sobre o desempenho e a experiência geral do usuário final. Os dashboard, quando bem organizados, oferecem maneiras flexíveis de visualizar e compreender rapidamente as métricas; As organizações de TI agora têm uma variedade crescente de gráficos para escolher, que podem apresentar os dados de que precisam da maneira que melhor funciona para eles.
*Jay Menon é gerente operacional na OpsRamp, e especilista em dashboards e visualização de dados. Esse artigo é uma parceria entre a InformationWeek e o HDI.