junho 02 2016 0comment

Governança de Dados: O CDO como gerador de valor ao acionista.

Por Alessandro Lemes da Silva

1Atualmente com o modelo de governança corporativa, um aspecto vital às corporações geralmente é desconsiderado. E umas das principais premissas de qualquer organização privada é: “Criar valor para o acionista. Se olharmos a governança corporativa simplesmente por essa abordagem, fica claro que há um grande contrassenso nas deliberações do executivos quanto à implementação da governança em suas empresas.

Hoje, no que é chamado de Economia Moderna, os indicadores que posicionam o valor de uma empresa, quando em processo de valoração, são a capacidade dessa empresa em proteger sua informação e a qualidade destas informações. Significa que a diferença entre uma empresa moderna e uma empresa em busca de modernização está no seu maior valor concentrado nos ativos intangíveis, como marca, percepção de mercado e conhecimento.

Com base nisso, entende-se que os ativos de valor de uma empresa se desdobram sob o prisma da informação. As informações são dotadas de condições de gerar valor ao negócio, validando estratégias e demonstrando cenários empresariais e de negócio por meio do conhecimento, maturidade e qualidade dessas informações. O que conta hoje não é mais o patrimônio imobilizado, mas principalmente na capacidade de gerar retorno sobre os investimentos numa perspectiva de dois ou cinco anos, em consequência de seus diferenciais. E os principais diferenciais agregadores de valor, são personificados em:

  • Bases de dados;
  • Cadastros;
  • Fórmulas e modelos matemáticos;
  • Estudos e técnicas de avaliação de mercado;
  • Projetos

Podemos concluir até aqui que hoje toda a alavancagem estratégica de uma empresa é baseada em informação.

Para ratificar esse pensamento, posso complementar com a ideia de que o cenário empresarial apresentado nos últimos cinco anos evidencia que algumas organizações que surgiram no inicio deste novo século já valem mais do que outras já centenárias. Entendo que pelo simples fato de haver um movimento forte para informatização e processos digitalizados já nascem junto com a empresa; frente à isso, ou as empresas modernizam a forma de captar e gerir suas informações, mudando também sua maneira de pensar e conduzir a gestão do negócio ou naturalmente sairão do jogo. Na caminhada rumo ao desenvolvimento, a palavra chave é informação.

Temos agora um quadro devidamente pintado com as cores das possibilidades e entra em cena um profissional relativamente novo nos quadros, que surgiu de iniciativas inovadoras ou agregou ao longo do tempo atribuições dentro das empresas que compuseram seu novo papel. O CDO, ou o Chief Data Office, atualmente tão valorizado.

O Diretor Executivo de Dados, tradução da sigla em inglês mencionada à cima, tem papel primordial na visão estratégica de governança de dados, considerando que nos últimos 5 anos fomos bombardeados com novidades para persistir grandes volumes de dados, enriquecê-los e analisá-los com a devida performance, o CDO tem atribuições operacionais de criar, tratar, integrar as informações num contexto corporativo com sua magnitude.

Através da figura do CDO, as empresas podem olhar com mais seriedade para as questões de riscos relacionados à informação, sua rastreabilidade e compartilhamento, contribuindo com o posicionamento estratégico, velocidade de respostas ao mercado, transformando bites  em novos produtos e implementando novas iniciativas para garantir a aderência e efetividade das ações de negócio com base nas informações compartilhadas, geradas e mantidas sob sua guarda. O que muitos executivos ainda não se deram conta, é que a responsabilidade final caso ocorra algum incidente relacionado ao vazamento de informação, ataque de um hacker, perda de dados, inconsistência de dados, pouca qualidade dos dados armazenados, entre outros, será sempre da alta administração.

A boa implementação e condução da governança de dados é refletido no potencial competitivo da organização, aumentando a vantagem competitiva, minimizando consequência financeiras. Levando em conta que a ciência dos dados da empresa fazem parte das atribuições do CDO, os modelos matemáticos, estudos preditivos e descritivos e a identificação consequente de novas oportunidades de negocio se dão em velocidade muito maior num ambiente de dados mapeados, rastreados e devidamente enriquecidos, formando uma fonte única de consulta que  traz agilidade e contribui imensamente para a adoção definitiva de um único lado da verdade, em se tratando de divulgação de informações para parceiros, clientes, órgãos regulatórios e seus acionistas.

Devemos ainda levar seriamente em consideração a formação de um fórum de segurança e qualidade. Este fórum já é uma realidade nas grandes organizações e geralmente é composto por membros da alta administração, pela área de administração de dados e pelo security officer (pessoa responsável pelas questões táticas da segurança na empresa), visando proteger os ativos de informação, tanto de ataques e perdas quanto na manutenção da qualidade destas informações. Este processo não é simples e traz consigo uma mudança na cultura administrativa, mas é tão importante, que deve ser tratado como ponto chave na estratégia de uma empresa que pretende continuar posicionada no mercado pelos próximos cinco anos.

 

Alessandro Lemes da Silva é colunista do Blog da Infomev e discute sobre o universo do Business Intelligence (BI).

alessandro@lemesdasilva.com

 

Análise de Dados através do SAS Visual Analytics

Por Alessandro Lemes 

O SAS Visual Analytics fornece self-service BI e geração de relatórios que visam ajudar os usuários não técnicos a identificar padrões significativos e relacionamentos em dados.

Todos sabem que o SAS é um player muito importante no mundo em ferramentas analíticas e que suas ferramentas viabilizam condiçoes de análise com muitos recursos estatísticos para análise descritiva, preditiva e comportamental.

Nos últimos anos o SAS vem investindo alto em unir sua competência analítica com recursos de visualização numa ferramenta de utilização intuitiva e interativa para atender os diversos publicos de usuários não-técnicos que necessidade analisar de forma simples seus conjuntos de dados. Esse resultado foi atingido através do lançamento da sua ferramenta SAS Visual Analytics.

Tenho estudado essa ferramenta desde 2014 em sua versão 6.1, além disso, também tenho acompanhado as inovações de outros players que também têm apresentado ferramentas interessantes e com recursos que visa transferir ao analista de negócios velocidade e independência em analisar dados com recursos de exibição com qualidade visual e mobilidade. Posso garantir que há hoje ferramentas de diversas cores e sabores para atender as expectativas e necessidades, porém quero aqui ressaltar pontos importantes que como usuário pude reconhecer no SAS Visual Analytics.

O SAS Visual Analytics (VA) é distribuído em algumas modalidades de licenciamento como:

SAS Visual Analytics for Cloud: Recurso não popularizado no Brasil, mas que têm vantagens interessantes na redução de custos com infraestrutura e que faz parte do chamado software as a service ou SaaS.

Versão Non-Distributed: Essa é a versão departamental desse produto com menos recursos no que tange à persistência de dados, porém muito recomendado para soluções mais simples para grupos restritos de usuários com objetivos de análise de dados em dados com maior nível de agregação.

Versão Distributed: Essa é a versão mais completa e que atende os requisitos de iniciativas mais abrangentes e que necessitem de análise de grandes volumes de dados com presistência, pois essa versão vem com o Apache Hadoop.

ARQUITETURA DO SAS VISUAL ANALYTICS

SAS VA é uma aplicação Web (web-based) que apresenta vantagens de análise de dados In-Memory.

Diversos componentes fazem parte dessa arquitetura para prover funcionalidades para exploração de dados, geração de relatórios, preparação de dados e administração do ambiente:

1

  • O SAS VA primeiramente provê um ambiente totalmente adequado à análise de dados;
  • O componente Designer viabiliza recursos práticos e sofiticados para a criação e distribuição de relatórios;
  • Analistas também podem criar DashBoards e painéis que podem ser compartilhados, inclusive com interação do grupo de trabalho;
  • Executivos e tomadores de decisão podem consumir os relatórios e DashBoards, visualizando os resultados através de acesso Web ou recursos de mobilidade como tablet ou celular;
  • Administradores de dados ou analístas avançados podem preparar dados e carregá-los no ambiente para que possam ser utilizados por outros grupos de trabalho;
  • Administradores de sistemas podem utilizar o componente VA Administrator para tratar dos mecanismos de LASR, carregar dados em memória e monitorar o ambiente.
    Arquitetura do SAS VA
    Arquitetura do SAS VA

    OS COMPONENTES DO SAS VISUAL ANALYTICS

    SAS Visual Analytics Explorer

    Esse componente oferece ferramenta de visualização interativa tais como gráficos e tabelas. O Explorer permite a análise de dados e recursos como forecasting e correlações. Veja abaixo um exemplo de análise com Forecasting apresentado num gráfico de linha.

  • Um gráfico de linha no SAS VA
    Um gráfico de linha no SAS VA Explorer

    Desde a versão 6.2, o componente Explorer oferece a condição de criar árvores de decisão, que representa graficamente uma tabela de decisão, esse é o recurso mais práticos e utilizados em influência inditiva. Esse recurso classifica instâncias ordenando-as da raíz para algum nó folha, onde cada nó da árvore representa um atributo.

    Veja abaixo um exemplo de Árvore de Decisão no SAS VA.

    Exemplo de árvore de decisão no SAS Visual Analytics
    Exemplo de árvore de decisão no SAS Visual Analytics

    Um  dos recursos que julgo ser muito importante e de fácil utilização é o GEO MAP  que oferece recurso de visualização em condições de GEO Localização, plotando mapas com base em resultados referênciados por latitude e longitude.

    1 Esse tipo de gráfico oferece todo o recurso de Drill-Down para que sejam analisados resultados com níveis até cidade. É possíveis tornar esse recurso ainda mais detalhado com serviços especializados de mapas.

     

     

 

 

Painéis com aparência profissional e de visualização simples, com objetos relacionados que possibilita a exploração em diversos níveis da mesma informação através de recursos de drill-down.

1Esse tipo de painel mescla formas diversas de gráficos onde é possível relacioná-los de maneira que ao clicar sobre uma fatia do gráfico de pizza, automaticamente os outros gráficos da tela sensibilizem o resultado baseado no valor da fatia da pizza que foi selecionada. Elegância e praticidade reunidas numa mesma tela e com um processo de desenvolvimento muito mais rápido do que os métodos tradicionais.

 

 

SAS Visual Analytics Data Builder

Administradores de Dados podem usar o módulo Data Builder para preparar dados à serem analisados. É possível desenhar queries que juntam dados, selecionam e os cruzam de maneira à obter-se consultas que respondam a necessidade do negócio, além disso, pode-se incluir as chamadas “colunas calculadas” que são registros de valores derivados e definidos condicionalmente.

1

O administrador dos dados pode simplesmente cruzar tabelas já carregadas na memória ou somar ao conjunto de dados tabelas que ainda não foram carregadas, mantendo em memória. A versão 6.3 do SAS VA trouxe a possibilidade de criar modelos em estrela ou star schemas.

Por fim, as instruções de cruzamento de dados obtidas através do Data Builder podem ser programadas para execuções em periodicidades fixas conforme algum intervalo de tempo.

SAS Visual Analytics Versão Distribuída

SE vocês tem um grande volume de dados para serem analisados e um histórico grande de informações que precisa ser armazenada de maneira persistente para futuros estudos e análise, considere adotar o VA em sua versão distribuída. Veja a arquitetura dessa versão:

2Nessa arquitetura temos diversos outros componentes que viabilizam acesso rápido a grandes volumes de dados armazenados em um ecossistema Hadoop com a facilidade de utilizar-se de nós computacionais para acessar e consumir todo o volume de dados conforma a necessidade.

Esse tipo de solução também é muito indicado para projetos de Business Analytics corporativos, pois podem atender a diversos grupos de negócio com processamento paralelo e centrado num repositório único de dados.

 

 

Como se pode ver na figura à cima, nessa versão do produto o SAS LASR Server está distribuído em múltiplos nós processando informações à partir de um recipiente único de dados. Vale dizer que esse tipo de repositório de dados oferece redundância suficiente aos dados com cópias armazenadas em diferentes nós e com isso a velocidade obtida como resposta às requisições é bem alta. Dessa forma as requisições são paralelizadas através dos diversos nós computacionais trazendo a velocidade esperada pelos cientistas de dados e analistas de negócio.

É possível utilizar outras distribuições de Hadoop num ambiente Visual Analytics como, por exemplo:

  • SAS High-Performance Deplyment of Hadoop (nativo)
  • Cloudera´s Distribuition Including Apache Hadoop
  • Teradata Data Warehouse Appliance
  • Pivotal Data Computing Appliance
  • Hortonworks Data Platform

 CONSIDERAÇÕES AO IMPLEMENTAR

Para que seu projeto em SAS Visual Analytics não se torne um problema institucional, cabe observar fatores importantes para adequação dos dados e equilíbrio do entorno tecnológico de um ambiente SAS.

  1. Detalhe cuidadosamente os requisitos: Os requisitos do projeto devem oferecer a resposta para a decisão de usar tecnologia Analytics ou solução de Bisuiness Intelligence clássica. Se houver necessidade de análise descritiva, comportamental ou preditiva baseada em informações para modelagem estatística clássica, você deve considerar outras soluções como o SAS Visual Statistics, por outros lado se o seu cliente necessidade explorar dados, analisar resultados sob outras perspectivas, gerar relatórios ou Dashboards para compartilhamento com outros grupos de trabalho, certamente o SAS VA irá atende-lo muito bem e por último, se seu cliente precisa apenas acompanhar resultados concluídos, performance de indicadores e índices sem inferência ou exploração desses dados, considere o BI Clássico, em outras palavras o SAS Enterprise BI.
  2. Avalie suas origens de dados: A rastreabilidade dos dados numa solução de BI ou BA é fundamental para questões de compliance e auditoria, principalmente para empresas que tratam com regras normativas ou regulatórias. Criei soluções de carga de dados baseada em rastrear a origem, documentar as transformações e registrar o consumo, tomando cuidados com a avaliação volumétrica inicial e vegetativa, uma vez que seu repositório de dados passa a ser o organismo principal da solução.
  3. Avalie a maturidade do seu cliente: Através e Workshops internos e/ou treinamentos externos, envolva seu cliente na discussão sobre o uso prático da solução, independente da ferramenta que será adotada, lembre-se que seu cliente valoriza soluções de grande apelo visual e simplicidade de uso, porém a falta de maturidade pode condenar mesmo a ferramenta mais impressionante em recursos. Lembre-se que a escolha da ferramenta certa é:
  4. a junção da maturidade de quem irá utilizá-la;
  5. a qualidade das informações disponíveis;
  6. a facilidade de uso da ferramenta;
  7. a performance da obtenção dos resultados.
fevereiro 26 2016 0comment

Sugestão de um ecossistema Hadoop para análises em Grandes Bancos de Dados de séries temporais

Por Alessandro Lemes da Silva

Quando o “Descobridor dos Mares”, “Pai da Oceanografia Moderna e Meteorologia Naval” Matthew Fontaine Maury ficou imobilizado por conta de uma lesão na perna, aproveitou seu tempo para ampliar seus estudos de navegação, meteorologia, ventos e correntes. Ele estudou milhares de registros e cartas dos navios e analisou mais de um bilhão de pontos de dados para publicar gráficos de ventos e do tempo. Ele fez diversas cartas náuticas, que ensinam a marinheiros de todo o mundo como usar correntes oceânicas e vento para reduzir a duração das viagens.

Passados cerca de 150 anos, percebemos como os dados históricos ou dispostos em séries temporais são fundamentais para a tomada de decisões orientada por dados. Hoje, milhões de pontos de dados são recolhidos por sensores, medidores inteligentes, RFID e outros – cada segundo de nossas vidas.

O mundo está se tornando mais e mais conectado e inteligente, o que costumo chamar de os 3 Vs de big data:

  1. Volume;
  2. Velocidade;
  3. Variedade.

Como os custos de armazenamento diminuiu significativamente na última década e o surgimento da computação distribuída, as empresas querem capturar e organizar esses dados para realização de análise de grandes volumes históricos para a abrangência completa de seus segmentos de negócio e o apoio efetivo à tomada de decisões.

Nos segmentos modernos de supply chains, toda a viagem da origem ao destino é rigidamente monitorada através de sensores, que transmitem continuamente dados telemáticos, informações de veículos como o desempenho do motor, consumo de combustível, o desempenho de frenagem, etc.; Os dados de GPS transmite continuamente localização; as etiquetas RFID são usadas para rastrear embarques em centros de distribuição e dados de clientes coletados em diferentes interfaces.

Todos esses dados é imensamente valioso, e oferece insumo para identificar oportunidades de otimização, redução de custos e alavancagem de novos de negócios.

Para embarcar, classificar e analisar esse grande volume de dados é preciso uma infraestrutura específica, a construção de um ecossistema dedicado e com requisitos que atendam ao tempo de resposta sobre a vastidão dos dados.

Porque não o bom e velho RDBMS?

Honestamente, RDBMS em seu formato natural não foi concebido para armazenar e analisar grandes volumes de dados dispostos em séries temporais. Por exemplo, uma empresa de logística que tem 16 milhões de embarques diários, transmitindo informações a cada hora, realizará mais de 300 milhões de inserções de dados na base por dia.

Agora, se os dados forem retransmitidos quatro vezes por hora, já somos mais de um bilhão de pontos de dados em um dia. Um banco de dados relacional normal armazena dados em linhas separadas, o que significa que a tabela continua crescendo verticalmente. Além disso, há um monte de duplicação de dados, como dados de envios estáticos, como informações de clientes, dados de origem e de destino, etc. repetido em cada linha. Idealmente, você pode evitar tudo isso através da normalização em várias tabelas e criar índices.

 

Um bom DBA iria dizer-lhe como fazer a normalização ou de-normalização e especificar que esse é o caminho a percorrer. No entanto, mesmo que criar tabelas para armazenar de forma eficiente tais grandes volumes de dados, a consulta desses dados é uma história diferente. Com mais de um bilhão de linhas que estão sendo adicionados a cada dia, combinando SLAs dos clientes de hoje é realmente desafiador.

 

Leia os dados, não os armazene. Eis a questão.

Num banco de dados de séries de temporais, consultas usuais é uma comparação dos pontos de dados em intervalos de tempo diferentes. Por exemplo:

  • É o número de transferências ocorridas hoje comparadas aos últimos 5 anos;
  • É o tempo médio gasto de transporte nas estradas comparado aos últimos 3 anos e com aplicação de modelagem preditiva para análise de tendências;
  • É avaliar a quilometragem de alguns tipos de caminhões nos últimos 6 meses e cruzar com o comportamento de outro modelo de transporte para avaliação de eficiência modal.

 

Produzir uma grande quantidade de dados é fácil e produzir uma grande quantidade de dados derivados é ainda mais fácil.

 

Considerando o tamanho qual a solução? Comprimir todos os dados.

Mas como responder a consultas, então? Percorrer os dados.

Isso é rápido? Definitivamente não!

 

Esperar resultados de consultas nunca é produtivo. Nós precisamos de compressão, mas não à custa da velocidade. Para reduzir o tempo de consulta, o objetivo deve ser o de minimizar o tempo de I/O, reduzindo o número de registros lidos à cada tempo.

As soluções para grandes bancos de dados de séries temporais são especializadas baseados em tecnologias de código aberto e um modelo de dados inteligente para superar deficiências.

Temos hoje a tecnologia do Apache Parquet que é um formato de armazenamento colunar disponível para qualquer projeto dentro do ecossistema Hadoop, independentemente da escolha da estrutura de processamento de dados, modelagem ou linguagem.

 

 

Quais as vantagens  da armazenagem colunar dos dados?

  • A organização de dados por colunas permite uma melhor compactação, já que os dados tornam-se homogêneos.
  • O I/O é reduzido consideravelmente porque podemos verificar eficazmente apenas um subconjunto das colunas.
  • Como dados do mesmo tipo são armazenados em cada coluna, isso permite técnicas de codificação eficientes.
  • Por último, o Spark SQL é conhecido por trabalhar melhor com tabelas em formato Parquet.

 

 

 

 

Que vantagem temos com esse tipo de implementação?

PERFORMACE

O modelo colunar para armazenagem de dados oferece maior velocidade e eficiência. Ele é otimizado para bancos de dados de séries temporais com altíssima performance no desempenho de consultas, agregação e análise.

ESCALABILIDADE

Esse tipo de implementação usa HDFS e computação distribuída em seu núcleo. Como o volume de dados aumenta, mais máquinas podem ser adicionadas para lidar com o aumento da carga. Em todos os setores, como instituições financeiras, serviços públicos, telecomunicações e petróleo e gás, mais e mais empresas estão adotando o armazenamento colunar para grandes volumes de dados.

VELOCIDADE DE RESPOSTA

Bases de dados de séries temporais normalmente têm dois desafios; a taxa a que novos dados são adicionados é muito elevado e os dados históricos sobre o qual são feitas consultas não vastos. Assim, qualquer solução deve ser capaz de combinar ingestão rápida em um curto tempo de resposta. Combinando Spark SQL com tabelas em formato Apache Parquet.

 

BAIXO TCO

Usando tecnologias open-source e infraestrutura de nuvem ajuda a reduzir drasticamente o custo total das operações, especialmente quando comparamos alternativas muito mais caras.

 

Agora que a tecnologia é capaz de armazenar e analisar grandes volumes de dados, o que isso nos permitirá fazer?

 

Há uma variedade de casos de uso, incluindo BI, análises exploratórias e classificação e detecção de anomalias. Tecnologias open-source e computação distribuída abriram portas para novas possibilidades e novas fronteiras no BI em bancos de dados de séries temporais.

 

O que seria das ferramentas de Analytics sem o elemento humano

Por Alessandro Lemes

Há muitos exemplos de empresas usando análise de dados para aumentar vendas e reduzir custos. Da mesma maneira, médicos estão listando aplicações de analytics para diagnosticar doenças mais precisamente, e atletas têm feito uso disso para aumentar sua performance.

A maior capacidade dos computadores e o surgimento das ferramentas especializadas de analytics são alguns dos responsáveis por esse fenômeno, mas não são os únicos. A curiosidade humana nesse processo desempenha um papel fundamental.

O papel humano em business analytics

infomevO uso das ferramentas de analytics permite criar modelos preditivos para prever o que poderá acontecer até três meses a frente. A maioria se baseia no histórico de dados.

Esses modelos não conseguem fazer esse trabalho o tempo todo, mas certamente é bem melhor que os antigos processos manuais.

Alguns argumentam que os humanos não são necessários para estabelecer correlações inicialmente, pois ferramentas sólidas de análise de dados, quando munidas de todo e qualquer dado da empresa, podem encontrar correlações facilmente sozinhas.

Teoricamente, isso é verdade, porém, na prática, NÃO.

Na prática não existe isso de “todo e qualquer dado da empresa”, pois não temos capacidade de saber do que vamos precisar até que a necessidade (ou suspeita) apareça. A informação necessária para estabelecer essas correlações pode estar em lugares inusitados e profissionais que entendam do negócio intimamente e consigam ver potenciais padrões ou correlações são um componente essencial do uso efetivo de ferramentas de analytics.

Por isso, antes de tudo, é preciso se certificar de ter as pessoas certas, mantê-las e uni-las a novos talentos para criar um “time reserva”. As ferramentas são tão necessárias quanto as pessoas, mas são secundárias em um projeto de analytics.

As organizações precisam colher dados em tempo real, permitindo correlações e análises que gerem informações úteis. A partir dessa premissa, um time bem formado pode oferecer o serviço de Analytics combinando as funcionalidades da computação com a democratização da informação trazida pelo big data, por exemplo. Essa abordagem dá poder à empresa de maneira inovadora, permitindo análises e acesso centralizado às informações em tempo real.

O importante é ter em mente que nenhuma iniciativa séria de Business Analytics terá sucesso ou atingirá os objetivos esperados sem o elemento humano. Dessa forma, antes de gastar milhares de Reais como investimento, busque estabelecer a maturidade do time interno que irá usufruir dos recursos computacionais e fazer valer o investimento.

Até o próximo artigo.