Data Driven Predictive Quality – Qualidade Preditiva orientada a Dados

Trabalho como cientista de dados na Braskem há pouco mais de um ano. Para quem não conhece, a Braskem é uma empresa do ramo Petroquímico na vanguarda da inovação e investindo cada vez mais em formas ágeis de trabalho. Dessa forma, projetos de qualidade preditiva estão sendo acelerados na companhia, em alinhamento com nossas plantas industriais.

Tais projetos visam análise e acompanhamento em tempo real de variáveis críticas de qualidade das nossas resinas plásticas – como a densidade, o índice de fluidez e os solúveis em xileno – através de dados.

Todas essas características ditam como será nosso produto final – os pellets – a serem vendidos para nossos clientes. Tudo começa nas unidades industriais: variáveis de processo como temperatura, concentração, vazão, pressão, entre outras, são medidas nos equipamentos das plantas industriais através de sensores, e essas informações são enviadas para o sistema de controle da unidade.

O sistema de controle é encarregado de traduzir as informações do campo, armazená-las e distribuí-las para a operação, que irá tomar as decisões necessárias para manter a estabilidade do processo e as condições operacionais.

Todas as informações oriundas de sensores são em tempo real, gerando uma enorme quantidade de dados, que no cenário de Big Data configura em informações valiosas para aplicação em análise e ciência de dados. É aqui que a inovação aplicada à engenharia começa a acontecer! Os dados serão lidos e extraídos a partir de uma base de dados (DB), e irão servir de inputs para as análises a serem feitas.

Mas como funciona e qual é a metodologia para análise de dados?

Antes de mais nada, é importante ter a visão do que será gerado após a análise de dados num projeto de qualidade preditiva: modelos preditivos. Tais modelos são baseados em dados históricos e visam refletir o cenário operacional de uma planta, como por exemplo, de um reator ou de um silo de mistura.

A partir do aprendizado generalizado e de cálculos matemáticos, algoritmos de Machine learning (ML) são capazes de enxergar padrões através dos dados, assim como relações multivariáveis não lineares. É a partir dessa capacidade de aprendizado e generalização que se baseiam os algoritmos de ML, que tem como objetivo realizar predições de determinado target.

Veja abaixo um fluxograma da metodologia:

1. Como são estruturados os dados?

Os dados são constituídos de variáveis de entrada e saída. No caso do projeto de qualidade preditiva, os dados de saída (target) são oriundos de análises realizadas em laboratório; tal análise pode ser feita tanto a partir da resina sendo produzida, quanto do pellet, numa frequência pré-determinada. Já os dados de entrada (inputs) nada mais são do que as medições dos sensores em campo.

A tendência é que quanto mais dados se tiver do sistema estudado, melhores resultados serão obtidos através de modelagem.

2. Como funciona a parte de pré-processamento e seleção dos dados?

Durante a etapa de pré-processamento, os dados são submetidos ao tratamento e remoção de outliers por métodos estatísticos e em alinhamento com o processo a ser modelado. É muito importante a presença de um time multidisciplinar para se obter sucesso no projeto.

Isso porque muitas características do processo já são conhecidas pelos engenheiros e operadores da área! Na sequência é feita a seleção das variáveis, a partir da análise de componente principal (PCA) que avalia o coeficiente de correlação e covariância entre os inputs e o target. Por fim, temos um conjunto menor de variáveis que servirão de inputs para o modelo. O output será a variável de qualidade, a ser predita.

Além de tudo isso também é feito o feature engineering, de maneira a absorver variações e dinâmicas de processo. Podem ser inseridos cálculos como balanços de massa e energia, além de transformações nos dados, como cálculos de média, somatórios, etc.

3. Modelagem: aqui entra a ciência de dados!

Na etapa de modelagem entram em cena os algoritmos de ML. Em qualidade preditiva o aprendizado da rede se dá de maneira supervisionada, ou seja, são fornecidas informações de target durante o treinamento do modelo. O problema também demanda um regressor, uma vez que a categoria dos dados é numérica. Portanto, os dados de entrada devem ser contínuos.

Existem diversos tipos de algoritmos capazes de performar regressões, como as redes neurais, árvores de decisão e gradiente boostings. Todos necessitam de hiper parametrização, ou seja, calibração nos parâmetros do algoritmo. À essa etapa damos o nome de tuning. Um bom modelo é capaz de fazer boas predições, com boa acurácia, e com o menor valor possível de erro. Para isso o cientista de dados performa diversas iterações e loops a fim de encontrar o set de parâmetros que melhor se adequa aos dados e que traz os melhores resultados.

Definida a rede e sua arquitetura, o modelo está pronto para ser testado frente à novos dados. Aqui ele irá fazer predições da variável de qualidade a partir somente dos dados de entrada, ou sensores.

4. Como validar meu modelo?

A validação de um modelo se dá através da comparação dos resultados preditos com os resultados reais; geralmente, o último não está disponível em tempo real como os dados de sensores. Ou seja, a frequência com que se é medida uma variável de qualidade é menor do que a de um sensor. Por isso a vantagem de um projeto como este!

Portanto para validação do modelo os resultados de predição serão confrontados com os resultados de análises laboratoriais, comparando o período que haja tal valor de análise. Com isso surgem o conceito de duas métricas de validação, a acurácia e o agreement.

Acurácia mede o tempo em que a predição esteve dentro dos limites de incerteza de cada análise de laboratório, enquanto o agreement determina o tempo em que ambos resultados convergiram em relação a especificação. Especificação são os limites superiores e inferiores estabelecidos para determinar se a resina está dentro do controle de qualidade, a variar por tipo de produto gerado.

5. O que é “deployment”?

Deployment é o ato de submeter um modelo à produção. Ou seja, colocá-lo online e recebendo novos dados de sensores em tempo real, para que sejam feitas predições também em tempo real.

Dentre as frentes de qualidade preditiva na Braskem, a parte de deployment foi feita de duas maneiras: dentro da rede industrial e na nuvem.

Como recurso cloud, aqui é utilizado o Microsoft Azure. Primeiro são enviados dados de processo a partir do historiador local, no ambiente industrial, para um Data Lake na nuvem. Esses dados são lidos e transformados no Databricks (plataforma de ciência de dados) que, a partir de uma tarefa no Data Factory (recurso que contém pipelines automatizáveis), irá executar automaticamente numa frequência programada, carregando e rodando o modelo para realizar predições naquele novo dataset ou conjunto de dados.

A partir de então os resultados são armazenados numa tabela no Data Warehouse (base de dados) e visualizados através de um dashboard de acompanhamento, como exemplificado abaixo:

De outra maneira, no ambiente industrial, o deployment pode ser feito por meio de uma máquina virtual (VM) que possua comunicação com o sistema de controle da planta. Os resultados são armazenados diretamente em uma base de dados e são visualizados através de dashboards de acompanhamento.

O que diferencia a solução cloud da industrial é, majoritariamente, o local onde os modelos são executados, juntamente com seus requisitos e, por fim, as etapas posteriores para visualização dos dados.

6. Como é feito o refino? Quem participa dessa etapa?

O refino é feito através do acompanhamento contínuo dos resultados do modelo e de laboratório, assim como as dinâmicas e variações do processo. Tal acompanhamento deve ser feito não só pelo time de desenvolvimento do projeto, mas também pelos operadores e engenheiros da unidade industrial.

Manobras e variações no processo podem causar respostas inéditas nas variáveis medidas e preditas, portanto essas devem ser observadas e discutidas como forma de aperfeiçoamento dos modelos a partir das tendências do processo.

Assim, chega-se num modelo capaz de representar os diferentes cenários que uma planta pode ter, como estados transientes e estacionários, de altas e baixas variabilidades!

7. Quais são as vantagens e desvantagens dessa técnica?

As vantagens estão desde o melhoramento da estabilidade operacional até a redução de custos de análises laboratoriais. Com a utilização e melhoramento contínuo dos modelos, é possível reduzir a quantidade fabricada de material fora de especificação e também diminuir a duração de transições de grade. Além disso, somente a possibilidade de se acompanhar uma variável crítica de qualidade em tempo real já é uma grande vantagem!

Como desvantagem podemos listar a alta sensibilidade dos modelos em relação às variáveis de processo e a dependência de dados históricos. Portanto, caso hajam mudanças expressivas no cenário operacional, os modelos baseados em machine learning podem ser afetados. Também são sensíveis à distúrbios no processo, podendo ter sua acurácia afetada caso a planta esteja sofrendo com variáveis não medidas, como por exemplo, agentes contaminantes.

Chamamos esses modelos preditivos de VOAs – Virtual Online Analyzers ou ainda, Analisadores Virtuais. Veja bons exemplos de VOAs que foram implementados nas plantas de polietileno e polipropileno e como eles impactaram positivamente os resultados operacionais da companhia:

qualidade

A tecnologia já está aí para nos auxiliar na tomada de decisões e trazer um pouco das melhores práticas para o dia a dia das nossas atividades. Por isso, acreditamos muito no desenvolvimento e na melhoria contínua dos nossos processos, trazendo a tecnologia e os novos métodos de trabalho como ferramentas de aprimoramento.

Curtiu essa ideia?

 

Por Maria Augusta Soares,
Cientista de Dados Braskem

Site institucional: https://www.braskem.com.br/

 

Veja mais textos em https://betaeq.com.br/blog/

Conheça os cursos virtuais da BetaEQ disponíveis em https://www.engenhariaquimica.com/

Deixe um comentário

Abrir bate-papo
Olá! 👋
Podemos te ajudar?