s.News Entrevista | Rafael Moraes, Gerente de Data Science

ciencia de dados, entrevista com rafael moraes

A nossa entrevista de hoje para o s.news está recheada de experiências e insights valiosos acumulados por um dos nossos experts.

Rafael Moraes, o Gerente de Data Science Samplemed, tem uma bagagem extensa e diversificada entre uma vida acadêmica e o setor de seguros internacional, o que o permite dissertar sobre assuntos relevantes e distintos com muita facilidade como estatística, mercado de seguros, subscrição, atuária, seus anos de experiência em resseguradoras na Europa, data science e outros. O convidamos para nos contar um pouco sobre os desafios e oportunidades de comandar uma área que está em uma constante transformação com o lançamento de tecnologias e tendências.

Também temos certeza que este bate-papo rico poderá inspirar mais profissionais a abraçar um dos nossos valores centrais na Samplemed: a aprendizagem constante!

Confira abaixo o conteúdo na íntegra:

Rafael, bom dia. Muito obrigada por participar aqui da nossa sessão, é sempre um prazer falar com pessoas como você. E nem todo mundo te conhece, então, por favor, nos conte um pouco da sua história com a Ciência de Dados e a sua trajetória no mercado de Seguros. Uma introdução ao Rafael.

A maior parte da minha trajetória profissional é em Seguros.

Comecei em 2006 trabalhando no mapeamento, tratamento e análise estatística de reclamações de clientes no Itaú Unibanco e, um ano e meio depois, eu ingressei no departamento atuarial da MetLife, onde trabalhei com reservas, estudos estatísticos de capital econômico e limite de retenção bem como nos estudos de cancelamento, mortalidade e invalidez. A Metlife me propiciou a base para muitas das ideias e soluções que tive e venho tendo ao longo tempo na Samplemed.

Existe uma definição, atribuída a Drew Conway, relativamente comum em ciência de dados que é formada pelo entroncamento de três habilidades: conhecimento específico, habilidade de programação e conhecimentos em matemática e estatística.

O conhecimento específico é fundamental. Eu demorei muitos anos para entrar na área de Ciência de Dados porque eu havia antes mergulhado no mundo de Seguros. Segui desempenhando funções diversas, entendendo os processos e departamentos. Ali, elucidei muitas questões, como por exemplo: o que faz o departamento atuarial? Como fazer a precificação? Como funciona um departamento de operações, com suas funções de emissão e sinistro? O que é uma subscrição de risco? O que é um departamento de sinistros? Como a gente utiliza informações jurídicas para fazer uma provisão de perdas para casos que estão em litígio?

Sempre tive essa veia de conhecer tudo o que faço a fundo, não ficar somente na parte técnica mais visível.

Em 2010 me mudei para a Alemanha para trabalhar como subscritor de contratos de resseguro de vida na Hannover Re. Aprendi em profundidade o resseguro, a importância da subscrição de risco, os aspectos jurídicos de um contrato e claro, como precificar um contrato de resseguro. Essa experiência começou com cotações voltadas para o mercado brasileiro, mas eu expandi minhas habilidades, aprendi espanhol e consegui ajudar meus colegas nas cotações dos demais mercados latinos. Durante a maior parte da minha passagem na Hannover Re visitei clientes localmente para entender suas necessidades de riscos e proteção de resseguro.

Em 2017 comecei a sentir a necessidade de focar mais na formação matemática e estatística, por isso em 2018 eu volto para o Brasil, direto para o Mestrado em Estatística na Unicamp (Universidade Estadual de Campinas). Foi um grande desafio porque eu tive que recordar muita coisa que tinha aprendido 12 anos atrás no meu bacharelado em Estatística na mesma universidade. Com isso, eu pude revisitar toda a parte formal de modelagem estatística e elevar muito meu rigor estatístico para o trabalho e a vida.

Olhando retrospectivamente, toda essa trajetória me preparou para os desafios que eu estava prestes a encarar aqui na Samplemed.

Antes de entrar na Samplemed e ainda no mestrado, tive uma breve passagem na Deloitte como Gerente Atuarial, o que me ajudou a expandir ainda mais o horizonte no setor de seguros pois não lidava somente com seguros de vida e previdência. Lá fui exposto às melhores práticas de atuária, contabilidade e a temas como a implementação do IFRS em seguradoras e empresas brasileiras, auditorias atuariais e diversos projetos aplicados envolvendo estatística de primeira linha.

E em 2020, no boom da pandemia, o Silas Kasahaya - CEO Samplemed - me chamou para ajudar em um sonho da Samplemed de fundar um departamento de Ciência de Dados, que colocaria de pé projetos de modelagem preditiva, ciência de dados, entre outros projetos essenciais para startups voltadas para o mercado de Seguros. Foi quando eu passei pelo crivo do Albert Costa, nosso CTO responsável pela área de Tecnologia da empresa e entrei para o time.

Terminado o Mestrado e há 2 anos na Samplemed, eu seguia com uma vontade de aprofundar ainda mais os meus conhecimentos acadêmicos. Eu gosto muito de estudar, então eu pensei bastante nas opções que surgiram: eu poderia ir para a experimentação Agronômica ou então ir para Demografia, que acabou sendo minha escolha atual de doutorado aqui na Unicamp, onde estou desde 2022.

O mais legal é que Demografia tem tudo a ver com o que a gente faz. Eu vejo técnicas lá como tábua de vida, porém sob um enfoque ligeiramente diferente do que os atuários fazem no mercado de Seguros.

Ali, eu estou estudando coisas muito interessantes e que tem tudo a ver com o nosso trabalho na Samplemed. Família, tendências de mortalidade, tendências de morbidade… tem todo um ramo muito rico dentro da Demografia. Além disso, é bem legal que ela não fica dentro de uma área exata na Unicamp mas sim no Instituto de Filosofia e Ciências Humanas (IFCH). Então, isso está me forçando a ler sociólogos, economistas, antropólogos e ampliar a minha visão humana da carreira e do que a Samplemed faz. Isso só me ajuda ampliar meu horizonte para além da parte de exatas.

Antes de passarmos por toda trajetória de desenvolvimento de produtos, gostaria de fazer uma pergunta um pouco mais afetiva: o que a Samplemed significa para você hoje?

Ela possibilitou o meu ingresso, de fato, na carreira pura de estatística, de cientista de dados. Então, eu sou muito grato à Samplemed, eu tenho uma ligação forte com a empresa por conta disso. Foi ela quem verdadeiramente me abriu as portas para trabalhar como estatístico em toda a plenitude da carreira. Eu não estava mais trabalhando como analista atuarial ou estatístico em seguros, ou como analista de qualidade, ou como subscritor de resseguros… Aqui, eu era de fato um estatístico e poderia explorar ao máximo os desafios dentro da minha própria profissão.

Um exemplo disso, foi o projeto de redução do número de dificuldades de contato com os proponentes das tele-entrevistas, que a gente teve lá em 2020. Ele me possibilitou não ficar encerrado em um único espectro da minha profissão e demostra como eu tenho liberdade para pensar soluções e propor saídas na plenitude da minha formação acadêmica em todas as áreas.

Hoje, embora eu use os conhecimentos de especialista no mercado de seguros, a ferramenta principal é a estatística, com todos os métodos nos quais fui gabaritado durante o Mestrado.

É muito bom ter o “dream job”. Foi daí que você montou o “dream team”, certo? Um dos times de maior reconhecimento e performance dentro da Samplemed hoje. De onde veio sua inspiração?

É! Porque é ruim e dá medo quando você estuda muito, se sacrifica demais, se dedica para ser um profissional pronto e no final não trabalhar com aquilo que sempre sonhou, entende? Aqui tive esta oportunidade.

Você também mencionou os desafios que vocês têm em Data Science. Conta um pouco para nós quais são os desafios que você sente no papel que você tem de Gerência, no time que você tem ou até dos outros membros do time? Que tipos de desafios “o Data Science” encontra no trabalho na Samplemed hoje?

Os desafios são em vários planos, né? Tem o plano gerencial, que é alinhar expectativas entre as necessidades e o que nós temos em dados. Então, isso geralmente vem de pessoas com nível mais sênior… que é concretizar ideias que nós sabemos que é possível de implementar, mas elas passam por desafios, por exemplo, de ter acesso à informação ou de conhecimento técnico da gente conseguir implementar aquilo ou a infraestrutura para a gente colocar a ideia de pé. No plano técnico, poderia citar: a necessidade de conhecer sobre computação em nuvem, o básico sobre administração de sistemas de Linux para conseguir se conectar de forma remota a um servidor que precisa de muita memória RAM treinar nossos modelos.

O desafio no plano mais conceitual é realmente conseguir traduzir um corpo de conhecimento bem estabelecido na estatística e na ciência de dados para o mercado segurador, pois são técnicas que vão bem em qualquer em ramo de atuação, mas a dificuldade é construir essa ponte com o que fazemos na Samplemed: a subscrição de riscos de seguros de vida.

Os desafios técnicos são imensos por conta da evolução muito rápida do nosso mercado de tecnologia. Então, isso impõe a mim e ao Léo, dois Mestres em Estatística integrantes do núcleo de Data Science, a expansão do nosso horizonte intelectual para saber a fundo coisas que são necessárias no mercado de subscrição. A gente tem que ter um conhecimento de programação muito avançado, pois há muitas ferramentas e linguagens das quais simplesmente não podemos prescindir.

Existem também as dificuldades em relação ao mercado em si, que nos demanda soluções para questões concretas.

Concluindo, são dificuldades em níveis diferentes.

Explica para a gente como é a dinâmica da sua equipe.

Nós temos uma equipe bem especializada de cientistas de dados e para tirarmos o máximo de proveito do tempo e da estrutura que nós temos, optamos por um alinhamento quase que completo com a estratégia de API First da Samplemed.

Então, o que isso significa? Quando os cientistas de dados finalizam suas formações tradicionais nas nossas universidades brasileiras, embora elas sejam excelentes e fundamentais, a gente não tem a formação específica para trabalhar com o ciclo de vida de produtos, pois disso decorrem outros aspectos como estratégia comercial, marketing, posicionamento de marca, nicho de mercado. Um produto nasce com uma ideia conectada a uma necessidade concreta no mundo dos negócios… A gente reflete sobre isso, elabora uma solução estatística e viabilizamos ao cliente por meio de nossas APIs.

Desconheço a jornada e maturidade de dados de outras empresas, porém seguimos um caminho bem especializado na Samplemed. O departamento de TI da Samplemed já prepara essas informações e disponibiliza à área de Ciência de Dados os bancos relacionais para trabalharmos. Então, a área de Ciência de Dados Samplemed já está no espectro mais estatístico do trabalho, no momento somos mais cientistas de dados do que engenheiros ou analistas de dados. Por isso, é fundamental que a gente tenha pontos de contato com a nossa TI através de profissionais que são absolutamente fluentes em Python e em R, que conheçam modelagem, tiveram uma base matemática forte e que também falem a língua dos nossos processos de TI, como as metodologias ágeis. Então, essa é uma área que está sempre em integração e o objetivo é que a gente encoste cada vez mais em nossos demais desenvolvedores.

Por conta disso, nesse espaço de dois anos a nossa equipe integralmente começou a se desenvolver em práticas de DEVOps e a dominar tecnologias como contêineres (docker) para que se facilite o processo de integração, desenvolvimento e de deploy necessários para trazermos nossos produtos de dados aos clientes da Samplemed e ao mercado. Essa foi uma maneira de encapsular e tornar o processo mais simples para nossos desenvolvedores.

É importante que a nossa equipe de desenvolvedores não seja bombardeada ou tenha que entrar nos detalhes do que nós estamos fazendo. Assim, nós encapsulamos os produtos de dados dentro de contêineres, bem documentados e com mais garantia de estabilidade quando o produto subir em produção, além de facilitar muito o trabalho dos desenvolvedores na construção das APIs.

Eu acredito que não faz sentido exigir dos nossos desenvolvedores conhecimentos de atuária, reservas, precificação, simulação matemática, estudo de experiência, de modelagem estatística… somos um mundo à parte.

Os produtos de Data Science estão integrados hoje dentro da nova plataforma da Samplemed, o s.360. Vamos começar falando um pouco sobre o Modelo Preditivo? Ou melhor, Modelos Preditivos. Hoje temos Modelos desenvolvidos pela equipe de vocês criados separadamente para quantas coberturas?

Hoje temos modelos preditivos para:

1. Morte,

2. Morte Acidental,

3. Invalidez Funcional Permanente Total por Doença,

4. Invalidez Permanente Total ou Parcial por Acidente,

5. Invalidez Permanente Total por Acidente,

6. Diária de Incapacidade Temporária,

7. Despesas Médico-Hospitalares,

8. Doenças Graves e

9. Risco Cirúrgico.

E para cada uma dessas coberturas nós temos um modelo diferente, que roda um Score diferente, certo?

Exatamente, o que concebemos é: para cada cobertura que o cliente quer contratar a Samplemed fornece um Score. Esse Score é um número que vai de 0 a 500 e pode ter uma classificação adicional de baixo, médio e alto risco, que a gente define com os nossos clientes. Entrando um pouco em detalhes, cada Modelo Preditivo pressupõe uma base de dados histórica de todas as tele-entrevistas realizadas e que continuam sendo realizadas pela Samplemed. Obviamente, essa base é tratada e totalmente anonimizada.

Esse é o grande diferencial da Samplemed frente aos concorrentes. Eles não têm um fluxo contínuo de casos novos contra os quais eles podem testar as métricas de qualidade dos modelos preditivos treinados.

Vale destacar que nossa base de dados é composta por casos anonimizados de informação médica de subscrição, ou seja, proponentes que são consumidores de seguros.

Trazendo uma simples comparação, consideremos a mortalidade aberta de uma população, ou seja, formada pela totalidade da população do país.

Essa mortalidade aberta é superior à mortalidade de quem compra seguro. Geralmente quem dispõe de meios financeiros para contratar um seguro de vida já está em um patamar de estudo, de classe social e de cuidado com saúde diferente da grande população. Então, tem doenças que não afetam tanto quem compra seguro. A simples comparação de tábuas de mortalidade (por exemplo BR-EMS-2021 vs. Tábua de Vida do IBGE 2021) já evidencia esse fato.

Bom, e o que a Samplemed faz: seus clientes são seguradoras, que por definição estão subscrevendo o risco de proponentes de seguros. E a cada momento nós seguimos fazendo tele-entrevistas, vídeo-entrevistas, exames médicos, subscrições automáticas, modelos preditivos… e - com o registro anonimizado – protegendo sempre a informação dos dados pessoais do proponente e dados específicos das seguradoras. É sempre bom relembrar a nossa total conformidade com a LGPD – a gente tem um fluxo contínuo de decisões que estão sendo tomadas pelos nossos médicos e enfermeiros sobre cada subscrição de risco entrando.

Chamemos o resultado dessa subscrição médica, feita pelos nossos profissionais de saúde do time da Dra. Simone, de "verdade", pois conhecemos o resultado da subscrição para cada caso e eles guardam uma relação intrínseca com o risco de sinistro futuro da apólice subscrita.

Então, quando se faz um Modelo Preditivo, que geralmente tenta replicar essas decisões que estamos chamando de "verdade", é muito bom ter como comparar a sua predição com a "verdade" numa base contínua de casos novos, o que possibilita um controle em tempo real das métricas de qualidade do modelo.

A gente tem sempre um conjunto retroalimentável disponível, o tempo inteiro, para checar os nossos modelos.

E vocês têm os painéis de acompanhamento de desempenho dos Modelos Preditivos.

Exatamente. Então, poderíamos até estar trabalhando só com informações públicas, montando um modelo baseado em dados do Datasus ou do Censo… mas aí já começaríamos a entrar no primeiro problema, o de ter juntamente a população segurada e não segurada, o que pode majorar a avaliação de risco como um todo.

Um segundo problema seria que esse Modelo Preditivo não abrangeria o caso por completo em todas as dimensões de risco relevantes à seguradora – riscos geográficos, ocupacionais, financeiros, estilo de vida, saúde – como nossos dados o fazem por meio de tele entrevista que integram todo o acompanhamento do cliente.

O terceiro problema é que como tais dados não são provenientes de subscrição de risco, e portanto não conhecemos a equivalente decisão de um subscritor, ou seja, não temos a "verdade" contra a qual podemos comparar as predições desse modelo, deste modo não é possível acompanhar as métricas de ajuste deste modelo com base nesse tipo de dado agregado e público.

Sim, e embora tenhamos modelos por coberturas, os modelos são também customizáveis por clientes, né? Os clientes não têm modelos idênticos, cada cliente consegue receber um modelo específico. Você pode explicar para a gente como isso funciona?

Sim! Eu acho que a palavra mais fidedigna nesse ponto é a flexibilidade. Como nós temos acesso a esses dados, conseguimos recortá-los e preparar uma base de modelagem ao gosto do cliente.

Como exemplo, é possível fazer uma segmentação geográfica. Se uma seguradora opera só no Sul do País, é possível que a gente olhe na base da Samplemed e pince somente aqueles proponentes segurados daquela determinada região.

A mesma coisa serve para idade. Seguradoras que possuam idades de contratação diferentes para os seus segurados também se beneficiam dessa flexibilidade.

Então, qualquer tipo de segmentação demográfica e geográfica é absorvida por nós, o que torna infinito o número de modelos preditivos que podemos fazer e que a solução entregue seja bem personalizada.

Falando um pouco sobre essa personalização, sobre esse retorno e acompanhamento de acurácia dos modelos, nós temos uma feature nova que foi lançada pela Data Science ano passado, que é o Estudo de Experiência. Vamos falar um pouco sobre ela? Você pode explicar um pouquinho do projeto e da feature?

Eu considero o estudo de experiência o padrão ouro para indústria de seguros de vida – principalmente - e de previdência para saber se a subscrição está atingindo o seu objetivo.

É possível saber se a subscrição está sendo bem-feita através da análise da sinistralidade? Sim, é possível, porém independente do seu tipo (contábil ou atuarial) há uma dificuldade em se conhecer o prêmio de risco usado pela seguradora em seus diferentes produtos, que depende se sua estrutura de custos (margens, corretagem, impostos, despesas administrativas).

Pode-se avaliar uma sinistralidade sob a competência contábil, na qual os prêmios são agrupados por data de emissão e os sinistros por data de aviso. Essa é a visão mais financista e contábil da sinistralidade.

Por outro lado, pode-se avaliá-la através da competência atuarial, na qual os prêmios são agrupados por data de início de vigência e os sinistros por data de ocorrência. Essa visão permite identificar "safras" de negócios e viabiliza uma análise temporal da evolução da qualidade dos negócios da seguradora e é geralmente preferida pelos atuários.

E é aí que entra a proposta do Estudo de Experiência. Ele monta de fato uma janela de observação: a gente estipula um período de análise, e ele vai servir para determinar exatamente quanto de uma determinada tábua biométrica – que as seguradoras usam para precificar seguros – está aderente com a mortalidade da carteira de seguros sob estudo.

Um exemplo: supomos que uma seguradora siga 100% a tábua BR-EMS-2015 em sua precificação, que é a tábua de mortalidade do mercado brasileiro. Ela então resolve adotar o nosso estudo de experiência, que determina as exposições aos riscos de morte, morte acidental, invalidez funcional por doença e identifica que a mortalidade daquela carteira está a 80% da BR-EMS-2015. A partir disso, ela pode tomar uma decisão: manter 100% da tábua e garantir 20% de ganho de resultado ou então ela pode abaixar o seu preço e ficar mais competitiva no mercado.

Dito isso, o estudo de experiência é um padrão muito bom para você adequar uma série de processos atuariais. Você pode então, por exemplo, alterar o seu nível de reserva, o que traz uma informação muito valiosa para os subscritores e para precificação.

Aqui, na Samplemed, como temos todas essas informações de subscrição, desenvolvemos mais algumas APIs que vão permitir que as seguradoras clientes nos comuniquem o que aconteceu com aquelas apólices que passaram pela subscrição da Samplemed, se foram aceitas e como seguiram o fluxo.

Isso está totalmente automatizado, o que possibilita por um lado um direito do consumidor, pois temos que verificar e apagar dados de propostas canceladas ou após certo tempo - cumprindo a LGPD, e por outro lado, esta informação permite a realização de estudos de experiência de mortalidade, de cancelamento, de invalidez… ou seja, para cada uma dessas coberturas é possível fazer um estudo que meça quantas pessoas estão morrendo vs. o número de pessoas que eu espero que morra conforme uma tábua de vida escolhida. Esse seria um exemplo de estudo de mortalidade.

Os estudos de experiência usam os termos Actual (para os eventos que de fato ocorreram) e Expected (para os eventos esperados, derivados da exposição ao risco e da uma tábua de referência). Então, tem um cálculo atuarial bem preciso.

Com isso a seguradora consegue quantificar a mortalidade e o cancelamento com base em tábuas de sua escolha. E mais, por experiência própria, um estudo de experiência como esse leva alguns meses, enquanto nós o ofertamos pronto por meio de APIs em questão de segundos.

Você consegue ver o que está acontecendo com a mortalidade, com o cancelamento, com a invalidez dentro da companhia de Seguros.

Então, na nossa forma holística de olhar para a subscrição, essa vai ser a ferramenta que vai dizer para a gente se a subscrição está funcionando. É uma ferramenta que toda companhia no mercado deveria usar. Não deveria ser um estudo, por exemplo, apenas para companhias Americanas ou Canadenses. Lá, esse tipo de estudo é o padrão e deveria ser para todo o mercado internacional.

Como foi sair um pouco da caixinha do dia a dia para criar essa feature inovadora?

É um desafio grande porque é um produto novo. A gente aprendeu com o Modelo Preditivo que nós temos que fazer um produto que vai ser servido aos clientes ou internamente na Samplemed através de APIs. É o jeito que a gente desenvolve os nossos produtos de dados.

A partir desses conhecimentos, surgiram ideias para montarmos uma funcionalidade para integrar ao s.360, que envolveu um trabalho muito extenso de preparação dos dados de tele-entrevistas e estudo aprofundado da técnica atuarial usada para o estudo de experiência. Ressalto que o estudo de experiência pode ser feito para qualquer um dos produtos de subscrição: vídeo-entrevistas, exame médico, subscrição automática e até mesmo o modelo preditivo.

Então, sendo um produto e um processo complicados, a gente retorna àquela parte do conhecimento de especialista no Diagrama de Venn (do Drew Conway), pois sem esse conhecimento não saberíamos que existe essa bela ferramenta do estudo de experiência. Em seguida foi só aplicar nosso conhecimento de matemática atuarial e estatística e nossas habilidades de programação para finalizar um produto tão sofisticado que podemos oferecer agora aos nossos clientes.

Através do nosso Data Warehouse, já conseguimos coletar, por tipo de produto, aquelas informações de status de proposta, que posteriormente serão usadas para produzir a tabela de expostos e então calcular as exposições para a produção dos estudos de experiência.

Conseguimos ver, por exemplo:

·         quando aquele proponente virou segurado;

·         qual é o status dele hoje, se a apólice está cancelada,

·         se ele não está mais ativo e por quê;

·         se ele cancelou voluntariamente ou se está cancelado por inadimplência;

·         se ele está cancelado por morte ou invalidez;

Então, para esse projeto, tivemos que passar novamente por essa etapa de preparar os dados, montar uma API própria que calculasse a exposição e servir isso através das APIs do s.360. Isso tudo de forma que cada Seguradora está associada ali a um grupo de apólices que ela emitiu.

Para isso, existe uma tela dentro do s.360 que escolhe os parâmetros do estudo.

Um exemplo, ela pode escolher:

·         preciso fazer um estudo de mortalidade;

·         abrangendo de 1º de Janeiro de 2015 até 1º de Janeiro de 2018;

·         cujas tábuas biométricas serão a AT1983 e a BR-EMS-2015;

·         adicionar também um estudo de cancelamento.

E aí, na hora que ela escolhe essas opções, a interface do s.360 devolve para ela algumas possibilidades: um relatório online diretamente na tela ou pedir que devolvamos um arquivo de exportação para que o atuário use isso nos processos deles.

Essa segunda opção atende àquelas companhias que não optem por soluções muito generalistas. Precisamos considerar esse público altamente especializado, que estuda muito e está constantemente atualizado em relação às melhores práticas… os atuários são muito bons e criteriosos, possuindo muitos pontos de vista distintos dentro de uma seguradora, então é importante ofertarmos essa flexibilidade para eles.

Bom, então é basicamente assim que funciona. Para o usuário do s.360, o produto está encapsulado dentro de um site, mas tem toda uma história bonita nos bastidores que mistura boas práticas de atuária, de programação e muitas horas de pensamentos em detalhes para que possamos servir melhor o cliente.

Para fecharmos o nosso bate-papo, se você fosse dar um chute, para onde que você enxerga que a Samplemed ou o departamento de Data Science vai nos próximos cinco anos?

Olha, a gente já atingiu um nível de maturidade bem grande em relação a processos, já conseguimos isolar totalmente os nossos ambientes de desenvolvimento, temos os conhecimentos de estatística necessários para equacionarmos situações como dados muito desbalanceados, interpretabilidade e transparência dos nossos escores, imputações dados faltantes, extensa comparação de modelos entre muitos outros aspectos mais técnicos.

Nós estamos ficando também muito fluentes em relação a microsserviços e APIs. O que isso significa? Que o nosso tempo de entrega de produtos de dados vai ser cada vez menor. Hoje, disponibilizamos aos nossos desenvolvedores produtos de dados com tecnologias que há três/quatro anos atrás eu não estava habituado, como Python, MLFlow, Weights & Biases, FastAPI, Docker, Testes Unitários, o que já coloca a gente numa condição de responder bem rápido às ideias. Ou seja, o caminho entre a ideia que sai da minha cabeça ou da minha equipe até ela estar de pé num contêiner na nossa máquina local e já especificada para os nossos devs subirem isso na nuvem e rodando na Samplemed está cada vez menor.

Eu também vejo que a gente vai explorar coisas menos tradicionais. E o que eu quero dizer com isso? A gente estava falando aqui de modelos ou atuariais ou preditivos para dados estruturados. Então, a gente considera um banco de dados que a gente preparou ao longo de vários anos de subscrições, mas que são dados tabulares, relacionais.

A gente já até teve uma iniciativa passada onde usamos dados não estruturados. Nela, por necessidade de um dos nossos clientes grandes da Europa, tivemos o desafio de anonimizar dados pessoais de exame médico. Foi colocada uma tarja no nome e no número de identificação pessoal do exame médico, que podia chegar por meio de uma foto ou de um documento PDF direto do subscritor. E aí, teve toda uma solução que a gente desenvolveu. Isso exigiu primeiro estudar o que é um Tesseract, a biblioteca pytesseract do Python que a gente utilizou para extrair as letras da imagem. Ela encontra a coordenada pessoal dentro daquele PDF/imagem, o que possibilita transferir isso para texto para que possamos confirmar se a informação bate com o que estamos buscando e aí a gente coloca uma tarja e meio que anonimiza o exame, você não sabe mais a quem pertence. Esse processo é bastante importante para que não seja divulgadas informações médicas a terceiros, dentro até de uma própria empresa.

A título de exemplo e curiosidade, em meus tempos de Hannover Re o departamento médico ficava trancado com chave e tinha acesso restrito somente aos subscritores médicos. Imagina se um auditor, um contador ou um subscritor esbarrar com uma proposta de seguro de um grande jogador de futebol ou um locutor esportista da Argentina em cima de uma mesa? As regras existem para impedir isso e nós já temos um produto que supre essa necessidade de trabalhar com dados não estruturados.

Então, acredito que a gente vá explorar muito mais isso nos próximos cinco anos, intensificar o uso de redes neurais, com ideias um pouco mais sofisticadas, sempre tentando criar uma ponte e vencendo esse desconhecimento de ferramentas de altas complexidades. Um dos nossos desafios constantes é sempre transformar o mercado, provendo-o com soluções que sejam mais palatáveis, mais simples. O caminho é ajudar a desmistificar essa caixa preta de soluções da Ciência de Dados, ofertando soluções cada vez mais específicas e ao mesmo tempo inteligíveis ao mercado.

De certa forma, é assim que a gente já faz com o nosso Modelo Preditivo, conseguindo hoje desagregar o Score em determinadas dimensões de risco. Exemplo: o score tá alto porque o risco médico está alto, ou o score está alto porque o estilo de vida deu mais alto, ou porque a pessoa mora numa região muito mais violenta. Por aí.

Muito obrigada pela sua entrevista, por compartilhar mais um pouco! Eu achei que foi muito conteúdo bom e acredito que possamos fazer mais rodadas de entrevistas com você, Rafa. As iniciativas de Data Science na Samplemed são um assunto muito extenso e interessante. Nos vemos em breve para mais! Obrigada pela paticipação na entrevista.

Não conhece ainda nossa nova newsletter do LinkedIn? Se inscreva agora e garanta acesso a todos os nossos conteúdos exclusivos para entusiastas por subscrição!

 
Anterior
Anterior

eBook: "Métodos ágeis: como aplicar fora da TI"

Próximo
Próximo

s.News Entrevista | Rodrigo Leão, Gerente de Operações Samplemed