Hoje em dia muito se fala sobre Big Data, Machine Learning e Data Science. Esses termos, pronunciados cada vez mais no meio corporativo, algumas vezes são utilizados sem uma compreensão exata do seu significado.
Utilizando o Google Trends, se pode verificar que tanto no Brasil quanto no mundo, nunca houve tanto interesse pelo termo Data Science quanto agora. No ano de 2017, até a data da publicação desse artigo, o interesse cresceu aproximadamente 33% no mundo e mais de 200% no Brasil.
Desde a década de 90 do século passado, passamos por uma verdadeira revolução em relação a capacidade de criação e armazenamento de dados. Passamos em poucos anos de um disquete capaz de armazenar 1,4 megabytes de informação para sistemas de armazenamento em nuvem com capacidade de 4500 terabytes (3,6 e+10 megabytes ).
A evolução dos sistemas de informação e dos dispositivos que permitem conexão com a internet contribuiu de maneira significativa para essa explosão na geração de dados. Estima-se que nos últimos dois anos foram gerados mais dados do que em toda história da humanidade até então.
Já pensou em quantos vídeos são assistidos, quantas planilhas criadas, quantas mensagens em redes sociais são postadas, quantos e-mails são enviados, quantas fotos são tiradas, quantas buscas e compras são realizadas a cada minuto na internet?
Será que existe alguma maneira de utilizar tudo isso para gerar conhecimento?
Data Science é a maneira de gerar conhecimento, de fazer ciência a partir dos dados. Daí sua estreita relação com a estatística, área do conhecimento cujos métodos permitem descrever, explorar, inferir e predizer a partir dos dados.
Tudo começa com os dados, que são os insumos, a matéria prima que será transformada em conhecimento. Nesse processo de transformação, os dados precisam ser organizados, processados e analisados.
No livro R for Data Science, os autores definem o fluxograma do processo de Data Science com seis etapas que englobam desde a coleta dos dados até a comunicação dos resultados com os públicos interessados, de maneira automatizada e rápida.
O conhecimento oculto nos dados pode ajudar a resolver muitos problemas nas mais diversas áreas. Independente do ramo do negócio, os dados podem revelar uma realidade que muitas vezes passa despercebida pelos executivos.
Sendo assim, a utilização de Data Science possibilita:
Para exemplificar a aplicação de Data Science em diferentes segmentos, podemos citar:
O processo de Data Science é multidisciplinar e requer muitas habilidades dos profissionais que se aventuram na área. Diferentes disciplinas como Estatística, Matemática, Ciência da Computação contribuem para a formação do profissional.
O cientista de dados deve ser um investigador, que busca compreender a realidade através de fatos e dados, fazendo com que as perguntas sejam respondidas com respaldo metodológico aceitável. Para isso precisa conhecer e dominar as diversas ferramentas disponíveis.
Aqueles que anelam se tornar cientistas de dados precisam conhecer e se capacitar no manejo de tecnologias que estão em pleno desenvolvimento. Podemos citar aqui linguagens de programação como R e Python (e seus incríveis pacotes), ferramentas de armazenamento e processamento de dados como Hadoop (MapReduce, Hive and Pig), em estruturas de banco de dados SQL (SQL Server, PostgreSQL, MySQL) e NoSQL (MongoDB, Cassandra), e muito mais.
Quer saber mais sobre Data Science, Big Data e Machine Learning? Tem algum problema para ser resolvido ou alguma pergunta a ser respondida? Entre em contato com nossos consultores e descubra como fazer ciência com os dados. E não deixe de se registrar em nosso blog para acompanhar nossas futuras publicações.
Gostou deste conteúdo?
Informe-se por meio da nossa newsletter!