Como uma pessoa que costuma explicar a aprendizagem de máquina para os não-profissionais, eu compilou os seguintes dez pontos como algumas explicações sobre a aprendizagem de máquina:
A aprendizagem de máquina não é o que é publicamente difundido: você pode resolver inúmeros problemas fornecendo dados de treinamento apropriados para os algoritmos apropriados. Chame-o de IA, se isso ajudar a vender seu sistema de IA. Mas saiba que IA é apenas uma palavra de moda que representa apenas as expectativas das pessoas sobre ele.
Os avanços em algoritmos de aprendizagem de máquina, especialmente em aprendizagem profunda, têm muitas coisas para ser emocionantes. Mas os dados são o fator chave para tornar a aprendizagem de máquina possível. O aprendizado de máquina pode ser feito sem algoritmos complexos, mas não sem bons dados.
O aprendizado de máquina treina modelos com base em padrões nos dados, explorando o espaço de modelos possíveis definidos por parâmetros. Se o espaço de parâmetros for muito grande, ele se encaixará exageradamente nos dados de treinamento e treinará um modelo que não pode se generalizar. Se isso for explicado em detalhes, mais cálculos matemáticos serão necessários, e você deve usar isso como uma regra para manter seu modelo o mais simples possível.
Há um ditado que diz: “Se você envia um monte de lixo para um computador, o resultado é um monte de lixo de dados”. Embora essa frase tenha surgido antes do aprendizado de máquina, essa é a principal limitação do aprendizado de máquina. O aprendizado de máquina só pode encontrar padrões que existem nos dados de treinamento.
Como o prospecto do fundo adverte, o desempenho passado não garante resultados futuros. A aprendizagem de máquina deve emitir uma declaração de advertência semelhante: ela só pode trabalhar com base em dados distribuídos da mesma forma que os dados de treinamento. Portanto, é necessário estar atento aos desvios entre os dados de treinamento e os dados de produção e repetir o modelo de treinamento com frequência para garantir que ele não seja desatualizado.
Com toda a publicidade da tecnologia de aprendizagem de máquina, você pode pensar que o que a aprendizagem de máquina faz é principalmente selecionar e ajustar algoritmos. Mas a realidade é simples: a maior parte do seu tempo e energia será gasto na limpeza de dados e na engenharia de características, ou seja, na conversão de características originais em características que melhor representam os dados do sinal.
A aprendizagem profunda também é muito divulgada, pois a aprendizagem de máquina é aplicada e desenvolvida em muitas áreas. Além disso, a aprendizagem profunda promove a automação de alguns trabalhos tradicionalmente feitos por engenharia de características, especialmente para dados de imagens e vídeos. Mas a aprendizagem profunda não é uma panaceia. Não há nada pronto para você usar, você ainda precisa investir muito esforço para limpar e transformar dados.
Desculpem a NRA, mas os algoritmos de aprendizagem de máquina não matam, são os humanos que matam. Quando um sistema de aprendizagem de máquina falha, raramente é porque há um problema com o algoritmo de aprendizagem de máquina. É mais provável que um erro artificial tenha sido introduzido nos dados de treinamento, resultando em desvios ou outros erros no sistema.
Em muitas aplicações de aprendizagem de máquina, as decisões que você toma hoje afetam os dados de treinamento coletados amanhã. Uma vez que o sistema de aprendizagem de máquina integra o desvio no modelo, ele pode continuar a gerar novos dados de treinamento aumentados pelo desvio. Além disso, alguns desvios podem destruir a vida das pessoas.
Muitas pessoas parecem ter aprendido o conceito de inteligência artificial a partir de filmes de ficção científica. Devemos nos inspirar na ficção científica, mas não podemos ser tão estúpidos e confundir a ficção com a realidade. De seres humanos malvados conscientes a modelos de aprendizagem de máquinas com defeitos inconscientes, há muita realidade e perigos a se preocupar.
A aprendizagem de máquina envolve muito mais do que os dez pontos que mencionei acima. Espero que esses conteúdos introdutórios sejam úteis para os não-profissionais.
A partir de agora, o mundo inteiro será um espaço de inteligência artificial e grandes dados.