O que é aprendizagem semissupervisionada em ML?

O aprendizado de máquina tornou-se parte integrante de nossas vidas diárias, moldando silenciosamente experiências desde recomendações personalizadas de filmes da Netflix até a tecnologia de reconhecimento facial nos principais telefones Android. No entanto, nos bastidores, esses sistemas avançados exigem toneladas de dados e horas de trabalho para rotular e formatar esses dados para treinamento prático.



O aprendizado semissupervisionado pode ajudar, facilitando a carteira e a carga de trabalho. Este artigo explica detalhadamente a aprendizagem semissupervisionada, destacando sua importância e explorando suas aplicações práticas.



A mecânica da aprendizagem semissupervisionada

O aprendizado semissupervisionado é uma técnica de aprendizado de máquina que treina um modelo preditivo usando aprendizado supervisionado, um pequeno conjunto de dados rotulados e um grande conjunto de dados não rotulados. Essa abordagem híbrida é útil quando dados rotulados são difíceis de obter ou muito caros, mas é fácil obter dados não rotulados em massa. Embora este método ofereça muitos benefícios, ele também enfrenta obstáculos.

A qualidade dos dados não rotulados é crucial. Se não for bom, poderá prejudicar a precisão do modelo, possivelmente causando overfitting. Além disso, a utilização de grandes volumes de dados não rotulados gerados pelos utilizadores levanta preocupações éticas sobre a forma como estes algoritmos são treinados.

Imagine um serviço de streaming de música com músicas dos gêneros rock, jazz e clássico, mas apenas faixas de jazz e clássica são rotuladas. Quando o modelo encontra uma música de rock, inicialmente a classifica como nem jazz nem clássica. Então, um especialista em música ouve essas faixas não classificadas e as rotula como rock. Após retreinar o modelo, ele finalmente aprende a identificar cada um dos três tipos de música.


Relacionado

Qual é a diferença entre inteligência artificial e aprendizado de máquina?

Eles estão relacionados até certo ponto, mas são bastante diferentes

Suposições fundamentais por trás da aprendizagem semissupervisionada

Deve haver um relacionamento entre os objetos em um conjunto de dados não rotulado para trabalhar com ele. Essas suposições orientam o algoritmo de aprendizagem na compreensão dos padrões e distribuições subjacentes dos dados. Eles permitem que o algoritmo faça suposições informadas sobre os rótulos de dados não rotulados com base em suas relações com exemplos rotulados e entre si.

Suposição de cluster

Essa suposição sustenta que os pontos de dados dentro do mesmo cluster têm maior probabilidade de ter o mesmo rótulo. Esta suposição sugere uma estrutura mais global, onde os dados formam naturalmente grupos ou clusters, e esses clusters são informativos da rotulagem.

Considere uma sala de aula com alunos de séries diferentes, mas sem rótulos de notas visíveis. Se você notar que os alunos formam grupos onde cada grupo discute tópicos semelhantes (como álgebra, literatura ou biologia), a suposição de agrupamento sugeriria que os alunos de cada grupo provavelmente estão na mesma série, compartilhando interesses ou focos curriculares semelhantes.


Suposição de continuidade

A suposição de continuidade sugere que pontos próximos uns dos outros têm maior probabilidade de compartilhar o mesmo rótulo. Se as duas amostras forem semelhantes, provavelmente pertencem à mesma categoria. A suposição de continuidade concentra-se na vizinhança local dos pontos de dados sem fazer afirmações sobre a estrutura geral dos dados. Por outro lado, a suposição de cluster postula uma visão mais estruturada, onde os dados formam grupos distintos e homogêneos em termos de rótulos.

Considere um conjunto de dados de animais onde as características incluem coisas como número de pernas, presença de pêlo e tamanho. De acordo com a suposição de continuidade, um animal pequeno e peludo com quatro patas (como um gato) tem maior probabilidade de ser classificado de forma semelhante a outro animal pequeno e peludo com quatro patas (como um cachorro) do que um animal grande e não peludo com duas pernas (como um avestruz).

Suposição múltipla

A suposição múltipla assume que os dados de alta dimensão estão em uma variedade de baixa dimensão. Isto significa que, embora os dados existam num espaço complexo e de alta dimensão, a estrutura significativa dos dados e a variação real podem ser capturadas em menos dimensões. Essa suposição reduz a complexidade dos dados, tornando mais fácil para o modelo compreender e fazer previsões.


Imagine um conjunto de dados de imagens de dígitos manuscritos. Embora cada imagem possa conter milhares de pixels (espaço de alta dimensão), a variação na forma como as pessoas escrevem dígitos pode ser capturada em um espaço de dimensão inferior. Este espaço de dimensão inferior pode representar características-chave, como largura, curvatura e orientação do traço, que definem a diferença entre, por exemplo, um ‘3’ e um ‘8’.

Suposição de baixa densidade

A suposição de baixa densidade sugere que o limite de decisão entre diferentes classes provavelmente passará por regiões de baixa densidade de dados. Se houver uma lacuna ou região esparsa entre clusters de pontos de dados, espera-se que o limite que separa as diferentes classes esteja localizado nessas regiões de baixa densidade.

Imagine caminhar por uma floresta onde você encontra manchas de diferentes tipos de árvores (por exemplo, pinheiros e carvalhos). Essas árvores estão densamente compactadas em suas respectivas áreas, mas há uma “terra de ninguém” entre essas manchas onde quase não se encontram árvores. Se lhe pedissem para desenhar uma linha para separar a área de pinheiros da área de carvalho, você naturalmente a desenharia através desta área esparsa e sem árvores.


Diagrama ilustrando a aprendizagem semissupervisionada.

Fonte: Kerolos Yacoub

Aplicações práticas de aprendizagem semissupervisionada

A aprendizagem semissupervisionada oferece soluções econômicas e eficientes em vários domínios. A sua ampla aplicabilidade teve impacto em diversas áreas, facilitando métodos de aprendizagem mais baratos e acessíveis. Abaixo estão algumas áreas onde a aprendizagem semissupervisionada contribuiu.

Melhorando a visão computacional

O aprendizado semissupervisionado ajuda na análise de imagens e vídeos, como detecção de objetos e reconhecimento facial. Isto é benéfico para o treinamento de modelos de veículos autônomos, que devem identificar cenários diversos e complexos na estrada.

Facilitando o processamento de linguagem natural

A aprendizagem semissupervisionada facilita o Processamento de Linguagem Natural (PNL). A aprendizagem semissupervisionada melhora a análise de sentimentos, o reconhecimento de entidades nomeadas e o resumo de texto, especialmente para grandes modelos de linguagem.


Detecção de anomalia

O aprendizado semissupervisionado identifica valores discrepantes ou pontos de dados incomuns. Esta técnica é útil no diagnóstico médico, onde detecta condições raras, e no setor bancário, para identificar transações fraudulentas e avaliar o risco de crédito.

Um conjunto de seis exames de ressonância magnética cerebral exibidos em duas linhas com várias áreas destacadas por caixas azuis e verdes, indicando regiões de interesse ou anormalidades detectadas pelo software de imagem.

Fonte: Sociedade Radiológica da América do Norte

Simplificando tarefas de classificação

O crescimento exponencial dos dados representa um desafio para os métodos tradicionais de rotulagem. Pense em todo o conteúdo que os usuários geram em plataformas como Instagram, YouTube e TikTok. O aprendizado semissupervisionado torna a classificação de grandes conjuntos de dados mais gerenciável.

O poder da aprendizagem semissupervisionada na era da IA

Na atual era de expansão da inteligência artificial, a frase “conhecimento é poder” nunca foi tão relevante. Os profissionais de aprendizado de máquina muitas vezes se afogam em dados sujos não rotulados ou ficam sem dados rotulados. A aprendizagem semissupervisionada tornou-se uma ferramenta poderosa para navegar nesses extremos, facilitando o treinamento eficiente de modelos generativos de IA.