O trabalho é estruturado como testes cegos, no modelo A/B: os profissionais comparam os códigos gerados por duas versões diferentes do modelo, escolhem qual preferem e fornecem uma justificativa qualitativa, sem saber qual versão estão avaliando .
A escala e a remuneração mostram o quanto a Anthropic valoriza essa avaliação especializada. Dois contratados disseram ao Business Insider que recebem até US$ 280 (cerca de R$ 1.600, na cotação atual) por tarefa. Como cada uma leva em média uma hora, não é raro que alguns acumulem mais de US$ 3.000 (aproximadamente R$ 17 mil) por semana . A Snorkel AI mantém uma camada de aprovação interna para garantir a qualidade de cada entrega
.
A dimensão do investimento no Projeto Marlin fica mais clara quando analisamos a trajetória comercial impressionante do Claude Code. O agente, que foi lançado ao público em maio de 2025, atingiu uma receita anualizada (ARR) de US$ 1 bilhão em novembro daquele ano e dobrou para US$ 2,5 bilhões em fevereiro de 2026 .
Quando os detalhes do Marlin vieram à tona, o Claude Code já havia ultrapassado Cursor e GitHub Copilot em faturamento, abocanhando uma fatia de mercado estimada entre 51% e 54% do setor de codificação por IA . Essa ascensão foi turbinada por uma ferramenta da qual as próprias equipes internas da Anthropic passaram a depender para escrever 70% a 90% de todo o seu código — incluindo impressionantes 90% da base de código do próprio Claude Code
.
A iniciativa Marlin revela a peça-chave desse sucesso: mesmo os agentes de codificação mais poderosos ainda precisam de um sofisticado feedback humano para fechar a lacuna entre gerar um código funcional e imitar o julgamento sutil de um desenvolvedor profissional . O objetivo explícito do projeto é refinar o Claude Code para que ele reproduza melhor habilidades de nível profissional, indo além da simples correção de sintaxe e avançando rumo a decisões de arquitetura, sensibilidade para revisão de código e resolução contextual de problemas
.
O Projeto Marlin representa uma evolução profunda na forma como as empresas de IA encaram o trabalho de treinamento, especialmente agora que os agentes de codificação se tornaram o caso de uso empresarial mais valioso da IA generativa — respondendo por 51% de todo o uso corporativo .
Os fluxos tradicionais de rotulagem de dados, em que trabalhadores com remuneração mais baixa anotam imagens ou classificam textos, são inadequados para avaliar uma ferramenta projetada para raciocinar sobre pull requests complexos. Em vez disso, empresas como a Anthropic estão desembolsando prêmios substanciais por profissionais que exerçam o julgamento de um engenheiro — uma tendência que tende a se acelerar conforme o valor econômico das ferramentas de codificação por IA continua a subir.
As implicações mais amplas para o mercado de trabalho são enormes: à medida que os modelos de IA se tornam mais capazes, a supervisão humana para aperfeiçoá-los não desaparece — ela migra para cima, em nível de habilidade e remuneração. O Projeto Marlin sugere que o futuro do treinamento de IA pode se parecer menos com uma linha de montagem e mais com um processo de elite de revisão de código, onde os melhores engenheiros são pagos por hora para ensinar as máquinas a pensar como desenvolvedores seniores.
Comments
0 comments