Cresce indústria de bisbilhotagem on-line

Julia Angwin e Steve Stecklow | The Wall Street Journal
18/10/2010

A uma hora da manhã, no dia 7 de maio, o site PatientsLikeMe.com percebeu uma atividade suspeita em um de seus fórums de discussões sobre questões de saúde. Na sala em questão, as pessoas trocam histórias extremamente pessoais sobre suas disfunções emocionais, que vão do transtorno bipolar ao desejo de se cortarem.

Foi uma invasão. Um novo membro do site, usando um software sofisticado, estava copiando cada mensagem dos fóruns privados do PatientsLikeMe, algo conhecido no setor como "scraping", ou "raspar".

O PatientsLikeMe conseguiu bloquear e identificar o intruso: a Nielsen Co, a empresa de pesquisa de mídia com sede em Nova York. A Nielsen monitora as conversas on-line para os clientes, incluindo grandes farmacêuticas, que compram dados coletados na internet para saber qual a opinião dos consumidores sobre seus produtos, diz a Nielsen.

"Eu me senti completamente violado", diz Bilal Ahmed, de 33 anos, morador de Sydney, na Austrália, que usou o PatientsLikeMe para se conectar com outras pessoas que sofrem de depressão. Ele adotou um psedônimo nos grupos de mensagens, mas o perfil dele no PatientsLikeMe tinha um link para o seu blog, no qual está o seu nome verdadeiro.

Depois que o PatientsLikeMe contou aos usuários sobre a invasão, Ahamed apagou tudo que tinha escrito no site, além de uma lista de remédios que ele usa. "Foi muito pertubador saber que a informação estava sendo vendida", diz ele. A Nielsen diz que não extrai mais dados de sites que exijam uma conta individual de acesso, a menos que tenha permissão.

O mercado de dados pessoais de usuários da internet está crescendo rapidamente e na vanguarda está a prática de extrair essas informações. As empresas se oferecem para colher conversas on-line e coletar detalhes pessoais de sites de relacionamento social, sites de currículos e fóruns on-line onde as pessoas discutem suas vidas.

Esse negócio emergente de extrair dados da internet oferece um pouco da matéria-prima para a economia baseada em dados que está em rápida expansão. Anunciantes gastaram US$ 7,8 bilhões em dados on-line e off-line em 2009, de acordo a consultoria de gestão Winterberry Group LLC, de Nova York. O gasto com dados de fontes da internet deve mais que dobrar, de US$ 410 milhões em 2009 para US$ 840 milhões em 2012.

A análise do The Wall Street Journal sobre "scraping" - um negócio que envolve informações pessoais assim como vários outros tipos de dados - é parte de uma investigação do jornal sobre o negócio de rastrear a atividade on-line das pessoas e vender detalhes sobre seu comportamento e interesses pessoais.

Algumas empresas coletam informação pessoal para fazer relatórios detalhados sobre indivíduos, incluindo endereço de e-mail, número de celular, fotografias e comentários nos sites de relacionamento social.

Outros oferecem o que é conhecido como serviço de escuta, que monitora em tempo real centenas ou milhares de novas fontes, blogs e sites para ver o que as pessoas estão dizendo sobre produtos ou tópicos específicos.

Um desses serviços é oferecido pela Dow Jones & Co., que publica o Journal. A Dow Jones coleta dados da internet - que podem incluir informações pessoais contidas em notícias ou comentários em blogs - que ajudam clientes corporativos a monitorar como são retratados. A empresa afirma que não colhe informações de partes de sites que são protegidas por senhas.

A competição por dados é acirrada. A PatientsLikeMe também vende dados sobre seus usuários. A PatientsLikeMe diz que não há nomes anexados aos dados que vende.

O porta-voz da Nielsen, Matt Anchin, diz que os relatórios da empresa aos seus clientes incluem informações públicas compiladas da internet, "então, se uma pessoa decide compartilhar uma informação pessoal identificável, ela pode ser incluída".

Os usuários da internet normalmente têm poucos recursos se um dado pessoal é extraído.

"As redes sociais estão se tornando os novos arquivos públicos", diz Jim Adler, diretor de privacidade da Interlius Inc., um site líder na busca de pessoas, mediante pagamento. O site oferece serviços que incluem checagem do histórico criminal e também informações sobre um possível encontro amoroso, este último por US$ 14,95.

"A informação está por aí", diz Adler. "Se eu não a trouxer à atenção do consumidor, alguém vai."

A PeekYou LLC, com sede em Nova York, pediu a patente de um método que, entre outras coisas, combina o nome real das pessoas aos pseudônimos que elas usam em blogs, no Twitter ou outras redes de relacionamento social. O site de buscas PeekYou oferece dados sobre cerca de 250 milhões de pessoas, principalmente nos Estados Unidos e no Canadá.

A PeekYou afirma que também está começando a trabalhar com serviços de escuta para ajudá-los a saber mais sobre as pessoas cujas conversas eles estão monitorando. A empresa conta que entrega apenas informações demográficas, sem nomes ou endereços.

Os empregadores também estão tentando descobrir como usar essas informações para selecionar candidatos. É complicado: legalmente, os empregadores não podem discriminar com base em sexo, raça ou outros fatores que podem coletar nas redes de relacionamente social.

Uma empresa que seleciona candidatos para empresas, a InfoCheckUSA LLC, com sede na Flórida, começou a oferecer dados limitados de redes de relacionamente social - alguns deles obtidos pela extração - a empregadores há cerca de um ano.

"Isso está aos poucos começando a crescer", diz Chris Dugger, gerente de contas nacionais. Ele diz ter interesse particular em coisas como pessoas que "estão falando sobre como roubaram seu último empregador".

Os que extraem informações operam numa área legal cinzenta. Fora dos EUA, as leis contra a essa coleta de informações variam. Nos EUA, as decisões da justiça têm sido contraditórias.

Empresas de extração de dados e de escuta dizem que o que fazem não difere do que qualquer pessoa faz quando recolhe informação on-line - eles só fazem isso numa escala muito maior.

"Nós pegamos um monte de informações incompreensíveis e as transformamos em inteligência", diz Chase McMichael, diretor-presidente da InfiniGraph, um serviço de escuta que ajuda as empresas entender o que os consumidores da internet gostam e não gostam.

Os serviços de extração de dados vão dos bem básicos e baratos aos customizados. Alguns grupos, como o 80Legs.com, do Texas, retiram informações de um milhão de páginas da internet por US$ 101. Outro, em Utah, o screen-scraper.com, oferece gratuitamente um software para que a própria pessoa faça a extração de dados. Mas os principais serviços de escuta podem cobrar centenas de milhares de dólares para monitorar e analisar discussões na internet.

Alguns oferecem seus serviços sem fazer muitas perguntas aos clientes.

"Se não acharmos que eles vão usar os dados com fins ilegais - normalmente, eles não nos contam como vão usá-los - de maneira geral, nós vamos pecar no lado de fazer o serviço", diz Todd Wilson, dono da screen-scraper.com, uma empresa de 10 pessoas.

A screen-scraper cobra de US$ 1.500 a US$ 10.000 pela maioria dos serviços. A empresa afirma que muitas vezes é contratada para fazer trabalhos de "inteligência de negócios"para companhias que querem extrair dados dos sites dos concorrentes.

O "scraping" é muitas vezes um jogo de gato e rato entre os sites, que tentam proteger os seu dados, e os coletores, que tentam tapear suas defesas. A extração em si não é difícil: quase todos os programadores talentosos conseguem fazer isso. Mas romper as defesas de um site pode ser difícil.

Uma defesa com a qual a maioria dos usuários da internet está familiarizada envolve "captchas", as letras rabiscadas que muitos sites exigem que as pessoas copiem para provar que são humanos e não robôs de extração de dados. Os extratores muitas vezes enfrentam isso com um software que decifra os captchas.

Alguns profissionais de extração de dados encenam guerras rápidas e surpreendentes, com dezenas de ataques simultâneos a um website para conseguir o maior volume de informações o mais rápido possível sem serem detectados ou sem derrubar o site que eles têm como alvo.

Na PatientsLikeMe, existem salas de bate-papo em que as pessoas discutem experiências como AIDS, paralisia supranuclear positiva, depressão, transplante de órgãos, desordens pós-traumáticas e mutilação própria. Esses fóruns devem ser vistos apenas por membros que concordarem em não coletar as informações, não por intrusos como a Nielsen.

"Foi o legado de uma prática ruim que não fazemos mais", diz Dave Hudson, que em junho assumiu o cargo de diretor-presidente da unidade da Nielsen que retirou informações da PatientsLikeMe em maio.