A infância dos motores de busca na Web

hrcerq
Novato
Mensagens: 49
Registrado em: Sáb Set 28, 2024 11:54 pm

A infância dos motores de busca na Web

Mensagem por hrcerq »

Tendemos a pensar que o que temos hoje como tecnologia para pesquisa de conteúdo é o que há de mais moderno e avançado. Afinal é o mais recente.

Por isso mesmo é importante, vez ou outra, dar uma conferida pelo "retrovisor" como as coisas eram algum tempo atrás. Não raro, percebemos que algumas boas ideias foram deixadas para trás ou ficaram em segundo plano na discussão. Os mecanismos de indexação e pesquisa podem ter sido mais primitivos no final dos anos 90 e início dos anos 2000, mas certamente entregou muito valor.

E aliás, essa área de conhecimento é bem mais antiga (pelo menos até os anos 60 já existiam estudos sobre mecanismos para otimizar a busca por conteúdo relevante). Porém, os métodos foram se sofisticando e já na década de 80 tínhamos métodos mais avançados, não mais restritos à pesquisa booleana.

Depois, com a popularização da Web nos anos 90, tivemos uma aplicação em super escala para os mecanismos de busca, isto é, a indexação e pesquisa de conteúdo da Web, o qual se expandia exponencialmente.

Nesses dias estive caçando alguns dos recursos que são legado dessa época, que nos ajudam a ter essa visão da época e de discussões que eram feitas sobre o tema. No Wiby (que aliás, é um motor de busca bem bacana para essas coisas) encontrei o seguinte artigo:

A Multiplicity of Databases on Search Engines

Ele foi publicado em 1999, e relata algumas observações sobre motores populares na época (o da Google ainda era considerado uma novidade, diga-se de passagem), mencionando alguns clássicos como Lycos e Altavista. O tema do artigo é o modo como esses mecanismos buscavam uma ou mais fontes de links e como ordenavam e apresentavam links de fontes diversas.

Um tópico interessante a se pensar do ponto de vista do usuário é o fato de que saber a origem dos links (isto é, quem fez a curadoria inicial) pode ter um grande impacto no que você espera daquele resultado. Portanto, apenas listar todos os links sem distinção de origem resulta em uma perda de informação importante, especialmente em uma busca mais especializada.

Hoje é comum discutirmos questões como confiabilidade de resultados de buscas, devido a diversos fatores, como excesso de trapaças para ganho de visibilidade (os famosos profissionais de SEO tem parte nisso), invasão das propagandas, técnicas de rastreamento que aplicam filtros de bolha e mais recentemente o uso de modelos preditivos que buscam conteúdos em fontes pouco confiáveis (incluindo lixo gerado por algoritmos de "inteligência" artificial).

Isso mostra o quanto nos afastamos de discussões importantes como a que esse artigo propõe.
O shell tem que continuar
Responder