Joalpe , Oficina de edição na Wikipédia, com apoio do Grupo de Usuários Wikimedia no Brasil, na Faculdade Cásper Líbero CC BY-SA 4.0 [+]

Ajudando você a encontrar a agulha no palheiro: construindo as funções de busca da Wikipédia

Diariamente, milhões de termos são inseridos no mecanismo de busca da Wikipédia. O que retorna quando as pessoas procuram estes termos é em grande parte devido ao trabalho da equipe de descobertas da Fundação Wikimedia, que visa “tornar a riqueza do conhecimento e do conteúdo nos projetos Wikimedia facilmente detectáveis”.

A equipe de descobertas é responsável por garantir que os visitantes que buscam termos em diferentes idiomas cheguem na página de resultados corretos e por melhorar continuamente as formas em que os resultados de pesquisa são exibidos.

Dan Garry lidera a equipe de buscas que mantém e aprimora os recursos e APIs de pesquisa e melhora a relevância dos resultados de busca para wikis da Fundação Wikimedia. Ele e sua equipe têm um painel público em que podem monitorar e analisar o impacto de seus esforços. No entanto, eles fazem muito do seu trabalho sem saber quem está procurando o quê – a Wikipédia coleta pouquíssimas informações sobre usuários e não liga dados de pesquisa a outros dados como visualizações de páginas ou hábitos de navegação.

Dan e eu falamos sobre como a equipe de buscas melhora a pesquisa sem conhecer estas informações e como diferentes grupos de pessoas na Wikipédia usam a busca de forma diferente. Uma versão editada de nossa conversa segue abaixo.

Mel: Você mencionou em uma conversa anterior que os editores potentes usavam a pesquisa da Wikipédia de uma maneira totalmente diferente dos leitores. Quais são algumas das maneiras pelas quais os editores potentes usam a pesquisa?

Dan: Usuários avançados usam a pesquisa como uma ferramenta de gerenciamento de fluxo de trabalho. Por exemplo – eles podem ver um erro de ortografia que os irrita ou uma palavra em um artigo que é frequentemente escrita de forma errada ou buscar por pedaços de código ultrapassado que precisam ser alterados e, em seguida, pesquisar por isso para ver se as correções podem ser feitas. Nesse caso, ao contrário do seu usuário médio, eles esperam que não haja resultados de sua consulta, porque isto significa que o erro de ortografia não está presente em qualquer lugar.

Outra maneira pela qual os usuários avançados podem usar a busca é procurar seus nomes de usuários, porque eles podem querer encontrar lugares em que foram mencionados na discussão – e eles querem listar páginas por ordem cronológica para que possam ver as vezes mais recentes em que foram mencionados.

Isso representa uma diferença em relação a alguém que simplesmente quer encontrar um artigo. Nossos usuários avançados nem sempre estão tentando encontrar um artigo – eles estão tentando encontrar páginas que atendam determinados critérios para que eles possam realizar uma ação nestas páginas. Eles estão interessados ​​em todo o conjunto de resultados, em vez de um ou dois resultados.

Mel: Parece que os editores avançados nem sempre querem ou precisam de relevância. (Embora eu tenha certeza de que às vezes eles querem.)

Dan: Isso mesmo. É algo que gostaríamos de estudar mais profundamente. Priorizamos a relevância para os leitores, mas os editores e até mesmo alguns tipos de leitores podem precisar de algo completamente diferente.

Mel: Há muitas maneiras de pesquisar na Wikipédia. As primeiras coisas que me vêm à cabeça são pesquisar através dos mecanismos de busca, através do wikipedia.org, através de uma página de artigo individual e, em seguida, nas aplicações móveis. Vocês percebem as diferenças entre todos estes diferentes caminhos para chegar no site?

Dan: Ocasionalmente, nós percebemos. Eu era gerente de produtos para celular e estava muito focado em buscas. Fiquei interessado na pesquisa como um ponto de entrada para o aplicativo móvel.

Mas descobrimos que muitas pessoas estavam tendo problemas com coisas como encontrar a ferramenta de busca. Havíamos pressuposto que manter um sinal deconsulta na barra de pesquisa seria útil para o usuário final, mas as pessoas achavam que este era o título da página e ficavam realmente confusas.

Quando percebemos que isto poderia ser um problema, fizemos muitos estudos qualitativos de uso com pessoas e perguntamos aos funcionários que não estavam na equipe de produtos o que eles pensavam. Foi útil obter perspectivas sobre esterecurso no aplicativo de pessoas fora da equipe de desenvolvimento, de usuários reais.

Nós decidimos mudar a maneira pela qual a busca aparecia no aplicativo uma vez que a página havia sido carregada. Quando as pessoas navegavam para esta página, excluímos a frase que haviam buscado da caixa de pesquisa, o que ajudou as pessoas a saber onde olhar para começar a pesquisar novamente.

Nós também pensamos um pouco sobre imagens e sua relação com a busca. Pensamos em adicionar imagens aos resultados de pesquisa e descobrimos que a adição de imagens aos resultados da busca alterou um pouco o comportamento dos usuários. Em vez de clicar no primeiro link, que podia ou não ser o resultado mais relevante, eles quase sempre preferiram artigos com imagens, mesmo que estesverbetes estivessem mais abaixo na página de resultados da pesquisa. Perguntamos por que isto acontecia e as pessoas disseram que sentiam que o resultado era mais abrangente ou completo.

É divertido ver como mudar algo pequeno pode ter imediatamente um efeito enorme. Quando fizemos a mudança referente às imagens, também vimos que as pessoas clicavam em menos artigos. Isso nos alarmou porque pensávamos que estávamos aprimorando as coisas para o usuário final e nos preocupava que, ao adicionar as imagens, pudéssemos ter inadvertidamente feito com que ele não obtivesse as informações de que precisava. Mas fizemos algumas escavações e descobrimos que era o contrário: para algumas consultas, a resposta à busca foi dada nos resultados da pesquisa, de modo que eles não precisavam acessar o artigo. Estávamos atendendo as necessidades dos usuários no início do processo de busca, o que é fantástico.

Você realmente precisa de dados quantitativos e qualitativos para entender verdadeiramente todas as maneiras pelas quais os usuários usam seu produto. Ter um ou outro pode pintar uma imagem pouco clara.

Mel: Em que tipo de coisas você pensa quando pensa em relevância?

Dan: Este é um tópico complicado. A abordagem fundamental pressupõe que você pode dividir a relevância em uma equação que agrega diferentes fatores e, em seguida, produz resultados que são “os mais relevantes”. Isso claramente não será o caso sempre. Se eu procurasse por “Kennedy”, eu poderia estar buscando oaeroporto, o presidente, John F. Kennedy Jr. ou o senador Ted Kennedy. Não existe um único “resultado mais relevante” correto para esta consulta.

Há uma multiplicidade de fatores – costumávamos usar algo chamado tf-idf [term frequency—inverse document frequency] para descobrir o que exibir e em que ordem. Tf-idf significa “frequência de termo–inverso da frequência nos documentos”, que combina medidas de quantas vezes as palavras são mencionadas em um artigo com medidas de quantas vezes são mencionadas em todo o site.

Então, se eu fosse procurar por “Olimpíadas de Sóchi”. A palavra “Sóchi” é relativamente rara, mas a palavra “Olimpíadas” é muito mais comum. O mecanismo sabe que a parte “Sóchi” da consulta é provavelmente a mais importante e é assim que encontra o artigo das Olimpíadas de Inverno de 2014 em oposição a outros artigos sobre as Olimpíadas.

Mel: Parece que isto seria desafiador para palavras que têm múltiplos significados.

Dan: É verdade e isto é algo em que pensamos muito. Se você for ao Wikidata eprocurar por “life” na página de busca, obterá resultados de pesquisa como Ciências da Vida, a Encyclopedia of Life, o periódico Life da União Internacional de Bioquímica e Biologia Molecular, Ciências da Vida Celular e Molecular, a expressão “slice of life”, o videogame Half-Life, entre outros, mas você não obterá o item sobre o conceito de algo que vive.

Isto se deve à relação entre frequência do termo e inverso da frequência nos documentos. Muitas das páginas que acabei de mencionar têm o termo “life” nelas. Por coincidência, o item sobre a vida em si não tem a palavra “vida” nele com muita frequência. O que significa que o resultado real para “vida” está longe, porque não parece tão importante quanto os outros, ainda que seja!

Mel: Imagino que deve haver maneiras de mitigar isto.

Dan: Mudamos para um algoritmo Okapi BM25 no lugar do tf-idf – é um algoritmo mais novo. BM significa “best match” [“melhor correspondência” em português]. Basicamente, o que o BM25 diz é que não há uma enorme diferença entre um termo mencionado 1 mihão de vezes e um termo mencionado 10 mil vezes. Usar o novo algoritmo e mudar para uma forma mais precisa de armazenar dados sobre artigos ajudou muito com o problema com o termo “Kennedy”, pois está prestando menos atenção à frequência com que a palavra Kennedy aparece em outras páginas, já que ela é usada muitas vezes nesta página. Antes o presidente John Fitzgerald Kennedy estava na segunda página de resultados e agora ele aparece em 7º ou 8º lugar na lista de resultados.

Mel: O site usa o BM25 em todos os lugares?

Dan: Usamos o BM25 em todas as Wikipédias que não estão em chinês, tailandês, japonês e outras línguas em que não há espaço entre as palavras de uma frase. Testamos o BM25 e ele causou uma queda maciça na taxa de zero resultado nos idiomas sem espaço entre as palavras, devido a um bug na forma como as palavras são divididas ou tokenizadas. Descobrimos que o algoritmo não estava funcionando nesses idiomas e nós o implementamos em outros lugares. Esperamos que possamos resolver este problema em línguas sem espaço entre as palavras no futuro.

Mel: Qual foi a coisa mais inesperada que você aprendeu através da pesquisa?

Dan: Há uma cauda surpreendentemente longa quando se trata da frequência das buscas.

Uma das primeiras coisas que os membros da nossa comunidade nos pediram é “Por que vocês não fazem uma lista das consultas mais populares que dão zero resultado para que os editores possam fazer redirecionamentos ou encontrar artigos que precisam ser escritos?”

Os dados não são tão úteis, como se descobriu. Na nossa análise do problema, algumas das pesquisas de resultado zero mais populares eram “{searchTerms}” e “search_suggest_query” e pensamos que são bugs em determinados navegadores ou sistemas automatizados de busca.

Também descobrimos que muitas pessoas estavam procurando por DOIs, identificadores de objetos digitais usados por pesquisadores acadêmicos. A maioria das consultas com DOI obtém zero resultado. Tivemos que nos perguntar “O que as pessoas estão fazendo?” E descobrimos que havia uma ferramenta que permitia aos pesquisadores colocarem um DOI e descobrirem se seu artigo havia sito citado na Wikipédia. Claro, a maioria dos trabalhos que as pessoas estão procurando não está na Wikipédia, por isso é realmente correto obter zero resultado!

Quando comecei na pesquisa, acreditávamos que os usuários nunca deviam obter zero resultado ao pesquisarem. Mas verifica-se que muitas pessoas estavam procurando por coisas que não temos e é correto oferecer zero resultado.

Mel: Eu sei que a Wikipédia tem uma política de privacidade muito rígida e não rastreia quase nada. O que nós coletamos?

Dan: Nós de fato rastreamos algumas informações. Temos o registro de eventos que diz coisas como “este usuário com este IP clicou no 4º resultado e demorou tanto tempo para darmos estes resultados” e assim por diante. Mas, é a política da Fundação Wikimedia excluir todas as informações de identificação pessoal após 90 dias. Nós estamos realmente decididos a proteger a privacidade do usuário.

Se você não quiser que as informações sobre os usuários sejam reveladas, a única coisa que você pode fazer é não gravar estes dados. Se recebermos intimações, somos legalmente obrigados a cumpri-las. Mas, se não possuirmos esta informação, obviamente, não podemos entregá-la! Portanto, é a maneira mais segura de proteger a privacidade dos usuários. Podemos descobrir algumas coisas pelo idioma, mas não pela geografia.

Mas às vezes é complicado. Um bom exemplo disso no alfabeto latino é o termo de pesquisa “paris”. Em que idioma isto está? Em inglês? Em francês? Se eu procurar “cologne”, é uma cidade da Alemanha, mas também “perfume” em inglês. Este é um exemplo de relevância. Um usuário que procura por “cologne” está buscando uma fragrância ou uma cidade? Essas coisas tornam muito difícil entregar bons resultados de pesquisa, mas continuamos tentando e tornando estes resultados melhores a cada dia.


Melody Kramer é gerente sênior de desenvolvimento de audiência e colaboradora na área de comunicações da Fundação Wikimedia. Dan Garry é chefe de gerenciamento de produto e colaborador nas áreas de produto de descobertas e análise na Fundação Wikimedia.

Imagem: Needle in a haystack painting.jpg (do quadro As Respigadoras, de Jean-François Millet), CC0, via Wikimedia Commons.

*Este texto foi originalmente publicado no blog da Fundação Wikimedia em 14 de março de 2017. Publicado em português no Blog Traço de Ciência.

Wiki
<ref "wmbr1282">João Alexandre Peschanski (21 de outubro de 2017). [https://wp.me/p5zA2r-kG Ajudando você a encontrar a agulha no palheiro: construindo as funções de busca da Wikipédia] Wikimedia no Brasil. Visitado em 14 de dezembro de 2017 </ref>
ABNT
Ajudando você a encontrar a agulha no palheiro: construindo as funções de busca da Wikipédia. In: Website Wikimedia no Brasil. São Paulo: Wikimedia no Brasil, 2017. Disponível em: <https://wp.me/p5zA2r-kG>. Acesso em: 14 dez. 2017.

Seu e-mail (obrigatório)

Erro encontrado neste post

  • Ajudando você a encontrar a agulha no palheiro: construindo as funções de busca da Wikipédia é um artigo sobre Blog Wikimedia, Busca
  • Diariamente, milhões de termos são inseridos no mecanismo de busca da Wikipédia. O que retorna quando as pessoas procuram estes termos é em grande parte devido ao trabalho da equipe de descobertas da Fundação Wikimedia, que visa “tornar a riqueza do conhecimento e do conteúdo nos projetos Wikimedia facilmente detectáveis”. A equipe de descobertas é responsável por garantir […]
  • Blog Wikimedia, Busca
  • Projetos
  • Wikimedia no Brasil
  • http://wikimedianobrasil.org/wp/wp-content/uploads/2016/08/Wikipedia_editing_workshop_-_Faculdade_Cásper_Líbero_02.jpg