Vassily Kandinsky , Composition 8 CC Zero [+]

Algoritmos e insultos: Aumentando nossa compreensão sobre o assédio na Wikipédia

Uma colaboração de pesquisa com a incubadora de tecnologia Jigsaw está nos ajudando a entender melhor e explorar soluções técnicas para o assédio na Wikipédia. “O que você precisa entender é que a Wikipédia não é lugar para uma mulher” – Um comentário anônimo na página de um usuário do talk, março de 2015.

Os editores voluntários da Wikipédia coordenam muitos de seus esforços através de discussões on-line em “páginas de discussão” que são anexadas a cada artigo e a cada página de usuário na plataforma. Mas como a citação acima demonstra essas discussões não são sempre colaboração de boa fé e intercâmbio de ideias – elas também são uma rua cheia de assédio e outros comportamentos tóxicos.

O assédio não é exclusivo da Wikipédia, é um problema difundido para muitas comunidades on-line. Uma pesquisa da Pew de 2014 descobriu que 73% dos usuários da Internet testemunharam assédio on-line e 40% vivenciaram pessoalmente. Para entender melhor como os colaboradores dos projetos Wikimedia sofrem assédio, a Wikimedia Foundation realizou uma pesquisa em 2015. Cerca de 38% dos editores entrevistados haviam sofrido alguma forma de assédio e, posteriormente, mais de metade dos contribuintes sentiram uma diminuição na sua motivação para contribuir para os sites Wikimedia no futuro.

No início do ano passado, a Fundação Wikimedia deu início a uma colaboração com a Jigsaw, incubadora de tecnologia da empresa matriz do Google, Alphabet, para entender melhor a natureza e o impacto do assédio na Wikipédia e explorar soluções técnicas. Em particular, temos desenvolvido modelos para a detecção automatizada de comentários tóxicos nas páginas de discussão dos usuários, aplicando métodos de aprendizado de máquina. Estamos usando esses modelos para analisar a prevalência e a natureza do assédio on-line em escala. Esses dados nos ajudarão a criar protótipos de ferramentas para descrever visualmente o assédio, ajudando os administradores a responderem.

Nossa pesquisa inicial se concentrou em ataques pessoais, uma forma flagrante de assédio on-line que geralmente se manifesta como insultos, calúnias, obscenidades ou outras formas de ataques. Para reunir dados suficientes para uma abordagem supervisionada de aprendizado de máquina, coletamos 100.000 comentários em páginas de discussão da Wikipédia em inglês e tivemos 4.000 trabalhadores julgando se os comentários foram assediados em 1 milhão de anotações. Cada comentário foi avaliado por 10 trabalhadores, cujas opiniões foram agregadas e utilizadas para treinar o nosso modelo.

Este conjunto de dados é o maior conjunto de dados anotados publicamente de ataques pessoais que conhecemos. Além desse conjunto rotulado de comentários, estamos lançando um corpus de todos os comentários de 95 milhões de usuários e artigos feitos entre 2001 e 2015. Ambos os conjuntos de dados estão disponíveis no FigShare, um repositório de pesquisa onde os usuários podem compartilhar dados, para apoiar pesquisas futuras.

 

O modelo de aprendizado de máquina que desenvolvemos foi inspirado em pesquisas recentes no Yahoo na detecção de linguagem abusiva. A ideia é usar fragmentos de texto extraídos das edições da Wikipédia e alimentá-los em um algoritmo de aprendizado de máquina chamado regressão logística. Isso produz uma estimativa de probabilidade de uma edição ser um ataque pessoal. Com o teste, descobrimos que um modelo totalmente treinado consegue um melhor desempenho na previsão sobre se uma edição é um ataque pessoal .

Antes deste trabalho, a principal maneira de determinar se um comentário era um ataque ocorria por meio da anotação de uma pessoa, possivelmente um usuário, uma abordagem cara e demorada que só poderia cobrir uma pequena fração das 24.000 discussões que ocorrem na Wikipédia a cada dia. Nosso modelo nos permite investigar cada edição para determinar se é um ataque pessoal. Isso também nos permite fazer perguntas mais complexas sobre como os usuários experimentam o assédio. Algumas das perguntas que pudemos examinar incluem:

  1. Quantas vezes os ataques são moderados? Apenas 18% dos ataques foram seguidos por um aviso ou um bloco do usuário ofensor. Mesmo para usuários que contribuíram com quatro ou mais ataques, a moderação só ocorre para 60% desses usuários.
  2. Qual é o papel do anonimato nos ataques pessoais? Usuários registrados fazem dois terços (67%) dos ataques à Wikipédia em inglês, contradizendo uma suposição generalizada de que os comentários anônimos de contribuintes não registrados são o principal contribuinte para o problema.
  3. Quão frequentes são os ataques de contribuintes regulares ou ocasionais? Editores prolíficos e ocasionais são responsáveis por uma grande proporção de ataques. Enquanto metade de todos os ataques vêm de editores que fazem menos de cinco edições por ano, um terço vem de usuários registrados com mais de 100 edições por ano.

Mais informações sobre como realizamos essas análises e outras questões que investigamos podem ser encontradas em nosso trabalho de pesquisa: Wulczyn, E., Thain, N., Dixon, L. (2017). Ex Machina: Personal Attacks Seen at Scale (to appear inProceedings of the 26th International Conference on World Wide Web – WWW 2017).

Enquanto isso estamos entusiasmados com as contribuições deste trabalho, é apenas um pequeno passo para uma compreensão mais profunda do assédio on-line e encontrar maneiras de evitar isso. Os limites desta pesquisa incluem que ele só olhou ataques pessoais facilmente identificáveis. Os dados são apenas em inglês, por isso o modelo que construímos só compreende inglês. O modelo faz pouco para outras formas de assédio na Wikipédia, por exemplo; não é muito bom em identificar ameaças. Há também coisas importantes que ainda não sabemos sobre o nosso modelo e dadod, por exemplo, há preconceitos não intencionais que foram inadvertidamente aprendidos? Nós esperamos explorar estas edições colaborando mais nesta pesquisa.

Esperamos também que colaborar nesses métodos de aprendizado de máquinas possa ajudar as comunidades on-line a monitorar melhor e abordar o assédio, levando a discussões mais inclusivas. Esses métodos também permitem novas maneiras de pesquisadores abordarem muitas outras questões sobre assédio em escala – incluindo o impacto do assédio na retenção de editores e se certos grupos são desproporcionalmente silenciados por assediadores.

Combater o assédio on-line, assim como defini-lo, é um esforço da comunidade. Se você está interessado ou quer ajudar, você pode entrar em contato conosco e aprender mais sobre o projeto em nossa página wiki. Ajude-nos a marcar mais comentários através da nossa campanha wikilabels.

*Por Ellery Wulczyn, Fundação Wikimedia; Dario Taraborelli, Fundação Wikimedia; Nithum Thain Jigsaw, pesquisador e Lucas Dixon Jigsaw, pesquisador principal.


Publicado originalmente em inglês no Blog Wikimedia. Traduzido para o português no Blog Traço de Ciência.

Wiki
<ref "wmbr1218">João Alexandre Peschanski (27 de julho de 2017). [https://wp.me/p5zA2r-jE Algoritmos e insultos: Aumentando nossa compreensão sobre o assédio na Wikipédia] Wikimedia no Brasil. Visitado em 16 de dezembro de 2017 </ref>
ABNT
Algoritmos e insultos: Aumentando nossa compreensão sobre o assédio na Wikipédia. In: Website Wikimedia no Brasil. São Paulo: Wikimedia no Brasil, 2017. Disponível em: <https://wp.me/p5zA2r-jE>. Acesso em: 16 dez. 2017.

Seu e-mail (obrigatório)

Erro encontrado neste post

  • Algoritmos e insultos: Aumentando nossa compreensão sobre o assédio na Wikipédia é um artigo sobre assédio, Blog Wikimedia
  • Uma colaboração de pesquisa com a incubadora de tecnologia Jigsaw está nos ajudando a entender melhor e explorar soluções técnicas para o assédio na Wikipédia. “O que você precisa entender é que a Wikipédia não é lugar para uma mulher” – Um comentário anônimo na página de um usuário do talk, março de 2015. Os […]
  • assédio, Blog Wikimedia
  • Wikimedia
  • Wikimedia no Brasil
  • http://wikimedianobrasil.org/wp/wp-content/uploads/2015/01/Vassily_Kandinsky_1923_-_Composition_8_huile_sur_toile.jpg