Büyük Metin Verilerinde Tanımlayıcı Bilgilerin Hesaplamalı Yöntemlerle Anonimleştirilmesi

Kuruluş: Pew Research Center

Araçlar: R, Python, NLP libraries, Hugging Face, transformers

Etiketler: data privacy, NLP, text analysis

Bu blog yazısı, araştırmacıların yapılandırılmamış metin verilerinden — ABD K-12 okul bölgelerine ait 1.314 misyon ifadesinden oluşan bir veri setinden — tanımlayıcı bilgileri, kamuya açık yayından önce hesaplamalı yöntemlerle nasıl temizlediğini açıklamaktadır. Yapılandırılmış veri setlerinde bölge adları gibi tanımlayıcıları kaldırmak görece kolaydır; ancak serbest biçimli metinlerde isimler veya adresler için sabit etiketler olmadığından bu işlem çok daha güçtür. Bu sorunu çözmek için araştırmacılar üç farklı tekniği bir arada kullandı:

Bilinen bölge adlarının harici bir listeyle tam eşleştirilmesi,
Kuruluş adlarını tespit etmek için önceden eğitilmiş modellerle Adlandırılmış Varlık Tanıma (NER), ve
“Okul” veya “bölge” kelimelerinden önce gelen büyük harfli sözcük kalıplarını tespit etmek için düzenli ifadeler.

Her yaklaşımın tek başına sınırlılıkları bulunduğundan, doğru anonimleştirilen terimleri en üst düzeye çıkarırken hatalı pozitif sonuçları en aza indirmek amacıyla bu teknikler birlikte kullanıldı.

Katkım

Büyük metin korpuslarından kişisel tanımlayıcı bilgileri tespit etmek ve kaldırmak için ölçeklenebilir NLP yaklaşımları geliştirdim ve değerlendirdim; bu yöntemlerin araştırma şeffaflığı ve veri gizliliği açısından sonuçlarını kamuya yönelik bir blog yazısında aktardım.