Anonimizacja dokumentów – Bluur vs NASK

Anonimizacja poufnych informacji w dokumentach ma kluczowe znaczenie dla ochrony prywatności i zapewnienia zgodności z przepisami. Dzisiaj porównamy Bluur z narzędziem do anonimizacji NASK. W tym porównaniu analizujemy wydajność obu narzędzi w około 90 różnych dokumentach, takich jak dowody osobiste, dowody rejestracyjne i rachunki zysków.

Patryk Gabryś
Bluur® Team

Spis treści

W tym artykule:

Badane metryki

Czas: Czas przetwarzania każdego dokumentu w sekundach.

Znaleziono: Liczba poprawnie zidentyfikowanych wrażliwych danych.

Pominięte: Liczba wrażliwych danych pominiętych przez oprogramowanie.

Nieprawidłowe: Nieprawidłowe wykrycia, w których oznaczono dane niewrażliwe.

Podsumowanie badań z 90 dokumentów

Zbiór danych obejmuje różne typy dokumentów o różnym poziomie złożoności.

Poniżej znajduje się podsumowanie wyników Bluur i NASK na wszystkich dokumentach.

Dokładność znalezionych danych

Bluur miał wyższy wskaźnik wykrywalności we wszystkich typach dokumentów, szczególnie w przypadku bardziej złożonych dokumentów.

Bluur: Skutecznie wykrywał średnio 85-100% wrażliwych danych na dokument, wykazując wysoką wydajność w prostych i złożonych dokumentach.

NASK: Wykrył średnio 40-60% wrażliwych danych na dokument, często pomijając kluczowe dane w bardziej złożonych formularzach.

Dane nieznalezione

Bluur: Pominięto od 0% do 10% elementów we wszystkich dokumentach, utrzymując ryzyko ujawnienia wrażliwych danych na stosunkowo niskim poziomie.

NASK: Pominięto od 10% do 45% elementów, przy znacznie wyższym wskaźniku pominięć w złożonych dokumentach.

Nieprawidłowe wykrycia

Nieprawidłowe wykrycia to fałszywe znalezienia lub procent elementów niewrażliwych, które zostały nieprawidłowo oznaczone.

Bluur: Nieprawidłowe wykrycia wahały się od 0% do 5%.

NASK: Błędne wykrycia wahały się od 5% do 20%.

Czas przetwarzania

Czas mierzony od przesłania pliku do sklasyfikowania dokumentu.

Bluur: Średni czas klasyfikacji dokumentu wynosił 1 sekundę, przy czym kilka bardziej złożonych dokumentów zajmowało do 2 sekund.

NASK: Średni czas klasyfikacji danych wynosił 2 sekundy, przy czym nieliczne bardziej złożone dokumenty zajmowały od 5 do 10 sekund oczekiwania.

Średnie statystyki dla grup dokumentów Bluur

Znalezione elementyDane nieznalezioneNieprawidłowe wykryciaCzas klasyfikacji dokumentu
Personal document91%9%3%1 sekunda
Faktura97%3%4%1 sekunda
Rachunki93%7%2%1 sekunda
Korespondencja92%8%7%1 sekunda

Średnie statystyki dla grup dokumentów NASK

Znalezione elementyDane nieznalezioneNieprawidłowe wykryciaCzas klasyfikacji dokumentu
Personal document62%38%16%2 sekundy
Faktura32%68%12%2 sekundy
Rachunki10%90%4%3 sekundy
Korespondencja48%52%10%3 sekundy

Przykładowe dokumenty użyte w badaniu

Polski dowód osobisty

Klasyfikacja Bluur
Klasyfikacja NASK

Bluur sklasyfikował 10 obszarów jako dane wymagające anonimizacji. Obejmują one dane osobowe, daty ważności i podpis.

Nask sklasyfikował 7 obszarów z błędną klasyfikacją narodową i nie znaleziono zarówno podpisu, jak i mniejszego zdjęcia posiadacza.

Oba narzędzia sklasyfikowały dokument w około 1 sekundę.

Rachunek zysków i strat

Klasyfikacja Bluur
Klasyfikacja NASK

Bluur sklasyfikował 70 obszarów jako dane wymagające anonimizacji. Obejmują one dane osobowe, kwoty pieniężne i szczegóły dotyczące firmy.

Nask sklasyfikował 18 obszarów z danymi adresowymi i firmowymi oraz nazwiskami i podpisami jako pojedynczy blok na dole dokumentu. Obszary sklasyfikowane nieprawidłowo zawierają słowo „sporządziła” jako osoba

Bluur sklasyfikował dokument w około 1 sekundę, a NASK zrobił to w 3 sekundy.

Zaświadczenie o wyborze wójta

Klasyfikacja Bluur
Klasyfikacja NASK

Bluur sklasyfikował 16 obszarów jako dane wymagające anonimizacji. Obejmują one dane osobowe, oficjalne pieczęcie i pisemne podpisy.

Nask sklasyfikował 5 obszarów, klasyfikując tylko daty i jedną nazwę. Brakowało miasta wymienionego w tekście kilka razy, a także pisemnych podpisów z pieczęcią.

Bluur sklasyfikował dokument w około 1 sekundę, a NASK zrobił to w 2 sekundy.

Porównanie wydajności Bluur i NASK

Bluur jest o wiele lepszy niż NASK w klasyfikowaniu dokumentów porównując dokładność, ilość błędów, jak i czas klasyfikacji dokumentów PDF posiadających do 3 stron. Główną atrakcją jest zdolność Bluura do wykrywania pisma ręcznego i zawartości tabeli, podczas gdy NASK zmaga się z bardzo prostymi dokumentami zawierającymi czcionki mechaniczne. Czasy klasyfikacji Bluur dają jeszcze większą przewagę nad NASK, gdy mamy do czynienia z danymi o większych rozmiarach.

Patryk Gabryś
Bluur® Team

Wiedza

Przeglądaj więcej artykułów!

Szukasz bardziej szczegółowych informacji i głębszych spostrzeżeń? Nasz blog jest wypełniony obszernymi artykułami, które dotykają tematu anonimizacji danych i dokumentów.

Ostatnie Artykuły

Anonimizacja dokumentów z Bluur®

Wykorzystaj moc precyzji opartej na sztucznej inteligencji i usprawnij proces obsługi dokumentów już dziś.