Badane metryki
Czas: Czas przetwarzania każdego dokumentu w sekundach.
Znaleziono: Liczba poprawnie zidentyfikowanych wrażliwych danych.
Pominięte: Liczba wrażliwych danych pominiętych przez oprogramowanie.
Nieprawidłowe: Nieprawidłowe wykrycia, w których oznaczono dane niewrażliwe.
Podsumowanie badań z 90 dokumentów
Zbiór danych obejmuje różne typy dokumentów o różnym poziomie złożoności.
Poniżej znajduje się podsumowanie wyników Bluur i NASK na wszystkich dokumentach.
Dokładność znalezionych danych
Bluur miał wyższy wskaźnik wykrywalności we wszystkich typach dokumentów, szczególnie w przypadku bardziej złożonych dokumentów.
Bluur: Skutecznie wykrywał średnio 85-100% wrażliwych danych na dokument, wykazując wysoką wydajność w prostych i złożonych dokumentach.
NASK: Wykrył średnio 40-60% wrażliwych danych na dokument, często pomijając kluczowe dane w bardziej złożonych formularzach.
Dane nieznalezione
Bluur: Pominięto od 0% do 10% elementów we wszystkich dokumentach, utrzymując ryzyko ujawnienia wrażliwych danych na stosunkowo niskim poziomie.
NASK: Pominięto od 10% do 45% elementów, przy znacznie wyższym wskaźniku pominięć w złożonych dokumentach.
Nieprawidłowe wykrycia
Nieprawidłowe wykrycia to fałszywe znalezienia lub procent elementów niewrażliwych, które zostały nieprawidłowo oznaczone.
Bluur: Nieprawidłowe wykrycia wahały się od 0% do 5%.
NASK: Błędne wykrycia wahały się od 5% do 20%.
Czas przetwarzania
Czas mierzony od przesłania pliku do sklasyfikowania dokumentu.
Bluur: Średni czas klasyfikacji dokumentu wynosił 1 sekundę, przy czym kilka bardziej złożonych dokumentów zajmowało do 2 sekund.
NASK: Średni czas klasyfikacji danych wynosił 2 sekundy, przy czym nieliczne bardziej złożone dokumenty zajmowały od 5 do 10 sekund oczekiwania.
Średnie statystyki dla grup dokumentów Bluur
Znalezione elementy | Dane nieznalezione | Nieprawidłowe wykrycia | Czas klasyfikacji dokumentu | |
Personal document | 91% | 9% | 3% | 1 sekunda |
Faktura | 97% | 3% | 4% | 1 sekunda |
Rachunki | 93% | 7% | 2% | 1 sekunda |
Korespondencja | 92% | 8% | 7% | 1 sekunda |
Średnie statystyki dla grup dokumentów NASK
Znalezione elementy | Dane nieznalezione | Nieprawidłowe wykrycia | Czas klasyfikacji dokumentu | |
Personal document | 62% | 38% | 16% | 2 sekundy |
Faktura | 32% | 68% | 12% | 2 sekundy |
Rachunki | 10% | 90% | 4% | 3 sekundy |
Korespondencja | 48% | 52% | 10% | 3 sekundy |
Przykładowe dokumenty użyte w badaniu
Polski dowód osobisty
Bluur sklasyfikował 10 obszarów jako dane wymagające anonimizacji. Obejmują one dane osobowe, daty ważności i podpis.
Nask sklasyfikował 7 obszarów z błędną klasyfikacją narodową i nie znaleziono zarówno podpisu, jak i mniejszego zdjęcia posiadacza.
Oba narzędzia sklasyfikowały dokument w około 1 sekundę.
Rachunek zysków i strat
Bluur sklasyfikował 70 obszarów jako dane wymagające anonimizacji. Obejmują one dane osobowe, kwoty pieniężne i szczegóły dotyczące firmy.
Nask sklasyfikował 18 obszarów z danymi adresowymi i firmowymi oraz nazwiskami i podpisami jako pojedynczy blok na dole dokumentu. Obszary sklasyfikowane nieprawidłowo zawierają słowo „sporządziła” jako osoba
Bluur sklasyfikował dokument w około 1 sekundę, a NASK zrobił to w 3 sekundy.
Zaświadczenie o wyborze wójta
Bluur sklasyfikował 16 obszarów jako dane wymagające anonimizacji. Obejmują one dane osobowe, oficjalne pieczęcie i pisemne podpisy.
Nask sklasyfikował 5 obszarów, klasyfikując tylko daty i jedną nazwę. Brakowało miasta wymienionego w tekście kilka razy, a także pisemnych podpisów z pieczęcią.
Bluur sklasyfikował dokument w około 1 sekundę, a NASK zrobił to w 2 sekundy.
Porównanie wydajności Bluur i NASK
Bluur jest o wiele lepszy niż NASK w klasyfikowaniu dokumentów porównując dokładność, ilość błędów, jak i czas klasyfikacji dokumentów PDF posiadających do 3 stron. Główną atrakcją jest zdolność Bluura do wykrywania pisma ręcznego i zawartości tabeli, podczas gdy NASK zmaga się z bardzo prostymi dokumentami zawierającymi czcionki mechaniczne. Czasy klasyfikacji Bluur dają jeszcze większą przewagę nad NASK, gdy mamy do czynienia z danymi o większych rozmiarach.