POW! #4 – czytanie z ekranu

Miniaturka wpisu „POW! #4 – czytanie z ekranu”. Na grafice dwie ikonki plików, graficznego i tekstowego. Pomiędzy nimi ikonki dwóch programów: NormCap i Frog. Niebieska strzałka prowadzi od pliku graficznego do programów, a druga od programów do pliku graficznego. Pod tym brązowe tło z jakimś tekstem napisanym na maszynie. Na górze miniaturki fioletowy pasek z napisem „Programy Obadania Warte #4”.
,

Dzisiaj w Programach Obadania Wartych mam dla was dwie aplikacje, które pozwalają na skopiowanie tekstu z dowolnego miejsca na ekranie.

Po co to komu? Ja używam przede wszystkim do dodawania opisu obrazków wrzucanych na socjale oraz na niniejszego bloga. W przypadku zrzutów ekranu, memów czy zdjęć znaków i tablic informacyjnych prościej jest użyć apki, niż ręcznie przepisywać tekst.

Zacznę od krótkiego opisu obu programów, a potem porównam rezultaty ich pracy.

NormCap

Na początek program, którego używam dość długo i na tyle często, że fakt niewspierania Waylanda blokował mi porzucenie X11, ale na szczęście od niedawna działa bez problemu z nowszym systemem.

UI NormCap jest minimalne – po odpaleniu apka robi zrzut ekranu i wyświetla go, a użytkownik może zaznaczyć fragment z tekstem do odczytania, po czym tekst (o ile zostanie rozpoznany) zostaje skopiowany do schowka i to wszystko. Jedynym dodatkowym elementem jest menu rozwijane po kliknięciu zębatki w prawym górnym rogu, które pozwala m.in. na zmianę języka oraz formatowania skopiowanego tekstu.

Skan karty zabytku: gęsty tekst napisany na maszynie do pisania na pożółkłym papierze. Karta jest podzielona na dwie kolumny. Lewa jest węższa i podpisana „12. Autorzy, historia obiektu, określenia stylu”. Prawa część to „Opis (sytuacja, materiał i konstrukcja, rzut, bryła, elewacje, wnętrze, wyposażenie, instalacje)”. Całość otoczona jest różową obwódką selekcji z programu NormCap. W prawym górnym rogu ikona zębatki z rozwiniętym menu.

NormCap ma wersje dla Linuksa, macOS i Windows do pobrania ze strony programu, albo Flathuba.

Frog

Ten program to moje całkiem niedawne odkrycie, znalezione w RSS Flathuba. W przeciwieństwa do poprzedniej aplikacji ma bardziej tradycyjny interfejs. Po odpaleniu możemy wybrać zrobienie zrzutu ekranu, albo wczytanie obrazka przez otwarcie pliku lub wklejenie ze schowka. Pierwsza opcja odpala dodatkowy dialog, pozwalający na wybór między zrzutem całego ekranu, pojedynczego okna lub tylko zaznaczenia. Po zrzucie wyskakuje kolejne pytanie, tym razem o udostępnienie go Frogowi, po czym wreszcie dostajemy okno z tekstem, który możemy skopiować.

Frog ma wyłącznie wersję dla Linuksa, do pobrania z Flathuba.

Porównanie rezultatów

Oba programy przetestuję na tych samych materiałach, dobrze reprezentujących moje typowe zastosowania: mem z kotem, znak drogowy, tablica informacyjna i wypełniona na maszynie karta z serwisu zabytek.pl.

Mem

Zaczynam od mema, bo myślę, że będzie najłatwiejszy od odczytania. Wyraźnie widoczny czarny tekst na białym tle nie powinien sprawić problemów testowanym apkom.

Mem podzielony na dwie części. Na lewej widziana z boku głowa kota, a na nią napis Purrs softly, Poops in a box, Smells clean. Po prawej głowa dziecka w podobnej pozycji z napisem Cries loudly, Poops in pants, Smells stinky.

NormCap:

Purrs softly Cries loudly
Poops in a box Poops in pants
Smells clean Smells stinky

Frog:

Purrs softly Cries loudly
Poops in a box Poops in pants
Smells clean Smells stinky

Tak jak się spodziewałem, żadnych problemów.

Znak

Tym razem będzie troszkę trudniej, czytamy treść ze zdjęcia znaku.

Rower oparty o przydrożny znak z napisem „Województwo Wielkopolskie, Powiat Pilski, Gmina Łobżenica”.

NormCap:

Województwo
Wielkopolskie
‘ Powiat
Pilski
Gmina
_ Łobżenica

Frog:

Województwo
Wielkopolskie
! Powiat
Pilski
Gmina
Łobżenica

Również bezproblemowo, nie licząc interpretowania zarysowań na znaku jako części napisu.

Tablica informacyjna

Zaznaczam cały obszar tablicy, łącznie z tytułem używającym pisma gotyckiego.

Tablica informacyjna. Na górze napis gotyckim krojem pisma „Bitwa pod Dąbkami - 1431 r.” Poniżej na czerwonej wstędze biały orzeł. Pod wstęgą napis „Tutaj, na polach wsi Dąbki nad rzeką Orla w wigilię święta Podwyższenia Krzyża Św. 13 września 1431 r. chłopi wielkopolscy, głównie z Krajny pod dowództwem Jana Jarogniewskiego, Dobrogosta Koleńskiego i Bartosza III Wezemborga, po odśpiewaniu hymnu "Bogurodzica" rozgromili oddział 600 konnych i 500 pieszych Krzyżaków dowodzonych przez marszałka inflanckiego Wernera von Nesselrode zdobywając cztery chorągwie, tabory i jeńców.”, a pod nim rysunki czterech flag.

NormCap:

Tutaj, na polach wsi Dąbki nad rzeką Orla
w wigilię święta Podwyższenia Krzyża Św. 13 września 1431 r. chłopi wielkopolscy, głównie z Krajny pod dowództwem Jana Jarogniewskiego, Dobrogosta Koleńskiego i Bartosza III Wezemborga, po odśpiewaniu hymnu “Bogurodzica” rozgromili oddział 600 konnych i 500 pieszych Krzyżaków dowodzonych przez marszałka inflanckiego Wernera von Nesselrode zdobywając cztery chorągwie, tabory i jeńców.

Frog:

Tutaj, na polach wsi Dąbki nad rzeką Orla
w wigilię święta Podwyższenia Krzyża Św.
13 września 1431 r. chłopi wielkopolscy, głównie z Krajny
pod dowództwem Jana Jarogniewskiego, Dobrogosta Koleńskiego i Bartosza Ill
Wezemborga, po odśpiewaniu hymnu “Bogurodzica” rozgromili oddział 600 konnych
i 500 pieszych Krzyżaków dowodzonych przez marszałka inflanckiego Wernera von
Nesselrode zdobywając cztery chorągwie, tabory i jeńców.

Żaden z programów nie odczytał nagłówka, cała reszta poszła bezbłędnie, przy czym Frog zachował podział linii oryginału, co czasem może być zaletą.

Karta zabytku

Nie chciałem porównywać odczytania całości karty, więc ograniczyłem się dwóch fragmentów. Na początek lewa kolumna. Tekst jest wpisany z brakującymi spacjami po znakach interpunkcyjnych, miejscami wchodzi na linię oddzielającą pola, w jednym miejscu błąd jest poprawiony długopisem, więc zakładam, że będzie trudniej.

Karta zabytku z pierwszej grafiki podpiętej do tego wpisu.

NormCap:

Pierwsza wzmianka o wsi Olszewce p pochodzi sprzed 1578r.Wchodziza ona w skład starostwa nakielskiego jako
krélewszczyzna.W 1771r wieś należał do Kacpra Rogalińskiego.W 2 poł.XIX |na obszarze wsi Olszewka powstały dwa folwarki niemieckie.Na terenie jednego z nich,należącego do Herman na Birschela,został wybudowany dom mieszężkalny właściciela,zwany dale dworem,a przez mieszkańców Olszewki pałacem.Na przełomie XIX/XXw do dwo ru została dobudowana oficyna.
Do 1945r dwór należał do Waltera. Birschela.W latach 1945-1949 w dwo rze mieściła się szkoła rolnicza,a od 1949r do chwili obecnej jest u- żytkowany jako budynek administra- cyjny przez Rolniczą Spółdzielnię Produkcyjną.W dworze mieszkają rów- nież dwie rodziny,jedna w oficynie na piętrze a druda we dworze na par terze,Architektura dworu nie posia określonego styluę

Frog:

Pierwsza wzmianka o wsi Olszewce p4«
pochodzi sprzed 1578r.Wchodziła ona
w skład. starostwa nakielskiego jako
królewszczyzna.i 1771r wieś należał:
do Kacpra Rogalińskiego.W 2 poł.XIX
na obszarze wsi Olszewka powstały
dwa folwarki niemieckie.Na terenie
jednego z nich,należącego do Herman
na Birschela,został wybudowany dom
mieszézkalny właściciela,zwany dale
dworem,a przez mieszkańców Olszewki
patacem.Na przełomie XIX/XXw do dwo
ru została dobudowana oficyna.

Do 1945r dwór należał do Waltera.

Birschela.W latach 1945-1949 w dwo
rze mieściła się szkoła rolnicza,a
od 1949r do chwili obecnej jest u-
żytkowany jako budynek administra-
cyjny przez Rolniczą Spółdzielnię
Produkcyjną.W dworze mieszkają rów-
nież dwie rodziny,jedna w oficynie
na piętrze a druda we dworze na par
terze,Architektura dworu nie posiad
określonego stylu$

Mam wrażenie, że Frog odrobinę lepiej poradził sobie z odczytaniem („Wchodziła” vs „Wchodziza”), ale wygodniejszy do dalszej obróbki jest tekst wygenerowany przez NormCap.

A teraz fragment z wymiarami elementów konstrukcyjnych, wyglądający na bardziej skomplikowany:

NormCap:

Wymiary eLementéw:krokwie 2/siekapki pochyłe 16/27;miecze 11/19spłatwie
15/20;jętki 16/16zwiatrownice 11/16;podciąg 12/22;zastrzały 18/20;wieszak
15/19grozpora 17/17skleszcze 2×13/22smurtat 10/22.

Frog:

Wymiary elementéw:krokwie Edi Price pochyłe 16/27;miecze 11/19;płatwie
15/20; jetki 16/16;wiatrownice 11/163podciąg 12/22;zastrzały 18/20;wieszak
15/193rozpora 17/173kleszcze 2×13/223murłat 10/22.

Frog lepiej rozpoznał średniki, ale nie mam pojęcia, skąd pojawił się tam jakiś „Edi Price” zamiast „9/15;słupki”, chociaż NormCap też sobie nie poradził z tym fragmentem („2/siekapki”).

Podsumowanie

Jak widać, oba programy mogą bardzo ułatwić przepisywanie tekstu z plików graficznych, zwłaszcza w prostszych wypadkach. Bardziej skomplikowane mogą wymagać poprawek, które i tak mogą być szybsze niż ręczne przepisywanie.

Obie apki radzą sobie podobnie, więc przy wyborze jednej z nich pewnie zdecyduje to, jaki workflow nam bardziej pasuje. Zazwyczaj jestem fanem aplikacji używających Gtk4, ale w tym przypadku interfejs Froga jest po prostu niepotrzebnie rozbudowany. Co prawda pozwala na odczytanie tekstu z pliku graficznego, a nie tylko zrzutu ekranu, a w przypadku screenshotów oferuje dodatkowe opcje, ale przy podobnych rezultatach zajmuje za długo. Dlatego zostanę przy NormCapie podpiętym pod Ctrl+Print Screen.

3 odpowiedzi na „POW! #4 – czytanie z ekranu”

  1. Awatar Robert Drózd

    @silvarerum

    Przy czym posiadaczom windozy warto podpowiedzieć Power Toys i skrót Win+shift+T, który też ładnie rozpoznaje tekst. :)

    https://learn.microsoft.com/en-us/windows/powertoys/text-extractor

  2. Awatar Hoppke
    Hoppke

    Obydwa narzędzia pod spodem korzystają chyba z tego samego silnika (tesseract ocr), więc skuteczność powinna być bardzo zbliżona (no i chyba widać to w testach właśnie)

  3. Awatar rozie

    Dzięki za opis. Korzystam bardzo rzadko i albo biorę coś online, albo jak zwierzę próbuję tesseract. Niekoniecznie z dobrym skutkiem. Ach, gdyby tak jeszcze były pakiety deb…

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *