Polish Flag

Instrukcja obsługi programu OCR Translator

Copyright © 2025 Tomasz Kamiński
Ostatnia aktualizacja: 26 czerwca 2025 r.

Główny interfejs OCR Translator

Spis treści

  1. Wprowadzenie
  2. Pierwsze kroki
  3. Interfejs główny
  4. Ustawianie obszarów tłumaczenia
  5. Konfiguracja ustawień
  6. Metody tłumaczenia
  7. Skróty klawiszowe
  8. Rozwiązywanie problemów
  9. Porady i najlepsze praktyki

Wprowadzenie

OCR Translator to program komputerowy, który automatycznie przechwytuje tekst z dowolnego fragmentu ekranu, przeprowadza optyczne rozpoznawanie znaków (OCR) i tłumaczy tekst w czasie rzeczywistym. Dzięki ruchomym oknom nakładek tłumaczenie można umieścić w dowolnym miejscu na ekranie, przez co aplikacja doskonale nadaje się do tłumaczenia gier, filmów, plików PDF lub dowolnych programów zawierających tekst, którego nie da się łatwo skopiować i wkleić.

Pierwsze kroki

Wymagania

Przed rozpoczęciem korzystania z OCR Translator sprawdź, czy system spełnia następujące wymagania:

Pierwsze uruchomienie

  1. Uruchom OCR Translator przez wykonanie skryptu main.py lub pliku wykonywalnego, jeśli korzystasz z wersji skompilowanej.
  2. Przy pierwszym uruchomieniu aplikacja ładuje się z domyślnymi ustawieniami, a oba obszary (źródłowy i docelowy) będą ukryte.
  3. Przed rozpoczęciem tłumaczenia musisz:
  4. Przycisk Start włącza proces tłumaczenia i automatycznie wyświetla okno tłumaczenia.
  5. Przycisk Stop wyłącza proces tłumaczenia i automatycznie ukrywa okno tłumaczenia.
  6. Widoczność okna tłumaczenia można przełączać ręcznie w dowolnym momencie za pomocą skrótu Alt+2.

Interfejs główny

Interfejs główny jest podzielony na cztery zakładki:

Zakładka Start

Zakładka Start

  1. Wybierz obszar źródłowy (OCR) – określ obszar, z którego tekst będzie przechwytywany.
  2. Wybierz obszar tłumaczenia – określ, gdzie ma się pojawić tłumaczenie.
  3. Start/Stop – włącz proces tłumaczenia.
  4. Pokaż lub ukryj okno źródłowe – przełącz widoczność obszaru przechwytywania tekstu źródłowego.
  5. Pokaż lub ukryj okno tłumaczenia – przełącz widoczność obszaru tłumaczenia.
  6. Wyczyść bufor tłumaczenia – usuń tłumaczenia przechowywane w pamięci, aby wymusić ponowne tłumaczenie.
  7. Wyczyść dziennik debugowania – wyczyść dziennik zdarzeń aplikacji.
  8. Wyłącz dziennik debugowania – wyłącz rejestrowanie zdarzeń w pliku w celu poprawy wydajności.
  9. Skróty klawiszowe – lista dostępnych skrótów klawiszowych.
  10. Status – aktualny stan aplikacji.

Zakładka Ustawienia

Zakładka Ustawienia

Tutaj można skonfigurować:

  1. Model tłumaczenia – wybierz spośród różnych modeli tłumaczeń.
  2. Język źródłowy – język źródłowy i rozpoznawany przez OCR (tylko DeepL i Google Translate).
  3. Język docelowy – język tłumaczenia (tylko DeepL i Google Translate).
  4. Klucz API – tylko w przypadku DeepL lub Google Translate.
  5. Jakość – wybierz między opcjami Klasyczna (szybsze tłumaczenie) lub Nowej generacji (potencjalnie lepsza jakość) (tylko DeepL).
  6. Opcje MarianMT – lokalne tłumaczenie neuronowe (tylko model MarianMT).
  7. Ścieżka do Tesseract – ścieżka do pliku wykonywalnego Tesseract OCR.
  8. Interwał skanowania (ms) – jak często ma być przechwytywany ekran.
  9. Czas wyświetlania tłumaczenia (s) – czas, po którym tłumaczenie zostanie usunięte, gdy zniknie tekst źródłowy.
  10. Próg stabilności tekstu – liczba identycznych odczytów wymaganych przed tłumaczeniem.
  11. Próg pewności OCR – minimalna pewność dla uwzględnienia tekstu wykrytego przez OCR.
  12. Tryb przetwarzania obrazu – sposób przetwarzania obrazów przez OCR.
  13. Debugowanie OCR – opcja wyświetlania obrazów debugowania i tekstu na zakładce Ustawienia.
  14. Przycisk Podgląd – otwiera okno podglądu OCR.
  15. Usuń śmieci na końcu – opcja usuwania tekstu po ostatnim znaku interpunkcyjnym.
  16. Opcje wyglądu – kolory i rozmiary czcionek dla nakładek.
  17. Opcje buforowania do plików – ustawienia włączania/wyłączania buforowania w przypadku DeepL i Google Translate.

Podgląd OCR

Okno podglądu OCR

Kliknięcie przycisku Podgląd w zakładce Ustawienia otwiera osobne okno Podgląd OCR. To okno wyświetla:

  1. Przetworzony obraz (skala 1:1) – wstępnie przetworzony obraz używany do rozpoznawania OCR.
  2. Rozpoznany tekst – tekst obecnie rozpoznawany przez silnik OCR.

To okno podglądu jest szczególnie przydatne do precyzyjnego dostrajania ustawień OCR i zrozumienia, dlaczego niektóre teksty mogą nie być rozpoznawane prawidłowo. Można je przesuwać i zmieniać jego rozmiar niezależnie od głównego okna aplikacji.

Zakładka Debugowanie

Zakładka Debugowanie

Ta zakładka pokazuje:

  1. Obraz oryginalny – nieprzetworzony przechwycony obraz.
  2. Obraz przetworzony – obraz po przetworzeniu przez OCR.
  3. Wyniki OCR – tekst rozpoznany przez OCR.
  4. Dziennik aplikacji – bieżący dziennik zdarzeń aplikacji.
  5. Zapisz obrazy OCR i Odśwież dziennik – przyciski do zapisywania obrazów debugowania i odświeżania dziennika.

Zakładka Informacje

Ta zakładka zawiera podstawowe informacje o aplikacji.

Ustawianie obszarów tłumaczenia

Wybór obszaru źródłowego

  1. Kliknij przycisk Wybierz obszar źródłowy (OCR).
  2. Ekran zostanie przyciemniony i zobaczysz czarny krzyżyk.
  3. Kliknij i przeciągnij, aby zaznaczyć obszar zawierający tekst, który chcesz przetłumaczyć.
  4. Po zaznaczeniu półprzezroczyste okno nakładki pojawi się w wybranym miejscu.
  5. Ta nakładka będzie domyślnie ukryta przy uruchomieniu aplikacji.
  6. Nakładkę można:

Wybór obszaru docelowego

  1. Kliknij przycisk Wybierz obszar tłumaczenia.
  2. Ekran zostanie przyciemniony i zobaczysz czarny krzyżyk.
  3. Kliknij i przeciągnij, aby zaznaczyć miejsce, w którym chcesz, aby pojawiło się tłumaczenie.
  4. Po zaznaczeniu półprzezroczyste okno nakładki pojawi się w wybranym miejscu.
  5. Ta nakładka będzie domyślnie ukryta przy uruchomieniu aplikacji.
  6. Nakładkę można:

Konfiguracja ustawień

Konfiguracja tłumaczenia

  1. Model tłumaczenia:

  2. Język źródłowy:

  3. Język docelowy:

Konfiguracja OCR

  1. Ścieżka do Tesseract:

  2. Tryb przetwarzania obrazu:

  3. Tryb adaptacyjny:

    Po wybraniu trybu przetwarzania Adaptacyjny system odblokowuje zaawansowane możliwości progowania adaptacyjnego, które doskonale sprawdzają się w trudnych środowiskach graficznych. Ten tryb jest szczególnie cenny w przypadku kłopotliwych warunków, takich jak małe napisy nałożone na dynamiczne, migające tła o stale zmieniających się kolorach i oświetleniu.

    W przeciwieństwie do trzech standardowych trybów przetwarzania tryb adaptacyjny zapewnia dwa regulowane parametry, które pozwalają na precyzyjne dostrojenie procesu rozpoznawania OCR:

    Ten tryb okazuje się bezcenny, gdy standardowe przetwarzanie nie zapewnia wiarygodnych wyników. Eksperymentując z tymi dwoma parametrami, często można osiągnąć lepsze rozpoznawanie OCR niż w przypadku gotowych trybów, szczególnie gdy tła zawierają ruchome elementy, zmienne oświetlenie lub złożone wzory wizualne, które w przeciwnym razie przeszkadzałyby w wykrywaniu tekstu.

    Aby uzyskać optymalne rezultaty, zacznij od umiarkowanych wartości (Rozmiar bloku: 11, Wartość C: 2) i dostosowuj je do konkretnej treści. Zwiększ Rozmiar bloku dla większego tekstu lub stopniowych zmian oświetlenia i zmieniaj Wartość C, aby zachować równowagę między przechwytywaniem całego tekstu a rozpoznawaniem go tam, gdzie go nie ma.

  4. Próg pewności OCR:

  5. Próg stabilności tekstu:

  6. Debugowanie OCR:

  7. Usuń śmieci na końcu:

Ustawienia wydajności

  1. Interwał skanowania (ms):

  2. Czas wyświetlania tłumaczenia (s):

  3. Wyczyść bufor tłumaczenia:

  4. Opcje buforowania do plików (tylko usługi tłumaczenia za pomocą API):

  5. Zapisywanie zdarzeń w dzienniku:

Ustawienia wyglądu

  1. Kolor obszaru źródłowego – kolor tła nakładki obszaru źródłowego (możliwość dostosowania).
  2. Kolor obszaru tłumaczenia – kolor tła nakładki tłumaczenia (możliwość dostosowania).
  3. Kolor tekstu tłumaczenia – kolor przetłumaczonego tekstu (możliwość dostosowania).
  4. Rozmiar czcionki okna tłumaczenia – wielkość przetłumaczonego tekstu.

Metody tłumaczenia

MarianMT (lokalny i bezpłatny)

  1. Nie wymaga klucza API – całkowicie bezpłatny w użyciu.
  2. Działa całkowicie offline po pobraniu modeli.
  3. Modele są pobierane automatycznie przy pierwszym użyciu (około 500 MB na parę językową).
  4. Konfiguracja:

Modele MarianMT to otwarte systemy tłumaczenia maszynowego oparte na sieciach neuronowych, które zapewniają całkiem dobrą jakość tłumaczenia. Choć nie dorównują standardom usług premium takich jak DeepL, zapewniają zaskakująco dobre tłumaczenia bez kosztów i połączenia z Internetem po początkowym pobraniu modelu.

Modele te zostały pierwotnie zaprojektowane do tłumaczenia krótkich, pojedynczych zdań i zwykle obcinają dłuższe fragmenty. Jednak OCR Translator w pomysłowy sposób obchodzi to ograniczenie. Aplikacja automatycznie dzieli dłuższe teksty na pojedyncze zdania i tłumaczy je równolegle przy użyciu trybu wsadowego. Wszystkie zdania są przetwarzane razem w jednym, zoptymalizowanym wywołaniu modelu, a następnie płynnie łączone w całość, co zapewnia kompletne tłumaczenia niezależnie od długości tekstu.

Takie podejście ma kilka praktycznych zalet:

Ustawienie Rozmiar wiązki tłumaczenia (MarianMT) pozwala zrównoważyć szybkość i jakość. Wyższe wartości (8–12) dają bardziej dopracowane tłumaczenia, ale wymagają więcej czasu przetwarzania, podczas gdy niższe wartości (1–4) priorytetowo traktują szybkość kosztem idealnego sformułowania.

⚠️
UWAGA: Model angielsko-polski wymaga nieco więcej czasu na instalację przy pierwszym wyborze, ponieważ jest pobierany i konwertowany z innego źródła niż pozostałe modele MarianMT.

DeepL API

  1. Wymaga konta DeepL i klucza API.
  2. Zapewnia tłumaczenia premium, ale obsługuje mniej języków.
  3. Uznawany przez wielu za lidera branży pod względem jakości tłumaczenia.
  4. Darmowy plan DeepL API pozwala na tłumaczenie 500 000 znaków miesięcznie bez opłat (stan na maj 2025 r.).
  5. Konfiguracja:

Dwa tryby jakości

DeepL ma dwa tryby jakości. Model Klasyczny zapewnia szybkie, wysokiej jakości tłumaczenia, które działają ze wszystkimi obsługiwanymi parami językowymi. Model Nowej generacji wykorzystuje najnowszą technologię tłumaczeniową DeepL, która może dawać jeszcze lepsze wyniki w przypadku niektórych treści, choć jest nieco wolniejsza i może nie obsługiwać wszystkich par językowych.

Jeśli wybierzesz model Nowej generacji, a wybrana para językowa nie jest obsługiwana, aplikacja automatycznie przełączy się na tryb Klasyczny, aby zapewnić ciągłość tłumaczenia. Obie opcje gwarantują doskonałą jakość, z której słynie DeepL.

System buforowania tłumaczeń DeepL w plikach

OCR Translator umożliwia buforowanie tłumaczeń DeepL. Po przetłumaczeniu fragmentu tekstu jest on zapisywany w lokalnej pamięci podręcznej aplikacji (deepl_cache.txt). Gdy ten sam tekst pojawi się ponownie, aplikacja pobiera tłumaczenie z pamięci podręcznej zamiast wysyłać kolejne zapytanie API.

Należy pamiętać, że mechanizm buforowania zależy całkowicie od jakości OCR. Aby tłumaczenie zostało pobrane z pamięci podręcznej, tekst rozpoznany przez OCR musi być identyczny – co do ostatniego znaku – z tym, co już jest w niej przechowywane. Nawet pojedyncza różnica znaku spowoduje nowe wywołanie API i nowe tłumaczenie. Oznacza to, że faktyczna efektywność pamięci podręcznej zależy w dużej mierze od spójności wyników OCR.

Pamięć podręczna może być pomocna dla graczy w określonych sytuacjach. Na przykład w grze, w której statyczne opcje menu lub powtarzające się dialogi pojawiają się dokładnie w tej samej czcionce, rozmiarze i pozycji na ekranie, OCR prawdopodobnie wygeneruje identyczne wyniki za każdym razem. Jednak jeśli tekst pojawia się na różnych tłach, przy różnym oświetleniu lub z drobnymi zmianami pozycji, różnice w wynikach OCR prawdopodobnie spowodują nowe tłumaczenia.

Na przykład, przycisk Zapisz grę może być konsekwentnie rozpoznawany tak samo i korzystać z pamięci podręcznej, podczas gdy dynamiczne dialogi ze zmieniającymi się postaciami lub tłami mogą dawać nieco różne wyniki OCR za każdym razem, ograniczając skuteczność buforowania.

Pamięć podręczna jest zachowywana między sesjami aplikacji, ale jej praktyczną korzyść należy traktować jako dodatkowy atut, a nie główną funkcję oszczędzającą API. Im bardziej jednolita i wyraźna prezentacja tekstu, tym większa szansa na skorzystanie z systemu buforowania.

Google Translate API

  1. Wymaga konta Google Cloud i klucza API.
  2. Obsługuje największą liczbę języków.
  3. Dobrze sprawdza się do ogólnych tłumaczeń z szerokim wyborem języków.
  4. Konfiguracja:

Google Translate wykorzystuje ten sam system pamięci podręcznej plików co DeepL. W sekcji na temat DeepL powyżej znajduje się szczegółowe wyjaśnienie działania mechanizmu buforowania, jego zależności od jakości OCR oraz praktycznych korzyści i ograniczeń. Wszystkie te same uwagi i zastrzeżenia dotyczą funkcji buforowania Google Translate.

Skróty klawiszowe

Dostępne są następujące skróty klawiszowe:

Skrót Funkcja
~ (tylda) Rozpocznij/zatrzymaj tłumaczenie
Alt+1 Przełącz widoczność okna źródłowego
Alt+2 Przełącz widoczność okna tłumaczenia
Alt+S Zapisz ustawienia
Alt+C Wyczyść bufor tłumaczenia
Alt+L Wyczyść dziennik debugowania

Uwaga: gdy aplikacja jest zatrzymana (tłumaczenie nieaktywne), okno tłumaczenia zostanie automatycznie ukryte. Gdy aplikacja jest uruchomiona, okno tłumaczenia pojawi się automatycznie. Można ręcznie zmienić to zachowanie za pomocą skrótu Alt+2 w dowolnym momencie.

Rozwiązywanie problemów

W razie problemów:

  1. Sprawdź zakładkę Debugowanie pod kątem komunikatów o błędach oraz dziennik aplikacji.
  2. Włącz Debugowanie OCR w zakładce Ustawienia, aby zobaczyć, co jest przechwytywane i rozpoznawane w zakładce Debugowanie. Wyświetl też okno Podgląd OCR (dostępne w zakładce Ustawienia po kliknięciu przycisku Podgląd).
  3. Dostosuj ustawienia w razie potrzeby:
  4. Zapoznaj się z Przewodnikiem rozwiązywania problemów (tylko w języku angielskim), aby poznać typowe problemy i ich rozwiązania.

Porady i najlepsze praktyki

Dokładność OCR

Aby uzyskać najlepsze wyniki OCR:

  1. Przechwytuj wyraźny tekst o wysokim kontraście.
  2. Wybierz odpowiedni język źródłowy.
  3. Dostosuj tryb przetwarzania obrazu do wyglądu tekstu – wypróbuj tryb adaptacyjny dla trudnych teł.
  4. Dostosuj rozmiar obszaru przechwytywania tak, aby obejmował tekst ciasno, ale w całości.
  5. Użyj większego obszaru źródłowego dla szerszego kontekstu, jeśli OCR ma problemy.
  6. Włącz Usuń śmieci na końcu, aby wyeliminować artefakty rozpoznawania.
  7. Dostosuj próg pewności, aby zrównoważyć przechwytywanie całego tekstu (niższe wartości) i ograniczanie błędów (wyższe wartości).
  8. Dla małych napisów na zmieniających się tłach eksperymentuj z parametrami Rozmiar bloku i Wartość C trybu adaptacyjnego.

Optymalizacja wydajności

  1. Używaj mniejszego obszaru przechwytywania tekstu źródłowego.
  2. Kliknij Wyłącz dziennik debugowania w zakładce Start.
  3. Zwiększ Interwał skanowania (ms) w zakładce Ustawienia, aby zmniejszyć obciążenie procesora.
  4. Wyłącz Debugowanie OCR w zakładce Ustawienia.
  5. Ustaw Tryb przetwarzania obrazu na Brak w zakładce Ustawienia.
  6. W przypadku modelu MarianMT:
  7. W przypadku modelu DeepL lub Google Translate:

Praktyczne zastosowania

  1. Gry:

    🎮
    UWAGA: OCR Translator może nie działać w niektórych grach w trybie pełnoekranowym.
    Zalecane jest korzystanie z trybu okienkowego bez ramek (ang. „borderless windowed mode") obsługiwanego w większości nowych gier.
  2. Filmy:

  3. Dokumenty i pliki PDF:

  4. Aplikacje: