Polish Flag

Instrukcja obsługi programu Game-Changing Translator

Copyright © 2025 Tomasz Kamiński
Ostatnia aktualizacja: 31 lipca 2025 r.

Główny interfejs Game-Changing Translator

Spis treści

  1. Wprowadzenie
  2. Pierwsze kroki
  3. Interfejs główny
  4. Ustawianie obszarów tłumaczenia
  5. Konfiguracja ustawień
  6. Gemini OCR – premium rozpoznawanie tekstu
  7. Monitorowanie zużycia API
  8. Metody tłumaczenia
  9. Gemini API – tanie tłumaczenie kontekstowe
  10. Skróty klawiszowe
  11. Rozwiązywanie problemów
  12. Porady i najlepsze praktyki

Wprowadzenie

Game-Changing Translator to program komputerowy, który automatycznie przechwytuje tekst z dowolnego fragmentu ekranu, przeprowadza optyczne rozpoznawanie znaków (OCR) i tłumaczy tekst w czasie rzeczywistym. Dzięki ruchomym oknom nakładek tłumaczenie można umieścić w dowolnym miejscu na ekranie, przez co aplikacja doskonale nadaje się do tłumaczenia gier, filmów, plików PDF lub dowolnych programów zawierających tekst, którego nie da się łatwo skopiować i wkleić.

Pierwsze kroki

Wymagania

Przed rozpoczęciem korzystania z Game-Changing Translator sprawdź, czy system spełnia następujące wymagania:

Pierwsze uruchomienie

  1. Uruchom Game-Changing Translator przez wykonanie skryptu main.py lub pliku wykonywalnego, jeśli korzystasz z wersji skompilowanej.
  2. Przy pierwszym uruchomieniu aplikacja ładuje się z domyślnymi ustawieniami, a oba obszary (źródłowy i docelowy) będą ukryte.
  3. Przed rozpoczęciem tłumaczenia musisz:
  4. Przycisk Start włącza proces tłumaczenia i automatycznie wyświetla okno tłumaczenia.
  5. Przycisk Stop wyłącza proces tłumaczenia i automatycznie ukrywa okno tłumaczenia.
  6. Widoczność okna tłumaczenia można przełączać ręcznie w dowolnym momencie za pomocą skrótu Alt+2.

Interfejs główny

Interfejs główny jest podzielony na pięć zakładek:

Zakładka Start

Zakładka Start

  1. Wybierz obszar źródłowy (OCR) – określ obszar, z którego tekst będzie przechwytywany.
  2. Wybierz obszar tłumaczenia – określ, gdzie ma się pojawić tłumaczenie.
  3. Start/Stop – włącz proces tłumaczenia.
  4. Pokaż lub ukryj okno źródłowe – przełącz widoczność obszaru przechwytywania tekstu źródłowego.
  5. Pokaż lub ukryj okno tłumaczenia – przełącz widoczność obszaru tłumaczenia.
  6. Wyczyść bufor tłumaczenia – usuń tłumaczenia przechowywane w pamięci, aby wymusić ponowne tłumaczenie.
  7. Wyczyść dziennik debugowania – wyczyść dziennik zdarzeń aplikacji.
  8. Wyłącz dziennik debugowania – wyłącz rejestrowanie zdarzeń w pliku w celu poprawy wydajności.
  9. Skróty klawiszowe – lista dostępnych skrótów klawiszowych.
  10. Status – aktualny stan aplikacji.

Zakładka Ustawienia

Zakładka Ustawienia

Tutaj można skonfigurować:

  1. Model tłumaczenia – wybierz spośród różnych modeli tłumaczeń.
  2. Model OCR – wybierz między Tesseract (lokalny) a Gemini API (online).
  3. Język źródłowy – język źródłowy i rozpoznawany przez OCR (tylko DeepL i Google Translate).
  4. Język docelowy – język tłumaczenia (tylko DeepL i Google Translate).
  5. Klucz API – tylko w przypadku Gemini, DeepL lub Google Translate.
  6. Jakość – wybierz między opcjami Klasyczna (szybsze tłumaczenie) lub Nowej generacji (potencjalnie lepsza jakość) (tylko DeepL).
  7. Opcje MarianMT – lokalne tłumaczenie neuronowe (tylko model MarianMT).
  8. Opcje Gemini – tanie tłumaczenie modelem LLM z uwzględnieniem kontekstu (tylko Gemini).
  9. Ścieżka do Tesseract – ścieżka do pliku wykonywalnego Tesseract OCR (tylko Tesseract).
  10. Interwał skanowania (ms) – jak często ma być przechwytywany ekran.
  11. Czas wyświetlania tłumaczenia (s) – czas, po którym tłumaczenie zostanie usunięte, gdy zniknie tekst źródłowy.
  12. Próg stabilności tekstu – liczba identycznych odczytów wymaganych przed tłumaczeniem (tylko Tesseract).
  13. Próg pewności OCR – minimalna pewność dla uwzględnienia tekstu wykrytego przez OCR (tylko Tesseract).
  14. Tryb przetwarzania obrazu – sposób przetwarzania obrazów przez OCR (tylko Tesseract).
  15. Debugowanie OCR – opcja wyświetlania obrazów debugowania i tekstu na zakładce Ustawienia (tylko Tesseract).
  16. Przycisk Podgląd – otwiera okno podglądu OCR (tylko Tesseract).
  17. Usuń śmieci na końcu – opcja usuwania tekstu po ostatnim znaku interpunkcyjnym (tylko Tesseract).
  18. Opcje wyglądu – kolory i rozmiary czcionek dla nakładek.
  19. Opcje buforowania do plików – ustawienia włączania/wyłączania buforowania w przypadku DeepL i Google Translate.

Podgląd OCR (tylko Tesseract)

Okno podglądu OCR

Kliknięcie przycisku Podgląd w zakładce Ustawienia otwiera osobne okno Podgląd OCR podczas korzystania z Tesseract OCR. To okno wyświetla:

  1. Przetworzony obraz (skala 1:1) – wstępnie przetworzony obraz używany do rozpoznawania OCR.
  2. Rozpoznany tekst – tekst obecnie rozpoznawany przez silnik OCR.

To okno podglądu jest szczególnie przydatne do precyzyjnego dostrajania ustawień OCR i zrozumienia, dlaczego niektóre teksty mogą nie być rozpoznawane prawidłowo. Można je przesuwać i zmieniać jego rozmiar niezależnie od głównego okna aplikacji.

Zakładka Zużycie API

Zakładka Zużycie API

Ta zakładka umożliwia kompleksowe monitorowanie i analizę zużycia Gemini API. Obejmuje:

  1. Statystyki OCR Gemini – śledzenie kosztów i wskaźniki wydajności OCR.
  2. Statystyki tłumaczenia Gemini – liczby słów, koszty i wskaźniki wydajności tłumaczeń.
  3. Łączne statystyki API – ogólna analiza kosztów i prognozy.
  4. Monitor zużycia DeepL – monitorowanie darmowych miesięcznych limitów DeepL API.
  5. Narzędzia eksportu i zarządzania – eksport statystyk do pliku CSV, pliku tekstowego i kopiowanie do schowka.

Szczegółowe informacje o wszystkich dostępnych statystykach i funkcjach śledzenia kosztów znajdziesz w sekcji Monitorowanie zużycia API.

Zakładka Debugowanie

Zakładka Debugowanie

Ta zakładka pokazuje:

  1. Obraz oryginalny – nieprzetworzony przechwycony obraz.
  2. Obraz przetworzony – obraz po przetworzeniu przez OCR.
  3. Wyniki OCR – tekst rozpoznany przez OCR.
  4. Dziennik aplikacji – bieżący dziennik zdarzeń aplikacji.
  5. Zapisz obrazy OCR i Odśwież dziennik – przyciski do zapisywania obrazów debugowania i odświeżania dziennika.

Zakładka Informacje

Ta zakładka zawiera podstawowe informacje o aplikacji.

Ustawianie obszarów tłumaczenia

Wybór obszaru źródłowego

  1. Kliknij przycisk Wybierz obszar źródłowy (OCR).
  2. Ekran zostanie przyciemniony i zobaczysz czarny krzyżyk.
  3. Kliknij i przeciągnij, aby zaznaczyć obszar zawierający tekst, który chcesz przetłumaczyć.
  4. Po zaznaczeniu półprzezroczyste okno nakładki pojawi się w wybranym miejscu.
  5. Ta nakładka będzie domyślnie ukryta przy uruchomieniu aplikacji.
  6. Nakładkę można:

Wybór obszaru docelowego

  1. Kliknij przycisk Wybierz obszar tłumaczenia.
  2. Ekran zostanie przyciemniony i zobaczysz czarny krzyżyk.
  3. Kliknij i przeciągnij, aby zaznaczyć miejsce, w którym chcesz, aby pojawiło się tłumaczenie.
  4. Po zaznaczeniu półprzezroczyste okno nakładki pojawi się w wybranym miejscu.
  5. Ta nakładka będzie domyślnie ukryta przy uruchomieniu aplikacji.
  6. Nakładkę można:

Konfiguracja ustawień

Konfiguracja tłumaczenia

  1. Model tłumaczenia:

    W górnej części listy rozwijanej znajdują się modele Gemini, a poniżej tradycyjne usługi tłumaczenia:

  2. Język źródłowy:

  3. Język docelowy:

Konfiguracja OCR

  1. Model OCR:

    W górnej części listy rozwijanej znajdują się modele Gemini, a poniżej tradycyjne opcje OCR:

  2. Ścieżka do Tesseract (tylko Tesseract):

  3. Tryb przetwarzania obrazu (tylko Tesseract):

  4. Tryb adaptacyjny (tylko Tesseract):

    Po wybraniu trybu przetwarzania Adaptacyjny system odblokowuje zaawansowane możliwości progowania adaptacyjnego, które doskonale sprawdzają się w trudnych środowiskach graficznych. Ten tryb jest szczególnie cenny w przypadku kłopotliwych warunków, takich jak małe napisy nałożone na dynamiczne, migające tła o stale zmieniających się kolorach i oświetleniu.

    W przeciwieństwie do trzech standardowych trybów przetwarzania tryb adaptacyjny zapewnia dwa regulowane parametry, które pozwalają na precyzyjne dostrojenie procesu rozpoznawania OCR:

    Ten tryb okazuje się bezcenny, gdy standardowe przetwarzanie nie zapewnia wiarygodnych wyników. Eksperymentując z tymi dwoma parametrami, często można osiągnąć lepsze rozpoznawanie OCR niż w przypadku gotowych trybów, szczególnie gdy tła zawierają ruchome elementy, zmienne oświetlenie lub złożone wzory wizualne, które w przeciwnym razie przeszkadzałyby w wykrywaniu tekstu.

    Aby uzyskać optymalne rezultaty, zacznij od umiarkowanych wartości (Rozmiar bloku: 11, Wartość C: 2) i dostosowuj je do konkretnej treści. Zwiększ Rozmiar bloku dla większego tekstu lub stopniowych zmian oświetlenia i zmieniaj Wartość C, aby zachować równowagę między przechwytywaniem całego tekstu a rozpoznawaniem go tam, gdzie go nie ma.

  5. Próg pewności OCR (tylko Tesseract):

  6. Próg stabilności tekstu (tylko Tesseract):

  7. Debugowanie OCR (tylko Tesseract):

  8. Usuń śmieci na końcu (tylko Tesseract):

Ustawienia wydajności

  1. Interwał skanowania (ms):

  2. Czas wyświetlania tłumaczenia (s):

  3. Wyczyść bufor tłumaczenia:

  4. Opcje buforowania do plików (tylko usługi tłumaczenia za pomocą API):

  5. Zapisywanie zdarzeń w dzienniku:

Ustawienia wyglądu

  1. Kolor obszaru źródłowego – kolor tła nakładki obszaru źródłowego (możliwość dostosowania).
  2. Kolor obszaru tłumaczenia – kolor tła nakładki tłumaczenia (możliwość dostosowania).
  3. Kolor tekstu tłumaczenia – kolor przetłumaczonego tekstu (możliwość dostosowania).
  4. Rozmiar czcionki okna tłumaczenia – wielkość przetłumaczonego tekstu.

Gemini OCR – zaawansowane rozpoznawanie tekstu

Gemini OCR to zaawansowanie rozpoznawaniu tekstu z wykorzystaniem sztucznej inteligencji. Doskonale rozpoznaje mało czytelny tekst, z którym tradycyjne programy OCR, takie jak Tesseract, sobie nie radzą. Ta zaawansowana funkcja wykorzystuje modele Gemini firmy Google, gwarantując doskonałe rozpoznawanie tekstu i elastyczny wybór modeli pod kątem optymalnej wydajności i ceny.

Inteligentny wybór modelu

Aplikacja oferuje elastyczny wybór modeli do operacji OCR i tłumaczenia, co pozwala zoptymalizować wydajność w zależności od konkretnego zastosowania:

Zalecany wybór modelu:

Zaawansowana konfiguracja: dostępność modeli i koszty można dostosować, edytując plik gemini_models.csv w katalogu resources. Można dodawać nowe modele, aktualizować ceny oraz określać, które modele są dostępne do operacji OCR i tłumaczenia w miarę pojawiania się nowych modeli Gemini.

Mało czytelne napisy

Gemini OCR najlepiej nadaje się do mało czytelnych napisów z powodu:

Porównanie Tesseract i Gemini pod kątem jakości OCR

Przykład trudnego napisu 1

Wynik Tesseract OCR: ~ Trust me, OD tite WE loca mS
Wynik Gemini OCR: Trust me, Oakmonters know a newcomer when they see one. We locals can tell.

Przykład trudnego napisu 2

Wynik Tesseract OCR: ' Paulie: Driv: show, Tom. Next stop's Bi the motel. 7 jj ie
Wynik Gemini OCR: Paulie: Drive before the cops show, Tom. Next stop's Bill at the motel.

Doskonała jakość z wieloma modelami

Gemini OCR to zaawansowana funkcja, która znacznie przewyższa tradycyjne metody rozpoznawania tekstu dzięki inteligentnemu wyborowi modeli. Aplikacja zapewnia dostęp do wielu modeli Gemini, każdy zoptymalizowany pod kątem różnych scenariuszy:

Modele Gemini 2.0 – doskonała dokładność OCR i jakość tłumaczenia:

Modele Gemini 2.5 – zoptymalizowane pod kątem szybkości:

Wydajność i koszty:

Doskonały stosunek jakości do ceny

Dostępne modele Gemini zapewniają wyjątkowo szybkie i dokładne rozpoznawanie tekstu, które znacznie przewyższa Tesseract czy Paddle OCR. Dzięki inteligentnemu wyborowi modeli można zoptymalizować stosunek jakości do ceny dla konkretnego zastosowania przy zachowaniu doskonałej wydajności w porównaniu z bezpłatnymi i płatnymi rozwiązaniami OCR.

Porównanie kosztów (na podstawie cen Gemini 2.5 Flash-Lite):

Najlepsze praktyki z Gemini OCR

Zakładka Zużycie API (szczegółowo opisana w następnej sekcji) pomaga monitorować koszty i szacować wydatki dla konkretnych zastosowań, zapewniając optymalizację zużycia OCR przy zachowaniu doskonałej jakości.

Monitorowanie zużycia API

Zakładka Zużycie API umożliwia kompleksowe monitorowanie i analizę kosztów Gemini API, pomagając śledzić wydatki i optymalizować wykorzystanie API zarówno dla usług OCR, jak i tłumaczenia.

Zakładka Zużycie API

Zakładka zawiera szczegółowe statystyki w kilku kategoriach:

📊 Statystyki OCR Gemini

🔄 Statystyki tłumaczenia Gemini

💰 Łączne statystyki API

📈 Monitor zużycia DeepL

Zarządzanie statystykami

Zakładka zawiera kilka opcji zarządzania:

Uwaga: statystyki opierają się na plikach API_OCR_short_log.txt i API_TRA_short_log.txt. Dane zostaną zresetowane po usunięciu tych plików.

Ważne: śledzenie kosztów ma charakter wyłącznie poglądowy. Użytkownik sam odpowiada za monitorowanie rzeczywistego zużycia API i kosztów w panelu rozliczeniowym Google.

Metody tłumaczenia

Gemini API (zalecane)

Najnowsze modele Gemini firmy Google zapewniają wyjątkową jakość tłumaczeń z inteligentnym uwzględnianiem kontekstu. Ta przełomowa technologia łączy wysokiej klasy tłumaczenia z wyjątkowo niską ceną, dzięki czemu umożliwia tłumaczenie dużych ilości tekstu, na przykład wszystkich napisów w grze, za zaledwie kilka dolarów.

Kluczowe zalety:

Gemini API to zalecana metoda tłumaczenia dla większości użytkowników poszukujących najlepszego kompromisu między jakością, inteligencją i ceną. Szczegółowe opcje konfiguracji, zaawansowane funkcje i strategie optymalizacji kosztów znajdziesz w szczegółowym przewodniku po Gemini API.

MarianMT (lokalny i bezpłatny)

  1. Nie wymaga klucza API – całkowicie bezpłatny w użyciu.
  2. Działa całkowicie offline po pobraniu modeli.
  3. Modele są pobierane automatycznie przy pierwszym użyciu (około 500 MB na parę językową).
  4. Konfiguracja:

Modele MarianMT to otwarte systemy tłumaczenia maszynowego oparte na sieciach neuronowych, które zapewniają całkiem dobrą jakość tłumaczenia. Choć nie dorównują standardom usług premium takich jak DeepL, zapewniają zaskakująco dobre tłumaczenia bez kosztów i połączenia z Internetem po początkowym pobraniu modelu.

Modele te zostały pierwotnie zaprojektowane do tłumaczenia krótkich, pojedynczych zdań i zwykle obcinają dłuższe fragmenty. Jednak Game-Changing Translator w pomysłowy sposób obchodzi to ograniczenie. Aplikacja automatycznie dzieli dłuższe teksty na pojedyncze zdania i tłumaczy je równolegle przy użyciu trybu wsadowego. Wszystkie zdania są przetwarzane razem w jednym, zoptymalizowanym wywołaniu modelu, a następnie płynnie łączone w całość, co zapewnia kompletne tłumaczenia niezależnie od długości tekstu.

Takie podejście ma kilka praktycznych zalet:

Ustawienie Rozmiar wiązki tłumaczenia (MarianMT) pozwala zrównoważyć szybkość i jakość. Wyższe wartości (8–12) dają bardziej dopracowane tłumaczenia, ale wymagają więcej czasu przetwarzania, podczas gdy niższe wartości (1–4) priorytetowo traktują szybkość kosztem idealnego sformułowania.

⚠️
UWAGA: Model angielsko-polski wymaga nieco więcej czasu na instalację przy pierwszym wyborze, ponieważ jest pobierany i konwertowany z innego źródła niż pozostałe modele MarianMT.

DeepL API

  1. Wymaga konta DeepL i klucza API.
  2. Zapewnia tłumaczenia premium, ale obsługuje mniej języków.
  3. Uznawany przez wielu za lidera branży pod względem jakości tłumaczenia.
  4. Darmowy plan DeepL API pozwala na tłumaczenie 500 000 znaków miesięcznie bez opłat (stan na maj 2025 r.).
  5. Wykorzystanie DeepL można sprawdzić w zakładce Zużycie API (pod statystykami API modelu Gemini).
  6. Konfiguracja:

Dwa tryby jakości

DeepL ma dwa tryby jakości. Model Klasyczny zapewnia szybkie, wysokiej jakości tłumaczenia, które działają ze wszystkimi obsługiwanymi parami językowymi. Model Nowej generacji wykorzystuje najnowszą technologię tłumaczeniową DeepL, która może dawać jeszcze lepsze wyniki w przypadku niektórych treści, choć jest nieco wolniejsza i może nie obsługiwać wszystkich par językowych.

Jeśli wybierzesz model Nowej generacji, a wybrana para językowa nie jest obsługiwana, aplikacja automatycznie przełączy się na tryb Klasyczny, aby zapewnić ciągłość tłumaczenia. Obie opcje gwarantują doskonałą jakość, z której słynie DeepL.

System buforowania tłumaczeń DeepL w plikach

Game-Changing Translator umożliwia buforowanie tłumaczeń DeepL. Po przetłumaczeniu fragmentu tekstu jest on zapisywany w lokalnej pamięci podręcznej aplikacji (deepl_cache.txt). Gdy ten sam tekst pojawi się ponownie, aplikacja pobiera tłumaczenie z pamięci podręcznej zamiast wysyłać kolejne zapytanie API.

Należy pamiętać, że mechanizm buforowania zależy całkowicie od jakości OCR. Aby tłumaczenie zostało pobrane z pamięci podręcznej, tekst rozpoznany przez OCR musi być identyczny – co do ostatniego znaku – z tym, co już jest w niej przechowywane. Nawet pojedyncza różnica znaku spowoduje nowe wywołanie API i nowe tłumaczenie. Oznacza to, że faktyczna efektywność pamięci podręcznej zależy w dużej mierze od spójności wyników OCR.

Pamięć podręczna może być pomocna dla graczy w określonych sytuacjach. Na przykład w grze, w której statyczne opcje menu lub powtarzające się dialogi pojawiają się dokładnie w tej samej czcionce, rozmiarze i pozycji na ekranie, OCR prawdopodobnie wygeneruje identyczne wyniki za każdym razem. Jednak jeśli tekst pojawia się na różnych tłach, przy różnym oświetleniu lub z drobnymi zmianami pozycji, różnice w wynikach OCR prawdopodobnie spowodują nowe tłumaczenia.

Na przykład, przycisk Zapisz grę może być konsekwentnie rozpoznawany tak samo i korzystać z pamięci podręcznej, podczas gdy dynamiczne dialogi ze zmieniającymi się postaciami lub tłami mogą dawać nieco różne wyniki OCR za każdym razem, ograniczając skuteczność buforowania.

Pamięć podręczna jest zachowywana między sesjami aplikacji, ale jej praktyczną korzyść należy traktować jako dodatkowy atut, a nie główną funkcję oszczędzającą API. Im bardziej jednolita i wyraźna prezentacja tekstu, tym większa szansa na skorzystanie z systemu buforowania.

Google Translate API

  1. Wymaga konta Google Cloud i klucza API.
  2. Obsługuje największą liczbę języków.
  3. Dobrze sprawdza się do ogólnych tłumaczeń z szerokim wyborem języków.
  4. Konfiguracja:

Google Translate wykorzystuje ten sam system pamięci podręcznej plików co DeepL. W sekcji na temat DeepL powyżej znajduje się szczegółowe wyjaśnienie działania mechanizmu buforowania, jego zależności od jakości OCR oraz praktycznych korzyści i ograniczeń. Wszystkie te same uwagi i zastrzeżenia dotyczą funkcji buforowania Google Translate.

Gemini API – tanie tłumaczenie kontekstowe

Zaawansowane modele Gemini firmy Google reprezentują przełom w technologii tłumaczenia za pomocą sztucznej inteligencji, zapewniając wysokiej jakości tłumaczenia w niespotykanie niskiej cenie. Te zaawansowane modele inteligentnie uwzględniają kontekst poprzednich zdań, umożliwiając tanie tłumaczenie napisów w rozbudowanych grach za ułamek tradycyjnych kosztów.

Doskonała jakość tłumaczeń

Technologia okna kontekstu

W przeciwieństwie do tradycyjnych metod, które tłumaczą każdy napis osobno, Gemini API zapewnia konfigurowalne przesuwne okno kontekstu, które uwzględnia tłumaczenie poprzednich zdań. To rewolucyjne podejście zapewnia spójność narracji i poprawność gramatyczną oraz umożliwia bardziej naturalne i poprawne tłumaczenie dialogów.

Okno kontekstu może obejmować 0–5 poprzednich napisów, co umożliwia sztucznej inteligencji:

Przykład: tłumaczenie z uwzględnieniem kontekstu

Poniższy przykład dobrze pokazuje, jak kontekst poprzednich zdań umożliwia zastosowanie poprawnych form gramatycznych przy tłumaczeniu z czeskiego na polski:

Oryginał czeski DeepL (bez kontekstu) Gemini (z kontekstem)
A vodkaď se podle tebe teda známe? A skąd się znamy, według ciebie? A skąd niby się znamy?
Viděli jsme se přece u toho rybníka! Widzieliśmy się przecież nad stawem! Widzieliśmy się przecież nad tamtym stawem!
Jakýho rybníka? Já u žádnýho rybníka nebyla! Jakiego stawu? Nie byłam przy żadnym stawie! Nad jakim stawem? Ja nad żadnym stawem nie byłam!
Ale jo, byla! Ale tak, była! Ale tak, byłaś!

Kluczowe poprawki wynikające z kontekstu:

Te przykłady wyraźnie pokazują, jak okno kontekstu Gemini pomaga utrzymać spójność gramatyczną i płynność dialogów, co byłoby niemożliwe przy tłumaczeniu zdanie po zdaniu.

Inteligentna korekta błędów OCR

Jedną z najbardziej imponujących cech Gemini jest zdolność interpretowania i automatycznego korygowania niedoskonałości OCR. Gdy rozpoznawanie tekstu generuje zniekształcone lub niepełne wyniki, zaawansowane rozumienie języka przez Gemini często pozwala odgadnąć zamierzone znaczenie i zapewnić poprawne, dokładne tłumaczenia bez powielania błędów OCR w zwracanym tłumaczeniu.

Elastyczna konfiguracja modeli

Aplikacja obsługuje wiele modeli Gemini do operacji OCR i tłumaczenia. Można wybrać różne modele w zależności od konkretnych potrzeb: modele Gemini 2.0 zapewniają doskonałą dokładność OCR do dłuższych napisów, natomiast modele Gemini 2.5 gwarantują wydajność zoptymalizowaną pod kątem szybkości do szybko zmieniających się treści. Wybór modeli i ceny można dostosować, edytując plik gemini_models.csv w katalogu resources.

Przykład: korekta błędów OCR

Oto rzeczywisty przykład pokazujący, jak Gemini radzi sobie z błędami OCR w porównaniu z DeepL przy tłumaczeniu z francuskiego na angielski:

Tekst źródłowy po OCR Wynik DeepL Wynik Gemini Analiza
Vraiment ? Really? Really? Poprawne OCR, obie wersje są poprawne
| Vraiment ? | Really? Really? Gemini usuwa artefakt OCR („|”), a DeepL go powiela

Wyjątkowa opłacalność

Analiza kosztów w praktyce

Gemini API zapewnia ogromne korzyści w dużych projektach tłumaczeniowych. Nawet bardzo rozbudowane gry, takie jak Wiedźmin 3, z setkami godzin dialogów i napisów, można przetłumaczyć za łączną kwotę kilku dolarów. I to nawet przy uwzględnieniu:

Szacowanie kosztów: tłumaczenie Wiedźmina 3

Oto szczegółowa analiza kosztów tłumaczenia napisów do gry Wiedźmin 3 za pomocą DeepL i Gemini 2.5 Flash-Lite:

Założenia:

Rozkład kosztów:

DeepL:

Gemini 2.5 Flash-Lite:

Usługa Szacowany koszt (EUR) Szacowany koszt (USD)
DeepL 135,00 € 145,80 $
Gemini 2.5 Flash-Lite 2,16 $

Uwaga: są to szacunki przybliżone. Rzeczywiste koszty zależą od pary językowej, dokładności OCR, ustawień kontekstu i skuteczności bufora.

Zastrzeżenie: monitorowanie kosztów ma charakter wyłącznie poglądowy. Jest to darmowe oprogramowanie, a jego autor nie udziela żadnych gwarancji dotyczących dokładności szacunków. Użytkownicy są odpowiedzialni za samodzielne monitorowanie wykorzystania API i kosztów w panelu rozliczeniowym Google.

Wbudowane monitorowanie kosztów

Game-Changing Translator umożliwia kompleksowe monitorowanie kosztów, zaprojektowane specjalnie na potrzeby Gemini API:

Szczegółowy przykład zapytania do API

Oto rzeczywisty przykład działania dziennika zapytań API, który pokazuje cały proces tłumaczenia:

=== GEMINI API CALL LOG ===
Timestamp: 2025-07-06 17:19:03
Language Pair: fr -> en
Original Text: Vous avez manipulé des civilisations entières, provoqué des décennies de guerre, détruit Ziost... et pris la fuite.
Vous allez me dire pourquoi. CALL DETAILS: - Message Length: 695 characters - Word Count: 119 words - Line Count: 9 lines COMPLETE MESSAGE CONTENT SENT TO GEMINI: ---BEGIN MESSAGE--- FRENCH: C'était mon objectif. Le reste... n'était qu'un moyen de parvenir à mes fins. FRENCH: Vous dites que vous avez fait tout ce chemin pour me trouver. Me voici. Que voulez-vous ? FRENCH: Vous avez manipulé des civilisations entières, provoqué des décennies de guerre, détruit Ziost... et pris la fuite.
Vous allez me dire pourquoi. ENGLISH: That was my goal. The rest... was merely a means to an end. ENGLISH: You say you came all this way to find me. Here I am. What do you want? ENGLISH: ---END MESSAGE--- RESPONSE RECEIVED: Timestamp: 2025-07-06 17:19:03 Call Duration: 0.385 seconds ---BEGIN RESPONSE--- You manipulated entire civilizations, caused decades of war, destroyed Ziost... and fled. You're going to tell me why. ---END RESPONSE--- TOKEN & COST ANALYSIS (CURRENT CALL): - Translated Words: 22 - Exact Input Tokens: 173 - Exact Output Tokens: 26 - Input Cost: $0.00001730 - Output Cost: $0.00001040 - Total Cost for this Call: $0.00002770 CUMULATIVE TOTALS (INCLUDING THIS CALL, FROM LOG START): - Total Translated Words (so far): 18460 - Total Input Tokens (so far): 213723 - Total Output Tokens (so far): 30987 - Total Input Cost (so far): $0.02137230 - Total Output Cost (so far): $0.01239480 - Cumulative Log Cost: $0.03376710 ========================================

Ten szczegółowy dziennik jest zapisywany w pliku Gemini_API_call_logs.txt. W zakładce Ustawienia znajdziesz pola Łącznie słów i Łączny koszt, które wyświetlają wartości oparte wyłącznie na tym pliku dziennika. Jeśli plik zostanie wyczyszczony lub usunięty, wartości te zostaną odpowiednio zresetowane.

Konfiguracja i ustawienia

  1. Konfiguracja klucza API – wymaga konta Google AI Studio lub Google Cloud z dostępem do Gemini API. Przejdź do Google AI Studio i kliknij przycisk „Get API key”, aby skonfigurować klucz API dla modeli Gemini.
  2. Wybór modelu – Gemini 2.5 Flash-Lite zapewnia doskonałą jakość w atrakcyjnej cenie.
  3. Okno kontekstu – wybierz między:
  4. Włącz rejestr API – opcjonalne, szczegółowe rejestrowanie analizy kosztów i wykonanych tłumaczeń (zapytania do API są zapisywane w pliku Gemini_API_call_logs.txt).
  5. Włącz bufor Gemini – pozwala zmniejszyć liczbę zapytań do API w przypadku powtarzających się treści (tłumaczenia są zapisywane w pliku gemini_cache.txt).
  6. Ustawienie temperatury – to ustawienie można zmienić tylko ręcznie w pliku ocr_translator_config.ini. Jest ustawione domyślnie na 0.0 (gemini_model_temp = 0.0), co jest zalecanym ustawieniem dla uzyskania spójnych i powtarzalnych tłumaczeń.

Optymalizacja wydajności

Inteligentny system buforowania

Gemini API korzysta z tego samego systemu buforowania w pliku co DeepL i Google Translate. Gdy buforowanie jest włączone, identyczne fragmenty tekstu są przechowywane lokalnie i pobierane bez dodatkowych zapytań do API. Jednak skuteczność bufora zależy od spójności działania OCR – nawet niewielkie różnice w rozpoznanym tekście spowodują wysłanie nowego zapytania do API.

Strategie optymalizacji kosztów:

Porównanie z innymi metodami

Cecha Gemini API DeepL API Google Translate MarianMT
Jakość tłumaczenia Doskonała + Kontekst Doskonała Dobra Średnia do dobrej
Koszt (duże ilości tekstu) Bardzo niski Wysoki Wysoki Brak
Kontekst ✅ Zaawansowany ❌ Brak ❌ Brak ❌ Brak
Obsługa błędów OCR ✅ Często usuwa błędy ❌ Często powtarza błędy ❌ Często powtarza błędy ❌ Często powtarza błędy
Śledzenie kosztów ✅ Wbudowane ✅ Śledzenie darmowego limitu ❌ Tylko zewnętrzne Nie dotyczy

Zastosowania w grach i dużych projektach

Idealne do tłumaczenia gier

Gemini API doskonale sprawdza się w grach, w których kluczowy jest kontekst i płynność narracji:

Skróty klawiszowe

Dostępne są następujące skróty klawiszowe:

Skrót Funkcja
~ (tylda) Rozpocznij/zatrzymaj tłumaczenie
Alt+1 Przełącz widoczność okna źródłowego
Alt+2 Przełącz widoczność okna tłumaczenia
Alt+S Zapisz ustawienia
Alt+C Wyczyść bufor tłumaczenia
Alt+L Wyczyść dziennik debugowania

Uwaga: gdy aplikacja jest zatrzymana (tłumaczenie nieaktywne), okno tłumaczenia zostanie automatycznie ukryte. Gdy aplikacja jest uruchomiona, okno tłumaczenia pojawi się automatycznie. Można ręcznie zmienić to zachowanie za pomocą skrótu Alt+2 w dowolnym momencie.

Rozwiązywanie problemów

W razie problemów:

  1. Sprawdź zakładkę Debugowanie pod kątem komunikatów o błędach oraz dziennik aplikacji.
  2. Włącz Debugowanie OCR w zakładce Ustawienia, aby zobaczyć, co jest przechwytywane i rozpoznawane w zakładce Debugowanie. Wyświetl też okno Podgląd OCR (dostępne w zakładce Ustawienia po kliknięciu przycisku Podgląd).
  3. Dostosuj ustawienia w razie potrzeby:
  4. Zapoznaj się z Przewodnikiem rozwiązywania problemów (tylko w języku angielskim), aby poznać typowe problemy i ich rozwiązania.

Porady i najlepsze praktyki

Dokładność OCR

Aby uzyskać najlepsze wyniki OCR:

  1. Przechwytuj wyraźny tekst o wysokim kontraście.
  2. Wybierz odpowiedni język źródłowy.
  3. Dostosuj tryb przetwarzania obrazu do wyglądu tekstu – wypróbuj tryb adaptacyjny dla trudnych teł.
  4. Dostosuj rozmiar obszaru przechwytywania tak, aby obejmował tekst ciasno, ale w całości.
  5. Użyj większego obszaru źródłowego dla szerszego kontekstu, jeśli OCR ma problemy.
  6. Włącz Usuń śmieci na końcu, aby wyeliminować artefakty rozpoznawania.
  7. Dostosuj próg pewności, aby zrównoważyć przechwytywanie całego tekstu (niższe wartości) i ograniczanie błędów (wyższe wartości).
  8. Dla małych napisów na zmieniających się tłach eksperymentuj z parametrami Rozmiar bloku i Wartość C trybu adaptacyjnego.

Optymalizacja wydajności

  1. Używaj mniejszego obszaru przechwytywania tekstu źródłowego.
  2. Kliknij Wyłącz dziennik debugowania w zakładce Start.
  3. Zwiększ Interwał skanowania (ms) w zakładce Ustawienia, aby zmniejszyć obciążenie procesora.
  4. Wyłącz Debugowanie OCR w zakładce Ustawienia.
  5. Ustaw Tryb przetwarzania obrazu na Brak w zakładce Ustawienia.
  6. W przypadku modelu MarianMT:
  7. W przypadku modelu DeepL lub Google Translate:

Praktyczne zastosowania

  1. Gry:

    🎮
    UWAGA: Game-Changing Translator może nie działać w niektórych grach w trybie pełnoekranowym.
    Zalecane jest korzystanie z trybu okienkowego bez ramek (ang. „borderless windowed mode") obsługiwanego w większości nowych gier.
  2. Filmy:

  3. Dokumenty i pliki PDF:

  4. Aplikacje: