Google Vision API abil pildilt ekstraheeritud tekstile juurdepääsu saamiseks võite järgida mitmeid samme, mis hõlmavad API optilise märgituvastuse (OCR) võimaluste kasutamist. Google Vision API OCR-tehnoloogia võimaldab tuvastada ja piltidelt teksti, sealhulgas käsitsi kirjutamise, tuvastada ja eraldada. See funktsioon on eriti kasulik rakendustes, mis nõuavad visuaalsetes andmetes sisalduva tekstilise teabe analüüsi ja mõistmist.
Esiteks peate seadistama Google Vision API-ga töötamiseks vajaliku keskkonna. See hõlmab projekti loomist Google Cloud Console'is, Vision API lubamist ja vajalike autentimismandaatide hankimist, nagu API-võti või teenusekonto võti.
Kui teie keskkond on seadistatud, saate kasutada Vision API meetodit "asyncBatchAnnotateFiles", et teostada pildifaili OCR-i. See meetod võimaldab edastada pildifailide loendi töötlemiseks ja saada tulemusi asünkroonselt. Teise võimalusena saate piltide loendi otse töötlemiseks kasutada meetodit "asyncBatchAnnotateImages".
Pildilt teksti eraldamiseks peate looma objekti AnnotateImageRequest eksemplari ja määrama soovitud funktsioonid. Sel juhul peaksite määrama funktsiooni "TEXT_DETECTION" näitama, et soovite pildilt teksti eraldada. OCR-i täpsuse parandamiseks saate määrata ka täiendavaid parameetreid, näiteks keelevihje.
Järgmiseks peate pildifaili kodeerima base64-kodeeringuga stringiks ja looma pildiobjekti "Image" eksemplari, kasutades kodeeritud pildiandmeid. See objekt "Image" tuleks lisada varem loodud objektile "AnnotateImageRequest".
Pärast päringu seadistamist saate selle saata Vision API-le, kasutades meetodit "batchAnnotateImages" või "batchAnnotateFiles", olenevalt valitud lähenemisviisist. API töötleb pilti ja tagastab vastuse, mis sisaldab ekstraktitud teksti.
Vastusest ekstraheeritud tekstile juurdepääsu saamiseks võite korrata objekti AnnotateImageResponse väljal textAnnotations. See väli sisaldab objektide "EntityAnnotation" loendit, millest igaüks esindab pildil tuvastatud tekstielementi. Iga objekti „EntityAnnotation” väli „kirjeldus” sisaldab ekstraktitud teksti.
Siin on Pythoni koodilõigu näide, mis näitab, kuidas pääseda Google Visioni API abil pildilt ekstraheeritud tekstile juurde:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
Selles näites võtab funktsioon „extract_text_from_image” sisendiks pildifaili tee ja kasutab Visioni API-le päringu saatmiseks Google Cloud Visioni klienditeeki. Seejärel prinditakse väljatõmmatud tekst välja.
Google Vision API abil pildilt ekstraheeritud tekstile juurde pääsemiseks peate seadistama keskkonna, looma soovitud funktsioonidega objekti AnnotateImageRequest, kodeerima pildifaili, saatma taotluse API-le ja hankima ekstraktitud teksti. vastusest. Vision API OCR-võimalused võimaldavad tuvastada ja piltidelt teksti, sealhulgas käsitsi kirjutada, tuvastada ja eraldada.
Muud hiljutised küsimused ja vastused selle kohta Teksti tuvastamine ja väljavõtmine käekirjast:
- Millised piirangud võivad tekkida keerukatest dokumentidest teksti eraldamisel Google Vision API abil?
- Mis tähtsus on usaldustasemetel Google Vision API tekstitõlgenduses?
- Kuidas saab Google Vision API käsitsi kirjutatud märkmetest teksti täpselt ära tunda ja neist eraldada?
- Millised on väljakutsed käsitsi kirjutatud piltide teksti tuvastamisel ja nendest eraldamisel?
- Kas Google Vision tuvastab käekirja?