برای دسترسی به متن استخراجشده از یک تصویر با استفاده از Google Vision API، میتوانید یک سری مراحل را دنبال کنید که شامل استفاده از قابلیتهای تشخیص کاراکتر نوری (OCR) API است. فناوری OCR در Google Vision API تشخیص و استخراج متن از تصاویر، از جمله دست خط را امکان پذیر می کند. این قابلیت به ویژه در برنامه هایی که نیاز به تجزیه و تحلیل و درک اطلاعات متنی موجود در داده های بصری دارند مفید است.
ابتدا باید محیط لازم برای کار با Google Vision API را تنظیم کنید. این شامل ایجاد یک پروژه در Google Cloud Console، فعال کردن Vision API و دریافت اعتبارنامه های احراز هویت مورد نیاز مانند یک کلید API یا کلید حساب سرویس است.
هنگامی که محیط شما راه اندازی شد، می توانید از روش "asyncBatchAnnotateFiles" Vision API برای انجام OCR روی یک فایل تصویری استفاده کنید. این روش به شما امکان می دهد لیستی از فایل های تصویری را برای پردازش ارسال کنید و نتایج را به صورت ناهمزمان دریافت کنید. همچنین، میتوانید از روش «asyncBatchAnnotateImages» برای پردازش مستقیم فهرستی از تصاویر استفاده کنید.
برای استخراج متن از یک تصویر، باید یک نمونه از شی «AnnotateImageRequest» ایجاد کنید و ویژگی های مورد نظر را مشخص کنید. در این مورد، ویژگی «TEXT_DETECTION» را تنظیم میکنید تا نشان دهد که میخواهید متن را از تصویر استخراج کنید. همچنین می توانید پارامترهای اضافی مانند اشاره زبان را برای بهبود دقت OCR تعیین کنید.
در مرحله بعد، باید فایل تصویر را در یک رشته کدگذاری شده با base64 رمزگذاری کنید و با استفاده از داده های تصویر کدگذاری شده، نمونه ای از شی «Image» ایجاد کنید. این شی «Image» باید به شی «AnnotateImageRequest» که قبلاً ایجاد شده است اضافه شود.
پس از تنظیم درخواست، بسته به روش انتخابی خود، میتوانید آن را با استفاده از روش «batchAnnotateImages» یا «batchAnnotateFiles» به Vision API ارسال کنید. API تصویر را پردازش می کند و پاسخی حاوی متن استخراج شده را برمی گرداند.
برای دسترسی به متن استخراجشده از پاسخ، میتوانید روی قسمت «textAnnotations» شی «AnnotateImageResponse» تکرار کنید. این فیلد حاوی فهرستی از اشیاء «EntityAnnotation» است که هر کدام نشان دهنده یک عنصر متنی شناسایی شده در تصویر است. فیلد «توضیح» هر شی «EntityAnnotation» حاوی متن استخراج شده است.
در اینجا یک نمونه کد کد در پایتون آمده است که نحوه دسترسی به متن استخراج شده از یک تصویر را با استفاده از Google Vision API نشان می دهد:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
در این مثال، تابع «exttract_text_from_image» مسیر یک فایل تصویری را به عنوان ورودی می گیرد و از کتابخانه سرویس گیرنده Google Cloud Vision برای ارسال درخواست به Vision API استفاده می کند. سپس متن استخراج شده چاپ می شود.
برای دسترسی به متن استخراج شده از یک تصویر با استفاده از Google Vision API، باید محیط را تنظیم کنید، یک شی «AnnotateImageRequest» با ویژگی های مورد نظر ایجاد کنید، فایل تصویر را رمزگذاری کنید، درخواست را به API ارسال کنید و متن استخراج شده را بازیابی کنید. از پاسخ قابلیت های OCR Vision API امکان تشخیص و استخراج متن از تصاویر، از جمله دست خط را فراهم می کند.
سایر پرسش ها و پاسخ های اخیر در مورد تشخیص و استخراج متن از دست خط:
- چه محدودیت هایی ممکن است هنگام استخراج متن از اسناد پیچیده با استفاده از Google Vision API ایجاد شود؟
- اهمیت سطوح اطمینان در تفسیر متن Google Vision API چیست؟
- چگونه Google Vision API می تواند متن را از یادداشت های دست نویس به طور دقیق تشخیص داده و استخراج کند؟
- در تشخیص و استخراج متن از تصاویر دست نویس چه چالش هایی وجود دارد؟
- آیا گوگل ویژن می تواند دست خط را تشخیص دهد؟