最近嘗試讀取影像發生錯誤
unstructured_pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH
這個是當使用 langchain 的 UnstructuredImageLoader 時候發生的錯誤
去看一下原始碼是因為必須要安裝 OCR套件tesseract 並且設定執行路徑在windows 的環境變數 PATH中
但是我實在是想在程式中指定就好
發現可以這樣寫
from unstructured_pytesseract import pytesseract
pytesseract.tesseract_cmd = 'C:\Tesseract-OCR/tesseract'
from langchain_community.document_loaders import WebBaseLoader, TextLoader, UnstructuredImageLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
documents = []
loader = UnstructuredImageLoader(
"images/test_01.jpg", mode="elements",
)
data = loader.load()
data[0]
因為在 unstructured_pytesseract\pytesseract.py 他的執行路徑是直接寫死的
from packaging.version import InvalidVersion from packaging.version import parse from packaging.version import Version from PIL import Image tesseract_cmd = 'tesseract'
所以我嘗試用直接指定 tesseract 的路徑方式看看
結果發現是可以的
給大家參考囉~![]()

留言板
歡迎留下建議與分享!希望一起交流!感恩!