이미지 처리 태스크

<aside> 👉 포스터 이미지에서 필요한 텍스트만을 빼와서 리스트로 나열한다.

</aside>

어떻게 작성해야 할까?

일단 chatGPT api를 사용해서 이미지에 대한 정보를 읽게 했다.

참고

gpt-4-vision-preview를 사용하려면 gpt-4에 대한 액세스 권한을 받아야 하는데, 액세스 권한을 받으려면 5달러 이상 크레딧 충전하면 된다.

여차저차 해서 일단 이미지에 대한 설명을 받아오는 코드를 작성했다.

참고

https://platform.openai.com/docs/guides/vision

import base64
import os

from dotenv import load_dotenv
import requests

# load .env
load_dotenv()

# 현재 작업 디렉토리
cwd = os.getcwd()
# 이미지 파일 경로
file_path = os.path.join(cwd, 'media', 'poster_sample.jpeg')
# OpenAI API Key
api_key = os.environ.get("OPENAI_API_KEY")

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Path to your image
image_path = os.path.join(cwd, 'media', 'poster_sample.jpeg')

# Getting the base64 string
base64_image = encode_image(image_path)

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {api_key}"
}

payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "이 이미지에 대해서 설명해 줘. please write in korean."
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("<https://api.openai.com/v1/chat/completions>", headers=headers, json=payload)

print(response.json())

gpt-4-vision-preview 모델을 사용할 때 주의사항

출처

의료 이미지: 이 모델은 CT 스캔과 같은 특수 의료 이미지를 해석하는 데 적합하지 않으며 의학적 조언에 사용해서는 안 됩니다.
비영어: 일본어, 한국어 등 라틴 알파벳이 아닌 텍스트가 포함된 이미지를 처리할 때 모델이 최적의 성능을 발휘하지 못할 수 있습니다.
작은 텍스트: 가독성을 높이려면 이미지 내 텍스트를 확대하되 중요한 세부정보는 자르지 마세요.