🏞️ 연예인 사진 크롤링 하기

문해피와 제육볶음·2023년 5월 21일

5월의 프로젝트

목록 보기

2/3

모델을 만들기 위해서는 제일 처음 있어야 하는것이 이미지 아닐까요?
그렇기 때문에 구글에서 이미지를 연예인마다 폴더를 만들어서 저장하는 계획을 새웠습니다.

1차 파이썬 코드

import requests
from bs4 import BeautifulSoup
import urllib
count2=1
for i in range(10):
    # 검색할 키워드 입력
    keyword = "배우 장기용 인물사진"

    # 검색 URL 주소 입력
    url = f"https://www.google.com/search?q={keyword}&source=lnms&tbm=isch&start=100"

    # HTTP 요청 보내기
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299"}
    html = requests.get(url, headers=header).text

    # HTTP 응답에서 이미지 링크 추출
    soup = BeautifulSoup(html, "html.parser")
    img_tags = soup.find_all("img")

    # 이미지 다운로드
    count = 0
    
    for img in img_tags:
        try:
            count2+=1
            img_url = img["src"]
            if img_url.startswith("http"):
                img_name = f"image_{count}_{count2}.jpg"
                urllib.request.urlretrieve(img_url, img_name)
                print(f"다운로드 완료: {img_name}")
                count += 1
        except Exception as e:
            print(f"오류 발생: {e}")

위의 코드는 장기용이라 배우의 사진을 구글에서 크롤링하기 위해서 제일 먼저 url의 형식을 관찰한 결과 GET방식이란것을 알수 있었습니다

그렇다면 GET방식이란 무엇일까요?

클라이언트가 서버에 정보를 요청할 때 URL에 특정한 매개변수를 추가하여 요청하는 방식입니다.

GET 방식은 정보를 검색하는 데 사용되며, URL에 매개변수가 포함되어 있어 이를 사용해 서버에 요청을 보낼 수 있습니다. 이런 특성 때문에 사용자가 주소창의 URL을 변경하여 다양한 정보를 얻을 수 있는 것이 가능합니다.

변수 keyword는 검색하고 싶은 배우나 가수의 이름등을 url에 f스트링의 형식으로 넣었고 그 이유는
추후에 반복문을 통해서 리스트에 연예인의 이름을 넣고 이름을 반복하기 위해서 입니다.

그러면서 URL에서 읽어온 웹의 정보를 BeautifulSoup을 통해서 웹페이지의 코드를 해석하여 문서 객체 모델(DOM, Document Object Model)과 유사한 구조로 변환한것을 soup에 담습니다.
변환한것을 통해서 soup.find_all("img") 를 통해서 이미지만 찾습니다.

반복문

이제 < img >태그에 대한 반복문을 수행합니다.
그리고 이미지 수집에 시간이 많이 걸리기 때문에 에러가 나면 멈추는게 아니라
try 와 except를 통해서 에러의 메세지만을 출력하고 멈추지 않게 하였습니다.
img_url = img["src"]
각 < img > 태그의 "src" 속성값을 가져와 img_url 변수에 저장합니다. "src"는 이미지 파일의 URL를 가리킵니다.
if img_url.startswith("http"):
이미지 URL이 "http"로 시작하는지 확인하고, 그렇다면 해당 이미지를 다운로드하기 위해 다음 코드를 실행합니다.
urllib.request.urlretrieve(img_url, img_name)
이미지 URL에서 이미지를 다운로드하고 이미지 파일의 이름인 img_name으로 저장합니다.

위의 코드로 이미지는 다운이 받아졌지만 연예인의 사진 뿐만아니라 사진을 포스팅한곳의 로고나 기타 필요없는 이미지 까지 저장이 되었습니다.
그리고 스크롤해서 이미지가 추가로 로드되는 형식이기 때문에 스크롤기능도 추가해야 했습니다.

그것의 해결방법으로 다른 코드를 작성해야 했습니다.

2차 파이썬 코드

import os
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
from PIL import Image
import io
import time
# 크롬드라이버 위치 설정
DRIVER_PATH = '/usr/local/bin/chromedriver'
# 크롬 드라이버 옵션 설정
listm=['가수 백예린', '가수 이소라','가수 윤아배우', '배우 민효린','배우 신민아','배우 수애','배우 서현진가수', '가수 송가인','개그우먼 신봉선','개그우먼 이영자']
for i in listm:
  options = Options()
  options.add_argument('--headless')  # 창 안띄우기
  options.add_argument('--no-sandbox')  # 리눅스 환경에서 필요한 옵션
  options.add_argument('--disable-dev-shm-usage')  # 리눅스 환경에서 필요한 옵션
  # 검색어 설정
  search_name = i
  # 검색어를 이용한 구글 이미지 검색 url
  url = f'https://www.google.com/search?q={search_name}&source=lnms&tbm=isch'
  # 크롬 드라이버 실행
  service = Service(DRIVER_PATH)
  driver = webdriver.Chrome(service=service, options=options)
  # url 접속
  driver.get(url)
  # 페이지 로드를 위한 대기 시간
  time.sleep(2)
  # 이미지 로딩을 위한 스크롤 다운
  last_height = driver.execute_script("return document.body.scrollHeight")
  while True:
      driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
      time.sleep(1)
      new_height = driver.execute_script("return document.body.scrollHeight")
      if new_height == last_height:
          break
      last_height = new_height
  # 이미지 링크 추출
  soup = BeautifulSoup(driver.page_source, 'html.parser')
  img_tags = soup.find_all('img')
  urls = []
  for img in img_tags:
      try:
          url = img['src']
          if 'http' in url:
              urls.append(url)
      except:
          pass
  # 이미지 다운로드
  os.makedirs(f'./images{search_name}', exist_ok=True)
  count = 0
  for url in urls:
      try:
          response = requests.get(url, stream=True)
          # 이미지 사이즈 확인
          img = Image.open(io.BytesIO(response.content))
          width, height = img.size
          if width >= 20 and height >= 20:
              file_name = f'./images{search_name}/{count}.jpg'
              with open(file_name, 'wb') as out_file:
                  out_file.write(response.content)
              print(f'{file_name} saved')
              count += 1
              if count == 200:
                  break
      except:
          pass
  # 크롬 드라이버 종료
  driver.quit()

여기서 selenium을 이용해서 앞에서 말씀드린 스크롤등의 브라우저의 자동화를 진행하였습니다.

이제 코드를 보면 처음것과 다른것은 크게 없습니다.
하지만 다른것들은 크게 00있습니다.

time.sleep()

슬립을 이용하는 이유는 크게 두가지가 있습니다.
- 페이지 로딩 대기 : 웹 페이지의 동적 컨텐츠가 완전히 로드되고 렌더링될 시간을 확보하기 위해 사용합니다.
- 요청 간격 조절 : 웹 서버에 부담을 주지 않기 위해 웹 페이지에 일정한 간격으로 보내는데 사용합니다.
driver.execute_script()
- 웹 페이지의 총 스크롤 높이를 측정하고 그 값을 last_height 변수에 할당하는 것입니다. 이 정보는 무한 스크롤 페이지에서 컨텐츠를 로드하거나 스크롤을 자동화하는 데 사용할 수 있습니다.
- driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
  똑같지만 스크롤을 했을때 처음 숫자는 0으로 가로는 가만히 있고, 두번째 인자는 아래로 스크롤을 최대로 한다는 뜻입니다
  1. 이렇게 스크롤을 통해서 나온 길이가 두개가 서로 같으면 while문을 멈추게 됩니다.
    그리고 이렇게 나온 페이지 전체의 html을 가져오게 되고 < img >태그를 가져오게 됩니다.
  2. 지금까지 urls에 담긴 것들이 또다시 반복문을 통해서 이미지를 다운받을 형식을 스트리밍 방식으로 하게됩니다.
  3. 그리고 1차 코드에서 이미지가 첨부되어있는 로고들도 같이 받아져 오는것을 방지하기 위해서 이미지의 크기를 측정하여 20*20이 넘어야 다운로드가 되도록 설정하였습니다.
  그렇다면 결과적으로 처음에 listm이라는 리스트에 있는 배우와 연예인의 이름들에 대한 폴더가 만들어지고 그 폴더에 해당 연예인의 사진이 200장까지 저장되게 됩니다.

다음 포스팅은 6명의 팀원들이 각자 모은 연예인들을 파일질라 를 통해서 EC2에 모아보겠습니다

문해피와 제육볶음

DB 일기장

이전 포스트

🧩 5월의 프로젝트 시작

다음 포스트

🏞️ 연예인 사진 크롤링 하기

5월의 프로젝트

1차 파이썬 코드

그렇다면 GET방식이란 무엇일까요?

반복문

2차 파이썬 코드

다음 포스팅은 6명의 팀원들이 각자 모은 연예인들을 파일질라 를 통해서 EC2에 모아보겠습니다

🧩 5월의 프로젝트 시작

🏞️EC2에 파일질라를 통해 사진 모으기

0개의 댓글