selenium 실습

강정우·2022년 7월 30일
0

data, ai

목록 보기
13/18
post-thumbnail

G마켓 상품 수집

  1. All 페이지에서 상품명과 가격 수집 -> DataFrame
  2. 패션의류~e쿠폰까지 클릭해서 페이지 넘기기
  3. 페이지가 넘어갈 때 카테고리별 상품 수집 -> DataFrame

1. 드라이버 get 및 url 확인

gmarket_url = "http://corners.gmarket.co.kr/Bestsellers"
driver = wb.Chrome()
driver.get(gmarket_url)

2. 해당 page의 선택자로부터 값을 뽑아 data 개수 확인

itemNms = driver.find_elements(By.CLASS_NAME, value="itemname")
itemPrices = driver.find_elements(By.CSS_SELECTOR, value="div.s-price > strong > span > span")

len(itemNms), len(itemPrices)

#result
200, 200

3. DataFrame을 만들기위한 배열 만들기

itemlist = []
pricelist = []

for i in range(len(itemNms)):
    itemlist.append(itemNms[i].text)
    pricelist.append(itemPrices[i].text)

4. Dictionary를 이용한 DataFrame 만들기

Gmarket_Top200 = {
    "상품명":itemlist,
    "가격":pricelist
}

Gmarket_Top200_df = pd.DataFrame(Gmarket_Top200)

5. 최종 데이터의 개수를 확인하고 본인이 예상한 것과 일치하는지 검산

Gmarket_Top200_df

  • 앞서 확인했든 data의 개수가 200이니까 200개의 행이 출력되었으니 성공적으로 crawling을 완료하였다.
profile
智(지)! 德(덕)! 體(체)!

0개의 댓글