200621 TIL

rang-dev·2020년 6월 21일
0

Wecode-TIL

목록 보기
27/79
post-custom-banner

200621 (일)

  • 영어학원 마지막날
    • 4개월동안의 패스트원 수업 끝!😎
  • 위코드가기
    • 음료 상세페이지(영양정보, 알레르기) 크롤링
      • 상세페이지에 카테고리 부분이 이미지로 되어있어서 그냥 어제 했던 카테고리, 음료 이름 csv에 오늘 가져온 데이터를 합칠 생각이었다.
      • selectfind를 섞어서 썼더니 헷갈려서 오류가 나는 경우도 발생했다.
        • div.class_name과 같은 표현은 select에서만 가능! find에서 class를 지정해주려면 딕셔너리 형식으로 추가해주어야한다.
        • 또한 요소가 하나만 나오는게 확실한 것은 select가 아닌 select_one을 해주면 불필요한 인덱싱 과정을 줄일 수 있다.
        • select에서> 을 함께 사용할 수 있다.(ex. div li > a)
      • 상세정보 뽑는건 어제 했던것과 비슷해서 금방 할 수 있었는데, 정규식으로 원하는 text만 뽑아내는 것이 어려웠다.
      • 또한 뽑아낸 데이터들을 어제 만들어둔 csv에 합치려고 했는데 원래의 csv도 for문으로 읽어와서 새로운 데이터들을 append하고 상세페이지 url도 for문으로 가져오다보니 이중 for문이 되어서 꼬여버렸다....😔
      • 다른분들은 어떻게 해결했나 확인해보니 상세페이지에 오른쪽에 조그만한 카테고리 부분이 있었는데 나는 개발자도구를 켜고 하다보니 모바일 화면이되어서 그게 보이지 않고 있었다..오늘 최고의 충격이었다. 크롤링은 무조건 웹페이지 화면에서 해야겠다는 큰 깨달음을 얻었다.
      • 그래서 그냥 상세페이지에서 모든 정보를 다 가져와서 드디어 csv 파일을 완성했다.
profile
지금 있는 곳에서, 내가 가진 것으로, 할 수 있는 일을 하기 🐢
post-custom-banner

0개의 댓글