데이터 증강 라벨링, 이미지처리, 데이터셋구현
(02.데이터 증강 라벨링 이미지 처리 데이터셋 구현.pdf)
[데이터 수집] - 크롤링(Crawling) , 73페이지
https://github.com/J-o-y-y/ms_ai_school/blob/main/%EC%9B%B9%ED%81%AC%EB%A1%A4%EB%A7%81_(Requests%2C_BeautifulSoup).ipynb
특징 | 설명 |
---|---|
웹 애플리케이션 테스트 자동화 | 웹 브라우저를 자동으로 제어하고, 사용자 동작을 모방하여 웹 페이지를 테스트하는 자동화 작업을 수행합니다. |
다양한 프로그래밍 언어 지원 | 자바, 파이썬, 자바스크립트 등 다양한 프로그래밍 언어에서 Selenium을 활용하여 자동화 스크립트를 작성할 수 있습니다. |
웹 스크래핑 지원 | 웹 페이지의 내용을 자동으로 수집하고 필요한 데이터를 추출하는 웹 스크래핑 작업에도 활용될 수 있습니다. |
다양한 브라우저 지원 | 크롬, 파이어폭스, 사파리, 인터넷 익스플로러 등 다양한 웹 브라우저를 지원하며 각각에 대한 드라이버를 사용합니다. |
웹 애플리케이션 품질 향상 | 자동화된 테스트를 통해 웹 애플리케이션의 정상 작동 여부를 확인하고 버그를 찾아내어 품질을 향상시킬 수 있습니다. |
데이터 수집 및 분석 자동화 | 웹 스크래핑을 통해 웹사이트에서 정보를 수집하거나, 데이터 분석 작업을 자동화하여 효율적인 데이터 처리를 도와줍니다. |
Selenium, 웹 자동화 작업시 주의
버전 호환성 확인: Selenium은 브라우저의 버전과 호환되는 드라이버를 사용해야 합니다. 즉, 사용하는 브라우저의 버전에 맞는 드라이버를 설치해야 합니다. 버전이 호환되지 않으면 Selenium이 작동하지 않거나 예기치 않은 동작이 발생할 수 있습니다.
Xpath 조정: Selenium에서 웹 요소를 찾을 때 Xpath를 사용하는 경우가 많습니다. 하지만 Xpath는 웹 페이지의 구조가 변경되면 더 이상 작동하지 않을 수 있습니다. 따라서 웹 페이지가 변경될 때마다 Xpath를 조정해야 할 수도 있습니다.
작동 안되는 문제: Selenium을 사용하다가 작동하지 않는 문제가 발생할 수 있습니다. 이 경우에는 다음과 같은 점을 확인해볼 수 있습니다.
실행 속도: Selenium은 웹 브라우저를 실제로 제어하기 때문에 자동화 작업의 실행 속도가 상대적으로 느릴 수 있습니다. 큰 규모의 테스트나 데이터 수집 작업을 수행할 때는 실행 시간을 고려해야 합니다.
CAPTCHA와 봇 방지 기술: 일부 웹 사이트는 CAPTCHA나 다른 봇 방지 기술을 사용하여 자동화 작업을 방지할 수 있습니다. 이러한 경우에는 Selenium을 사용하여 자동화를 우회하는 방법을 찾아야 할 수 있습니다.
웹 사이트 정책 준수: Selenium을 사용하여 웹 스크래핑을 수행하는 경우, 해당 웹 사이트의 정책을 준수해야 합니다. 웹 사이트의 이용 약관이나 로봇 배제 표준에 따라 합법적으로 스크래핑을 수행해야 합니다.