빠르고 효율적인 벡터 산술 연산을 제공하는 다차원 배열 제공(ndarray class), 고속의 연산속도를 지원반복문 없이 전체 데이터 배열 연산이 가능한 표준 수학 함수, 고차원 수학 계산용 라이브러리선형대수, 난수 생성, 푸리에 변환, 다양한 수학 함수들을 제공동일
하지만 조건에 충족하진 않음. numpy 결여for문 6번 돌려 6개의 번호만 추출하되 그 안에 조건을 만족할 때까지 while문을 돌려 번호표 6개를 출력한다.숏 코딩 choice 함수를 이용하고 choice 안에 있는 조건의 replace를 false로 만들어 비복
\* numpy 1 이어서조건을 가져다 index에 넣어버리면 자동으로 indexing 다시 실행됨.이때 1, 0로 결과값을 반환받고싶다면 조건을 작은 것 부터 먼저 실행해야한다.위와 같이 함수가 있다고 가정할 때파이썬 내장함수를 써도 된고 numpy 함수를 써도 된다
문제 다운로드 데이터 구성 : 사용자 id, 영화 id, 평점, 시간각 데이터는 '::' 로 구분unique() : 데이터에서 중복된 데이터를 제거하는 함수앞서 말 했듯 shape의 행은 data의 개수이니까!!ratings:,1==mid : 영화 id가 해당 아이디인
행과 열 형태로 되어있는 data를 다루는 library종류 Series : 1차원DataFrame : 2차원Series Class : 1차원 → 인덱스(index) + 값(value)DataFrame Class : 2차원 → 표와 같은 형태차원의 개념Vector :
파라미터axis : 행 기준인지, 열 기준인지 설정(axis = 1 >> 행 기준 즉, 결과값이 오른쪽 끝에 나옴.)합계를 계산 (기본적으로 열을 기준)평균을 계산 boolean indexing과 함게 사용새로운 column을 만드려면 loc없이 바로 사용, 반대로 새
2. DataFrame 1. DataFrame 생성 (1) dictionary를 사용한 DataFrame 생성 index를 따로 설정해도 되지만 위와같이 한방에 생성해도 무관 (2) dataframe 인덱스 지정하여 생성 index : 데이터 프레임의 인덱스 설정(
우리는 주로 반정형과 비정형 data를 수집할 것이다.XML은 가운데 사진이고 데이터를 정의할 때 사용한다 즉, 확장형 마크업 언어이다.CSV는 그때 말한 콤마 기준으로 나눈다.JSON 구조 파이썬에서는 딕셔너리 스크립트에서는 객체로 언어별로 다향한 형태로 쓰인다.웹
우선 배운대로 크롤링을 시작해보자위와같이 하면 error가 발생됨 why?server에서 프로그램으로 요청을하는건지, 사람이 클라이언트로 요청을 하는건지 JSP에서 판독하는데 이때 user-agent가 null 값이면 그냥 끊어버린다.따라서 가장 중요한 user-age
하나의 페이지에 있는 리뷰 수집(iframe태그)1~5페이지의 리뷰 수집 -> 텍스트파일로 저장(open 활용)모든 페이지의 리뷰 수집 -> 전체 페이지수 필요수집한 리뷰를 텍스트파일로 저장워드클라우드 그리기(wordcloud library install, matplo
하나의 페이지에서 영화명, 평점 수집 -> DataFrame (영화명, 평점)날짜별로 페이지의 영화명, 평점 수집 -> DataFrame (영화명, 평점, 날짜)URL을 바꾸면 정보를 쉽게 얻어올 수 있다. 즉, URL을 잘 봐야한다
동적인 페이지는 requests로 수집이 불가능하다.selenium이라는 library를 사용하면 해결이 된다.위 사진과 같이 초반에는 좋아요 수가 0이었다가 JS등 스크립트로 인하여 나중에 data 정보가 불러와지는 것은 requests로 수집을 할 수 없다.원래 기
All 페이지에서 상품명과 가격 수집 -> DataFrame패션의류~e쿠폰까지 클릭해서 페이지 넘기기페이지가 넘어갈 때 카테고리별 상품 수집 -> DataFrame앞서 확인했든 data의 개수가 200이니까 200개의 행이 출력되었으니 성공적으로 crawling을 완료
앞서 배운 CSS 선택자와 매우 연관이 있다.. : class 선택자\> : 자식 선택자 : 자손 선택자5\. :\`\`\` : 다음과 같은 식을 만들 수 있다.다음과 같은 속성값으로 찾고자 할 때 쓰인다.위와 같은 예제로 쓰이며 send_keys(Keys.원하는
for i in range(len(tabs)): tabs = driver.find_elements(By.CSS_SELECTOR, value=" time.sleep(1) tabsi.click()temlist = \[]pricelist = \[]it
키워드로 폴더생성 (해당 폴더의 존재여부 판단)폴더 내 이미지를 저장이미지 주소만 있다면 해당 이미지를 다운해주는 라이브러리urlretrieve(이미지 주소, 저장위치)이미지 주소 : 다운로드 받을 실제 이미지 URL저장위치 : 파일명.확장자 or 특정 폴더명 / 파일
Arttificial Intelligence : 프로그램을 이용해 인간의 행동을 모방하는 기술 (규칙기반 전문가 시스템)Machine Learning : 데이터를 기반으로 컴퓨터 스스로 규칙을 찾아 핛습하는 기술 (선형회귀, 군비, 결정트리)DeepLearning :
앞서 포스팅에서 Data를 다음과 같이 준비를 했었다. 얘도 글자 타입을 쓰려면 원핫 인코딩, 라벨 인코딩을 실시하여야 한다.우선 뼈대를 만들 import 부터 진행한다.뉴런의 개수를 설정한다.model.compile(loss="mean_squared_error",