간단한 전자 상거래 웹사이트 스크래핑

자료실
기타
작성자
인사이트캠퍼스
작성일
2020-04-29 12:19
조회
119

Scraping an E-Commerce Website Made Simple

간단한 전자 상거래 웹사이트 스크래핑



* 이 기사는 Data Driven Investor에 작성된 Sandra Moraes의 글을 번역하였습니다.

데이터 과학 분야를 처음 접하는 사람의 마음속에 떠오르는 분명한 질문은 데이터 스크래핑이 정확히 무엇인가 하는 것이다. 심지어 내가 데이터 과학 분야의 아마추어였을 때 많은 사람들에게 같은 종류의 질문을 하곤 했다. 더 이상 시간을 낭비하지 말고 데이터 스크래핑이 정확히 무엇인지 논의해 보자.

전자상거래 웹사이트에서 데이터를 긁어내는 방법?

시장에서 이용할 수 있는 많은 웹 스크래핑 도구들이 있고 많은 회사들은 웹 스크래퍼를 통해 고객들이 이러한 데이터에 접근할 수 있도록 돕고 있다. 스크래퍼를 쓰기 전에 어떤 데이터를 추출해야 하는지 알아야 한다. 웹 스크래퍼는 웹사이트의 구조에 기초하여 설계된다. 고급 프로그래밍 언어인 파이썬은 스크래퍼를 쓰는 데 사용할 수 있다.

요구 사항에 따라 데이터를 얻으려면 스크레이퍼 내에 여러 개의 파서를 설치해야 한다. 이 웹 스크래퍼는 웹사이트의 구조에 따라 작동한다. 웹 사이트를 스크랩하기 위해 실제로 하는 일은 데이터를 추출하고자 하는 사이트에 GET 요청을 보내고, 웹사이트는 당신에게 HTML 코드를 반환하는 것이다. 다음 단계는 이 HTML 코드의 정보를 정규화된 형식으로 구문 분석하는 것이다. 형식 선택은 기본 설정에 따라 다르다. 나중에 이러한 데이터를 분석하여 관련 정보를 수집할 수 있다.

어떤 종류의 데이터를 수집할 수 있는가?

이미지 URL, 제품 설명, 제품 이름, 가격 등을 웹사이트에서 수집할 수 있다. 웹사이트에서 나온 제품 리뷰도 수집할 수 있다. 이러한 리뷰에는 다양한 기업이 제품에 대한 고객의 피드백이나 반응을 이해하기 위해 사용할 수 있는 유용한 정보를 제공할 것이다. 이러한 수집된 데이터를 분석하여 특정 제품이나 브랜드에 대한 고객의 감성을 파악할 수 있다. 이러한 정서를 바탕으로 고객 세분화 및 기타 형태의 표적 마케팅도 달성할 수 있다.

웹 스크래핑에서 직면한 문제

1. 대부분의 웹사이트는 스크랩 허가를 허용하지 않을 것이다. 사이트는 robot.txt 파일을 통한 스크랩을 허용하지 않을 수 있다. 웹사이트가 스크랩을 허용하지 않는다면, 그 웹사이트에서 유용한 정보를 수집하는 것은 그리 쉽지 않다. 그렇다면 스크랩이 비슷한 종류의 정보를 얻을 수 있는 대체 사이트를 찾는 것이 좋을 것이다.

2. 각 웹사이트에 대해, 여러분은 다른 스크래퍼를 쓸 필요가 있다. 각 사이트의 웹 페이지 구조는 매우 다양하다. 따라서 별도의 스크래퍼가 필요하다. 웹 사이트의 내용에 대한 작은 업데이트조차도 구조의 변화를 가져올 수 있다.

3. 당신은 CAPTCHA(컴퓨터와 인간에게 별개로 말하기 위한 완전 자동화된 공공 튜링 테스트)를 요청하는 웹사이트를 보았을지도 모른다. 이 CAPTCHA는 인간이 이해하기 쉽지만 스크래퍼가 우회하는 것은 불가능하다. CAPTCHA를 피하기 위해 구현할 수 있는 많은 메커니즘이 있지만, 여전히 웹 스크래핑을 시간이 많이 걸리는 프로세스로 만들 수 있다.

4. 웹사이트는 보통 허니팟 트랩을 사용하여 웹사이트에서 데이터 스크랩을 차단한다. 웹 사이트는 눈에 보이지 않지만 스크래퍼에 보이는 보이지 않는 링크를 배치한다. 이러한 링크를 사용하여 웹 사이트는 IP를 식별하고 스크랩 프로세스를 차단할 수 있다.

5. 스크랩 공정에서 많은 정보가 생성되기 때문에 대규모로 데이터 추출을 위해서는 많은 양의 저장 공간이 필요합니다. 대규모 데이터 추출을 위해서는 스토리지 공간이 확장 가능하고 더 안전해야 한다.

6. 특히 데이터를 기반으로 다양한 마케팅 전략을 수립할 때 생성된 데이터의 품질은 매우 중요하다. 눈 깜짝할 사이에 데이터도 바뀔 수 있으므로, 생성된 데이터가 달성하기 어려운데도 품질 가이드라인을 충족하는지 확인하는 데 매우 주의해야 한다.

데이터 스크랩 방법을 사용하면 비즈니스에 많은 이점이 있다. 저렴하고 구현하기 쉽다. 웹 스크래핑 회사는 대개 예산에 맞는 방식으로 매우 저렴한 비용으로 서비스를 제공한다. 데이터 스크랩은 또한 더 빠른 출력을 제공할 수 있다. 수동으로 수행되면 일반적으로 1주일 이상 걸리는 프로세스는보다 빠른 속도로 완료 될 수 있다. 그럼에도 불구하고 스크랩에 전문가가 아닌 사람에게는 그 과정이 약간 혼란스러워질 수 있다.

특히 가격 세부 정보 수집 등을 포함하는 데이터 추출의 간단한 오류는 나중에 훨씬 더 큰 영향을 미칠 수 있다. 또한 생성한 데이터를 분석하고 읽을 수 있는 형식으로 변환하려면 전문가가 필요할 수 있다. 모든 한계와 도전에도 불구하고 데이터 스크랩 산업은 아직 초기 단계에 있으며, 우리는 앞으로 데이터 과학자들에 대한 수요가 크게 증가할 것으로 기대할 수 있다.

번역 - 핀인사이트 인턴연구원 김영현

원문 보러가기 >

https://www.datadriveninvestor.com/2020/04/15/scraping-an-e-commerce-website-made-simple/

전체 0

전체 572
번호 썸네일 제목 작성자 작성일 추천 조회
공지사항 [공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
[공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
[공지사항] 코로나바이러스감영증-19 예방을 위한 강의장 방역 안내
인사이트캠퍼스 | 2020.03.05 | 추천 0 | 조회 758
인사이트캠퍼스 2020.03.05 0 758
공지사항
비밀글 파이썬으로 배우는 블록체인 구조와 이론 (위키북스)
finweb | 2019.07.05 | 추천 0 | 조회 14
finweb 2019.07.05 0 14
569 딥러닝을 활용한 금융 시계열 분석 - 2
딥러닝을 활용한 금융 시계열 분석 - 2
딥러닝을 활용한 금융 시계열 분석 - 2
인사이트캠퍼스 | 2020.05.25 | 추천 0 | 조회 36
인사이트캠퍼스 2020.05.25 0 36
568 퀀텀 컴퓨팅의 실용화 방안
퀀텀 컴퓨팅의 실용화 방안
퀀텀 컴퓨팅의 실용화 방안
인사이트캠퍼스 | 2020.05.18 | 추천 0 | 조회 92
인사이트캠퍼스 2020.05.18 0 92
567 딥러닝을 활용한 금융 시계열 분석 - 1
딥러닝을 활용한 금융 시계열 분석 - 1
딥러닝을 활용한 금융 시계열 분석 - 1
인사이트캠퍼스 | 2020.05.18 | 추천 0 | 조회 42
인사이트캠퍼스 2020.05.18 0 42
566 동적 자산 배분과 유니버셜 포트폴리오
동적 자산 배분과 유니버셜 포트폴리오
동적 자산 배분과 유니버셜 포트폴리오
인사이트캠퍼스 | 2020.05.14 | 추천 0 | 조회 124
인사이트캠퍼스 2020.05.14 0 124
565 2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
2020년 최고의 인공지능 및 머신러닝 소프트웨어 및 프레임워크 Top 20
인사이트캠퍼스 | 2020.05.13 | 추천 0 | 조회 136
인사이트캠퍼스 2020.05.13 0 136
564 자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
자주 묻는 머신러닝 인터뷰 질문 및 답변 50선
인사이트캠퍼스 | 2020.05.11 | 추천 0 | 조회 153
인사이트캠퍼스 2020.05.11 0 153
563 좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
좋은 vs 나쁜 액티브 펀드 관리 : 3 가지 지표
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 133
인사이트캠퍼스 2020.05.06 0 133
562 그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
그녀는 돈의 보스: 여성 온라인 투자의 4대 트렌드
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 114
인사이트캠퍼스 2020.05.06 0 114
561 변동성 측정의 이해
변동성 측정의 이해
변동성 측정의 이해
인사이트캠퍼스 | 2020.05.06 | 추천 0 | 조회 138
인사이트캠퍼스 2020.05.06 0 138
560 새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
새로운 재료를 찾는 데 있어 최적화를 촉진하는 신경망
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 117
인사이트캠퍼스 2020.04.29 0 117
559 2020년 멋진 오픈 소스 소프트웨어 5개
2020년 멋진 오픈 소스 소프트웨어 5개
2020년 멋진 오픈 소스 소프트웨어 5개
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 134
인사이트캠퍼스 2020.04.29 0 134
558 AI가 속아 넘어갈 수 있을까?
AI가 속아 넘어갈 수 있을까?
AI가 속아 넘어갈 수 있을까?
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 75
인사이트캠퍼스 2020.04.29 0 75
557 블록체인이 채택되면서 협업이 새로운 경쟁인가?
블록체인이 채택되면서 협업이 새로운 경쟁인가?
블록체인이 채택되면서 협업이 새로운 경쟁인가?
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 84
인사이트캠퍼스 2020.04.29 0 84
556 간단한 전자 상거래 웹사이트 스크래핑
간단한 전자 상거래 웹사이트 스크래핑
간단한 전자 상거래 웹사이트 스크래핑
인사이트캠퍼스 | 2020.04.29 | 추천 0 | 조회 119
인사이트캠퍼스 2020.04.29 0 119
555 디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
디지털 화폐 – CBDC를 발행하는 데에 무엇이 필요한가?
인사이트캠퍼스 | 2020.04.27 | 추천 0 | 조회 153
인사이트캠퍼스 2020.04.27 0 153
554 2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
2020년 가장 해 볼만한 인공지능 및 머신러닝 프로젝트 20선
인사이트캠퍼스 | 2020.04.20 | 추천 0 | 조회 371
인사이트캠퍼스 2020.04.20 0 371
553 Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
Netflix가 Druid를 실시간 이해에 사용하여 고품질 체험을 보장하는 방법
인사이트캠퍼스 | 2020.04.13 | 추천 0 | 조회 86
인사이트캠퍼스 2020.04.13 0 86
552 미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
미디어 파이프를 사용한 모바일 장치의 실시간 3D 객체 탐지
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 63
인사이트캠퍼스 2020.04.09 0 63
551 Open Images V6 - 현지화된 서술 특성 제공
Open Images V6 - 현지화된 서술 특성 제공
Open Images V6 - 현지화된 서술 특성 제공
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 60
인사이트캠퍼스 2020.04.09 0 60
550 외형 변경, 자유 로밍 소프트 로봇 제작
외형 변경, 자유 로밍 소프트 로봇 제작
외형 변경, 자유 로밍 소프트 로봇 제작
인사이트캠퍼스 | 2020.04.09 | 추천 0 | 조회 48
인사이트캠퍼스 2020.04.09 0 48