파이썬(Python)/웹스크롤링

xpath란

끄적끄적아무거나 2020. 11. 25. 16:39
반응형

 

요즘 나오는 웹페이지들은 마우스 오른쪽 클릭으로 아래 그림 처럼 페이지 소스 보기를 하면 복잡한 코드를 확인할 수 있다.

 

웹 크롤링이나 웹 자동화를 위해서는 특정 부분의 조작이나 정보를 가져와야 하는데 이를 구분 짓기 쉽게 해주는 것이 xpath이다. 한마디로 모든 코드들이 가지는 unique 한 주소 값 정도로 생각하면 되겠다.

 

 

xpath를 가져오는 방법은 아래와 같다.

 

나는 크롬만 사용하므로 크롬 기준으로 설명하겠다. 우선 크롬에서 원하는 웹페이지를 들어 간다. 그리고 오른쪽 상단에 점 세개 있는 부분을 클릭하면 도구 더보기 >> 개발자 도구 로 들어 간다.

 

대표사진 삭제

사진 설명을 입력하세요.

또는 웹 화면에서 마우스 오른쪽 클릭 하여 검사를 클릭 한다.

대표사진 삭제

사진 설명을 입력하세요.

그럼 개발자 도구가 오른쪽에 열리는데 개발자 도구 화면에서 왼쪽 상단에 사각형과 화살표가 같이 되어 있는 부분을 클릭한다. 그리고 찾고 싶은 웹을 마우스를 올리면 해당 부분에 코드가 개발자 도구에서 선택 된다.

 

 

 

 

그리고 개발자 도구로 가서 해당 라인에서 마우스 오른쪽 클릭 후 Copy >> Copy Xpath 를 하면 Xpath 값이 복사 되고 향후 코드를 짤때 Xpath 값으로 웹에서 조작이나 정보를 가저올 수 있다.

 

 

 

 

 

 

반응형