이 영역을 누르면 첫 페이지로 이동
시간의화살 블로그의 첫 페이지로 이동

시간의화살

페이지 맨 위로 올라가기

시간의화살

행복하세요

HTTP 통신과 라이브러리

  • 2022.04.05 10:49
  • 낙서장

 

 

 

HTTP통신으로 get과 post등 여러 가지 요청을 보낼 수 있다.

 

get은 웹사이트에서 정보를 얻어올 때 사용하고, post는 웹사이트에게 정보를 제공하고 제공한 정보에 따라 응답을 확인하는 과정이다. (회원가입과 유사하다)

 

파이썬으로 웹 크롤링을 진행할 때 위의 HTTP통신을 수행하기 위해 외장 라이브러리인 Requests를 사용한다.

 

import requests

response = requests.get('http://www.naver.com')
html = response.text
print(html)

 

 

requests.get메서드로 특정 URL을 입력하면, 입력한 URL의 HTML코드를 Python객체로 받아온다.

 

 

가져온 정보를 분석하고 사용하기 편한 형태로 가공하기 위해 BeautifulSoup라이브러리를 사용한다.

BeautifulSoup라이브러리로 HTML정보를 분석하고 필요한 부분을 추출해서 활용할 수 있다.

 

import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.naver.com')
html = response.text
soup = BeautifulSoup(html, 'html.parser')
word = soup.select_one("#NM_set_home_btn")
print(word.text)

 

 

BeautifulSoup메서드는 html정보와 html분석해주는 도구를 인자로 받는다. 

여기서 html.parser는 분석해주는 도구를 의미하고, 파이썬의 내장 클래스이다.

 

웹사이트에 사용된 HTML태그를 입력해 해당 태그에 대한 정보를 추출할 수 있다.

 

 

미루어 짐작할 수 있겠지만, 웹 사이트의 정보를 추출은 해당 사이트의 HTML을 기반으로 진행된다.

HTML에 대한 이해가 필수적이고, 해당 사이트의 HTML의 구조가 변하면 이전에 만들어 둔 코드도 구조에 따라 바꿔야 한다.

 

 

반응형

'낙서장' 카테고리의 다른 글

[HTML] HTML 정리 (3)  (0) 2022.09.14
시간의화살 블로그 소개  (0) 2022.08.30
[CSS] CSS 정리 (4)  (2) 2022.02.06
[CSS] CSS 정리 (3)  (1) 2022.01.21
[CSS] CSS 정리 (2)  (0) 2022.01.20

댓글

이 글 공유하기

  • 구독하기

    구독하기

  • 카카오톡

    카카오톡

  • 라인

    라인

  • 트위터

    트위터

  • Facebook

    Facebook

  • 카카오스토리

    카카오스토리

  • 밴드

    밴드

  • 네이버 블로그

    네이버 블로그

  • Pocket

    Pocket

  • Evernote

    Evernote

다른 글

  • [HTML] HTML 정리 (3)

    [HTML] HTML 정리 (3)

    2022.09.14
  • 시간의화살 블로그 소개

    시간의화살 블로그 소개

    2022.08.30
  • [CSS] CSS 정리 (4)

    [CSS] CSS 정리 (4)

    2022.02.06
  • [CSS] CSS 정리 (3)

    [CSS] CSS 정리 (3)

    2022.01.21
다른 글 더 둘러보기

정보

시간의화살 블로그의 첫 페이지로 이동

시간의화살

  • 시간의화살의 첫 페이지로 이동

검색

방문자

  • 전체 방문자
  • 오늘
  • 어제

카테고리

  • 분류 전체보기 (607)
    • Algorithm (205)
      • Data Structure (5)
      • Theory && Tip (33)
      • Baekjoon (166)
      • ALGOSPOT (1)
    • Spring (123)
      • Spring (28)
      • Spring Web MVC (20)
      • Spring Database (14)
      • Spring Boot (6)
      • Spring 3.1 (11)
      • Spring Batch (6)
      • Spring Security (16)
      • JPA (12)
      • Spring Data JPA (5)
      • QueryDSL (4)
      • eGovFramework (1)
    • Programming Language (74)
      • Java (19)
      • JavaScript (15)
      • C (25)
      • C++ (12)
      • Python (1)
      • PHP (2)
    • Computer Science (69)
      • Operating System (18)
      • Computer Network (17)
      • System Programming (22)
      • Universial Programming Lang.. (8)
      • Computer Architecture (4)
    • Database (21)
      • Database (7)
      • MySQL (3)
      • Oracle (3)
      • Redis (5)
      • Elasticsearch (3)
    • DevOps (20)
      • Docker && Kubernetes (8)
      • Jenkins (4)
      • Github Actions (0)
      • Amazon Web Service (8)
    • Machine Learning (28)
      • AI Introduction (28)
    • Mobile (28)
      • Android (21)
      • Flutter (7)
    • Solutions (14)
    • Life Logs (0)
    • 낙서장 (25)

최근 글

나의 외부 링크

메뉴

  • 홈

정보

13months의 시간의화살

시간의화살

13months

블로그 구독하기

  • 구독하기
  • RSS 피드

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / Kakao. Copyright © 13months.

티스토리툴바