크롤링의 정의

 

무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요소로서 최근 웹 검색의 중요성에 따라 발전되고 있다.

 

R, 파이썬, 자바로 크롤링 할 수 있다.

 

 

웹크롤링이란?

 

웹페이지에서 보이는 데이터를 필요한 부분만 선택하여 수집하는 행위를 말한다.

 

웹크롤링의 4단계 과정

1. HTTP를 요청한다.

2. 응답을 받는다.

3. HTML에서 데이터를 추출한다.

4. 추출한 데이터를 전처리하고 저장한다.

 

웹크롤링 주의점

'영업권 및 지적재산권'을 침해하는 행위가 될수 있기때문에 웹사이트의 메인페이지에서 사전에 robot.txt를 쳐서 개방 범위를 확인하여야 한다.

 


robots.txt

 

robot.txt란 웹체이지를 제작할 때 제작자가 만드는 것으로 검색 엔진 크롤러에서 사이트에 요청할 수 있거나 요청할 수 없는 페이지 또는 파일을 크롤러에 지시하는 파일이다.

간단히 말하면 크롤러가 접근할 때 가져가도 되는 파일과 가져가면 안되는 파일을 구분해서 알려주는 파일이다.

메인페이지에 robots.txt를 치면 아래와 같이 나온다.

예) www.naver.com/robots.txt

 

 

 

User-agent: *           <<< robots.txt.의 규칙이 적용되는 크롤러의 이름이다. *는 모든 크롤러에 적용된다는 뜻이다.

Disallow: /              <<< 크롤러를 차단하는 URL이다. /표시는 모든 루트에 대해 크롤링을 가져가면 안된다.

Allow: /$                <<< /$가 있는 URL에 대해서는 크롤링을 허용한다.

 


HTTP

HTTP는 HyperTextTransferProtocol로 인터넷상에서 데이터를 주고받을 때 사용되며, 주로 HTML을 주고 받는다. 클라이언트가 웹서버에 데이터를 요청하고, 웹서버는 해당 요청에 대한 결과를 응답한다.

클라이언트가 데이터를 요청하고, 웹서버는 해당 요청에 대한 결과를 응답한다.

 

- HTTP Request

클라이언트가 웹서버에 HTTP 요청을 할 때, 웹서버에 제공해야 하는 요청메시지는 GET과 POST가 다르다.

GET방식은 요청라인과 요청헤더를 보내야하고, POST방식은 GET방식에 메시지 바디를 추가한 3가지를 보낸다.

 

요청라인에 URI가 포함된다.

URI(Uniform Resource Indicator),

URL(Uniform Resource Locator)

 

예)

https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=tuna

 

tuna : 네이버 통합검색

'tuna'의 네이버 통합검색 결과입니다.

search.naver.com

?를 기준으로 왼쪽이 URL, 오른쪽이 Query String이다.

 

 

- HTTP Response

웹서버는 클라이언트의 요청에 대해 응답메시지를 발송한다.

응답메시지는 응답헤더와 바디로 구성되어 있고,

헤더는 HTTP버전, 상태코드, 일시, 컨텐츠 형태, 인코딩 방식, 크기 등이 포함되며,

바디에는 HTML이 포함된다.

'개발 용어 정리' 카테고리의 다른 글

iOS14로 인한 SKAdnetwork 가이드 매뉴얼  (0) 2021.05.20
2. 광고 플랫폼 용어 정리  (0) 2021.01.05

HttpSession을 이용한 Session 관리방법
- Client의 상태값을 서버측에 저장하여 Session 관리
- javax.servlet.http.HttpSession 객체를 이용하여 관리

 

 

HttpSession은 로그인 처리할 때 유용하게 쓰인다. 이것의 동작은 세션 쿠키를 통해 이루어진다. 서버는 접속한 브라우저에게 고유한 세션쿠키를 전달하고, 매번 브라우저에서 서버를 호출할 때 세션 쿠키를 가지고 다니기 때문에, 이를 마치 열쇠처럼 사용해서 필요한 데이터를 보관한다.

 

session을 이용하는 방식의 핵심은 HttpSession을 이용해서 객체를 보관할 수 있다는 점이다. 사용자는 항상 열쇠에 해당하는 세션쿠키를 가지고 접근하고, 서버의 내부에 상자가 필요한 객체를 보관하기 때문에 안전하다는 장점을 가지고 있다.

 

session에 보관된 객체는 JSP에서 EL을 이용해서 자동으로 추적하는 방식을 사용한다. 예를 들면 ${name}은 page > request > session > application 순서대로 원하는 데이터를 검색한다. 따라서 JSP를 개발하는 개발자는 자신이 사용하는 변수가 request에 존재하는 것인지, session에 존재하는 것인지 고민하지 않아도 된다.

 

 

장점 ?
- 관리할 수 있는 상태값(Client Data)의 종류나 크기나 개수의 제한이 없음
- 서버에 저장되므로 cooie에 비해 보안상 유리

단점 ?
- 서버에 부담을 줌

 

 

////////////////////////////////////////////

 

HttpSession의 주요 메서드

 

 메소드 이름

리턴 타입 

설명 

getAttribute(String name) 

 java.lang.Object

 세션 속성명이 name인 속성의 값을 Object 타입으로 리턴한다. 해당 되는 속성명이 없을 경우에는 null 값을 리턴한다.

getAttributeNames() 

java.util.Enumeration 

 세션 속성의 이름들을 Enumeration 객체 타입으로 리턴한다.

getCreationTime() 

long 

1970년 1월 1일 0시 0초를 기준으로 하여 현재 세션이 생성된 시간까지 경과한 시간을 계산하여 1/1000초 값으로 리턴한다. 

getId() 

java.lang.String 

세션에 할당된 고유 식별자를 String 타입으로 리턴한다. 

getMaxInactiveInterval()

int 

현재 생성된 세션을 유지하기 위해 설정된 세션 유지시간을 int형으로 리턴한다.

invalidate() 

void 

현재 생성된 세션을 무효화 시킨다.

소멸

removeAttribute(String.name)

void 

세션 속성명이 name인 속성을 제거한다. 

setAttribute(String name, Object value)

void 

세션 속성명이 name인 속성에 속성값으로 value를 할당한다. 

setMaxInactiveInterval(int interval) 

void 

세션을 유지하기 위한 세션 유지시간을 초 단위로 설정한다. 즉, Client가 Second 만큼 동안 요청이 들어오지 않으면 Session을 소멸

 

 

 

Enumeration: 

Enumeration 인터페이스는 객체들의 집합(Vector)에서 각각의 객체들을 한순간에 하나씩 처리할 수 있는 메소드를 제공하는 켈렉션이다.

 

[JAVA] Vector 클래스 정리

 

인터페이스이므로, 직접 new 연산자를 이용하여 객체를 생성할 수 없으며, Enumeration 인터페이스에 선언된 메소드는 그 인터페이스를 사용하는 클래스로 구현해서 사용해야만 한다.

 

* Enumeration 인터페이스 메소드

 

Enumeration 메소드 

설명 

boolean hasMoreElements() 

 Vector로 부터 생성된 Enumeration의 요소가 있으면 true, 아니면 false 반환

Object nextElement() 

 Enumeration 내의 다음 요소를 반환한다. 

 

Enumeration 객체는 new 연산자로 생성할 수 없으며, Vector를 이용하여 생성할 수 있다.

Vector 클래스의 elements() 라는 메소드는 객체의 모든 요소들을 Enumeration 객체로 반환한다.

 

//////////////////////////////

 

getSession(), getSession(true)는 null 체크없이 바로 getAttribute()를 사용해도 무방하지만, getSession(false)는 null을 리턴할수 있기 때문에 null체크를 해야 한다.

문제점

스프링 퀵 스타트 게시판 페이지 p.127를 공부하다가 코드를 입력 후 board_inset를 실행하였지만 아래와 같은 에러를 발생 시켰다...

 

 


INFO : org.springframework.beans.factory.annotation.AutowiredAnnotationBeanPostProcessor - JSR-330 'javax.inject.Inject' annotation found and supported for autowiring
INFO : org.springframework.beans.factory.support.DefaultListableBeanFactory - Pre-instantiating singletons in org.springframework.beans.factory.support.DefaultListableBeanFactory@7ea37dbf: defining beans [boardDAO,boardService,homeController,org.springframework.context.annotation.internalConfigurationAnnotationProcessor,org.springframework.context.annotation.internalAutowiredAnnotationProcessor,org.springframework.context.annotation.internalRequiredAnnotationProcessor,org.springframework.context.annotation.internalCommonAnnotationProcessor,org.springframework.context.annotation.ConfigurationClassPostProcessor$ImportAwareBeanPostProcessor#0]; root of factory hierarchy
메인 구동
===> JDBC로 insertBoard() 기능 처리
org.h2.jdbc.JdbcSQLException: Connection is broken: "unexpected status 16777216" [90067-193]
===> JDBC로 getBoardList() 기능 처리
at org.h2.message.DbException.getJdbcSQLException(DbException.java:345)
at org.h2.message.DbException.get(DbException.java:179)
at org.h2.message.DbException.get(DbException.java:155)
at org.h2.engine.SessionRemote.done(SessionRemote.java:639)
at org.h2.command.CommandRemote.prepare(CommandRemote.java:68)
at org.h2.command.CommandRemote.(CommandRemote.java:45)
at org.h2.engine.SessionRemote.prepareCommand(SessionRemote.java:494)
at org.h2.jdbc.JdbcConnection.prepareCommand(JdbcConnection.java:1203)
at org.h2.jdbc.JdbcPreparedStatement.(JdbcPreparedStatement.java:73)
at org.h2.jdbc.JdbcConnection.prepareStatement(JdbcConnection.java:287)
at com.springbook.biz.board.impl.BoardDAO.insertBoard(BoardDAO.java:35)
at com.springbook.biz.board.impl.BoardServiceImpl.insertBoard(BoardServiceImpl.java:17)
at com.springbook.biz.board.BoardServiceClient.main(BoardServiceClient.java:23)
org.h2.jdbc.JdbcSQLException: Connection is broken: "unexpected status 768" [90067-193]
at org.h2.message.DbException.getJdbcSQLException(DbException.java:345)
at org.h2.message.DbException.get(DbException.java:179)
at org.h2.message.DbException.get(DbException.java:155)
at org.h2.engine.SessionRemote.done(SessionRemote.java:639)
at org.h2.engine.SessionRemote.close(SessionRemote.java:570)
at org.h2.jdbc.JdbcConnection.close(JdbcConnection.java:394)
at com.springbook.biz.common.JDBCUtil.close(JDBCUtil.java:37)
at com.springbook.biz.board.impl.BoardDAO.insertBoard(BoardDAO.java:43)
at com.springbook.biz.board.impl.BoardServiceImpl.insertBoard(BoardServiceImpl.java:17)
at com.springbook.biz.board.BoardServiceClient.main(BoardServiceClient.java:23)
org.h2.jdbc.JdbcSQLException: Connection is broken: "unexpected status 16777216" [90067-193]
at org.h2.message.DbException.getJdbcSQLException(DbException.java:345)
at org.h2.message.DbException.get(DbException.java:179)
at org.h2.message.DbException.get(DbException.java:155)
at org.h2.engine.SessionRemote.done(SessionRemote.java:639)
at org.h2.command.CommandRemote.prepare(CommandRemote.java:68)
at org.h2.command.CommandRemote.(CommandRemote.java:45)
at org.h2.engine.SessionRemote.prepareCommand(SessionRemote.java:494)
at org.h2.jdbc.JdbcConnection.prepareCommand(JdbcConnection.java:1203)
at org.h2.jdbc.JdbcPreparedStatement.(JdbcPreparedStatement.java:73)
at org.h2.jdbc.JdbcConnection.prepareStatement(JdbcConnection.java:287)
at com.springbook.biz.board.impl.BoardDAO.getBoardList(BoardDAO.java:111)
at com.springbook.biz.board.impl.BoardServiceImpl.getBoardList(BoardServiceImpl.java:33)
at com.springbook.biz.board.BoardServiceClient.main(BoardServiceClient.java:26)
INFO : org.springframework.context.support.GenericXmlApplicationContext - Closing org.springframework.context.support.GenericXmlApplicationContext@51521cc1: startup date [Thu Apr 11 16:33:36 KST 2019]; root of context hierarchy
INFO : org.springframework.beans.factory.support.DefaultListableBeanFactory - Destroying singletons in org.springframework.beans.factory.support.DefaultListableBeanFactory@7ea37dbf: defining beans [boardDAO,boardService,homeController,org.springframework.context.annotation.internalConfigurationAnnotationProcessor,org.springframework.context.annotation.internalAutowiredAnnotationProcessor,org.springframework.context.annotation.internalRequiredAnnotationProcessor,org.springframework.context.annotation.internalCommonAnnotationProcessor,org.springframework.context.annotation.ConfigurationClassPostProcessor$ImportAwareBeanPostProcessor#0]; root of factory hierarchy


 

해결방안

메이븐 pom.xml 설정을 통해 h2의 버전을 내가 사용하는 h2의 버전과 맞춰주었다.

또는  jdbc 버전을 높여주니 예외가 해결되었다.

 

pom.xml ==>

		
		<dependency>
			<groupId>com.h2database</groupId>
			<artifactId>h2</artifactId>
			<version>1.4.193</version>
		</dependency>

 

고찰

mySQL이든 다른 프로그램이든 pom.xml의 버전을 반드시 확인해서 맞춰주어야 한다.

 

스프링 유용한 단축키

 

1. 자동 완성 기능

키: crtl+space

 

명령어를 어느정도 입력한 뒤 crtl+space를 누르면 추천 명령어가 뜬다.

 

syso 입력한 후 Ctrl + Space 하면 System.out.println(); 으로 바뀐다.

try 입력한 후 Ctrl + Space 하면 try-catch 문이 완성된다.

for 입력한 후 Ctrl + Space 하면 여러가지 for 문을 완성할 수 있다.

 

2. 주석 기능

키: crtl+shift+C

 

선택한 뒤 crtl+shift+c를 누르면 알아서 /* */ 또는 <!-- --> 등으로 주석 처리 해줌

 

3. 코드 찾기 기능

키: crtl+H

 

파일 안에 쓰여진 코드를 찾을 수 있다.

보통 file search로 한다.

 

4. 파일 찾기 기능

키: crtl+shft+R

 

프로젝트 안의 파일들을 찾을 수 있다.

 

5. 에러 내용 확인

키: F2

 

컴파일 에러기호에 커서를 갖져다가 이 키를 누르면 에러의 원인에 대한 힌트를 제공한다.

 

6. 한줄 삭제

키: crtl+D

 

7. 하이어라키창 띄우기 (인터페이스 구현 클래스간 이동시 편리)

키: crtl+T

 

8. 메소드나 필드 이동하기

키: crtl+O

 

9. 자동 import

키: crtl+shift+O

 

10. 디버그

키: F11

※ 자주 쓰이는 어노테이션

 

@ModelAttribute

- view에서 전달해주는 파라미터를 클래스(VO/DTO)의 멤버 변수로 binding 해주는 애노테이션

바인딩 기준은 <input name="id" /> 처럼 어떤 태그의 name값이 해당 클래스의 멤버 변수명과 일치해야하고 set메서드명도 일치해야한다.

 

ex)

class Person{

String id;

public void setId(String id){ this.id = id;}

}

 

 

@RequestMapping

- URL을 컨트롤러의 메서드와 매핑할 때 사용하는 스프링 프레임워크의 어노테이션이다.

클래스나 메서드 선언부에 @RequestMapping과 함께 URL을 명시하여 사용한다. URL외에도 HTTP 요청 메서드나 헤더값에 따라 매핑되도록 -0=옵션을 제공한다. 메서드 레벨에서 정의한 @RequestMapping은 타입 레벨에서 정의된 @RequestMapping의 옵션을 상속받는다.

 

참고로, 메서드 내에서 viewName을 별도로 설정하지 않으면 @RequestMapping의 path로 설정한 URL이 그대로 viewName으로 설정된다.

 

 

@Configuration

- Configuration을 클래스에 적용하고 @Bean을 해당 클래스의 메소드에 적용하면 @Autowired로 빈을 부를 수 있다.

 

 

@Resource

- @Autowired와 마찬가지로 빈 객체를 주입해주는데 차이점은 Autowired는 타입으로, Resource는 이름으로 연결해준다.

 

@Controller

- spring MVC의 Controller 클래스 선언을 단순화시켜준다. 스프링 컨트롤러, 서블릿을 상속할 필요가 없으며,   @Controller로 등록된 클래스 파일에 대한 bean을 자동으로 생성해준다.

Controller로 사용하고자 하는 클래스에 @Controller 어노테이션을 명시하면 component-scan으로 자동 등록된다.

 

 

@Repository

일반적으로 DAO에 사용되며 DB Exception을 DataAccessException으로 변환한다.

 


※ 그 외 어노테이션

 

@ResponseBody

- view가 아닌 JSON 형식의 값을 응답할 때 사용하는 애노테이션으로 문자열을 리턴하면 그 값을 http response header가 아닌 response body에 들어간다.

만약 객체를 return하는 경우 JACKSON 라이브러리에 의해 문자열로 변환되어 전송된다.

context에 설정된 resolver를 무시한다고 보면된다. (viewResolver)

 

 

@RequestBody

- 요청이 온 데이터(JSON이나 XML형식)를 바로 클래스나 model로 매핑하기 위한 애노테이션

 


@RequestParam

- @PathVariable과 비슷하다. request의 parameter에서 가져오는 것이다. 메소드의 파라미터에 사용됨

 

단일 파라미터 변환

private ModelAndView request_TEST(@RequestParam("test") int num,
@RequestParam("test2") String str)){
        //위처럼 하나이상의 타입을 적용할수 있습니다. 스프링에서 지원하는 변환기에서 지원되는 모든타입을 변환가능합니다.
        //RequestParam은 하나이상 파라미터에서 사용가능합니다.
    }

하지만 단점이 있다.

위처럼 사용하게 된다면 만약에 넘어오는 requestParam중에

@RequestParam 지정한 키값이 존재하지 않다면

BadRequest로 http 4** 에러가 발생한다.

 

 

2. 이를 방지하기 위하여 필수적이지 않도록 

그리고 존재하지 않다면 DefaultValue를 지정할수 있다.

private ModelAndView request_TEST(@RequestParam(value="test", required=false, defaultValue= "0") int num,
                                                   @RequestParam("test2") String str)){
        //required=false로 지정하면 해당 키값이 존재하지 않다고 해서 BadRequest가 발생하지 않게 됩니다.
                //그리고 존재하지 않다면 num변수에 default로 0이 들어가게됩니다.
}

 

 

3. RequestParam을 map에 지정하여 사용하기.

private ModelAndView request_TEST(@RequestParam HashMap<string,string> paramMap)){
        String data = paramMap.get("testParam");
    }
</string,string>

 

위의 예시처럼 map을 통해서도 파라미터를 컨트롤 할수 있습니다.

대규모의 파라미터를 받는데 map을 사용하기엔 편하지만

개발한 이외의 사람들이 유지보수하기에는 어려운 점이 있습니다.

그래서 주로 "커맨드패턴"인 데이터커맨드를 만들서 사용하는데요.

 

링크는 아래

https://heavenly-appear.tistory.com/44

 

 

@JsonProperty

- Jackson 라이브러리를 참조하는 어노테이션이다.

getter/setter 의 이름을 property 와 다른 이름을 사용할 수 있도록 설정한다. Database 를 자바 클래스로 매핑하는데 DB의 컬럼명이 알기 어려울 경우등에 유용하게 사용할 수 있다.

 

다음과 같은 테이블이 있을 경우

CREATE TABLE Users (
  u INT NOT NULL,
  a INT NOT NULL,
  e VARCHAR(80) NOT NULL
);

 

다음과 같이 JsonProperty 를 사용하면 DB 의 컬럼명을 변경하지 않아도 가독성을 높일 수 있다.

public class User
{
    @JsonProperty("userId");
    public Integer u;
  
    @JsonProperty("age");
    public Integer a;
  
    @JsonProperty("email");
    public String e;
}

 

json 으로 변환된 결과

{
    "userId": 1,
    "age": 13,
    "email": "user@host.com"
}

이외에 @JsonIgnoreProperties, @JsonInclude 등이 있다.

 

Jackson 라이브러리에 관한 자세한 내용:

https://www.lesstif.com/pages/viewpage.action?pageId=24445183#JavaJsonlibraryjackson%EC%82%AC%EC%9A%A9%EB%B2%95-%EA%B0%9C%EC%9A%94

 

 

@CrossOrigin

- CORS 보안상의 문제로 브라우저에서 리소스를 현재 origin에서 다른 곳으로의 AJAX요청을 방지하는 것이다.

@RequestMapping이 있는 곳에 사용하면 해당 요청은 타 도메인에서 온 ajax요청을 처리해준다.

@CrossOrigin(origins = "http://jeong-pro.tistory.com", maxAge = 3600)

-> 기본 도메인이 http://jeong-pro.tistory.com 인 곳에서 온 ajax요청만 받아주겠다.

 

 

@CachePut

- 캐시를 업데이트하기 위해서 메서드를 항상 실행하게 강제하는 애노테이션

해당 애노테이션이 있으면 메서드호출을 항상한다. 그러므로 @Cacheable과 상충되어 같이 사용하면 안된다.

 

 

@Lazy

- 지연로딩을 지원한다.

 @Component나 @Bean 애노티에션과 같이 쓰는데 클래스가 로드될 때 스프링에서 바로 bean등록을 마치는 것이 아니 라 실제로 사용될 때 로딩이 이뤄지게 하는 방법이다.

 

 

@Scheduled

- 스프링 스케줄러이다. Unix의 cron처럼 특정시간 혹은 몇분 혹은 몇시간마다 동작하는 스케쥴러를 구현한다.

 

...더보기

사용 예시)

 @Scheduled(fixedDelay=1000)
    public void TestScheduler(){
        System.out.println("스케줄링 테스트");
    }

3가지 밸류가 존재한다.

cron은 CronTab에서의 설정과 같이 cron="0/10 * * * * ?" 과 같은 설정이 가능하고

fixedDelay은 이전에 실행된 Task의 종료시간으로 부터 정의된 시간만큼 지난 후 Task를 실행한다.(밀리세컨드 단위)

fixedRate은 이전에 실행된 Task의 시작시간으로 부터 정의된 시간만큼 지난 후 Task를 실행한다.(밀리세컨드 단위)

 

 

 

 

 

+ Recent posts