BLOG main image

분류 전체보기 (321)
free (36)
영화 (85)
드라마 (21)
게임 (28)
만화/책 (34)
개발 (46)
IT (68)
연예 (3)
Visitors up to today!
Today hit, Yesterday hit
TETRIS
rss
2007. 3. 5. 23:41
파이썬을 공부하면서 실용적인 셈플을 이것 저것 만들어 보고 있다. SMTP 를 이용한 메일링 서비스 같은 것도 1시간 정도면 충분히 만들 수 있다. (루비 온 레일스가 15분만에 블로그를 만드는 동영상으로 유명해졌는데 파이썬도 웹 프레임 웍 쓰면 가능할 것 같다)

어쨌거나 지금 시도하고 있는 것은 HanRSS 같은 웹 RSS 리더기다. DOM 객체를 이용해서 RSS 를 읽어 오는 것은 간단한데, 문제가 되는 것은 본문의 요약이었다. 본문의 요약을 할 때 그냥 텍스트만 있으면 text[:200] 으로 간단히 요약할 수 있지만, HTML TAG 가 있을 경우 요약에 불편함이 있었다. 그래서 생각한 것은 TAG 제거기.
TAG 가 시작되는 < 시점을 찾고, 종료되는 > 를 찾아서, 루프를 돌면서 삭제해주는 함수를 만들었다. 간단하지만 이것저것 신경써 줘야 할 것이 많아서 꽤 시간을 들여서 만들었다.

그렇지만 몇 가지 문제가 있었다.

1. 보통 RSS 리더는 요약하지 않더라.-_-;
이미지 같은거 지워주고 텍스트만 요약해서 보여주는가 했더니, RSS 리더에서 그렇게 하는게 아니라 RSS 를 제공하는 쪽에서 그렇게 RSS를 생성한 것이었다. 보통의 RSS 리더들은 대부분 모든 내용을 그대로 출력한다. 음-_-;;;

2. 이미지만 올려 놓은 경우... 요약 내용이 하나도 없다.

3. 자바 스크립트 파싱에 문제가 생긴다.

이런 이유로 요약 함수는 폐기 처분하고, 공부하던 바로 다음 장을 보기 시작했는데...

파이썬에 기본적으로 HTML TAG 를 제거해주는 클래스가 있었다!-_-;;;;;;;;

그 뿐 아니라 파싱까지 다 지원해준다. 켁;
제목만 뽑아내거나, 링크만 뽑아내는 등의 기능을 모두 지원해준다.

열내면서 만들기 전에, 한 장만 더 읽어볼 것을...;

'개발' 카테고리의 다른 글

Visual Studio 2010 (VC++ 10) 과 MySQL Connector  (4) 2012.03.19
실용주의 프로그래머  (5) 2008.10.13
파이썬을 공부하다  (2) 2007.03.05
스크립트 언어의 역습  (2) 2007.02.20
개발 환경을 갖추다  (4) 2007.02.08