elasticsearh에 형태소 분석기 테스트를 위한 샘플 데이터를 찾다가
위키피디아에서 제공 하는 dump로 작업 하는것이 보여서 정리한다.
OS 환경 : CentOS 7
위키피디아 dump
pages-articles.xml.bz2 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.
curl -LOk https://dumps.wikimedia.org/kowiki/20180601/kowiki-20180601-pages-articles.xml.bz2
XML을 JSON으로 변환하자
https://github.com/cemsbr/wikipedia2json
python3 환경에서 실행되는데 파이썬은 hello world만 해본적이 있어서 구글링으로 삽질 후에 실행에 성공했다.
기본 설치 패키지
yum -y install https://centos7.iuscommunity.org/ius-release.rpm
yum -y install python36u bzip2
환경 구성 및 실행
cd wikipedia2json
python3.6 -m venv venv
source venv/bin/activate
cp scripts/w2j.py .
bzcat kowiki-*.xml.bz2 | ./w2j.py >kowiki.json
deactivate
'지식창고 > elasticsearch' 카테고리의 다른 글
kibana 7.2 실행 안되는 문제 (1) | 2019.06.26 |
---|---|
은전한닢 elasticsearch plugin 빌드 하기 (1) | 2017.08.21 |