기타 등등 / / 2024. 1. 7. 20:23

Anaconda 아나콘다, 파이썬과 R 언어 기반 관리자 설치 및 이용 (1)

anaconda 아나콘다 설치

https://www.anaconda.com/

 

Anaconda | The World’s Most Popular Data Science Platform

Anaconda is the birthplace of Python data science. We are a movement of data scientists, data-driven enterprises, and open source communities.

www.anaconda.com

여기서 다운로드 가능. 파이썬과 R 언어 기반의 패키지와 배포 등을 쉽게 연결해주고 관리해주는 오픈 소스 패키지 관리자 이다. 아나콘다를 사용해 다양한 과학적인 데이터 관리와 과학적 도구를 이용할 수 있으며, 대표적인 예시로 Numpy, Scipy, pandas, Matplotlib 등의 과학적인 도구와 Jupter, spyder 등의 프로그램을 이용할 수 있다. 

 

아나콘다는 위쪽의 홈페이지에서 다운로드 가능하며, 윈도우/맥/리눅스 등을 선택하여 다운로드 할 수 있다. 용량은 4기가가 넘으니 하드 디스크에 충분한 용량이 있는 지 확인할 것을 추천한다.

 

처음 시작하기 전에 주피터와 스파이더 중에서 어떤 걸로 기본으로 해야할까 고민했었다. 일단 나의 프로그래밍 첫경험은 비주얼스튜디오의 C++ 였기 때문에 좀 분위기가 비슷한 스파이더로 할까 생각도 했는데, 다른 홈페이지를 찾아보니 주피터를 사용하라고 하는 글이 많은거 같으므로 주피터로 선택.

주피터 노트북으로 적절한 폴더 생성과 이름 변경 등 사용자가 알아보기 쉽게 정리를 잘 해 놓고 시작했다.

 

그 다음, 나는 생물학적으로만 이 파이썬을 사용할 것이기 때문에, Biopython 을 설치하여 사용할 예정. 

 

pip install biopython

import Bio

Bio.__version__

 

이런식으로 제대로 설치가 되었는지, 설치 버전등을 확인 가능하다.

 

Biopython의 예시

 

biopython은 생물 정보학 연구를 위한 것으로 다양한 생물학 데이터 형식을 처리하고 분석하는 데 주로 사용된다. 생물학 정보의 가장 기초적인 것으로는 FASTA 파일을 파이썬으로 읽어오고 데이터를 저장하여, 그 데이터를 분석할 수 있다. 

 

import Bio.SeqI0

Fasta 파일을 읽기 위해 SeqI0 모듈이 필요하다.

 

handle= open("FASTA.fasta", "r")

handle 에 FASTA.fasta (분석하고자 하는 데이터 파일 이름) 과 r (읽기 모드)를 지정한다.

 

records=list(Bio.SeqI0.parse(handle,"fasta"))

Bio.SeqI0.parse () 함수를 사용하여 handle 데이터 (FASTA.fasta 파일) 에서 DNA 시퀀스를 읽어온다. "fasta" 는 파일 형식.

 

Print(records[0].seq)

record[0] 는 첫번째 시퀀스를 나타낸다. 파일의 첫번째 DNA 서열을 프린트 한다.

 

가장 기초적인 바이오 파이썬 내용.

 

일단 막히는게 있으면 ChatGTP, 구글의 바드 등을 참고하여 도움을 받고 있는 중. 

 

 

 

반응형
  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유