금융/AI/IT 기사
* 이 글은 towardsdatascience에작성된 Richmond Alake의 글을 번역하였습니다. 난 프로그래밍이 싫어! 7년 전 인턴십을 하면서 코호트에게 했던 말이다. 사실이었다. 필자는 대중 교통에서 마스크를 착용하지 않은 사람을 피하듯 프로그래밍 프로젝트를 피했다. 지금은 코딩 관련 두 개의 고급 학위를 취득했고, 다섯 개의 회사에서 웹 개발자로 일했다. 그리고 지금은 컴퓨터 비전 엔지니어로 일하고 있다. 나는 프로그래밍이 좋아! 왜 기술에 […]
The Slowest Modern Programming Languages 가장 느린 현대 프로그래밍 언어 그리고 이 언어들이 느린 이유 *이 기사는 BetterProgramming에 작성된 Mohammed Ayar의 글을 번역하였습니다. Photo by Karl Ibri on Unsplash 프로그래밍 언어는 수십 년 동안 존재해왔습니다. 각 언어는 특정 필요를 충족시키기 위해 만들어졌습니다. 오늘날 세계에 약 700 개의 주목할만한 프로그래밍 언어가 있습니다. 그 중 250개 정도는 […]
지금까지 총 4대의 분산 환경 서버에 기본환경을 설정하고 Hadoop을 설치해보았습니다. 이번에는 MapReduce보다 빠른 속도에 분산환경을 지원하는 메모리 기반의 Spark를 설치하고 테스트를 해보겠습니다. Spark 설치하기 1. Spark 버젼 확인 아래 사이트에 접속하여 설치하고자 하는 spark의 버젼을 확인합니다. http://spark.apache.org/downloads.html 2. Spark 2.0.2 설치 # home으로 이동 $ cd ~ # 설치파일 다운로드 $ wget http://www.eu.apache.org/dist/spark/spark-2.0.2/spark-2.0.2-bin-hadoop2.7.tgz # 압축 해제 $ tar -zxf spark-2.0.2-bin-hadoop2.7.tgz […]
Apache Ambari는 손쉬운 웹 UI 및 REST API 사용을 제공하여 Hadoop 클러스터의 관리 및 모니터링을 간소화합니다. Ambari는 Linux 기반 HDInsight 클러스터에 포함되어 있으며 클러스터를 모니터링하고 구성을 변경하는데 사용됩니다. ubuntu 14 기준으로 설치하는 방법은 다음과 같습니다. $ cd /etc/apt/sources.list.d $ sudo wget http://public-repo-1.hortonworks.com/ambari/ubuntu14/2.x/updates/2.2.2.0/ambari.list $ sudo apt-key adv –recv-keys –keyserver keyserver.ubuntu.com B9733A7A07513CAD $ sudo apt-get update $ […]
AI in 2021: How Industries Will Move Past the Pandemic and Thrive AI in 2021: 각 산업별 변화 양상 * 이 글은 DataRobot에작성된 Peter Simon 외 2명 의 글을 번역하였습니다. COVID-19 여파의 회복에 따른 대응은 2021년 거의 모든 기업과 업계에서 최우선시 될 것이다. 일부 기업은 정체되거나 전혀 회복되지 않을 수도 있다. 일부 기업들은 이번 개편을 데이터와 분석 […]
지금까지 머신러닝의 기본적인 개념과 다양한 분석방법에 대해서 모두 배웠습니다. 저도 주말에 도서관등에 다니면서 공부하고 블로그에 정리하면서 많은 것을 배웠네요. 참 재미있고 흥미가 커지는 주제가 아닌가 싶습니다. 실질적으로 적용을 할 수 있는 분야도 다양하고 거의 모든 곳에 활용되어 질 수 있을 것 같습니다. 알파고와 딥마인드 덕분에 세상에서 화두가 된지 아직 1년도 되지 않았지만, 이미 많은 사람들이 […]
머신러닝 시스템을 구축하는데 있어서 가장 중요한 리소스는 개발 시간입니다. 많은 사람들이 이 시스템을 개발하면서 감이나 운에 의거해서 task를 선택하고 성능 개선을 위해서 여러가지 시도를 하고 있습니다. 하지만 때로는 이렇게 보내는 많은 시간들이 실제적으로 시스템의 성능 개선에 미치지 못하는 경우가 있어 안타깝기도 합니다. 이러한 시간 낭비가 되는 것을 방지하기 위해서 지금까지 여러가지 분석 방안에 대해서 이야기 […]
지금까지 우리가 알고리즘들을 배워오면서 또 바로 앞에 내용에서 학습을 위해서는 다양한 이미지 데이터들이 필요하다는 것을 이해하고 있습니다. 이런 기초 학습을 위한 데이터가 많으면 많을수록 머신러닝의 시스템의 성능에 많은 영향을 준다는 것도 이미 알고 있지요 그러면, 이렇게 많은 데이터들을 어떻게 수집하고 생성해야 할까요? 실제적으로 데이터를 수집하기 위해서 많은 노력을 들여야 하게 되는데 이것을 좀더 유용하게 하는 방법이 있습니다. […]
지금까지 배운 머신러닝에 대한 내용을 토대로하여 photo OCR 시스템을 만들어 보도록 하겠습니다. 이것을 통해서 우리는 지금까지 배운 모든 내용들을 종합적으로 사용하는 것을 배우며, 또 머신 러닝 시스템을 구축하기 위한 pipeline에 대해서 알아볼 것입니다. 먼저 photo OCR이란 photo optical character recognition을 말합니다. 즉 사진에 찍혀있는 문자들을 인식하는 것입니다. 최근에 스마트폰등의 보급으로 디지털 카메라를 모두 사용하기 때문에 […]
지금까지 배운 알고리즘들을 수행하는 것은 하나의 컴퓨터나 서버에서 처리되는 방식이였습니다. 만약 데이터가 너무 커서 하나의 머신에서 학습이 어려울 경우에는 어떻게 하면 좋을까요? 이를 위해 나온것이 Map Reduce입니다. 아래와 같은 공식의 Batch gradient descent 가 있습니다. m = 400 개인 dataset을 가지고 있습니다. Map Reduce의 개념은 이 400개의 데이터를 한번에 연산하는 것이 아니라 100개씩 4개의 컴퓨터나 […]