코인리더스 재팬

파일코인 "인덱서 배율 최종 목표는 10의 15승"...현재 10억개 인덱스 처리

안정적이고 신뢰성 높은 파일 저장 및 검색 시스템 제공

장은재 기자 | 기사입력 2023/04/10 [09:05]

파일코인 "인덱서 배율 최종 목표는 10의 15승"...현재 10억개 인덱스 처리

안정적이고 신뢰성 높은 파일 저장 및 검색 시스템 제공
장은재 기자 | 입력 : 2023/04/10 [09:05]

▲ 파일코인 이미지 (C)블록체인월드

파일코인 네트워크에서 인덱스(index)는 파일 저장 및 검색 시스템에서 사용되는 개념으로, 일종의 데이터베이스를 말한다. 이는 파일이 저장된 위치와 파일의 메타데이터 정보를 저장하게 된다.

파일코인은 분산 파일 저장 및 검색 시스템을 제공하는 블록체인 기술 기반의 플랫폼이다. 파일코인 시스템에서 인덱스는 파일의 위치를 나타내는데 사용된다.

인덱스 정보를 기반으로 파일을 검색하거나 요청한 클라이언트에게 파일을 전달하는 작업이 이루어지게 된다.

인덱스는 분산 시스템이기 때문에 여러 노드에 분산되어 저장된다.

때문에 데이터의 안정성과 가용성을 보장할 수 있어야 한다.

파일코인에서는 이러한 분산 저장 및 검색 기능을 통해 파일코인은 안정적이고 신뢰성 높은 파일 저장 및 검색 시스템을 제공하는 것이다.

파일코인 재단은 최근 공식블로그를 통해 파일코인 네트워크에서 수집량이 많은 작업을 위한 인덱서 확장성에 대해 설명했다.

파일코인 팀은 인덱서 배율의 최종 목표는 10의 15승(1,000,000,000,000,000개, 1000조 개) 인덱스라고 밝혔다. 이것은 저장된 데이터의 바이트가 아니라 저장된 인덱스의 수이다.

파일코인 팀은 "인덱스는 콘텐츠 공급자 데이터에 대한 CID의 맵이다. 실제 데이터 양은 훨씬 더 많다. 현재 파일코인은 약 10의 12승(1,000,000,000개, 10억개)의 인덱스를 처리하고 있으며, 그 기간 동안 여러 단계를 통해 최종 규모 목표를 향해 나아갈 것"이라고 강조했다.

다음은 파일코인 팀이 설명한 인덱스 확장성에 대한 내용이다.

대부분의 인덱싱 작업은 현재 인덱스 데이터 수집에 의해 지배된다. 들어오는 데이터는 속도와 수량 모두에서 단일 인덱서가 처리할 수 있는 것보다 많을 수 있으며 빠르게 증가하고 있다. 따라서 크기 조정 목표를 향해 진행해야 하는 가장 즉각적인 방법은 증가하는 수집 부하를 처리하는 것이다.

접근 방식 : 인덱스 수집을 처리하는 간단한 전략

인덱스 데이터 수집은 인덱서가 게시자로부터 새 인덱스 데이터 광고의 가용성을 알리는 발표 메시지를 수신하고 이에 대한 응답으로 인덱서가 게시자에서 아직 검색되지 않은 모든 인덱스 데이터를 검색할 때 발생한다. 게시자 수가 증가함에 따라 특정 시점에서 단일 인덱서 노드는 새 인덱스 데이터가 게시되는 속도를 따라갈 수 없으며 노드에 모든 데이터를 저장할 수 있는 충분한 저장소가 없을 수 있다.

수집 작업 배포

수집 워크로드를 처리하기 위한 인덱서 크기 조정은 스토리지 재조정을 위해 데이터를 이동할 필요 없이 추가 용량이 필요할 때 노드를 추가할 수 있는 방식으로 인덱서 풀을 통해 수집을 분산하는 간단한 전략을 기반으로 한다. 이는 각 노드가 수집 작업의 개별 부분을 처리하도록 서로 다른 인덱서 노드에 서로 다른 콘텐츠 게시자를 할당하는 것으로 시작합니다. 이 작업은 중요한 인덱스 수집 경로의 일부가 아닌 별도의 경량 할당자 서비스를 사용하여 수행됩니다.

인덱서가 구성된 스토리지 제한에 도달하면 새 인덱스 데이터 수집이 중지되고 풀의 다른 인덱서는 전체 인덱서에 할당된 게시자의 데이터 수집을 다시 시작한다. 더 많은 스토리지 용량과 수집 작업 배포가 필요하므로 더 많은 인덱서 노드가 풀에 추가된다.

이 확장성 전략의 세 가지 주요 구성 요소는 다음과 같다.

▲할당자 서비스 : 인덱서에 게시자를 할당하는 서비스 ▲인덱서 고정 모드 : 새 콘텐츠가 인덱싱되지 않는 인덱서 작동 모드 ▲게시자 할당 전달 : 고정된 인덱서에서 활성 인덱서로 게시자를 다시 할당하여 고정된 인덱서가 중지된 인덱싱을 다시 시작한다.

이 게시물은 이러한 구성 요소를 요약한다.

▲ 인덱스 구성도 /출처 파일코인 블로그


확장 전략의 장단점

□ 장점

동기화 감소: 모든 인덱서를 모든 게시자와 동기화할 필요 없음

여러 인덱서에 중복되지 않는 메타데이터(키 샤딩과 마찬가지로): 인덱서에서만 메타데이터가 처리된다.

인덱서 간에 데이터가 공유되지 않습니다. 그들은 각자의 출판사 체인을 관리한다.

공급자를 확인하기 위해 광고를 읽을 필요가 없다(공급자 샤딩과 비교)

인덱서는 서로 다른 스토리지 용량을 가질 수 있다.

합의가 필요 없다.

인덱서 간에 데이터를 이동할 필요 없이 수집 작업을 재배포할 수 있다.

□단점:

불균등한 분포 : 일부 게시자는 다른 게시자보다 더 많은 데이터를 인덱싱한다.

모든 인덱서에 중복된 쿼리, 클라이언트에 대한 단일 응답으로 병합된 응답 등 분산/수집 쿼리가 필요하다.

공급자가 게시자를 변경하면 공급자 샤딩이 아닌 중복 인덱싱이 발생할 수 있다.

인덱서를 추가해도 기존 인덱서가 저장소 제한에 도달할 때까지 영향을 받지 않는다.

이 접근 방식의 전반적인 장점은 섭취 확장성의 한계를 제거하면서 구현이 비교적 간단하다는 것이다.

담당자 서비스

AS(할당자 서비스)는 구성된 인덱서 풀의 인덱서에 게시자를 할당한다. AS는 할당을 관리하는 인덱서와 동일한 네트워크에서 인덱서 풀에 대해 단일 인스턴스로 실행된다. 인덱서는 한 할당자의 인덱서 풀의 멤버만 될 수 있다.

인덱서에 새 게시자를 할당하는 것 외에도 AS는 인덱서가 고정 모드로 전환된 시기를 감지하고 게시자를 고정된 인덱서에서 고정되지 않은 인덱서로 다시 할당하는 작업을 담당한다. 또한 AS는 풀의 모든 인덱서가 수신할 수 있도록 가십 pubsub를 통해 직접 HTT.P 알림을 다시 게시한다

AS는 모든 인덱서에 할당할 수 있고, 모든 인덱서의 관리 API가 개인 네트워크에 있거나 유사하게 보호되며, 다른 당사자가 풀에 추가되거나 풀에서 제거되는 노드를 관리할 수 있는 설정된 수단이나 프로토콜이 없다는 여러 가지 가정으로 인해 단일 프라이빗 배포 내에서 사용하기 위한 것이다.

인덱서에 게시자 할당

AS는 새로운 광고의 가용성을 알리는 가십 서브 및 직접 HTTP 메시지를 수신한다. 각 메시지에서 게시자를 읽고 게시자가 필요한 인덱서에 이미 할당되었는지 확인한다. 그렇지 않은 경우 AS는 할당이 가장 적은 인덱서를 선택하고 게시자를 해당 인덱서에 할당한다. 할당 후 인덱서는 게시자로부터 알림을 받고 수집을 직접 처리한다.

AS는 인덱서 풀 내에서 과도한 할당을 방지하는 방식으로 오프라인으로 전환되는 인덱서를 처리한다. AS는 특정 게시자를 특정 인덱서에 할당하기 위한 구성 옵션도 지원한다.

지속된 할당 상태 없음은 인덱서를 언제든지 중지하고 시작할 수 있음을 의미한다.

인덱서 고정 모드

인덱서의 스토리지 사용량이 구성된 제한(https://pkg.go.dev/github.com/ipni/storetheindex/config#Indexer)에 도달하면 인덱서는 자동으로 고정 모드로 전환된다. 인덱서가 새 인덱스 데이터를 저장하지 않지만 인덱스 데이터의 업데이트 및 삭제를 처리하는 작업 모드이다. 고정된 인덱서는 새 게시자 할당을 수락하지 않는다. 내부적으로 인덱서는 업데이트 및 제거 광고를 수집하기 위해 각 광고 체인에서 읽은 위치를 추적한다. 인덱서는 인덱스 데이터에 대한 모든 쿼리에 계속 응답한다.

인덱서는 관리자 API를 사용하여 수동으로 고정하여 고정을 요청할 수도 있다. 이 작업은 인덱서의 스토리지 용량이 증가할 때까지 또는 AS를 사용하는 경우 다른 인덱서 노드에서 계속된 인덱싱을 인계받을 수 있도록 수집을 중지하기 위해 수행할 수 있다.

디스크 사용량 모니터링은 각 인덱서에서 수행된다.

동결 기능은 AS에 의존하지 않는다.

고정 해제 기능을 통해 인덱서가 인덱싱을 다시 시작할 수 있다.

게시자 핸드오프

AS는 주기적으로 인덱서를 폴링하며, 인덱서가 고정된 것을 확인하면 AS는 고정된 인덱서에 할당된 각 게시자에 대해 핸드오프를 수행한다. 핸드오프는 게시자가 다른 인덱서에 다시 할당되어 고정된 인덱서에서 중단된 활성 인덱서에서 인덱싱이 계속되는 방식이다. 핸드오프하는 동안 활성 인덱서는 고정된 인덱서에서 공급자 및 확장 공급자 정보도 가져온다.

AS는 새 게시자를 할당할 위치를 결정할 때와 동일한 논리를 사용하여 게시자를 전달할 인덱서를 결정한다. 이 작업은 전달되는 각 게시자에 대해 별도로 수행되므로 고정된 인덱서의 할당이 풀의 사용 가능한 인덱서를 통해 재배포된다.

AS는 불완전한 핸드오프를 재개할 수 있다.

게시자 데이터는 고정된 인덱서와 활성 인덱서에 분산된다.


원본 기사 보기:블록체인월드뉴스
 
이동
메인사진
PHOTO
過剰な米金利引き下げ期待に「非合理的な過熱」警戒の声相次ぐ
이전
1/5
다음
Digital Life 週間 BEST 10