Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions
데이터 엔지니어링 팀은 세 가지 데이터 소스를 사용하는 시간이 오래 걸리는 데이터 수집 작업을 수행하고 있습니다. 각 노트북은 새 데이터를 로드하는 데 약 1시간이 소요됩니다. 어느 날, 노트북 업데이트로 인해 새로운 필수 구성 매개변수가 추가되면서 작업이 실패했습니다. 팀은 신속하게 문제를 해결하고 실패한 소스에서 최신 데이터를 로드해야 합니다.
팀은 어떤 조치를 취해야 할까요?
팀은 어떤 조치를 취해야 할까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
Delta Lake 테이블은 사용자 콘텐츠에 대한 메타데이터를 나타내며 다음과 같은 스키마를 가집니다.
위 스키마를 바탕으로 Delta 테이블을 파티셔닝하기에 적합한 열은 무엇일까요? user_id (LONG), post_text (STRING), post_id (STRING), longitude (FLOAT), latitude (FLOAT), post_time (TIMESTAMP), date (DATE) 열이 각각 LONG, STRING, LONG, LONG, LONG, LOT, DATE입니다.
위 스키마를 바탕으로 Delta 테이블을 파티셔닝하기에 적합한 열은 무엇일까요? user_id (LONG), post_text (STRING), post_id (STRING), longitude (FLOAT), latitude (FLOAT), post_time (TIMESTAMP), date (DATE) 열이 각각 LONG, STRING, LONG, LONG, LONG, LOT, DATE입니다.
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 팀이 배치 데이터와 스트리밍 데이터를 모두 처리해야 하는 추가 전용 Delta Lake 파이프라인을 구축하고 있습니다. 소스 데이터의 스키마 변경 사항이 파이프라인을 중단시키지 않고 자동으로 반영되도록 하려고 합니다. Delta 테이블에 데이터를 기록할 때 어떤 구성을 사용해야 할까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
Databricks SQL 대시보드가 다음 쿼리 패턴을 사용하여 Delta Lake 테이블 모음에 있는 총 레코드 수를 모니터링하도록 구성되었습니다.
테이블에서 COUNT(*)를 선택합니다 -
다음 중 대시보드가 업데이트될 때마다 결과가 생성되는 방식을 설명하는 것은 무엇입니까?
테이블에서 COUNT(*)를 선택합니다 -
다음 중 대시보드가 업데이트될 때마다 결과가 생성되는 방식을 설명하는 것은 무엇입니까?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
DLT 파이프라인에는 다음과 같은 스트리밍 테이블이 포함됩니다.
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어가 여러 팀이 함께 사용하는 환경에서 Unity 카탈로그 거버넌스를 구현하고 있습니다. 데이터 과학자들은 기본적인 데이터 탐색 작업을 위해 대화형 클러스터가 필요하고, 자동화된 ETL 작업에는 전용 처리 공간이 필요합니다.
데이터 엔지니어는 최소 권한 원칙을 적용하고 Unity Catalog 규정을 준수하기 위해 클러스터 격리 정책을 어떻게 구성해야 할까요?
데이터 엔지니어는 최소 권한 원칙을 적용하고 Unity Catalog 규정을 준수하기 위해 클러스터 격리 정책을 어떻게 구성해야 할까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어는 최신 DBR 버전이 설치된 클러스터를 사용하여 은행 거래 데이터를 저장하는 일일 배치 수집 파이프라인을 구축하고, 해당 데이터를 prod.gold라는 관리형 델타 테이블에 저장했습니다.
모든 은행 거래 내역을 담은 테이블(all_banking_transactions_daily)을 SQL Serverless Warehouse를 통해 임시로 쿼리하는 비즈니스 사용자들로부터 쿼리 성능 저하에 대한 불만이 끊이지 않고 있습니다. 분석 결과, 이러한 사용자들이 카디널리티가 높은 열을 필터로 자주 사용하는 것으로 나타났습니다. 이에 데이터 엔지니어는 점진적이고 유지 관리가 용이하며 시간이 지남에 따라 발전할 수 있는 데이터 레이아웃 최적화 기법을 구현하고자 합니다.
데이터 엔지니어는 어떤 명령어를 실행해야 할까요?
모든 은행 거래 내역을 담은 테이블(all_banking_transactions_daily)을 SQL Serverless Warehouse를 통해 임시로 쿼리하는 비즈니스 사용자들로부터 쿼리 성능 저하에 대한 불만이 끊이지 않고 있습니다. 분석 결과, 이러한 사용자들이 카디널리티가 높은 열을 필터로 자주 사용하는 것으로 나타났습니다. 이에 데이터 엔지니어는 점진적이고 유지 관리가 용이하며 시간이 지남에 따라 발전할 수 있는 데이터 레이아웃 최적화 기법을 구현하고자 합니다.
데이터 엔지니어는 어떤 명령어를 실행해야 할까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
스트리밍 비디오 분석 팀은 매일 수십억 개의 이벤트를 Unity Catalog에서 관리하는 Delta 테이블인 video_events에 수집합니다. 분석가들은 user_id, campaign_id, region과 같은 열을 대상으로 임시 조회 쿼리를 실행합니다.
팀은 수동으로 `OPTIMIZE video_events ZORDER BY (user_id, campaign_id, region)` 쿼리를 실행하지만, 최근 데이터에서 여전히 성능이 저조하고 이러한 운영 부담이 부담스럽습니다. 팀은 쿼리 패턴이 변화함에 따라 자주 사용되는 열들을 항상 같은 위치에 유지할 수 있는 자동화된 방법을 원합니다.
팀은 수동으로 `OPTIMIZE video_events ZORDER BY (user_id, campaign_id, region)` 쿼리를 실행하지만, 최근 데이터에서 여전히 성능이 저조하고 이러한 운영 부담이 부담스럽습니다. 팀은 쿼리 패턴이 변화함에 따라 자주 사용되는 열들을 항상 같은 위치에 유지할 수 있는 자동화된 방법을 원합니다.
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
프로덕션 환경에 배포된 구조화된 스트리밍 작업으로 인해 예상보다 높은 클라우드 스토리지 비용이 발생하고 있습니다. 현재 정상적인 실행 환경에서 각 마이크로 배치 데이터는 3초 이내에 처리되지만, 분당 최소 12회 이상 레코드가 없는 마이크로 배치가 처리되고 있습니다. 스트리밍 쓰기는 기본 트리거 설정을 사용하여 구성되었습니다. 해당 프로덕션 작업은 배치 실행 작업의 시작 시간을 단축하기 위해 인스턴스 풀이 프로비저닝된 워크스페이스에서 다른 여러 Databricks 작업과 함께 예약되어 있습니다. 다른 모든 변수를 일정하게 유지하고 레코드를 10분 이내에 처리해야 한다고 가정할 때, 어떤 조정이 요구 사항을 충족할까요?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
비즈니스 보고 시스템에서는 대시보드 데이터가 매시간 업데이트되어야 합니다. 데이터 추출, 변환 및 로드를 담당하는 파이프라인의 총 처리 시간은 10분입니다.
정상적인 운영 조건을 가정할 때, 어떤 구성이 가장 낮은 비용으로 서비스 수준 계약 요구 사항을 충족할까요?
정상적인 운영 조건을 가정할 때, 어떤 구성이 가장 낮은 비용으로 서비스 수준 계약 요구 사항을 충족할까요?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
