Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions

Exam Code/Number: Databricks-Certified-Professional-Data-Engineer Korean
Exam Name/Title: Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version)
Certification Provider: Databricks
Corresponding Certification: Databricks Certification

Exam Questions: 217
Updated On: Jun 26, 2026

Question #11

데이터 엔지니어링 팀은 세 가지 데이터 소스를 사용하는 시간이 오래 걸리는 데이터 수집 작업을 수행하고 있습니다. 각 노트북은 새 데이터를 로드하는 데 약 1시간이 소요됩니다. 어느 날, 노트북 업데이트로 인해 새로운 필수 구성 매개변수가 추가되면서 작업이 실패했습니다. 팀은 신속하게 문제를 해결하고 실패한 소스에서 최신 데이터를 로드해야 합니다.
팀은 어떤 조치를 취해야 할까요?

A. 누락된 작업 매개변수를 추가하여 작업을 업데이트하고 수동으로 작업을 실행합니다.

B. 문제가 발생한 노트북 소유자에게 분석 결과를 공유하여 신속하게 문제를 해결할 수 있도록 합니다.

C. 새 매개변수를 사용하여 실행을 수정합니다.

D. 새 매개변수를 사용하여 실행을 복구하고, 누락된 작업 매개변수를 추가하여 작업을 업데이트합니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #12

Delta Lake 테이블은 사용자 콘텐츠에 대한 메타데이터를 나타내며 다음과 같은 스키마를 가집니다.
위 스키마를 바탕으로 Delta 테이블을 파티셔닝하기에 적합한 열은 무엇일까요? user_id (LONG), post_text (STRING), post_id (STRING), longitude (FLOAT), latitude (FLOAT), post_time (TIMESTAMP), date (DATE) 열이 각각 LONG, STRING, LONG, LONG, LONG, LOT, DATE입니다.

A. 게시물 ID

B. 날짜

C. 사용자_id

D. 게시 시간

Discussion 0

Correct Answer: B Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #13

데이터 팀이 배치 데이터와 스트리밍 데이터를 모두 처리해야 하는 추가 전용 Delta Lake 파이프라인을 구축하고 있습니다. 소스 데이터의 스키마 변경 사항이 파이프라인을 중단시키지 않고 자동으로 반영되도록 하려고 합니다. Delta 테이블에 데이터를 기록할 때 어떤 구성을 사용해야 할까요?

A. mergeSchema = true

B. validateSchema = false

C. ignoreChanges = false

D. 스키마 덮어쓰기 = true

Discussion 0

Correct Answer: A Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #14

Databricks SQL 대시보드가 다음 쿼리 패턴을 사용하여 Delta Lake 테이블 모음에 있는 총 레코드 수를 모니터링하도록 구성되었습니다.
테이블에서 COUNT(*)를 선택합니다 -
다음 중 대시보드가 업데이트될 때마다 결과가 생성되는 방식을 설명하는 것은 무엇입니까?

A. 전체 행 수는 모든 데이터 파일을 스캔하여 계산됩니다.

B. 전체 레코드 수는 Hive 메타스토어에서 계산됩니다.

C. 총 레코드 수는 Delta 거래 로그에서 계산됩니다.

D. 새로 고침(REFRESH)을 실행하지 않으면 캐시된 결과에서 총 행 수가 반환됩니다.

E. 전체 레코드 수는 파케트 파일 메타데이터를 기반으로 계산됩니다.

Discussion 0

Correct Answer: C Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #15

DLT 파이프라인에는 다음과 같은 스트리밍 테이블이 포함됩니다.
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?

A. bpm_stats에서 파이프라인, 재설정, 허용 속성을 false로 설정합니다.

B. SkipChangeCommits 플래그를 true로 설정 raw_lot

C. raw_iot에서 파이프라인, 재설정, 허용 속성을 false로 설정합니다.

D. bpm_stats에서 skipChangeCommits 플래그를 true로 설정하세요

Discussion 0

Correct Answer: C Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #16

데이터 엔지니어가 여러 팀이 함께 사용하는 환경에서 Unity 카탈로그 거버넌스를 구현하고 있습니다. 데이터 과학자들은 기본적인 데이터 탐색 작업을 위해 대화형 클러스터가 필요하고, 자동화된 ETL 작업에는 전용 처리 공간이 필요합니다.
데이터 엔지니어는 최소 권한 원칙을 적용하고 Unity Catalog 규정을 준수하기 위해 클러스터 격리 정책을 어떻게 구성해야 할까요?

A. 대화형 워크로드에는 표준 액세스 모드를, 자동화된 작업에는 전용 액세스 모드를 사용하는 컴퓨팅 정책을 생성합니다.

B. Unity Catalog는 모든 클러스터 구성에서 작동하므로 모든 클러스터를 NO ISOLATION_SHARED 액세스 모드로 구성하십시오.

C. 보안 격리를 극대화하려면 대화형 워크로드와 자동화된 작업 모두에 전용 액세스 모드만 사용하십시오.

D. 모든 사용자가 모든 유형의 클러스터를 생성할 수 있도록 허용하고 Unity 카탈로그 액세스 모드를 활성화하기 위해 수동 구성에 의존합니다.

Discussion 0

Correct Answer: A Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #17

데이터 엔지니어는 최신 DBR 버전이 설치된 클러스터를 사용하여 은행 거래 데이터를 저장하는 일일 배치 수집 파이프라인을 구축하고, 해당 데이터를 prod.gold라는 관리형 델타 테이블에 저장했습니다.
모든 은행 거래 내역을 담은 테이블(all_banking_transactions_daily)을 SQL Serverless Warehouse를 통해 임시로 쿼리하는 비즈니스 사용자들로부터 쿼리 성능 저하에 대한 불만이 끊이지 않고 있습니다. 분석 결과, 이러한 사용자들이 카디널리티가 높은 열을 필터로 자주 사용하는 것으로 나타났습니다. 이에 데이터 엔지니어는 점진적이고 유지 관리가 용이하며 시간이 지남에 따라 발전할 수 있는 데이터 레이아웃 최적화 기법을 구현하고자 합니다.
데이터 엔지니어는 어떤 명령어를 실행해야 할까요?

A. Liquid Clustering을 사용하도록 테이블을 수정하고 주기적인 OPTIMIZE 명령을 구현합니다.

B. Z-ORDER를 사용하도록 테이블을 수정하고 주기적인 OPTIMIZE 명령을 구현합니다.

C. 테이블을 Hive 스타일 파티션을 사용하도록 수정하고 주기적인 OPTIMIZE 명령을 구현합니다.

D. 테이블을 Hive 스타일 파티션 + Z-ORDER를 사용하도록 수정하고 주기적인 OPTIMIZE 명령을 구현합니다.

Discussion 0

Correct Answer: A Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #18

스트리밍 비디오 분석 팀은 매일 수십억 개의 이벤트를 Unity Catalog에서 관리하는 Delta 테이블인 video_events에 수집합니다. 분석가들은 user_id, campaign_id, region과 같은 열을 대상으로 임시 조회 쿼리를 실행합니다.
팀은 수동으로 `OPTIMIZE video_events ZORDER BY (user_id, campaign_id, region)` 쿼리를 실행하지만, 최근 데이터에서 여전히 성능이 저조하고 이러한 운영 부담이 부담스럽습니다. 팀은 쿼리 패턴이 변화함에 따라 자주 사용되는 열들을 항상 같은 위치에 유지할 수 있는 자동화된 방법을 원합니다.

A. Liquid Clustering(CLUSTER BY AUTO) 및 예측 최적화를 활용합니다.

B. 자동 압축(optimizeWrite 및 autoCompact)을 활성화합니다.

C. 최근 파일 성능을 향상시키기 위해 각 작업 후에 OPTIMIZE/ZORDER가 실행되도록 예약합니다.

D. 델타 캐싱을 활성화합니다.

Discussion 0

Correct Answer: A Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #19

프로덕션 환경에 배포된 구조화된 스트리밍 작업으로 인해 예상보다 높은 클라우드 스토리지 비용이 발생하고 있습니다. 현재 정상적인 실행 환경에서 각 마이크로 배치 데이터는 3초 이내에 처리되지만, 분당 최소 12회 이상 레코드가 없는 마이크로 배치가 처리되고 있습니다. 스트리밍 쓰기는 기본 트리거 설정을 사용하여 구성되었습니다. 해당 프로덕션 작업은 배치 실행 작업의 시작 시간을 단축하기 위해 인스턴스 풀이 프로비저닝된 워크스페이스에서 다른 여러 Databricks 작업과 함께 예약되어 있습니다. 다른 모든 변수를 일정하게 유지하고 레코드를 10분 이내에 처리해야 한다고 가정할 때, 어떤 조정이 요구 사항을 충족할까요?

A. 트리거 간격을 500밀리초로 설정하십시오. 작지만 0이 아닌 트리거 간격을 설정하면 소스에 대한 쿼리가 너무 자주 발생하지 않습니다.

B. 한 번만 트리거 옵션을 사용하고 Databricks 작업을 구성하여 10분마다 쿼리를 실행하도록 설정하십시오. 이 방법을 사용하면 컴퓨팅 및 스토리지 비용을 최소화할 수 있습니다.

C. 트리거 간격을 10분으로 설정하십시오. 각 배치 작업은 소스 스토리지 계정의 API를 호출하므로 트리거 빈도를 허용 가능한 최대 임계값으로 줄이면 이 비용을 최소화할 수 있습니다.

D. 트리거 간격을 3초로 설정하십시오. 기본 트리거 간격은 배치당 너무 많은 레코드를 처리하여 디스크에 스필이 발생하고 용량 비용이 증가할 수 있습니다.

Discussion 0

Correct Answer: B Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #20

비즈니스 보고 시스템에서는 대시보드 데이터가 매시간 업데이트되어야 합니다. 데이터 추출, 변환 및 로드를 담당하는 파이프라인의 총 처리 시간은 10분입니다.
정상적인 운영 조건을 가정할 때, 어떤 구성이 가장 낮은 비용으로 서비스 수준 계약 요구 사항을 충족할까요?

A. 지정된 디렉터리에 새 데이터가 추가될 때마다 실행되는 작업을 구성합니다.

B. 새 작업 클러스터에서 파이프라인을 한 시간마다 실행하도록 작업을 예약합니다.

C. 전용 대화형 클러스터에서 파이프라인을 한 시간에 한 번씩 실행하도록 작업을 예약합니다.

D. 60분 간격으로 구조화된 스트리밍 작업을 예약합니다.

Discussion 0

Correct Answer: B Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Download Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Demo

Simply submit your e-mail address below to get started with our free demo of your Databricks Databricks-Certified-Professional-Data-Engineer Korean exam.