Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions

Exam Code/Number: Databricks-Certified-Professional-Data-Engineer Korean
Exam Name/Title: Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version)
Certification Provider: Databricks
Corresponding Certification: Databricks Certification

Exam Questions: 217
Updated On: Jul 01, 2026

Page: 5 / 22
Total 217 questions

Question #41

머신러닝 팀은 델타 레이크 레이크하우스에 있는 CDF(Change Data Feed)가 활성화된 customer_churn_params 테이블을 이탈 예측에 사용합니다. 이 테이블에는 여러 상위 소스에서 가져온 고객 정보가 포함되어 있습니다. 현재 데이터 엔지니어링 팀은 상위 데이터 소스에서 가져온 최신 유효 값으로 테이블을 덮어쓰는 방식으로 매일 밤 이 테이블을 업데이트하고 있습니다. 머신러닝 팀에서 사용하는 이탈 예측 모델은 프로덕션 환경에서 상당히 안정적입니다. 팀은 지난 24시간 동안 변경된 레코드에 대해서만 예측을 수행하는 데 관심이 있습니다. 이러한 변경된 레코드를 더 쉽게 식별할 수 있는 접근 방식은 무엇일까요?

A. 데이터가 기록될 때 current_timestamp()를 호출하여 채워지는 필드를 포함하도록 덮어쓰기 로직을 수정합니다. 이 필드를 사용하여 특정 날짜에 기록된 레코드를 식별합니다.

B. 배치 작업을 전체 출력 모드를 사용하는 구조화된 스트리밍 작업으로 변환합니다. 구조화된 스트리밍 작업이 customer_churn_params 테이블에서 데이터를 읽어 이탈 모델을 기반으로 점진적으로 예측하도록 구성합니다.

C. customer_churn_params 테이블의 모든 행에 이탈 예측 모델을 적용하되, 예측값이 변경되지 않은 행은 무시하고 예측 테이블에 업서트하는 로직을 구현하십시오.

D. 현재의 덮어쓰기 로직을 변경된 레코드만 수정하는 MERGE 문으로 대체하고, 변경 데이터 피드에서 식별된 변경된 레코드에 대한 예측 로직을 작성합니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #42

데이터 엔지니어가 데이터브릭스(Databricks)에서 데이터 파이프라인을 설계하고 있는데, 이 파이프라인은 데이터 도착이 지연되는 경우가 흔한 카프카(Kafka) 스트림의 레코드를 처리해야 합니다. 데이터 엔지니어는 어떤 접근 방식을 사용해야 할까요?

A. 일괄 처리를 사용하여 매번 전체 출력 테이블을 덮어쓰도록 하여 늦게 추가된 데이터가 정확하게 반영되도록 합니다.

B. Databricks Jobs를 사용하여 모든 과거 데이터를 주기적으로 재처리하는 사용자 지정 솔루션을 구현합니다.

C. 배치 테이블이 있는 Auto CDC 파이프라인을 사용하여 지연 데이터 처리를 간소화합니다.

D. 예상 도착 시간 이후에 도착하는 레코드를 수용하기 위해 허용되는 지연 시간을 지정하는 워터마크를 사용하여 정확한 집계 및 상태 관리를 보장합니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #43

뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address < > customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address < > staged_updates.
그런 다음 주소를 지정하세요
UPDATE SET current = false, end_date = staged_updates.effective_date
일치하지 않을 경우
고객 ID, 주소, 현재 날짜, 유효 날짜, 종료 날짜 삽입
VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?

A. 고객 테이블은 타입 1 테이블로 구현되어 있으며, 기존 값은 새 값으로 덮어쓰여지고 이력은 유지되지 않습니다.

B. 고객 테이블은 Type 0 테이블로 구현되어 있으며, 모든 쓰기 작업은 기존 값을 변경하지 않고 새로운 값을 추가하는 방식으로만 수행됩니다.

C. 고객 테이블은 Type 2 테이블로 구현되어 있으며, 기존 값은 덮어쓰여지고 신규 고객은 추가됩니다.

D. 고객 테이블은 Type 2 테이블로 구현됩니다. 기존 값은 유지되지만 더 이상 사용되지 않는 것으로 표시되고 새 값이 삽입됩니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #44

데이터 아키텍트가 다양한 비즈니스 요구 사항에 맞춰 데이터를 효율적으로 처리하는 Databricks 솔루션을 설계하고 있습니다.
데이터 엔지니어는 어떤 상황에서 스트리밍 테이블 대신 구체화된 뷰를 사용해야 할까요?

A. 웹사이트에서 발생하는 대량의 연속적인 클릭스트림 데이터를 처리하여 사용자 행동을 실시간으로 모니터링합니다.

B. 데이터베이스 변경 사항을 몇 초 내에 감지하고 대응해야 하는 CDC(변경 데이터 캡처) 파이프라인을 구현합니다.

C. 여러 개의 대형 테이블에서 복잡한 집계 및 조인을 미리 계산하여 BI 대시보드 성능을 향상시킵니다.

D. 즉각적인 알림을 위해 1초 미만의 처리 요구 사항으로 Apache Kafka 토픽에서 데이터를 수집합니다.

Discussion 0

Correct Answer: C Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #45

데이터 엔지니어는 각 주식 그룹 내 행 간 상태를 유지해야 하는 복잡한 계산을 포함하는 금융 시계열 데이터를 처리하는 Pandas 사용자 정의 함수(UDF)를 설계할 때, 해당 함수가 효율적이고 확장 가능한지 확인해야 합니다.
데이터 무결성을 유지하면서 최소한의 오버헤드로 문제를 해결할 수 있는 접근 방식은 무엇일까요?

A. 반복자 기반 처리를 사용하는 SCALAR_ITER Pandas UDF를 사용하고, 각 배치 처리 후 업데이트되는 영구 저장소(델타 테이블)를 통해 상태 관리를 구현하여 반복자 청크 간의 연속성을 유지합니다.

B. 각 주식 종목 그룹을 독립적으로 처리하고, 브로드캐스트 변수를 통해 연속적인 UDF 호출 간에 전달되는 중간 집계 결과를 통해 상태를 유지하는 grouped_agg Pandas UDF를 사용합니다.

C. 전체 데이터셋을 한 번에 처리하는 스칼라 Pandas UDF를 사용하고, UDF 내에서 사용자 지정 파티셔닝 로직을 구현하여 주식 기호별로 그룹화하고 모든 실행 프로세스에서 공유되는 전역 변수를 사용하여 상태를 유지합니다.

D. 각 주식 기호에 대한 모든 행을 Pandas DataFrame으로 받는 Spark DataFrame에 applyInPandas()를 사용하여 각 그룹 내에서 처리를 수행하고 각 그룹의 처리 함수에 로컬인 상태 변수를 유지합니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #46

Databricks Auto Loader의 기본 실행 모드를 설명하는 문장은 무엇입니까?

A. 웹훅 트리거를 통해 소스 디렉터리에 새 데이터가 도착할 때마다 Databricks 작업이 실행됩니다. 새 데이터는 데이터에서 추론된 규칙을 사용하여 대상 테이블에 자동으로 병합됩니다.

B. 새 파일은 입력 디렉터리를 나열하여 식별하고, 대상 테이블은 소스 디렉터리의 모든 유효한 파일을 디렉터리 쿼리하여 구체화합니다.

C. 새 파일은 입력 디렉터리 목록을 통해 식별되며, 새 파일은 대상 Delta Lake 테이블에 점진적으로 그리고 멱등적으로 로드됩니다.

D. 클라우드 공급업체별 큐 스토리지 및 알림 서비스가 구성되어 새로 도착하는 파일을 추적합니다. 새 파일은 대상 Delta Lake 테이블에 점진적으로 그리고 비활성 상태로 저장됩니다.

Discussion 0

Correct Answer: C Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #47

미국에 본사를 둔 한 소규모 회사가 최근 인도의 컨설팅 회사와 계약을 맺고 인공지능 애플리케이션에 필요한 여러 새로운 데이터 엔지니어링 파이프라인을 구축하기로 했습니다. 이 회사의 모든 데이터는 미국 내 지역 클라우드 스토리지에 저장됩니다.
회사 워크스페이스 관리자는 계약직 직원들이 사용하는 Databricks 워크스페이스를 어디에 배포해야 할지 확신하지 못하고 있습니다.
모든 데이터 거버넌스 고려 사항을 감안할 때, 다음 중 어떤 설명이 이 결정에 정확한 근거를 제시합니까?

A. Databricks는 클라우드 볼륨 스토리지에서 HDFS를 실행하므로 데이터가 저장된 지역에 클라우드 가상 머신을 배포해야 합니다.

B. Databricks 노트북은 사용자의 브라우저에서 실행되는 모든 코드를 개방형 인터넷을 통해 가상 머신으로 전송합니다. 따라서 가능한 한 최종 사용자와 가까운 작업 공간 영역을 선택하는 것이 가장 안전합니다.

C. Databricks 워크스페이스는 지역 인프라에 의존하지 않으므로 워크스페이스 관리자에게 가장 편리한 방식을 기준으로 결정해야 합니다.

D. 지역 간 읽기 및 쓰기는 상당한 비용과 지연을 초래할 수 있습니다. 가능한 한 컴퓨팅 자원은 데이터가 저장된 지역과 동일한 지역에 배포해야 합니다.

E. Databricks는 대화형 개발 중에 사용자 워크스테이션을 핵심 동력으로 활용합니다. 따라서 사용자는 항상 물리적으로 가까운 지역에 배포된 작업 공간을 사용해야 합니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #48

플랫폼 팀 리더는 여러 사업 부문에 걸쳐 SQL 웨어하우스 사용 내역을 자동화하는 책임을 맡고 있습니다.
그들은 개별 사용자 수준에서 창고 사용량을 파악하고 여러 부서의 비즈니스 리더가 포함된 경영진 팀과 일일 사용량 보고서를 공유해야 합니다.
플랫폼 책임자는 어떻게 매일 공유할 수 있는 자동화된 보고서를 생성해야 할까요?

A. 사용자가 어트리뷰션 추적을 위한 쿼리 세부 정보를 제공하지 않는 한 SQL 쿼리를 실행하지 못하도록 제한합니다.

B. 사용자가 정상적으로 쿼리를 실행하고 각 팀이 수동으로 사용량을 경영진에게 보고하도록 합니다.

C. 시스템 테이블을 사용하여 감사 및 청구 사용량 데이터를 수집하고, 수동으로 실행할 수 있도록 쿼리 결과를 경영진과 공유합니다.

D. 시스템 테이블을 사용하여 감사 및 청구 사용량 데이터를 수집하고, 경영진과 공유할 수 있도록 매일 업데이트되는 대시보드를 생성합니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #49

데이터 엔지니어가 다음 PySpark 코드를 실행하려고 시도하고 있습니다.
df = spark.read.table("sales")
result = df.groupBy("region").agg(sum("revenue"))
하지만 실행 계획을 검토하고 Spark 작업을 프로파일링한 결과, 집계 단계에서 과도한 데이터 셔플링이 발생하는 것을 발견했습니다.
groupBy 집계 연산 중 셔플링을 줄이기 위해 어떤 기법을 적용해야 할까요?

A. DataFrame df를 캐싱합니다.

B. 집계 전 지역별 재분할.

C. 브로드캐스트 참여를 사용하세요.

D. 집계 후 coalesce() 함수를 사용하십시오.

Discussion 0

Correct Answer: B Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #50

Databricks를 처음 사용하는 사용자가 작업 중인 파이프라인 로직의 실행 시간이 너무 오래 걸리는 문제를 해결하려고 합니다. 현재 사용자는 display() 호출을 사용하여 코드를 셀 단위로 실행하면서 새로운 변환이 작업에 추가될 때 코드가 논리적으로 올바른 결과를 생성하는지 확인하고 있습니다. 평균 실행 시간을 측정하기 위해 각 셀을 대화형으로 여러 번 실행하고 있습니다.
다음 중 어떤 조정을 하면 실제 운영 환경에서 코드 성능을 더 정확하게 측정할 수 있을까요?

A. Photon은 예약된 작업을 위해 시작된 클러스터에서만 활성화할 수 있으므로, 증분 코드 개발 중에 노트북을 작업으로 실행하고 실행 시간을 추적하려면 Jobs UI를 활용해야 합니다.

B. 실제 운영 환경에서의 코드 개발은 반드시 IDE를 사용하여 수행해야 합니다. 오픈 소스 Spark 및 Delta Lake의 로컬 빌드 환경에서 코드를 실행하면 실제 운영 환경에서의 코드 성능을 가장 정확하게 예측할 수 있습니다.

C. Scala는 인터랙티브 노트북을 사용하여 정확하게 테스트할 수 있는 유일한 언어입니다. Scala 코드를 JAR 파일로 컴파일하여 사용할 때 최상의 성능을 얻을 수 있기 때문입니다. 모든 PySpark 및 Spark SQL 로직은 리팩토링해야 합니다.

D. 개발 노트북에서 코드 실행 시간을 의미 있게 문제 해결하는 유일한 방법은 프로덕션 규모의 데이터와 프로덕션 규모의 클러스터를 사용하여 "모두 실행" 모드로 실행하는 것입니다.

E. display()를 호출하면 작업이 강제로 트리거되지만, 많은 변환은 논리적 쿼리 계획에만 추가됩니다. 캐싱으로 인해 동일한 로직이 반복적으로 실행되면 의미 있는 결과를 얻을 수 없습니다.

Discussion 0

Correct Answer: E Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Page: 5 / 22
Total 217 questions

Previous Page Next Page

Unlock all Databricks-Certified-Professional-Data-Engineer Korean features

No captcha needed
365 Days Free Updates
Set your Desired Pass Percentage
Allocate Time (Hours : Minutes)
Two Modes For Databricks-Certified-Professional-Data-Engineer Korean Practice
Customer Support

Get Full Access Now

Download Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Demo

Simply submit your e-mail address below to get started with our free demo of your Databricks Databricks-Certified-Professional-Data-Engineer Korean exam.

Email Address:

Our demo shows only a few questions from your selected exam for evaluating purposes.