Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions, Page 3

Question #21

데이터 엔지니어가 Auto Loader를 사용하여 들어오는 JSON 데이터를 읽고 있습니다. 유효하지 않은 JSON 레코드를 격리하도록 Auto Loader를 구성했지만, 시간이 지남에 따라 형식이 올바른 JSON 레코드조차 격리되는 것을 발견했습니다.
다음은 코드 조각입니다.
df = (spark.readStream
.format( " cloudFiles " )
.option( " cloudFiles.format " , " json " )
.option( " badRecordsPath " , " /tmp/somewhere/badRecordsPath " )
.schema( " a int, b int " )
.load( " /Volumes/catalog/schema/raw_data/ " ))
데이터가 누락된 원인은 무엇입니까?

A. 어느 시점부터 상위 데이터 제공업체가 모든 데이터를 여러 줄로 된 JSON 형식으로 전환했습니다.

B. 엔지니어가 "cloudFiles.quarantineMode" = "rescue" 옵션을 설정하는 것을 잊었습니다.

C. badRecordsPath 위치에 작은 파일들이 많이 누적되고 있습니다.

D. 소스 데이터는 유효한 JSON 형식이지만, 정의된 스키마를 어떤 방식으로든 준수하지 않습니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #22

상위 시스템에서 변경 데이터 캡처(CDC) 로그가 생성되어 클라우드 객체 스토리지 디렉터리에 기록됩니다. 로그의 각 레코드는 변경 유형(삽입, 업데이트 또는 삭제)과 변경 후 각 필드의 값을 나타냅니다. 소스 테이블에는 pk_id 필드로 식별되는 기본 키가 있습니다.
감사 목적으로 데이터 거버넌스 팀은 소스 시스템에서 유효했던 모든 값에 대한 전체 기록을 유지하고자 합니다. 분석 목적으로는 각 레코드의 가장 최근 값만 기록하면 됩니다. 이러한 레코드를 수집하는 Databricks 작업은 한 시간에 한 번 실행되지만, 각 레코드는 한 시간 동안 여러 번 변경될 수 있습니다.
어떤 솔루션이 이러한 요구 사항을 충족합니까?

A. 각 pk_id에 대해 별도의 히스토리 테이블을 생성하고, 모든 히스토리 테이블을 합치고 가장 최근 상태를 필터링하여 테이블의 현재 상태를 확인합니다.

B. merge into를 사용하여 각 pk_id에 대한 가장 최근 항목을 bronze 테이블에 삽입, 업데이트 또는 삭제한 다음 모든 변경 사항을 시스템 전체에 전파합니다.

C. Delta Lake의 변경 데이터 피드를 사용하여 외부 시스템의 CDC 데이터를 자동으로 처리하고 모든 변경 사항을 Lakehouse의 모든 종속 테이블에 전파합니다.

D. 모든 로그 정보를 브론즈 테이블에 수집하고, merge into를 사용하여 각 pk_id에 대한 가장 최근 항목을 실버 테이블에 삽입, 업데이트 또는 삭제하여 현재 테이블 상태를 복원합니다.

E. 테이블에 대한 일련의 변경 사항을 순서대로 반복하여 각 변경 사항을 순차적으로 적용합니다. Delta Lake의 버전 관리 기능을 활용하여 감사 로그를 생성합니다.

Discussion 0

Correct Answer: D Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #23

분석팀은 데이터 엔지니어링팀이 생성한 고객 거래 델타 테이블(약 200억 건의 레코드)을 대상으로 Databricks SQL에서 단기 실험을 실행하려고 합니다. 데이터 엔지니어링팀은 가동 중지 시간을 최소화하고 진행 중인 ETL 프로세스에 영향을 미치지 않도록 어떤 전략을 사용해야 할까요?

A. 분석팀을 위해 테이블을 얕은 복제합니다.

B. CTAS 문을 사용하여 분석팀을 위한 새 테이블을 생성합니다.

C. 분석팀을 위해 테이블을 딥 클론합니다.

D. 분석팀에게 프로덕션 테이블에 대한 직접 액세스 권한을 부여합니다.

Discussion 0

Correct Answer: A Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #24

데이터 엔지니어 팀이 데이터 품질 검사에 대한 반복적인 요구 사항을 포함하는 테이블을 DLT 파이프라인에 추가하고 있습니다.
팀원 중 한 명이 이 파이프라인에 정의된 모든 테이블에서 이러한 데이터 품질 규칙을 재사용할 것을 제안했습니다.
그들이 이를 해낼 수 있도록 하는 접근 방식은 무엇일까요?

A. 파이프라인의 대상 스키마 외부에 있는 델타 테이블에서 데이터 품질 규칙을 유지하고, 스키마 이름을 파이프라인 매개변수로 제공합니다.

B. 각 DLT 노트북 파일마다 별도의 Databricks 노트북에 데이터 품질 규칙을 유지 관리합니다.

C. 동일한 파이프라인에 포함된 DLT 노트북 전체에서 기대치를 확인할 수 있도록 전역 Python 변수를 사용합니다.

D. 파이프라인 구성 파일에 접근할 수 있는 외부 작업을 사용하여 이 파이프라인의 테이블에 데이터 품질 제약 조건을 추가합니다.

Discussion 0

Correct Answer: A Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #25

뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.

이 구현을 설명하는 문장은 무엇입니까?

A. 고객 테이블은 타입 2 테이블로 구현됩니다. 기존 값은 유지되지만 더 이상 사용되지 않는 것으로 표시되고 새 값이 삽입됩니다.

B. 고객 테이블은 Type 0 테이블로 구현되어 있으며, 모든 쓰기 작업은 기존 값을 변경하지 않고 새로운 값을 추가하는 방식으로만 수행됩니다.

C. 고객 테이블은 Type 2 테이블로 구현되어 있으며, 기존 값은 덮어쓰여지고 신규 고객은 추가됩니다.

D. 고객 테이블은 Type 1 테이블로 구현되어 있으며, 이전 값은 새 값으로 덮어쓰여지고 이력은 유지되지 않습니다.

E. 고객 테이블은 타입 3 테이블로 구현되었으며, 이전 값은 현재 값과 함께 새로운 열로 유지됩니다.

Discussion 0

Correct Answer: A Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #26

거래 테이블이 product_id, user_id 및 event_date 열을 기준으로 Liquid 클러스터링되었습니다.
쓰기 시 클러스터링을 지원하지 않는 작업은 무엇입니까?

A. CTAS 및 RTAS 진술

B. spark.write.format( ' delta ' ).mode( ' append ' )

C. spark.writestream.format( ' delta ' ).mode( ' append ' )

D. INSERT INTO 작업

Discussion 0

Correct Answer: C Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #27

데이터 엔지니어가 Lakeflow Spark Declarative Pipelines Expectations를 사용하여 수신되는 센서 데이터의 품질을 추적하고 있습니다. 센서에서 주기적으로 범위를 벗어난 잘못된 측정값이 전송되는데, 현재 팀은 이러한 행에 경고 표시를 하고 정상 데이터와 함께 실버 테이블에 기록하고 있습니다. 그런데 새로운 요구 사항이 생겼습니다. 잘못된 행을 별도의 격리 테이블에 저장하고 더 이상 실버 테이블에 포함시키지 않아야 한다는 것입니다.
이것은 실버 테이블에 대한 기존 코드입니다.
@dlt.table
@dlt.expect( " valid_sensor_reading " , " reading < 120 " )
def silver_sensor_readings():
spark.readStream.table(" bronze_sensor_readings " )를 반환합니다.
어떤 코드가 요구 사항을 충족할까요?

A. @dlt.table
@dlt.expect_or_drop( " valid_sensor_reading " , " reading < 120 " )
def silver_sensor_readings():
return spark.readStream.table( " bronze_sensor_readings " )

B. @dlt.table
@dlt.expect_or_drop( " valid_sensor_reading " , " reading < 120 " )
def silver_sensor_readings():
return spark.readStream.table( " bronze_sensor_readings " )
@dlt.table
@dlt.expect( " invalid_sensor_reading " , " reading > = 120 " )
def quarantine_sensor_readings():
return spark.readStream.table( " bronze_sensor_readings " )

C. @dlt.table
@dlt.expect_or_drop( " valid_sensor_reading " , " reading < 120 " )
def silver_sensor_readings():
return spark.readStream.table( " bronze_sensor_readings " )
@dlt.table
@dlt.expect( " invalid_sensor_reading " , " reading < 120 " )
def quarantine_sensor_readings():
return spark.readStream.table( " bronze_sensor_readings " )

D. @dlt.table
@dlt.expect( " valid_sensor_reading " , " reading < 120 " )
def silver_sensor_readings():
return spark.readStream.table( " bronze_sensor_readings " )
@dlt.table
@dlt.expect( " invalid_sensor_reading " , " reading > = 120 " )
def quarantine_sensor_readings():
return spark.readStream.table( " bronze_sensor_readings " )

Discussion 0

Correct Answer: B Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #28

데이터 엔지니어는 Databricks 환경에서 YAML 파일 처리를 위해 PyYAML Python 패키지를 설치해야 합니다. 하지만 Databricks 워크스페이스는 인터넷에 직접 연결되어 있지 않아 PyPI에서 패키지를 다운로드할 수 없습니다. 엔지니어는 이미 필요한 PyYAML wheel(.whl) 파일을 자신의 노트북에 다운로드했습니다. 이 엔지니어는 로컬 wheel 파일을 사용하여 PyYAML 패키지를 설치하고, Databricks 워크스페이스에 새 클러스터가 생성될 때마다 자동으로 패키지가 사용되도록 하려고 합니다. 어떤 방법을 사용하는 것이 좋을까요?

A. PyYAML.whl 파일을 Unity 카탈로그 볼륨에 업로드합니다. 필요한 경우 Unity 카탈로그 허용 목록에 경로를 추가합니다. 그런 다음 `pip install /path/to/PyYAML.whl`을 실행하는 클러스터 범위의 초기화 스크립트를 생성합니다.

B. 워크스페이스의 데이터 엔지니어 사용자 홈 디렉터리에 PyYAML.whl 파일을 업로드하고, 공유 클러스터에서 `%pip install /path/to/PyYAML.whl`을 실행하는 클러스터 범위 초기화 스크립트를 생성합니다.

C. 비공개 PyPI 저장소를 설정하고, 거기에 wheel 파일을 등록하고, 클러스터에서 `/databricks/python/bin/pip install --index-url=https://{repo-url} PyYAML`을 실행하는 클러스터 범위의 초기화 스크립트를 생성합니다.

D. PyYAML.whl 파일을 Databricks Git 저장소에 직접 추가하고, 해당 저장소에 연결된 모든 클러스터에 PyYAML이 자동으로 설치된다고 가정합니다.

Discussion 0

Correct Answer: A Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #29

한 회사가 여러 데이터 소스에 걸쳐 Lakehouse Federation을 구현하려고 하지만, 데이터 일관성과 모든 팀이 동일한 공식 데이터 버전에 액세스하도록 보장하는 데 어려움을 겪고 있습니다.
레이크하우스 페더레이션이 데이터 일관성을 유지하기 위해 적용 가능한 설명은 무엇입니까?

A. 연합은 모든 소스에서 변경 데이터 캡처(CDC)를 구현합니다.

B. 페더레이션은 수동으로 새로 고쳐야 하는 로컬 복사본을 생성합니다.

C. 페더레이션은 소스 시스템의 현재 상태를 반영하는 읽기 전용 액세스를 제공합니다.

D. 별도의 데이터 동기화 서비스를 배포해야 합니다.

Discussion 0

Correct Answer: C Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Question #30

데이터 엔지니어가 스트리밍 주문 데이터를 처리하기 위해 Lakeflow 선언적 파이프라인을 설계하고 있습니다. 이 파이프라인은 Auto Loader를 사용하여 데이터를 수집하며, customer_id와 amount 값이 0보다 큰지 확인하여 데이터 품질을 보장해야 합니다. 유효하지 않은 레코드는 삭제해야 합니다.
Lakeflow Declarative Pipelines 구성 중 어떤 구성이 Python을 사용하여 이 요구 사항을 구현합니까?

A. @dlt.table
def silver_orders():
return (
dlt.read_stream( " bronze_orders " )
.expect( " valid_customer " , " customer_id IS NOT NULL " )
.expect( " valid_amount " , " amount > 0 " )
)

B. @dlt.table
def silver_orders():
return (
dlt.read_stream( " bronze_orders " )
.expect_or_drop( " valid_customer " , " customer_id IS NOT NULL " )
.expect_or_drop( " valid_amount " , " amount > 0 " )
)

C. @dlt.table
@dlt.expect( " valid_customer " , " customer_id IS NOT NULL " )
@dlt.expect( " valid_amount " , " amount > 0 " )
def silver_orders():
return dlt.read_stream( " bronze_orders " )

D. @dlt.table
@dlt.expect_or_drop( " valid_customer " , " customer_id IS NOT NULL " )
@dlt.expect_or_drop( " valid_amount " , " amount > 0 " )
def silver_orders():
return dlt.read_stream( " bronze_orders " )

Discussion 0

Correct Answer: B Vote an answer

Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).

Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions

Download Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Demo