Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions
데이터 엔지니어가 Auto Loader를 사용하여 들어오는 JSON 데이터를 읽고 있습니다. 유효하지 않은 JSON 레코드를 격리하도록 Auto Loader를 구성했지만, 시간이 지남에 따라 형식이 올바른 JSON 레코드조차 격리되는 것을 발견했습니다.
다음은 코드 조각입니다.
df = (spark.readStream
.format( " cloudFiles " )
.option( " cloudFiles.format " , " json " )
.option( " badRecordsPath " , " /tmp/somewhere/badRecordsPath " )
.schema( " a int, b int " )
.load( " /Volumes/catalog/schema/raw_data/ " ))
데이터가 누락된 원인은 무엇입니까?
다음은 코드 조각입니다.
df = (spark.readStream
.format( " cloudFiles " )
.option( " cloudFiles.format " , " json " )
.option( " badRecordsPath " , " /tmp/somewhere/badRecordsPath " )
.schema( " a int, b int " )
.load( " /Volumes/catalog/schema/raw_data/ " ))
데이터가 누락된 원인은 무엇입니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
상위 시스템에서 변경 데이터 캡처(CDC) 로그가 생성되어 클라우드 객체 스토리지 디렉터리에 기록됩니다. 로그의 각 레코드는 변경 유형(삽입, 업데이트 또는 삭제)과 변경 후 각 필드의 값을 나타냅니다. 소스 테이블에는 pk_id 필드로 식별되는 기본 키가 있습니다.
감사 목적으로 데이터 거버넌스 팀은 소스 시스템에서 유효했던 모든 값에 대한 전체 기록을 유지하고자 합니다. 분석 목적으로는 각 레코드의 가장 최근 값만 기록하면 됩니다. 이러한 레코드를 수집하는 Databricks 작업은 한 시간에 한 번 실행되지만, 각 레코드는 한 시간 동안 여러 번 변경될 수 있습니다.
어떤 솔루션이 이러한 요구 사항을 충족합니까?
감사 목적으로 데이터 거버넌스 팀은 소스 시스템에서 유효했던 모든 값에 대한 전체 기록을 유지하고자 합니다. 분석 목적으로는 각 레코드의 가장 최근 값만 기록하면 됩니다. 이러한 레코드를 수집하는 Databricks 작업은 한 시간에 한 번 실행되지만, 각 레코드는 한 시간 동안 여러 번 변경될 수 있습니다.
어떤 솔루션이 이러한 요구 사항을 충족합니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
분석팀은 데이터 엔지니어링팀이 생성한 고객 거래 델타 테이블(약 200억 건의 레코드)을 대상으로 Databricks SQL에서 단기 실험을 실행하려고 합니다. 데이터 엔지니어링팀은 가동 중지 시간을 최소화하고 진행 중인 ETL 프로세스에 영향을 미치지 않도록 어떤 전략을 사용해야 할까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어 팀이 데이터 품질 검사에 대한 반복적인 요구 사항을 포함하는 테이블을 DLT 파이프라인에 추가하고 있습니다.
팀원 중 한 명이 이 파이프라인에 정의된 모든 테이블에서 이러한 데이터 품질 규칙을 재사용할 것을 제안했습니다.
그들이 이를 해낼 수 있도록 하는 접근 방식은 무엇일까요?
팀원 중 한 명이 이 파이프라인에 정의된 모든 테이블에서 이러한 데이터 품질 규칙을 재사용할 것을 제안했습니다.
그들이 이를 해낼 수 있도록 하는 접근 방식은 무엇일까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.

이 구현을 설명하는 문장은 무엇입니까?
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.

이 구현을 설명하는 문장은 무엇입니까?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
거래 테이블이 product_id, user_id 및 event_date 열을 기준으로 Liquid 클러스터링되었습니다.
쓰기 시 클러스터링을 지원하지 않는 작업은 무엇입니까?
쓰기 시 클러스터링을 지원하지 않는 작업은 무엇입니까?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어가 Lakeflow Spark Declarative Pipelines Expectations를 사용하여 수신되는 센서 데이터의 품질을 추적하고 있습니다. 센서에서 주기적으로 범위를 벗어난 잘못된 측정값이 전송되는데, 현재 팀은 이러한 행에 경고 표시를 하고 정상 데이터와 함께 실버 테이블에 기록하고 있습니다. 그런데 새로운 요구 사항이 생겼습니다. 잘못된 행을 별도의 격리 테이블에 저장하고 더 이상 실버 테이블에 포함시키지 않아야 한다는 것입니다.
이것은 실버 테이블에 대한 기존 코드입니다.
@dlt.table
@dlt.expect( " valid_sensor_reading " , " reading < 120 " )
def silver_sensor_readings():
spark.readStream.table(" bronze_sensor_readings " )를 반환합니다.
어떤 코드가 요구 사항을 충족할까요?
이것은 실버 테이블에 대한 기존 코드입니다.
@dlt.table
@dlt.expect( " valid_sensor_reading " , " reading < 120 " )
def silver_sensor_readings():
spark.readStream.table(" bronze_sensor_readings " )를 반환합니다.
어떤 코드가 요구 사항을 충족할까요?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어는 Databricks 환경에서 YAML 파일 처리를 위해 PyYAML Python 패키지를 설치해야 합니다. 하지만 Databricks 워크스페이스는 인터넷에 직접 연결되어 있지 않아 PyPI에서 패키지를 다운로드할 수 없습니다. 엔지니어는 이미 필요한 PyYAML wheel(.whl) 파일을 자신의 노트북에 다운로드했습니다. 이 엔지니어는 로컬 wheel 파일을 사용하여 PyYAML 패키지를 설치하고, Databricks 워크스페이스에 새 클러스터가 생성될 때마다 자동으로 패키지가 사용되도록 하려고 합니다. 어떤 방법을 사용하는 것이 좋을까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
한 회사가 여러 데이터 소스에 걸쳐 Lakehouse Federation을 구현하려고 하지만, 데이터 일관성과 모든 팀이 동일한 공식 데이터 버전에 액세스하도록 보장하는 데 어려움을 겪고 있습니다.
레이크하우스 페더레이션이 데이터 일관성을 유지하기 위해 적용 가능한 설명은 무엇입니까?
레이크하우스 페더레이션이 데이터 일관성을 유지하기 위해 적용 가능한 설명은 무엇입니까?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어가 스트리밍 주문 데이터를 처리하기 위해 Lakeflow 선언적 파이프라인을 설계하고 있습니다. 이 파이프라인은 Auto Loader를 사용하여 데이터를 수집하며, customer_id와 amount 값이 0보다 큰지 확인하여 데이터 품질을 보장해야 합니다. 유효하지 않은 레코드는 삭제해야 합니다.
Lakeflow Declarative Pipelines 구성 중 어떤 구성이 Python을 사용하여 이 요구 사항을 구현합니까?
Lakeflow Declarative Pipelines 구성 중 어떤 구성이 Python을 사용하여 이 요구 사항을 구현합니까?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
