Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions
Databricks 노트북에 다음과 같은 PySpark 코드 조각이 있다고 가정해 보겠습니다.
filtered_df = spark.read.format(" delta ").load(" /mnt/data/large_table ")
.filter( " event_date > ' 2024-01-01 ' " )
filtered_df.count()
데이터 엔지니어는 쿼리 프로파일러를 통해 필터가 적용되었음에도 불구하고 filtered_df에 대한 스캔 연산자가 거의 모든 파일을 읽고 있다는 사실을 발견했습니다.
데이터 건너뛰기 기능이 제대로 작동하지 않는 이유는 무엇일까요?
filtered_df = spark.read.format(" delta ").load(" /mnt/data/large_table ")
.filter( " event_date > ' 2024-01-01 ' " )
filtered_df.count()
데이터 엔지니어는 쿼리 프로파일러를 통해 필터가 적용되었음에도 불구하고 filtered_df에 대한 스캔 연산자가 거의 모든 파일을 읽고 있다는 사실을 발견했습니다.
데이터 건너뛰기 기능이 제대로 작동하지 않는 이유는 무엇일까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어가 고객이 대여 자전거를 사용하는 위치를 파악하기 위한 데이터 수집 파이프라인을 구축하고 있습니다. 엔지니어는 시간이 지남에 따라 자전거 센서에서 전송되는 데이터에 위도와 경도 같은 중요한 세부 정보가 누락되는 것을 발견했습니다. 하위 단계의 분석가들은 별도의 처리를 위해 깨끗한 데이터와 누락된 데이터를 모두 필요로 합니다.
데이터 엔지니어는 이미 이 코드를 가지고 있습니다.
dlt를 가져옵니다
pyspark.sql.functions에서 expr을 가져옵니다.
rules = {
" valid_lat " : " (lat IS NOT NULL) " ,
" valid_long " : " (long IS NOT NULL) "
}
quarantine_rules = " NOT({0}) " .format( " AND " .join(rules.values()))
@dlt.view
def raw_trips_data():
return spark.readStream.table( " ride_and_go.telemetry.trips " )
How should the data engineer meet the requirements to capture good and bad data?
데이터 엔지니어는 이미 이 코드를 가지고 있습니다.
dlt를 가져옵니다
pyspark.sql.functions에서 expr을 가져옵니다.
rules = {
" valid_lat " : " (lat IS NOT NULL) " ,
" valid_long " : " (long IS NOT NULL) "
}
quarantine_rules = " NOT({0}) " .format( " AND " .join(rules.values()))
@dlt.view
def raw_trips_data():
return spark.readStream.table( " ride_and_go.telemetry.trips " )
How should the data engineer meet the requirements to capture good and bad data?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
신입 데이터 엔지니어에게 DataFrame df를 사용하여 그룹화된 집계를 수행하는 스트리밍 데이터 파이프라인을 개발하라는 요청이 있었습니다. 이 파이프라인은 겹치지 않는 5분 간격마다 평균 습도와 평균 온도를 계산해야 합니다. 이벤트는 장치별로 1분에 한 번씩 기록됩니다.
스트리밍 데이터프레임 df는 다음과 같은 스키마를 가지고 있습니다.
" device_id INT, event_time TIMESTAMP, temp FLOAT, humidity FLOAT "
코드 블록:

이 과제를 완료하려면 코드 블록 안의 빈칸을 올바르게 채우는 답을 선택하세요.
스트리밍 데이터프레임 df는 다음과 같은 스키마를 가지고 있습니다.
" device_id INT, event_time TIMESTAMP, temp FLOAT, humidity FLOAT "
코드 블록:

이 과제를 완료하려면 코드 블록 안의 빈칸을 올바르게 채우는 답을 선택하세요.
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
쿼리 실행에 소요된 총 실제 시간을 측정하는 데 사용할 수 있는 방법은 무엇입니까?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
주니어 데이터 엔지니어가 Delta Lake의 변경 데이터 피드(Change Data Feed) 기능을 활용하여 `delta.enableChangeDataFeed = true` 속성으로 생성된 브론즈 테이블의 모든 행에 대해 유효했던 모든 값을 나타내는 유형 1 테이블을 생성하려고 합니다. 이 엔지니어는 다음 코드를 매일 실행할 계획입니다.

다음 중 위 쿼리를 여러 번 실행했을 때의 실행 과정과 결과를 가장 잘 설명하는 문장은 무엇입니까?

다음 중 위 쿼리를 여러 번 실행했을 때의 실행 과정과 결과를 가장 잘 설명하는 문장은 무엇입니까?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
현재 플랫폼 소유자가 여러 카탈로그의 소유권을 보유하고 있으며 스토리지 자격 증명 및 외부 위치를 관리하고 있습니다. 데이터 엔지니어는 연속성을 보장하기 위해 카탈로그 소유권을 플랫폼 팀 그룹으로 이전하고, 지속적인 권한 관리를 위임하며, 델타 공유를 통해 데이터를 수신하고 공유할 수 있는 기능을 유지해야 합니다.
메타스토어 전반에 걸쳐 이러한 작업을 수행하려면 어떤 역할이 필요합니까?
메타스토어 전반에 걸쳐 이러한 작업을 수행하려면 어떤 역할이 필요합니까?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
운영 환경에서는 외부 변경 데이터 캡처(CDC) 피드의 업데이트를 Delta Lake 테이블에 상시 실행되는 구조화된 스트림 작업으로 점진적으로 적용합니다. 이 테이블의 데이터를 처음 마이그레이션했을 때 최적화(OPTIMIZE) 작업이 실행되어 대부분의 데이터 파일 크기가 1GB로 조정되었습니다. 스트리밍 운영 작업에 대해 자동 최적화(Auto Optimize)와 자동 압축(Auto Compaction) 기능이 모두 활성화되어 있었습니다. 최근 데이터 파일을 검토한 결과, 대부분의 데이터 파일 크기가 64MB 미만인 것으로 나타났지만, 테이블의 각 파티션에는 최소 1GB의 데이터가 포함되어 있고 전체 테이블 크기는 10TB를 초과합니다.
다음 중 파일 크기가 작아진 이유를 가장 잘 설명하는 것은 무엇입니까?
다음 중 파일 크기가 작아진 이유를 가장 잘 설명하는 것은 무엇입니까?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
아래 쿼리를 사용하여 Delta Lake 테이블이 생성되었습니다.

다음 질문을 고려해 보세요.
DROP TABLE prod.sales_by_store -
워크스페이스 관리자가 이 명령문을 실행하면 어떤 결과가 발생할까요?

다음 질문을 고려해 보세요.
DROP TABLE prod.sales_by_store -
워크스페이스 관리자가 이 명령문을 실행하면 어떤 결과가 발생할까요?
Correct Answer: E
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어링 팀은 자동화된 ETL 프로세스의 일부로 테이블에 태깅 시스템을 구현해야 하며, Unity Catalog의 테이블에 프로그래밍 방식으로 태그를 적용해야 합니다.
테이블에 태그를 프로그래밍 방식으로 추가하는 SQL 명령은 무엇입니까?
테이블에 태그를 프로그래밍 방식으로 추가하는 SQL 명령은 무엇입니까?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
다음 표는 전자상거래 웹사이트에서 사용자가 장바구니에 담는 상품들을 보여줍니다.

다음 MERGE 문은 스키마 평가가 활성화된 이 테이블을 업데이트 뷰를 사용하여 업데이트하는 데 사용됩니다.

다음 업데이트는 어떻게 처리해야 할까요?

다음 MERGE 문은 스키마 평가가 활성화된 이 테이블을 업데이트 뷰를 사용하여 업데이트하는 데 사용됩니다.

다음 업데이트는 어떻게 처리해야 할까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
