Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions
머신러닝 팀은 델타 레이크 레이크하우스에 있는 CDF(Change Data Feed)가 활성화된 customer_churn_params 테이블을 이탈 예측에 사용합니다. 이 테이블에는 여러 상위 소스에서 가져온 고객 정보가 포함되어 있습니다. 현재 데이터 엔지니어링 팀은 상위 데이터 소스에서 가져온 최신 유효 값으로 테이블을 덮어쓰는 방식으로 매일 밤 이 테이블을 업데이트하고 있습니다. 머신러닝 팀에서 사용하는 이탈 예측 모델은 프로덕션 환경에서 상당히 안정적입니다. 팀은 지난 24시간 동안 변경된 레코드에 대해서만 예측을 수행하는 데 관심이 있습니다. 이러한 변경된 레코드를 더 쉽게 식별할 수 있는 접근 방식은 무엇일까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어가 데이터브릭스(Databricks)에서 데이터 파이프라인을 설계하고 있는데, 이 파이프라인은 데이터 도착이 지연되는 경우가 흔한 카프카(Kafka) 스트림의 레코드를 처리해야 합니다. 데이터 엔지니어는 어떤 접근 방식을 사용해야 할까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address < > customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address < > staged_updates.
그런 다음 주소를 지정하세요
UPDATE SET current = false, end_date = staged_updates.effective_date
일치하지 않을 경우
고객 ID, 주소, 현재 날짜, 유효 날짜, 종료 날짜 삽입
VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address < > customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers. current = true AND customers.address < > staged_updates.
그런 다음 주소를 지정하세요
UPDATE SET current = false, end_date = staged_updates.effective_date
일치하지 않을 경우
고객 ID, 주소, 현재 날짜, 유효 날짜, 종료 날짜 삽입
VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 아키텍트가 다양한 비즈니스 요구 사항에 맞춰 데이터를 효율적으로 처리하는 Databricks 솔루션을 설계하고 있습니다.
데이터 엔지니어는 어떤 상황에서 스트리밍 테이블 대신 구체화된 뷰를 사용해야 할까요?
데이터 엔지니어는 어떤 상황에서 스트리밍 테이블 대신 구체화된 뷰를 사용해야 할까요?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어는 각 주식 그룹 내 행 간 상태를 유지해야 하는 복잡한 계산을 포함하는 금융 시계열 데이터를 처리하는 Pandas 사용자 정의 함수(UDF)를 설계할 때, 해당 함수가 효율적이고 확장 가능한지 확인해야 합니다.
데이터 무결성을 유지하면서 최소한의 오버헤드로 문제를 해결할 수 있는 접근 방식은 무엇일까요?
데이터 무결성을 유지하면서 최소한의 오버헤드로 문제를 해결할 수 있는 접근 방식은 무엇일까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
Databricks Auto Loader의 기본 실행 모드를 설명하는 문장은 무엇입니까?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
미국에 본사를 둔 한 소규모 회사가 최근 인도의 컨설팅 회사와 계약을 맺고 인공지능 애플리케이션에 필요한 여러 새로운 데이터 엔지니어링 파이프라인을 구축하기로 했습니다. 이 회사의 모든 데이터는 미국 내 지역 클라우드 스토리지에 저장됩니다.
회사 워크스페이스 관리자는 계약직 직원들이 사용하는 Databricks 워크스페이스를 어디에 배포해야 할지 확신하지 못하고 있습니다.
모든 데이터 거버넌스 고려 사항을 감안할 때, 다음 중 어떤 설명이 이 결정에 정확한 근거를 제시합니까?
회사 워크스페이스 관리자는 계약직 직원들이 사용하는 Databricks 워크스페이스를 어디에 배포해야 할지 확신하지 못하고 있습니다.
모든 데이터 거버넌스 고려 사항을 감안할 때, 다음 중 어떤 설명이 이 결정에 정확한 근거를 제시합니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
플랫폼 팀 리더는 여러 사업 부문에 걸쳐 SQL 웨어하우스 사용 내역을 자동화하는 책임을 맡고 있습니다.
그들은 개별 사용자 수준에서 창고 사용량을 파악하고 여러 부서의 비즈니스 리더가 포함된 경영진 팀과 일일 사용량 보고서를 공유해야 합니다.
플랫폼 책임자는 어떻게 매일 공유할 수 있는 자동화된 보고서를 생성해야 할까요?
그들은 개별 사용자 수준에서 창고 사용량을 파악하고 여러 부서의 비즈니스 리더가 포함된 경영진 팀과 일일 사용량 보고서를 공유해야 합니다.
플랫폼 책임자는 어떻게 매일 공유할 수 있는 자동화된 보고서를 생성해야 할까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어가 다음 PySpark 코드를 실행하려고 시도하고 있습니다.
df = spark.read.table("sales")
result = df.groupBy("region").agg(sum("revenue"))
하지만 실행 계획을 검토하고 Spark 작업을 프로파일링한 결과, 집계 단계에서 과도한 데이터 셔플링이 발생하는 것을 발견했습니다.
groupBy 집계 연산 중 셔플링을 줄이기 위해 어떤 기법을 적용해야 할까요?
df = spark.read.table("sales")
result = df.groupBy("region").agg(sum("revenue"))
하지만 실행 계획을 검토하고 Spark 작업을 프로파일링한 결과, 집계 단계에서 과도한 데이터 셔플링이 발생하는 것을 발견했습니다.
groupBy 집계 연산 중 셔플링을 줄이기 위해 어떤 기법을 적용해야 할까요?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
Databricks를 처음 사용하는 사용자가 작업 중인 파이프라인 로직의 실행 시간이 너무 오래 걸리는 문제를 해결하려고 합니다. 현재 사용자는 display() 호출을 사용하여 코드를 셀 단위로 실행하면서 새로운 변환이 작업에 추가될 때 코드가 논리적으로 올바른 결과를 생성하는지 확인하고 있습니다. 평균 실행 시간을 측정하기 위해 각 셀을 대화형으로 여러 번 실행하고 있습니다.
다음 중 어떤 조정을 하면 실제 운영 환경에서 코드 성능을 더 정확하게 측정할 수 있을까요?
다음 중 어떤 조정을 하면 실제 운영 환경에서 코드 성능을 더 정확하게 측정할 수 있을까요?
Correct Answer: E
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
