Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions
데이터 엔지니어가 인터넷 연결이 끊긴 Databricks 환경에 PyYAML Python 패키지를 설치해야 합니다. 해당 워크스페이스는 PyPI에 직접 접근할 수 없습니다. 엔지니어는 .whl 파일을 로컬에 다운로드했으며, 새로 생성되는 모든 클러스터에서 해당 패키지를 자동으로 사용할 수 있도록 하고 싶어합니다.
데이터 엔지니어는 어떤 접근 방식을 사용해야 할까요?
데이터 엔지니어는 어떤 접근 방식을 사용해야 할까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 팀이 배치 데이터와 스트리밍 데이터를 모두 처리하는 추가 전용 Delta Lake 파이프라인을 구현하고 있습니다. 이들은 소스 데이터의 스키마 변경 사항이 파이프라인을 중단시키지 않고 자동으로 반영되도록 하려고 합니다.
팀은 Delta 테이블에 데이터를 기록할 때 어떤 구성을 사용해야 할까요?
팀은 Delta 테이블에 데이터를 기록할 때 어떤 구성을 사용해야 할까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 관리팀은 GDPR 준수를 위해 사용자 기록 삭제를 검토하고 있습니다. 사용자 조회 테이블에서 사용자 집계 테이블로 삭제 요청을 반영하기 위해 다음과 같은 로직이 구현되었습니다.

user_id가 고유 식별 키이고 삭제를 요청한 모든 사용자가 user_lookup 테이블에서 제거되었다고 가정할 때, 위의 로직을 성공적으로 실행하면 user_aggregates 테이블에서 삭제될 레코드에 더 이상 접근할 수 없게 된다는 것을 보장하는지 여부를 설명하는 문장은 무엇이며, 그 이유는 무엇입니까?

user_id가 고유 식별 키이고 삭제를 요청한 모든 사용자가 user_lookup 테이블에서 제거되었다고 가정할 때, 위의 로직을 성공적으로 실행하면 user_aggregates 테이블에서 삭제될 레코드에 더 이상 접근할 수 없게 된다는 것을 보장하는지 여부를 설명하는 문장은 무엇이며, 그 이유는 무엇입니까?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
사용자는 DLT 기대치를 사용하여 파생 테이블 보고서에 원본의 모든 레코드가 포함되어 있는지, 그리고 테이블 validation_copy에 포함된 레코드가 있는지 검증하려고 합니다.
사용자는 보고서 테이블 정의에 기대값을 추가하는 방식으로 이를 시도했지만 실패했습니다.
DLT 기대값을 사용하여 이 테이블에 예상되는 모든 레코드가 있는지 검증할 수 있는 접근 방식은 무엇일까요?
사용자는 보고서 테이블 정의에 기대값을 추가하는 방식으로 이를 시도했지만 실패했습니다.
DLT 기대값을 사용하여 이 테이블에 예상되는 모든 레코드가 있는지 검증할 수 있는 접근 방식은 무엇일까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
Databricks에서 가장 일반적인 데이터 위치 두 가지는 DBFS 루트 스토리지와 dbutils.fs.mount()를 사용하여 마운트된 외부 객체 스토리지입니다.
다음 중 옳은 설명은 무엇입니까?
다음 중 옳은 설명은 무엇입니까?
Correct Answer: E
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어가 Databricks의 Jobs API를 사용하여 작업 모니터링 및 복구를 자동화하려고 합니다. 모든 작업을 나열하고, 실패한 작업을 식별한 후 다시 실행해야 합니다.
데이터 엔지니어는 어떤 순서로 API 작업을 수행해야 할까요?
데이터 엔지니어는 어떤 순서로 API 작업을 수행해야 할까요?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
야간 작업은 다음 코드를 사용하여 Delta Lake 테이블에 데이터를 수집합니다.

파이프라인의 다음 단계에서는 파이프라인의 다음 테이블로 아직 처리되지 않은 새 레코드를 조작하는 데 사용할 수 있는 객체를 반환하는 함수가 필요합니다.
다음 코드 조각 중 어떤 것이 이 함수 정의를 완성합니까?
def new_records():

파이프라인의 다음 단계에서는 파이프라인의 다음 테이블로 아직 처리되지 않은 새 레코드를 조작하는 데 사용할 수 있는 객체를 반환하는 함수가 필요합니다.
다음 코드 조각 중 어떤 것이 이 함수 정의를 완성합니까?
def new_records():
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어가 스트리밍 주문 데이터를 처리하기 위해 Lakeflow Spark 선언적 파이프라인을 설계하고 있습니다. 이 파이프라인은 Auto Loader를 사용하여 데이터를 수집하며, customer_id가 null이 아니고 amount가 0보다 큰지 확인하여 데이터 품질을 보장해야 합니다. 유효하지 않은 레코드는 삭제해야 합니다. Python을 사용하여 이 요구 사항을 구현하는 Lakeflow Spark 선언적 파이프라인 구성은 무엇일까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
아래 쿼리를 사용하여 Delta Lake 테이블이 생성되었습니다.

원래 쿼리에 오타가 있음을 확인하고 아래 코드를 실행했습니다.
ALTER TABLE prod.sales_by_store RENAME TO prod.sales_by_store
두 번째 명령어를 실행하면 어떤 결과가 나타날까요?

원래 쿼리에 오타가 있음을 확인하고 아래 코드를 실행했습니다.
ALTER TABLE prod.sales_by_store RENAME TO prod.sales_by_store
두 번째 명령어를 실행하면 어떤 결과가 나타날까요?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 엔지니어는 각 주식 그룹 내 행 간 상태를 유지해야 하는 복잡한 계산을 포함하는 금융 시계열 데이터를 처리하는 Pandas 사용자 정의 함수(UDF)를 설계하면서 함수의 효율성과 확장성을 보장해야 합니다. 데이터 무결성을 유지하면서 최소한의 오버헤드로 이 문제를 해결할 수 있는 접근 방식은 무엇일까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
