Free Databricks Databricks-Certified-Professional-Data-Engineer Korean Practice Test & Real Exam Questions
데이터 엔지니어는 manufacturing-team이라는 그룹에 접근 권한을 부여해야 합니다. 해당 팀은 quality 스키마에 테이블을 생성할 수 있는 권한이 필요합니다.
manufacturing-team이라는 그룹에게 manufacturing이라는 상위 카탈로그를 가진 production이라는 스키마에 테이블을 생성할 수 있는 권한을 최소 권한으로 부여하는 SQL 명령 조합은 무엇입니까?
manufacturing-team이라는 그룹에게 manufacturing이라는 상위 카탈로그를 가진 production이라는 스키마에 테이블을 생성할 수 있는 권한을 최소 권한으로 부여하는 SQL 명령 조합은 무엇입니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
상위 시스템에서 특정 데이터 배치에 대한 날짜를 매개변수로 Databricks Jobs API에 전달하도록 구성되었습니다. 예약된 노트북은 이 매개변수를 사용하여 다음 코드로 데이터를 로드합니다.
df = spark.read.format("parquet").load(f"/mnt/source/(date)")
위 코드 블록에서 사용된 날짜 파이썬 변수를 생성하려면 어떤 코드 블록을 사용해야 할까요?
df = spark.read.format("parquet").load(f"/mnt/source/(date)")
위 코드 블록에서 사용된 날짜 파이썬 변수를 생성하려면 어떤 코드 블록을 사용해야 할까요?
Correct Answer: E
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
대규모 기업의 데이터 거버넌스 팀은 조직 전체의 데이터 검색 가능성을 개선하고자 합니다. 이 팀은 Databricks Lakehouse에 수백 개의 테이블과 수천 개의 열을 보유하고 있지만, 적절한 문서화가 되어 있지 않습니다. 이러한 테이블 중 상당수는 여러 팀에서 수년에 걸쳐 생성되었으며, 열의 의미와 비즈니스 로직에 대한 맥락 정보가 부족합니다. 데이터 거버넌스 팀은 규정 준수 요건을 충족하고 조직 전체의 데이터 활용 능력을 향상시키기 위해 기존 모든 테이블에 대한 포괄적인 열 설명을 신속하게 생성해야 합니다. 각 열을 수동으로 문서화하는 데 수개월이 소요될 것으로 예상되는 기존 방식 대신, 최신 기능을 활용하여 의미 있는 설명을 자동으로 생성하고자 합니다.
Databricks에서 기존 테이블의 열 주석 및 설명을 자동으로 생성하려면 어떤 접근 방식을 사용해야 할까요?
Databricks에서 기존 테이블의 열 주석 및 설명을 자동으로 생성하려면 어떤 접근 방식을 사용해야 할까요?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
시간 단위 배치 작업이 구성되어 클라우드 객체 스토리지 컨테이너에서 데이터 파일을 수집합니다. 각 배치는 해당 시간 동안 소스 시스템에서 생성된 모든 레코드를 나타냅니다. 이러한 레코드를 레이크하우스에 처리하는 배치 작업은 지연된 데이터가 누락되지 않도록 충분한 시간 간격을 두고 실행됩니다. user_id 필드는 데이터의 고유 키이며, 다음과 같은 스키마를 갖습니다.
user_id는 BIGINT, username은 STRING, user_utc는 STRING, user_region은 STRING, last_login은 BIGINT, auto_pay는 BOOLEAN, last_updated는 BIGINT입니다. 모든 새 레코드는 account_history라는 테이블에 입력되며, 이 테이블은 소스와 동일한 스키마에 모든 데이터의 전체 기록을 유지합니다. 시스템의 다음 테이블은 account_current이며, 각 고유 user_id에 대한 최신 값을 나타내는 Type 1 테이블로 구현됩니다.
수백만 개의 사용자 계정과 시간당 수만 건의 레코드가 처리된다고 가정할 때, 매시간 배치 작업의 일부로 설명된 account_current 테이블을 효율적으로 업데이트하는 데 사용할 수 있는 구현 방법은 무엇입니까?
user_id는 BIGINT, username은 STRING, user_utc는 STRING, user_region은 STRING, last_login은 BIGINT, auto_pay는 BOOLEAN, last_updated는 BIGINT입니다. 모든 새 레코드는 account_history라는 테이블에 입력되며, 이 테이블은 소스와 동일한 스키마에 모든 데이터의 전체 기록을 유지합니다. 시스템의 다음 테이블은 account_current이며, 각 고유 user_id에 대한 최신 값을 나타내는 Type 1 테이블로 구현됩니다.
수백만 개의 사용자 계정과 시간당 수만 건의 레코드가 처리된다고 가정할 때, 매시간 배치 작업의 일부로 설명된 account_current 테이블을 효율적으로 업데이트하는 데 사용할 수 있는 구현 방법은 무엇입니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
선임 데이터 엔지니어가 대규모 데이터 워크플로우를 계획하고 있습니다. 이 과제는 대규모 데이터 세트를 관리하기 위한 확장 가능한 데이터 모델을 구축하는 데 필요한 고려 사항을 파악하는 것입니다. 팀은 Delta Lake의 기능을 목록으로 작성했으며, 핵심 요소로 고려하지 않아도 되는 기능을 결정하고자 합니다.
델타 호수를 평가할 때 무시해도 되는 핵심 특징은 무엇입니까?
델타 호수를 평가할 때 무시해도 되는 핵심 특징은 무엇입니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
마케팅팀은 영업팀과 집계 테이블 형태로 데이터를 공유하려고 하지만, 두 팀에서 사용하는 필드 이름이 일치하지 않고, 마케팅 관련 필드 중 일부는 영업팀의 승인을 받지 못했습니다.
다음 중 간결성을 강조하면서 상황을 해결하는 방법은 무엇입니까?
다음 중 간결성을 강조하면서 상황을 해결하는 방법은 무엇입니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
엔드투엔드 테스트의 주요 이점은 무엇입니까?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
외부 객체 스토리지 컨테이너가 /mnt/finance_eda_bucket 위치에 마운트되었습니다.
재무팀을 위한 데이터베이스를 생성하기 위해 다음과 같은 로직이 실행되었습니다.

데이터베이스가 성공적으로 생성되고 권한이 구성되면 재무팀 구성원이 다음 코드를 실행합니다.

재무팀의 모든 사용자가 재무 그룹의 구성원인 경우, tx_sales 테이블이 생성되는 방식을 설명하는 문장은 무엇입니까?
재무팀을 위한 데이터베이스를 생성하기 위해 다음과 같은 로직이 실행되었습니다.

데이터베이스가 성공적으로 생성되고 권한이 구성되면 재무팀 구성원이 다음 코드를 실행합니다.

재무팀의 모든 사용자가 재무 그룹의 구성원인 경우, tx_sales 테이블이 생성되는 방식을 설명하는 문장은 무엇입니까?
Correct Answer: B
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
Spark UI에서 술어 푸시다운을 활용하지 않아 발생하는 성능 문제를 진단할 수 있는 곳은 어디인가요?
Correct Answer: E
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
데이터 아키텍트는 Lake의 내장 버전 관리 및 타임 트래블 기능에 대해 알게 되었습니다. 감사 목적으로 고객 테이블에 나타나는 모든 유효한 도로명 주소를 완벽하게 유지해야 하는 요구 사항이 있습니다.
아키텍트는 기존 레코드를 새 값으로 덮어쓰고 Delta Lake의 타임 트래블 기능을 활용하여 장기적인 데이터 감사를 지원하는 Type 1 테이블을 구현하는 데 관심이 있습니다. 하지만 프로젝트의 데이터 엔지니어는 Type 2 테이블이 더 나은 성능과 확장성을 제공할 것이라고 생각합니다.
이 결정에 있어 가장 중요한 정보는 무엇입니까?
아키텍트는 기존 레코드를 새 값으로 덮어쓰고 Delta Lake의 타임 트래블 기능을 활용하여 장기적인 데이터 감사를 지원하는 Type 1 테이블을 구현하는 데 관심이 있습니다. 하지만 프로젝트의 데이터 엔지니어는 Type 2 테이블이 더 나은 성능과 확장성을 제공할 것이라고 생각합니다.
이 결정에 있어 가장 중요한 정보는 무엇입니까?
Correct Answer: C
Vote an answer
Explanation: Only visible for Pass4Leader members. You can sign-up / login (it's free).
