问题1:
这个在管理中心创建的数据源名字可以自己起哈,文档中只不过是给了个名字叫做user_behavior_analysis_httpfile,字母数字下划线组合就好,而且要在项目中唯一,但是已经创建过的数据源不能修改名字了,除非直接删除再添加,一会在开发项目中要通过ods_raw_log_d同步数据的数据源名字对应去找这个数据源哈
问题2:
这个地址就是我在视频中展示的可以获取十几万行日志数据的链接网址,在这个链接后面继续添加/user_log.txt即可得到网址路径下的日志,即https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com/user_log.txt(/user_log.txt这个配置也是在数据开发中的数据同步操作ods_raw_log_d中配置的哈,因为在数据源选项中引用了HttpFile,所以可以精准定位到日志)
问题3:
文档说的jdbc:mysql://rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com:3306/workshop
1、jdbc:mysql: 是一种 JDBC(Java Database Connectivity) URL 语法,主要用于连接 MySQL 数据库。
2、rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com这个是公开数据库的网址
3、3306是端口号
4、workshop是数据库名称
上面四个组合成文档中的链接,加上文档中提供的用户名workshop和密码workshop#2017,你可以在本地数据库客户端连接并查看这个公网上公开的数据库哈(这里不需要使用JDBC连接方式)
mysql -h rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com -P 3306 -u workshop -pworkshop#2017
问题四:
创建这两个表的目的是将公网上的数据源 1、httpfile的日志数据和 2、sql上拉过来的二维表数据
导入到这两张表中,在这个项目中,表名和动作名字重复,其实表名和动作名都可以自己起名字的,因为动作代表导入到这个名字的表中,所以动作导入到和动作相同名字的表中了,这两张表:
配置的动作还是在离线同步动作中:
所以需要在动作中配置:
第一个建表语句是用来在数据仓库中创建一张名为 ods_raw_log_d
的表。逐部分解析这个语句的含义:
- CREATE TABLE IF NOT EXISTS: 这部分是说如果表
ods_raw_log_d
不存在,那么就创建这个表。 - col STRING: 这是表中定义的一个列,名为
col
,数据类型为STRING
。这意味着这列可以存储文本数据。 - PARTITIONED BY (dt STRING): 这表示该表是分区表,按照
dt
列进行分区。dt
列的数据类型同样是STRING
。分区的好处是可以提高查询性能,并使数据管理更加高效,特别是在处理大数据量时。 - LIFECYCLE 7: 这表示表中的数据在创建后会有一个生命周期,数据将会在 7 天后自动删除,这有助于管理存储和维护数据的新鲜度。
第二个建表语句用于在数据库中创建一个名为 ods_user_info_d
的表,下面是对该语句各部分的详细分析:
表结构
- 表名:
ods_user_info_d
- 字段:
uid STRING COMMENT '用户ID'
:uid
是用户的唯一识别标识符,数据类型为字符串(STRING
)。- 使用
COMMENT
提供了该字段的描述,说明这是用户的ID。
gender STRING COMMENT '性别'
:gender
表示用户的性别,同样数据类型为字符串。- 描述说明这是性别的信息(如男性、女性等)。
age_range STRING COMMENT '年龄段'
:age_range
表示用户的年龄范围,数据类型为字符串。- 描述用来说明该字段表示的年龄段(如“18-25岁”)。
zodiac STRING COMMENT '星座'
:zodiac
表示用户的星座,数据类型为字符串。- 描述说明这个字段包含用户的星座信息。
分区信息
- PARTITIONED BY (dt STRING):
- 这个表是按
dt
进行分区,dt
是字符串类型,通常用于存储日期信息(例如YYYY-MM-DD
)。分区可以提高查询性能,因为它允许数据库仅扫描特定的分区。
- 这个表是按
生命周期管理
- LIFECYCLE 7:
- 表明该表的生命周期为 7 天,意即在 7 天后,表中的数据将被自动删除。这对于临时或周期性需要的数据是很有用的,可以帮助管理存储,防止不必要的数据长期占用空间。
我们在动作中可以清楚地看到源数据表导入到目标数据表的变化过程ods_user_info_d为例:
- 源表字段: 列出源表中的字段,包括
uid
,gender
,age_range
,zodiac
,这些字段的类型都是VARCHAR
。 - 目标表字段: 列出目标表中的字段,字段名与源表相同,但类型为
STRING
字符串类型
问题五:
登录百度网盘时,是否需要输入验证码通常取决于几个因素
异地登录、频繁登录会导致要求验证码,你可以把视频下载到本地,或者是创建一个共享链接提取码提取到自己网盘上就不需要每次登陆了
发布者:LJH,转发请注明出处:https://www.ljh.cool/41415.html