永乐周刊(第 10 期):电影评论文本分类

永乐周刊(第 10 期):电影评论文本分类

首页游戏大全太阳棋牌cw66更新时间:2024-05-11

记录每周值得分享的人工智能应用、云计算及数据中心等内容。

封面图

鸟瞰地球,立体展示中国的地形和地貌。(via[1])

行业动态

1、麻将 AI 战胜职业选手[2]

腾讯「绝艺」在 1v1 麻将对赛中战胜职业选手。相比于围棋这类完美信息游戏,棋牌这类非完美信息游戏存在大量不确定性,对 AI 的博弈能力提出更高要求。

2、使用 AI 检测漏水[3]

一家以色列公司,使用 AI 技术分析卫星图像,得出土壤湿度报告,以预测是否存在管网漏水。AI 部署以来,已经为水利行业识别数以万计的漏水点。

3、使用 AI 改进地下碳封存技术[4]

一家美国公司,使用 AI 实现更快、更精准地在多孔岩层中封存二氧化碳等温室气体。

4、使用 AI 通关超级马里奥[5]

本文是一篇 AI 初学者教程,介绍如何将强化学习应用于实际环境,实现超级马里奥游戏的通关。

5、使用 AI 预测电网负载[6]

山东德州素有“中国太阳城”之称,其居民家用分布式光伏在发电高峰,占当地电网负载一半以上。当地电网公司引入 AI 技术,结合气象预报、用电计划、节假日等多源异构海量数据,实现对电网负载的高精度预测。

本周话题:电影评论文本分类[7]

本是 tensorflow 的经典入门教程之二。介绍如何使用 tensorflow 对电影评论文本进行分类。

(一)导入数据

IMDB 数据集已经打包在 tensorflow 中,且数据集已经经过预处理,评论单词序列已经转换为整数序列。其中每个整数代表字典中的特定单词。为了保持数据规模的可管理性,低频词被丢弃。

(二)探索数据

数据中包含两组,分别是评论和标记,评论中的单词已经转换成数字,标记分为 0 和 1。0 表示消极,1 表示积极。电影评论长度不一样,但是神经网络的输入必须是统一长度,因此需要解决这个长度问题。

(三)准备数据

影评-即整数数组在输入到神经网络之前必须转换为张量。有下面两种方式:

  1. 将数组转换成单词是否出现的 0 和 1 组成的向量。
  2. 通过填充数据来保证数组的长度相同,创建一个大小为max_length的整型向量。

本教程中使用第二种方式。

(四)构建模型

层按顺序堆叠以构建分类器模型:

  1. 第一层是嵌入层,该层采用整数编码的词汇表,并查找每个词索引的嵌入向量。
  2. 通过对序列维度求平均值为每个样本返回一个定长输出向量。
  3. 定长输出向量通过一个 16 个隐层单元的全连接层输出。
  4. 最后一层与单个输出节点密集连接,输出可信度。

最后为模型配置优化器和损失函数。

(五)训练模型

history = model.fit(partial_x_train, partial_y_train, epochs=40, batch_size=512, validation_data=(x_val, y_val), verbose=1)

以 512 个样本的 min-batch 大小迭代 40 个 epoch 来训练模型。

(六)评估模型

上图中点代表训练损失与准确率,实线代表验证损失与准确率。

训练准确率随着 epoch 增加而增加。验证准确率在 20 个 epoch 后达到峰值。这是因为模型在训练数据上的表现比在从没见过的数据上表现要好,说明模型过度优化与学习在特定数据上,而不能够泛化到测试数据,这就是机器学习中常见的过拟合

References

[1] via: Internet
[2] 麻将 AI 战胜职业选手: https://mp.weixin.qq.com/s/dVbCxEWdLNGJZ5EvWDLOwg
[3] 使用 AI 检测漏水: https://asterra.io/products/masterplan/
[4] 使用 AI 改进地下碳封存技术: https://mp.weixin.qq.com/s/msG9QxKNtDVWcwnHU0pZ7g
[5] 使用 AI 通关超级马里奥: https://mp.weixin.qq.com/s/65Fj-dQIiqRMprPNsxqmzg
[6] 使用 AI 预测电网负载: https://mp.weixin.qq.com/s/vjvSFg-EKRk6Ln8fB4rRmA
[7] 电影评论文本分类: https://www.tensorflow.org/tutorials/keras/text_classification?hl=zh_cn

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved