服务器快速下载 kaggle 数据集攻略

发表于 2019-10-09 | 分类于配置

前言直接在 kaggle 网页上点击下载数据集，一个是慢，还有可能出现下载失败的情况。本篇文档意在教你如何使用 kaggle API 快速 download 数据集。安装 kaggle API在 linux 或者 mac 终端输入如下命令 1pip install kaggle 获取秘钥文件进入你自己的 kaggle 账户 my account ，在 API 一栏，选择 Create New API Token 。如下图此时电脑会自动下载一个 kaggle.json 的文件，里面为密钥内容。数据集下载路径设定将 kaggle.json 文件拷贝到 ~/.kaggle 里面。在自己的 ...

阅读全文 »

sentences embedding 代码详解

发表于 2019-10-08 | 分类于机器学习，自然语言处理

下载数据集kaggle 链接下载地址如果下载速度慢或者总是出现错误，参见博客服务器快速下载 kaggle 数据集攻略程序文件说明 get_all_data.py model.py main.py 数据预处理切词：使用 nltk 工具将文档切分成一个一个的词统计单词：统计预料中出现的单词频率并根据频率构建词表分配ID：为每一个单词分配一个 ID 编号表示：将程序所需数据集文本转化为用单词编号的形式表示窗口数据集构建：按照窗口大小构建本次模型训练所需要的数据集以下代码存放在 get_all_data.py 文件中1234567891011121314151617181920212 ...

阅读全文 »

sentences embedding 详解

发表于 2019-10-08 | 分类于机器学习，自然语言处理

阅读全文 »

word2vect 代码讲解

发表于 2019-10-03 | 分类于机器学习，自然语言处理

导入需要的库1234567891011121314from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport osimport randomimport zipfileimport numpy as npfrom six.moves import urllibfrom six.moves import xrange # pylint: disable=redefined- ...

阅读全文 »

transformer 详解

发表于 2019-08-30

前言说到自然语言处理, 语言模型, 命名实体识别, 机器翻译, 可能很多人想到的LSTM等循环神经网络, 但目前其实LSTM起码在自然语言处理领域已经过时了, 在Stanford阅读理解数据集(SQuAD2.0)榜单里, 机器的成绩已经超人类表现, 这很大程度要归功于transformer的BERT预训练模型. 今天我们来讲一下transformer模型, 你不需要有很多深度学习和数学基础, 我来用简单的语言和可视化的方法从零讲起. transformer是谷歌大脑在2017年底发表的论文attention is all you need中所提出的seq2seq模型. 现在已经取得了大范围的应 ...

阅读全文 »

2020年校招笔试真题详解

发表于 2019-08-12

拼多多第一题严格升序输入：两行数字，第一行数字是数组A，第二行数字是数组B，数组A几乎升序（只需要替换数组中的一个元素就可以转换为严格升序（严格升序不能有邻近的元素相等））要求：从B中选择一个元素与A中元素交换，该元素必须是可以使A升序的值最大的元素。输出：字符串，严格排序后数组A各元素以空格间隔（如果失败返回NO） 1234567891011121314151617181920212223242526272829303132333435363738394041if __name__ == "__main__": a = [int(x) for x in input().strip ...

阅读全文 »

MapReduce 案例实战

发表于 2019-06-21

案例一 WordCount需求说明在给定的文本文件中统计输出每一个单词出现的总次数输入数据期望输出数据代码代码目录 com.luoteng.mr.wordcount WordcountMapper WordcountReducer WordcountDriver 编写 Mapper 类123456789101112131415161718192021222324252627282930313233package com.luoteng.mr.wordcount;import java.io.IOException;import org.apache.hadoop.io.Int ...

阅读全文 »

集成学习原理详解

发表于 2019-06-21

集成学习概述当做重要决定时，大家可能都会考虑吸取多个专家而不只是一个人的意见。集成学习也是如此。集成学习就是组合多个个体学习器，最后可以得到一个更好的学习器。集成学习算法： bagging：用于减少方差的，个体学习器之间不存在强依赖关系，装袋 boosting：用于减少偏差，个体学习器之间存在强依赖关系，提升学习器的结合方式： voting：投票 Stacking：用于提升预测结果，堆叠集成学习之个体学习器集成学习的第一个问题就是如何得到若干个个体学习器。这里我们有两种选择。第一种就是所有的个体学习器都是一个种类的，或者说是同质的。比如都是决策树个体学习器，或者都是神经网络个体 ...

阅读全文 »

MapReduce 详解

发表于 2019-05-30 | 分类于 hadoop

FileInputFormat 实现类TextInputFormatTextInputFormat 是默认的 FileInputFormat 实现类。按行读取每条记录。键是 LongWritable 类型，存储该行在整个文件中的起始字节偏移量。值是 Text 类型，存储这行的内容，不包括任何行终止符（换行符和回车符）。 KeyValueTextInputFormat每一行均为一条记录，被分隔符分割为 key,value 。可以通过在驱动类中进行以下设置来设定分隔符。默认分隔符是 tab(\t)。1conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPE ...

阅读全文 »

HDFS 命令行与客户端操作

发表于 2019-05-29 | 分类于 hadoop

HDFS 命令行操作基本命令：1>>> bin/hadoop fs 参数大全：1234567891011121314151617181920212223242526272829303132333435363738394041Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-c ...

阅读全文 »