ひれおくん

プログラミングをメインで書きます。

クローリングやAPIって?

クローリングやAPIって?

スクレイピングを検索すると「クローリング」や「API」等の言葉がセットで紹介されているので、クローリングやAPIについても簡単に説明します。

クローリング

人がWebサイトを閲覧する行為を疑似的にプログラミングにて再現する行為、手法 プログラミングはPython, Ruby, C#, Java等を使用する事が多い。 ※これらで作成されたプログラムを総じて「クローラー」と呼ぶ

API

Webサイトの管理元が提供する情報取得の為のインターフェースプログラムの集合体 googleやe-stat, IMF, twitter等がこのAPI等を提供している。

スクレイピングとは

スクレイピングとは

ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラー[1]あるいはウェブ・スパイダーとも呼ばれる。 通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。

ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うウェブインデクシングと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。(wikipediaより)

github リポジトリ 複製のやり方

実現したいこと

現在、Github上にAというリポジトリがあります。 Aリポジトリの内容をそのままコピーし、新しいリポジトリBを作成したいと考えています。 (コピー後は、AとBでそれぞれ別に運用をしていきます) ※デフォルトブランチ以外のブランチとコミット履歴はいらない

参照:https://teratail.com/questions/31714

git push時のエラー

$ git push
fatal: The current branch master has no upstream branch.
To push the current branch and set the remote as upstream, use

    git push --set-upstream origin master

参照:http://diskogs.hatenablog.com/entry/2014/04/05/151155 -set-upstream オプションをつけるとローカルリポジトリの現在のブランチの上流をorigin master に規定したことになります。

git pushでなくgit push --set-upstream origin masterを実行して解決

全てのブランチとコミット履歴を引き継ぎたい場合

git clone --mirror git@github.com:a.git hoge
cd hoge/
git remote set-url origin git@github.com:b.git
git push --mirror origin

参照:https://teratail.com/questions/31714