京橋のバイオインフォマティシャンの日常

まずは、データ分析、コマンドラインのメモとして

【Rのジミ〜な小技シリーズ】空リストの作成とリスト操作、それと空ベクトルを使ったベクトル結合とデータフレーム結合のトピックスを扱う

またもや、ジミーなトピックであるが、空リストlist()と空ベクトルc()について取り上げてみる。 こういうジミーな技術の積み重ねがスキル向上に繋がるんだと思うんけどね。 今回の内容 空リストlist()からリストを作成する 空ベクトルc()からベクトルを作成…

【Rのジミ〜な小技シリーズ】データ解析の前処理で悩まされるデータ重複の問題を扱ってみた件

本記事は、 skume.hatenablog.com の続編である。 さて、これからデータ解析を始めようかという時に、まずやることは該当データのクオリティチェック(品質評価)だろう。 クオリティチェックと言っても、いろいろな方法・考え方があって、データによって様…

バーチャルスライドスキャナー画像(.ndpi)からオリジナルTIFFイメージを取り出す際のTips〜ギガバイトイメージの画像解析入門〜

今回、バーチャルスライドスキャナー画像(.ndpi)の取り扱い方を取り上げる。 .ndpiという画像フォーマットは、浜松ホトニクス社が提供するHamamatsu formatの1つである。 NDPIファイルは「独自メタデータを持つシングルファイルTIFF-likeな形式」であり、…

R言語で実行するSudachiPyによる日本語形態素解析

SudachiPyは、日本語形態素解析器SudachiのPython版である。 今回、R/RStudio上でのSudachiPyの実行例を概説する。 個人的には、RユーザーにとってPythonパッケージがR環境上で実行できると、いろいろと良いのでは考えている*1。 例の如く、HomeBrewでPython…

Mac版Dockerで、rocker/rstudio (= RStudio Server Docker Image)をトラブルフリーでセットアップしてみた件

過去の記事で、「【macOS X編】 Homebrewで、RStudio Serverをインストールしてみた件 + nginx設定」を紹介した。 現状、MacローカルでのRstudio Server動作について、 バージョン・アップ等の問題で*1、少々動作が不安定な場合がある。 そのため、ローカル…

【Rのジミ〜な小技シリーズ】ベクトルに「含まれる」「含まれない」要素の取り出し、論理値について

ある数値・文字列が、こっちのベクトルにも含まれるのか、何番目に出現するのか等を考えると、しばしば悩ましい状況がある。 このような、ベクトル間の関係性を調べる方法を紹介する。 (1)あるベクトルから他ベクトルに「含まれる要素」あるいは「含まれ…

Macで、mds_storesのプロセスを消し出したら、Spotlightとの決別のサインかも!?

mds_store というMacのプロセスは、Spotlight のインデクスを作成するプロセスである。これに加えて、mdworkerというプロセスもあり、これらのプロセスが頑張って、Macのファイル検索システムであるSpotlight関連の機能を実現している。 知らず知らずのうち…

【Rのジミ〜な小技シリーズ】Rのどぎついレインボー・カラーを和らげて、使える色へと変換するTipsについて

楽なので、Rのplot()時に、レインボー色(grDevices::rainbow)を使うんだけど、 お世辞にも良い色とは言えず、ドギツイ色を使うねと周囲から言われる。 今回、それを挽回するために、そのレインボー色を和らげる方法を紹介する。 rainbow関数では、16進数で…

【Rのジミ〜な小技シリーズ】時々にしたくなる、Rの古いバージョンのパッケージ(The previous version packages)をインストールする件

Rを使っていると、稀に、パッケージのバージョン違いで問題が起こる。 そのとき、以前のバージョンのパッケージをインストールする必要がでてくる。 以前のバージョンをインストールする場合には、まず、CRANのパッケージのページにいく。 例えば、psychパッ…

grepコマンドで文字列処理をやってみた件【その2】検索語のヒット数カウントとか検索語の前後文字の抽出とか色々

「grepコマンドによる文字列処理をやってみた」の続編である。 以前扱えていなかった内容をやっていきたい。 grepコマンドの基本については過去の記事を参照のこと。 skume.hatenablog.com skume.hatenablog.com まずは、サンプルデータをダウンロードする $…

PubMed API と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件

論文のトレンド解析であったり、個別の論文情報、主に要旨(Abstract)を取得してみた。 もう少し発展させて、Abstractの英文テキストの和訳をして、Rmarkdownのレポート作成するまでをやってみた。 今回扱う、RISmed パッケージは、PubMedを含むNational Ce…

R/Keras/TensorFlowでやる『ディープラーニング(Deep Learning)』のすゝめ【その2】教師なしニューラルネットワーク Autoencoder with 2D CNNの実装、そして色ムラ・ノイズ除去(Denoising)をやってみた件

「R/Keras/TensorFlowでやるディープラーニングのすゝめ」の連載2回目です。 【1】では、ベクトルデータに対する Autoencoderを取り上げたが、 今回は、 2D Convolutional Neural Network (CNN: 畳み込みニューラルネットワーク) を使ったAutoencoderの実…

Rの「reticulate」を使えば、Pythonライブラリがインポート・実行できる。そして、R上で「googletrans」を用いた日英翻訳をやってみた件

Rの reticulateパッケージは、Python と R の連携性を高めるツール群である*1。 つまりは、Rセッション内でPythonのスクリプトやライブラリをインポートして、シームレスにPythonコードを実行できるなど、RからPythonを呼び出すことができる。 また、RとPyth…

R/Keras/TensorFlowでやる『ディープラーニング(Deep Learning)』のすゝめ【その1】教師なしニューラルネットワークDeep Autoencoder のsimple modelをやってみた件

Rで、ディープラーニング( Deep Learning )をやるというのが最近の活動である。 【1】では、教師なしニューラルネットワークであるAutoencoder(オートエンコーダー)のsimple modelを実装してみる。 Autoencoder は、Encoder(元データから低次元への変換…

10倍量のヨーグルトを作りながら、菌の増殖曲線を考えてみた件

最近、ヨーグルト作りにハマっている。 種菌(いわゆる、0.1L 飲むヨーグルト)から、10倍量(1L)のヨーグルトを作っている。飲むヨーグルト1本は、だいたい100円くらいなので、10倍量で1000円となって、必要経費を引いても、だいたい700円…

【Rのジミ〜な小技シリーズ】エクセルのセルをコピーして、クリップボードのまま、Rのread.tableでデータフレームとして直接読み込む時の方法

今までほぼやってなかったけど、さっき使ってみて思いの外便利だったので、今後はこれを使いたいと強いメッセージを込めて、これのみでメモっておく。 まずは、エクセルの任意のセルを選択して、command + c でコピーする。 Rを起動して、以下のコマンドを打…

grepコマンドで文字列処理をやってみた件【その1】ファイル内のテキストに対する処理とか

grepコマンドは、ある特定の文字列を含むものを取り出す・検索するときに使用する。 大別して、ファイル内のテキストに対してgrepを行うか、ファイル名に対してgrepを行うかでやり方が変わってくる。 やってることは単純だが、いろいろと応用できるので、今…

Jupyterで、RとかPythonとかシェルとかのセットアップをするの巻

Jupyter (ジュピター) は、対話型プログラミング用のブラウザ・インターフェイス と言えば良いのかな。PythonとかRとか、数十のプログラミング言語の動作環境として使えるのが魅力である。 大別して、Jupyter notebook と Jupyter lab という2種類のタイプ…

Macでの圧縮・解凍コマンドをメモっておく件

よく使う割にいつもネットで調べるはめになるので、、 このタイミングで、Mac Terminalでの圧縮と解凍コマンドをメモっておく*1。 データ圧縮方式 / アーカイブ方式 .zip .tar .gz & .tar.gz & .tgz .bz2 & .tar.bz2 .tar.xz について、まとめてみた。 .zip …

【R言語】データサイズ・行数が異なるテキストファイルにおけるファイル読み込み関数の速度比較

最近、数GBを超えるテキストデータを扱うようになり、今更ながら、Rのファイル読み込み関数の速度比較について一度検討してみた。 今回、以下の3つのファイル読み込み関数について調査してみた。 utils::read.table関数 data.table::fread関数 readr::read_…

GitHub API( git & gist コマンド )の使い方入門

GitHub は、ソフトウェア開発のプラットフォームである。また、ソフトウェア開発者のみならず、ソフトウェア・ユーザーにとっても、ほぼ必須といえる、コード共有のコミュニティでもある。 GitHubリポジトリにアクセスする際のAPIである git コマンド、手軽…

htmlwidgets for R のShowcaseにあるパッケージがCodePenでブログ表示できるかを調べた件

htmlwidgets for R パッケージは、Rでインタラクティブな図が作成できる王道的なパッケージであり、それを使った色々な依存パッケージが開発されている。 www.htmlwidgets.org 今回、htmlwidgetsのshowcaseにある12パッケージをHatena Blog内の図表として…

Rパッケージ探索のための情報サイトをまとめてみた件 〜2020年版〜

特に、パッケージユーザーとしては、Rパッケージの開発状況を定期的にフォローして、日常の解析作業にいち早く取り入れていくのが良いだろう。 Rパッケージを探索する際の一助となればと、参考となる情報サイトをまとめてみた。 CRAN系 CRAN Task Views 解析…

Homebrew を使って、Python3をインストールしたときの設定諸々

Anacondaは使わずに、 Homebrewでインストールして、Python3をPyhonコマンド、pip3をpipコマンドとして使う。IDEは重たくて使わないという、非Anaconda派に向けて。 私はPythonもRStudio派ですけど。 Homebrew でPython3をインストールする。 実行環境 mac…

【macOS X編】 Homebrewで、RStudio Serverをインストールしてみた件 + nginx設定

この記事で行われるMacローカルでのRStudio Serverの構築法は推奨しておらず(2020年9月13日現在)、 この記事に辿り着かれた方は、下記の記事で、Dockerを使ったRStudio Serverの構築法を参照ください。 skume.hatenablog.com ############################…

2020年版 無料かつ会員登録不要の『データ解析関連のオンライン講座』を調査した件【5/6更新】

調査の背景 「ビッグデータの解析」「機械学習(ML)」「ディープラーニング(深層学習)」等々、テレビでもニュースでも溢れかえっている。というか、もうすでに飽き飽きしているかもしれない。 気づけば、巷には、様々な機能のモジュールのオープンソース…

grepコマンド で基本的なテキスト処理をまとめてみた件

grep コマンドは、AppleのHPにファイル内の文字列を探すツールであると説明されているが、 grep コマンドを知ると、単に「文字列を探す」だけでなく、 いろいろな応用的な操作ができるようになる。 この記事では、Mac版 grepコマンド の基本的なテキスト処理…

Homebrewで Java の特定バージョンをインストールするときのTips

Homebrewのインストール・環境設定のやり方については以前の記事を参考にしてください。 skume.hatenablog.com Java について Javaは、クラスベースのオブジェクト指向の汎用プログラミング言語である。 現在、JavaはOracle社から配布されているが、 ダウン…

macOS用パッケージマネージャー Homebrewのやり方をいつも微妙に忘れてしまう件

大学時代には、MacPortsを使っていたが、 ある後輩に勧められ、Homebrewを使うようになった。 特に、MacPortsがどうとかいうわけではないが、 それ以降、Macでのパッケージ・インストールは、Homebrew で行っている*1。 Homebrew は、macOS X用のパッケージ…

以前つくった『IGOR Pro』スライド資料

ブログのMarkdownを使う練習みたいな記事ですが、、、 私が以前使っていた、 IGOR Proとは、 Igor Pro(イゴール プロ)はWaveMetrics社のグラフ処理ソフト。高度なデータ解析、プログラミングツールをひとつに統合した科学者向けのアプリケーションである。…