「python」タグアーカイブ

Google colaboratoryで、新しいエロ映画タイトルを捏造する

Google colaboratoryは時間経つとファイルや環境が消されてしまうため、自分用に覚え書き。
一応18禁的な内容(文字だけですが)を含むので、若干閲覧注意。

※この記事は2019/04/06現在のものです。Googleの事なのでメニューの名前だとか前提としている環境だとはしょっちゅう変わると思われます
続きを読む

「ポートピア連続殺人事件」のテキストを抜き出すpythonコード

聖闘士星矢に続いて、ポートピアのテキスト部分を抜き出してみました。
ポートピア連続殺人事件のバイナリイメージと、Python3系の実行環境が必要となります。

portopia.pyとかいう名前でコードを保存して、

python portopia.py portopia.nes(バイナリファイル名)

とかいう感じで実行して下さい。
portopia.nes_dic.txt(辞書ファイル)
portopia.nes.txt(辞書を適応した変換後のテキストファイル)
の2ファイルができあがります。
辞書ファイルにはよく使われる単語(登場人物の名前や証拠品、地名など)とか、言い回し(「あやしい」「いました。」「それいじょうのことは」など)、コマンド名などが収納されていて、テキスト部分の容量を節約するのに一役買っているようです。

単語辞書やテキストエリアの開始/終了アドレスなどは決め打ちで書いてるので、もしROMにバージョン違いがあったら、正常動作しないかもしれません。

portopia.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
import sys
 
argvs = sys.argv
argc = len(argvs)
 
for i, s in enumerate(argvs):
    print('%d:%s' % (i, s))
 
if (argc < 2):
    print('Usage:>python %s [nesfile]' %argvs[0])
    quit()
 
str_after = \
'0123456789あいうえおか'\
'きくけこさしすせそたちつてとなに'\
'ぬねのはひふへほまみむめもやゆよ'\
'らりるれろわをんッロハカウゃゅょ'\
'っべイスタナフホマヤラー゛゜、。'\
'「‥!?・…→↓ヒ#*Aトアンリ'
offset = 0x00
 
def str2dic(dics, string, offset):
  for i, s in enumerate(string):
    dics[offset + i] = s
 
dics = {}
str2dic(dics, str_after, offset)
del dics[0x57]
dics[0xfb] = '(間)'
dics[0xfd] = '(人/アイテム名)'
dics[0xfe] = '\n'
dics[0xff] = ' '
 
kana_dic = {
  0x4c:['かきくけこさしすせそたちつてとはひふへほ'\
        'カキクケコサシスセソタチツテトハヒフヘホ',\
        'がぎぐげござじずぜぞだぢづでどばびぶべぼ'\
        'ガギグゲゴザジズゼゾダヂヅデドバビブベボ'],
  0x4d:['はひふへほハヒフヘホ', 
        'ぱぴぷぺぽパピプペポ']
}
 
with open(argvs[1], 'rb') as f:
    read_data = f.read()
 
#単語辞書の作成
dic_word = {}
dic_begin = 0x60
dic_end = 0xea
dic_address_from = 0x3e9e
dic_address_to = 0x44bd
tmp = ''
i = dic_begin
for c in read_data[dic_address_from:dic_address_to]:
  if c in kana_dic.keys() and len(tmp) > 0:
    #濁音・半濁音変換
    if tmp[-1] in kana_dic[c][0]:
      j = kana_dic[c][0].find(tmp[-1])
      tmp = tmp[0:-1] + kana_dic[c][1][j]
  elif c in dics:
    tmp += dics[c]
  else:
    dic_word[i] = tmp
    i += 1
    tmp = ''
 
#単語辞書ファイル出力
with open(argvs[1] + '_dic.txt', 'w') as f:
  for k, v in dic_word.items():
    f.write("%04X[%s]\n" %(k, v))
 
#単語辞書を変換表に反映
for i in range(dic_begin, dic_end+1):
  dics[i] = dic_word[i]
 
text_begin = 0xd92
text_end = dic_address_from
#素のテキストと辞書の該当単語を変換
with open(argvs[1] + '.txt', 'w') as f:
  tmp = ''
  hexs = ''
  is_bracket = False
  for i,c in enumerate(read_data[text_begin:text_end]):
    if (len(tmp) == 0):
      address = i + text_begin
 
    if c in kana_dic.keys() and len(tmp) > 0:
      #濁音・半濁音変換
      if tmp[-1] in kana_dic[c][0]:
        j = kana_dic[c][0].find(tmp[-1])
        tmp = tmp[0:-1] + kana_dic[c][1][j]
    elif c in dics:
      hexs += '%02X' % c
      t = dics[c]
#      if c in range(dic_begin, dic_end) and c not in range(0xd1,0xea):
#        t = '{%x:%s}' % (c, dics[c])
      tmp += t
      if '「' in dics[c]:
        is_bracket = True
    elif len(tmp) > 1:
      if is_bracket:
        tmp += '」'
      f.write("0x%x\n%s\n%s\n" % (address, hexs, tmp))
      tmp = hexs = ''
      is_bracket = False
    else:
      tmp = hexs = ''